Авариялык калыбына келтирүү сценарийлери
1) Эмне үчүн DR керек жана кандай максат
Disaster Recovery (DR) - кырсыктан кийин кызматтарды калыбына келтирүү үчүн архитектура, процесстер жана тренингдердин жыйындысы (datacenter/аймактын иштебей калышы, маалыматтарды жоготуу, массалык конфигурациялык каталар). DR максаты - кардарлардын ишенимин жана жөнгө салуучу органдарга шайкештигин сактап, контролдонуучу нарк жана тобокелдик менен максаттуу RTO/RPO аткаруу.
RTO (Recovery Time Objective): уруксат берилген токтоп калуу убактысы.
RPO (Recovery Point Objective): маалыматтардын жол берилүүчү жоготуу (акыркы консистенттик чекиттен тартып убакыт).
RLO (Recovery Level Objective): биринчи кайтып келүүгө тийиш болгон функционалдык деңгээл (минималдуу жашоого жөндөмдүү кызмат).
2) Системалардын критикалык классификациясы
Tier 0 (маанилүү): төлөмдөр, логин, KYC, транзакциялардын өзөгү - RTO ≤ 15 мин, RPO ≤ 1-5 мин.
Tier 1 (жогорку): иш панелдер, D-1 отчеттор - RTO ≤ 1 саат, RPO ≤ 15-60 мин.
Tier 2 (орто): бэк-кеңсе, аналитика near-real-time - RTO ≤ 4-8 саат, RPO ≤ 4-8 саат.
Tier 3 (төмөн): маанилүү эмес көмөкчү - RTO ≤ 24-72 саат, RPO ≤ 24 саат.
Ар бир кызматка сервистердин каталогундагы Tier + максаттуу RTO/RPO ыйгаруу; чечимдерди жана бюджеттерди алар менен салыштыруу керек.
3) коркунуч модели жана жагдайлар
Техногендик: АЗ/аймактын/провайдердин иштебей калышы, тармактын/DNS деградациясы, БД/сактагычтардын иштебей калышы, массалык бошотуу катасы.
Адам фактору: ката конфиги/IaC, маалыматтарды өчүрүү, ачкычтарды компромисс.
Табигый/тышкы: өрт/суу ташкыны, энергиянын үзгүлтүккө учурашы, укуктук бөгөт коюу.
Ар бир адам үчүн - ыктымалдуулукту/таасирди баалоо, DR-сценарийге жана ойнотмо ойнотууга байланыштыруу.
4) DR архитектура үлгүлөрү
1. Active-Active (Multi-Аймак): эки аймак тең трафикти тейлейт.
Артыкчылыктары: минималдуу RTO/RPO, жогорку туруктуулук.
Кемчиликтери: маалыматтардын татаалдыгы/консистенттүүлүгү, жогорку баа.
Кайда: окуу-оор, кэш жүктөр, stateless-кызматтар, multi-master DB (катуу чыр-жоболор).
2. Active-Passive (Hot Standby): "ысык" пассив толугу менен жылытылган көчүрмөсүн кармап турат.
RTO: мүнөт; RPO: мүнөт. Автоматташтырылган failover жана репликацияны талап кылат.
3. Warm Standby: жылытуу ресурстарынын бир бөлүгү, кырсык учурунда масштабдоо.
RTO: он мүнөт; RPO: 15-60 мин. Үнөмдүү, бирок узак.
4. Pilot Light: минималдуу "учкун" (мета-маалыматтар/сүрөттөр/скрипттер) + тез бурулуш.
RTO: саат; RPO: саат. Арзан, Tier 2-3 үчүн ылайыктуу.
5. Backup & калыбына келтирүү: offline backaps + кол жылытуу.
RTO/RPO: саат-күнү. Төмөн сын жана архивдер үчүн гана.
5) Маалыматтар жана шайкештик
БДнын репликациясы:- Синхрондук - дээрлик нөл RPO, бирок ↑ жашыруун/наркы.
- Асинхрондук - жакшы аткаруу, RPO> 0 (журнал куйругу).
- ырааттуулук: моделин тандоо (strong/eventual/causal). Төлөмдөр үчүн - катуу, аналитиктер үчүн - eventual.
- Тилкелер (snapshots): Туруктуу чекиттерди түзүү + журналдарды сактоо (WAL/redo).
- Cross-аймактык бүтүмдөр: 2PC качуу; Демпотенттик операцияларды колдонуңуз, дели-и-кайталаңыз (дедупликация менен retry), event sourcing.
- Кезек/шиналар: репликация/күзгү, DLQ, буйрутма жана керектөөчү.
6) тармак, жол жана DNS
GSLB/Anycast/DNS: failover/failback саясаты, төмөн TTL (бирок өтө эмес), бир нече аймактардын ден соолук текшерүү.
L7-багыттоо: аймактык карталар, Phicha-бузулуп желектери (милдеттерди чектөө).
Private-links/VPN: провайдерлерге резервдик каналдар (PSP/KYC/CDN).
Rate Limiting: калыбына келтирүү учурунда бороон коргоо.
7) Stateful vs Stateless
Stateless скрипт/Autoscale которулган; stateful маалыматтардын макулдашылган стратегиясын талап кылат (репликация, снапшоттор, промоушен репликалары, кворум).
Кэш/сессиялар: тышкы (Redis/Memcached) cross-региондук репликация же журналдар боюнча re-seed менен; сессиялар токендерди сактоо (JWT) же жалпы сактоо.
8) Триггерлер жана DR автоматташтыруу
SLO-гардрейл жана quorum зонд → автоматтык region-failover runbook.
Кырсык болгон учурда Change freeze: актуалдуу эмес релиздерди/миграцияны бөгөттөө.
Infrastructure as Code: манифесттер боюнча стенд-бай жайгаштыруу, дрейф текшерүү.
Промоушн ролу: автоматтык промоте реплика БД + таңып жазуучулар/сырлар.
9) Байланыш жана комплаенс
War-room: IC/TL/Comms/Scribe; SEV боюнча жаңы интервалдар.
Статус-бет: Таасир географиясы, ETA, айланма жолдор.
Жөнгө салуучу: билдирүүлөрдүн мөөнөттөрү, маалыматтардын коопсуздугу, өзгөрүлбөс сактоо evidence.
Өнөктөштөр/провайдерлер: тастыкталган байланыштар, бөлүнгөн канал.
10) DR тесттер жана машыгуулар
Tabletop: жагдайды жана чечимдерди талкуулоо.
Game Day (Stage/Prod-Light): АЗ/аймактардын баш тартуусун тууроо, провайдерди өчүрүү, DNSти калыбына келтирүү.
Калыбына келтирүү тесттер: мезгил-мезгили менен обочолонуу жана бүтүндүгүн тастыктоо үчүн backaps калыбына келтирүү.
Chaos/Failure injection: контролдонуучу тармак/түйүндөр/көз карандылыктар.
KPI машыгуу: жетишилген RTO/RPO, playbook кемчиликтери, CAPA.
11) Каржы жана стратегияны тандоо (FinOps)
төмөндөтүлгөн RPO/RTO үчүн $ санап: төмөн максаты - кымбат каналдар, лицензиялар, камдар.
Гибрид: Tier 0 - active-active/hot; Tier 1 — warm; Tier 2–3 — pilot/backup.
Маалыматтар кымбат: муздак катмарларды (Archive/S3/GLACIER), инкременталдык snapshots, deduplication колдонуу.
Чыгымдарды жана сертификаттарды/DR-инфра лицензияларды мезгил-мезгили менен жогорулатуу.
12) Жетилүү DR Метрика
RTO (факт) жана RPO (факт) ар бир Tier.
DR Coverage:% кооздолгон скрипт/playbook/сыноо менен кызматтар.
Backup Success & Restore Success: backaps жана далилденген калыбына күнүмдүк ийгилиги.
Time-to-Declare Disaster: failover жөнүндө чечим кабыл алуу ылдамдыгы.
Failback Time: кадимки топология кайтып.
Defect Rate көнүгүүлөр: табылган боштуктар/көнүгүү.
Compliance Evidence Completeness: артефакттардын толуктугу.
13) Чек-баракчалар
DR киргизүү алдында
- Кызмат каталогу Tier камтыйт, RTO/RPO, көз карандылык жана ээлери.
- Тандалган үлгү (AA/AP/WS/PL/BR) Tier жана бюджет боюнча.
- Консистенттүүлүк жана репликация жөнүндө келишимдер документтештирилген.
- GSLB/DNS/багыттоо жана ден соолук-текшерүү орнотулган жана сыналган.
- Backup, snapshots, өзгөртүү журналдар - киргизилген, калыбына текшерилет.
- DR Playbook жана учурдагы түрүндө жөнөтүүчүлөр байланыштар.
Кырсык учурунда (кыскача)
- SEV жарыялоо жана war-room чогултуу; чыгарылышын тоңдурат.
- Quorum зонд текшерүү; импакт/географияны бекитүү.
- аткарууга Failover Runbook: Traffic, DD-промоушен, кезек, кэш.
- Degrade-UX/лимиттерди киргизүү; SLA боюнча апдейттерди жарыялоо.
- evidence чогултуу (таймлайн, графиктер, логиндер, командалар).
Кырсыктан кийин
- SLO N интервалдарын байкоо; план боюнча failback аткарууга.
- AAR/RCA өткөрүү; CAPA.
- Playbook жаңыртуу, катализаторлор, DR сыноо учурлары.
- Стейкхолдерлерге/жөнгө салуучуларга отчет берүү (керек болсо).
14) Үлгүлөр
14. 1 Карта DR Script (мисал)
ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support
14. 2 Runbook "Промоте реплика БД" (үзүндү)
1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m
14. 3 DR машыгуу планы (кыскача)
Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output
15) Анти-үлгүлөрү
Үзгүлтүксүз калыбына келтирүү тесттери жок "backaps бар".
Сырлар/эндпоинттер автоматтык түрдө которулбайт.
кайталап жеткирүү учурунда кемчилик → дубликат/жоголгон бүтүмдөр жок.
Деградациянын фич-желектери жок аймактар үчүн бирдей конфигдер.
Узак убакыт-to-Declare улам коркуу "жалган тынчсыздануу".
Monoregional провайдерлер (PSP/KYC) эч кандай альтернатива.
Эч кандай failback планы жок - биз "түбөлүккө" өзгөчө топологияда жашайбыз.
16) Жол картасы киргизүү (6-10 жума)
1. Нед. 1-2: Tier кызмат классификациясы, максаттуу RTO/RPO орнотуу, DR үлгүлөрүн тандоо.
2. Нед. 3-4: репликацияларды/backaps, GSLB/DNS, промоушен-процедураларды тууралоо; playbook жана runbook 'i.
3. Нед. 5-6: биринчи DR-машыгуу (tabletop → этап), метрика жана CAPA бекитүү.
4. Нед. 7-8: чектелген трафик менен Prod-Light машыгуу; автоматташтыруу failover.
5. Нед. 9-10: чыгымдарды оптималдаштыруу (FinOps), Hot/AA үчүн Tier 0 которуу, чейректик машыгуу жана отчеттуулук эрежелери.
17) Жыйынтык
Натыйжалуу DR - бул жөн гана backaps эмес. Бул макулдашылган архитектура, автоматташтыруу failover/failback, маалымат тартиби (idempotentity/репликация), окутуу жана ачык-айкын байланыш болуп саналат. RTO/RPO реалдуу болгондо, плейбуктар иштелип чыккан жана машыгуулар үзгүлтүксүз болгондо, кырсык башкарылуучу окуяга айланат, андан кийин кызматтар тез жана болжолдуу түрдө нормалдуу абалга кайтып келет.