GH GambleHub

Авариялык калыбына келтирүү сценарийлери

1) Эмне үчүн DR керек жана кандай максат

Disaster Recovery (DR) - кырсыктан кийин кызматтарды калыбына келтирүү үчүн архитектура, процесстер жана тренингдердин жыйындысы (datacenter/аймактын иштебей калышы, маалыматтарды жоготуу, массалык конфигурациялык каталар). DR максаты - кардарлардын ишенимин жана жөнгө салуучу органдарга шайкештигин сактап, контролдонуучу нарк жана тобокелдик менен максаттуу RTO/RPO аткаруу.

RTO (Recovery Time Objective): уруксат берилген токтоп калуу убактысы.
RPO (Recovery Point Objective): маалыматтардын жол берилүүчү жоготуу (акыркы консистенттик чекиттен тартып убакыт).
RLO (Recovery Level Objective): биринчи кайтып келүүгө тийиш болгон функционалдык деңгээл (минималдуу жашоого жөндөмдүү кызмат).

2) Системалардын критикалык классификациясы

Tier 0 (маанилүү): төлөмдөр, логин, KYC, транзакциялардын өзөгү - RTO ≤ 15 мин, RPO ≤ 1-5 мин.
Tier 1 (жогорку): иш панелдер, D-1 отчеттор - RTO ≤ 1 саат, RPO ≤ 15-60 мин.
Tier 2 (орто): бэк-кеңсе, аналитика near-real-time - RTO ≤ 4-8 саат, RPO ≤ 4-8 саат.
Tier 3 (төмөн): маанилүү эмес көмөкчү - RTO ≤ 24-72 саат, RPO ≤ 24 саат.

Ар бир кызматка сервистердин каталогундагы Tier + максаттуу RTO/RPO ыйгаруу; чечимдерди жана бюджеттерди алар менен салыштыруу керек.

3) коркунуч модели жана жагдайлар

Техногендик: АЗ/аймактын/провайдердин иштебей калышы, тармактын/DNS деградациясы, БД/сактагычтардын иштебей калышы, массалык бошотуу катасы.
Адам фактору: ката конфиги/IaC, маалыматтарды өчүрүү, ачкычтарды компромисс.
Табигый/тышкы: өрт/суу ташкыны, энергиянын үзгүлтүккө учурашы, укуктук бөгөт коюу.
Ар бир адам үчүн - ыктымалдуулукту/таасирди баалоо, DR-сценарийге жана ойнотмо ойнотууга байланыштыруу.

4) DR архитектура үлгүлөрү

1. Active-Active (Multi-Аймак): эки аймак тең трафикти тейлейт.

Артыкчылыктары: минималдуу RTO/RPO, жогорку туруктуулук.
Кемчиликтери: маалыматтардын татаалдыгы/консистенттүүлүгү, жогорку баа.
Кайда: окуу-оор, кэш жүктөр, stateless-кызматтар, multi-master DB (катуу чыр-жоболор).

2. Active-Passive (Hot Standby): "ысык" пассив толугу менен жылытылган көчүрмөсүн кармап турат.

RTO: мүнөт; RPO: мүнөт. Автоматташтырылган failover жана репликацияны талап кылат.

3. Warm Standby: жылытуу ресурстарынын бир бөлүгү, кырсык учурунда масштабдоо.

RTO: он мүнөт; RPO: 15-60 мин. Үнөмдүү, бирок узак.

4. Pilot Light: минималдуу "учкун" (мета-маалыматтар/сүрөттөр/скрипттер) + тез бурулуш.

RTO: саат; RPO: саат. Арзан, Tier 2-3 үчүн ылайыктуу.

5. Backup & калыбына келтирүү: offline backaps + кол жылытуу.

RTO/RPO: саат-күнү. Төмөн сын жана архивдер үчүн гана.

5) Маалыматтар жана шайкештик

БДнын репликациясы:
  • Синхрондук - дээрлик нөл RPO, бирок ↑ жашыруун/наркы.
  • Асинхрондук - жакшы аткаруу, RPO> 0 (журнал куйругу).
  • ырааттуулук: моделин тандоо (strong/eventual/causal). Төлөмдөр үчүн - катуу, аналитиктер үчүн - eventual.
  • Тилкелер (snapshots): Туруктуу чекиттерди түзүү + журналдарды сактоо (WAL/redo).
  • Cross-аймактык бүтүмдөр: 2PC качуу; Демпотенттик операцияларды колдонуңуз, дели-и-кайталаңыз (дедупликация менен retry), event sourcing.
  • Кезек/шиналар: репликация/күзгү, DLQ, буйрутма жана керектөөчү.

6) тармак, жол жана DNS

GSLB/Anycast/DNS: failover/failback саясаты, төмөн TTL (бирок өтө эмес), бир нече аймактардын ден соолук текшерүү.
L7-багыттоо: аймактык карталар, Phicha-бузулуп желектери (милдеттерди чектөө).
Private-links/VPN: провайдерлерге резервдик каналдар (PSP/KYC/CDN).
Rate Limiting: калыбына келтирүү учурунда бороон коргоо.

7) Stateful vs Stateless

Stateless скрипт/Autoscale которулган; stateful маалыматтардын макулдашылган стратегиясын талап кылат (репликация, снапшоттор, промоушен репликалары, кворум).
Кэш/сессиялар: тышкы (Redis/Memcached) cross-региондук репликация же журналдар боюнча re-seed менен; сессиялар токендерди сактоо (JWT) же жалпы сактоо.

8) Триггерлер жана DR автоматташтыруу

SLO-гардрейл жана quorum зонд → автоматтык region-failover runbook.
Кырсык болгон учурда Change freeze: актуалдуу эмес релиздерди/миграцияны бөгөттөө.
Infrastructure as Code: манифесттер боюнча стенд-бай жайгаштыруу, дрейф текшерүү.
Промоушн ролу: автоматтык промоте реплика БД + таңып жазуучулар/сырлар.

9) Байланыш жана комплаенс

War-room: IC/TL/Comms/Scribe; SEV боюнча жаңы интервалдар.
Статус-бет: Таасир географиясы, ETA, айланма жолдор.
Жөнгө салуучу: билдирүүлөрдүн мөөнөттөрү, маалыматтардын коопсуздугу, өзгөрүлбөс сактоо evidence.
Өнөктөштөр/провайдерлер: тастыкталган байланыштар, бөлүнгөн канал.

10) DR тесттер жана машыгуулар

Tabletop: жагдайды жана чечимдерди талкуулоо.
Game Day (Stage/Prod-Light): АЗ/аймактардын баш тартуусун тууроо, провайдерди өчүрүү, DNSти калыбына келтирүү.
Калыбына келтирүү тесттер: мезгил-мезгили менен обочолонуу жана бүтүндүгүн тастыктоо үчүн backaps калыбына келтирүү.
Chaos/Failure injection: контролдонуучу тармак/түйүндөр/көз карандылыктар.
KPI машыгуу: жетишилген RTO/RPO, playbook кемчиликтери, CAPA.

11) Каржы жана стратегияны тандоо (FinOps)

төмөндөтүлгөн RPO/RTO үчүн $ санап: төмөн максаты - кымбат каналдар, лицензиялар, камдар.
Гибрид: Tier 0 - active-active/hot; Tier 1 — warm; Tier 2–3 — pilot/backup.
Маалыматтар кымбат: муздак катмарларды (Archive/S3/GLACIER), инкременталдык snapshots, deduplication колдонуу.
Чыгымдарды жана сертификаттарды/DR-инфра лицензияларды мезгил-мезгили менен жогорулатуу.

12) Жетилүү DR Метрика

RTO (факт) жана RPO (факт) ар бир Tier.
DR Coverage:% кооздолгон скрипт/playbook/сыноо менен кызматтар.
Backup Success & Restore Success: backaps жана далилденген калыбына күнүмдүк ийгилиги.
Time-to-Declare Disaster: failover жөнүндө чечим кабыл алуу ылдамдыгы.
Failback Time: кадимки топология кайтып.
Defect Rate көнүгүүлөр: табылган боштуктар/көнүгүү.
Compliance Evidence Completeness: артефакттардын толуктугу.

13) Чек-баракчалар

DR киргизүү алдында

  • Кызмат каталогу Tier камтыйт, RTO/RPO, көз карандылык жана ээлери.
  • Тандалган үлгү (AA/AP/WS/PL/BR) Tier жана бюджет боюнча.
  • Консистенттүүлүк жана репликация жөнүндө келишимдер документтештирилген.
  • GSLB/DNS/багыттоо жана ден соолук-текшерүү орнотулган жана сыналган.
  • Backup, snapshots, өзгөртүү журналдар - киргизилген, калыбына текшерилет.
  • DR Playbook жана учурдагы түрүндө жөнөтүүчүлөр байланыштар.

Кырсык учурунда (кыскача)

  • SEV жарыялоо жана war-room чогултуу; чыгарылышын тоңдурат.
  • Quorum зонд текшерүү; импакт/географияны бекитүү.
  • аткарууга Failover Runbook: Traffic, DD-промоушен, кезек, кэш.
  • Degrade-UX/лимиттерди киргизүү; SLA боюнча апдейттерди жарыялоо.
  • evidence чогултуу (таймлайн, графиктер, логиндер, командалар).

Кырсыктан кийин

  • SLO N интервалдарын байкоо; план боюнча failback аткарууга.
  • AAR/RCA өткөрүү; CAPA.
  • Playbook жаңыртуу, катализаторлор, DR сыноо учурлары.
  • Стейкхолдерлерге/жөнгө салуучуларга отчет берүү (керек болсо).

14) Үлгүлөр

14. 1 Карта DR Script (мисал)


ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support

14. 2 Runbook "Промоте реплика БД" (үзүндү)


1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m

14. 3 DR машыгуу планы (кыскача)


Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output

15) Анти-үлгүлөрү

Үзгүлтүксүз калыбына келтирүү тесттери жок "backaps бар".
Сырлар/эндпоинттер автоматтык түрдө которулбайт.
кайталап жеткирүү учурунда кемчилик → дубликат/жоголгон бүтүмдөр жок.
Деградациянын фич-желектери жок аймактар үчүн бирдей конфигдер.
Узак убакыт-to-Declare улам коркуу "жалган тынчсыздануу".
Monoregional провайдерлер (PSP/KYC) эч кандай альтернатива.
Эч кандай failback планы жок - биз "түбөлүккө" өзгөчө топологияда жашайбыз.

16) Жол картасы киргизүү (6-10 жума)

1. Нед. 1-2: Tier кызмат классификациясы, максаттуу RTO/RPO орнотуу, DR үлгүлөрүн тандоо.
2. Нед. 3-4: репликацияларды/backaps, GSLB/DNS, промоушен-процедураларды тууралоо; playbook жана runbook 'i.
3. Нед. 5-6: биринчи DR-машыгуу (tabletop → этап), метрика жана CAPA бекитүү.
4. Нед. 7-8: чектелген трафик менен Prod-Light машыгуу; автоматташтыруу failover.
5. Нед. 9-10: чыгымдарды оптималдаштыруу (FinOps), Hot/AA үчүн Tier 0 которуу, чейректик машыгуу жана отчеттуулук эрежелери.

17) Жыйынтык

Натыйжалуу DR - бул жөн гана backaps эмес. Бул макулдашылган архитектура, автоматташтыруу failover/failback, маалымат тартиби (idempotentity/репликация), окутуу жана ачык-айкын байланыш болуп саналат. RTO/RPO реалдуу болгондо, плейбуктар иштелип чыккан жана машыгуулар үзгүлтүксүз болгондо, кырсык башкарылуучу окуяга айланат, андан кийин кызматтар тез жана болжолдуу түрдө нормалдуу абалга кайтып келет.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.