GH GambleHub

Disaster Recovery и cold-backups

Қысқаша түйіндеме

DR - бұл ірі апаттан кейін бизнес функцияларын қалпына келтіру қабілеті. Cold-backups - «соңғы қорғаныс желісі»: алаңды толық токтан ажырату немесе компрометация кезінде қалпына келтіру үшін жарамды өзгермейтін/оқшауланған көшірмелер. Стратегия RTO/RPO, жүйелерді, жыл сайынғы DR-жаттығуларды және қатаң операциялық тәртіпті (каталогтар, кілттер, тексерулер) басымдық беру төңірегінде құрылады.

Терминдер мен мақсаттар

RPO (Recovery Point Objective) - деректердің барынша рұқсат етілген жоғалуы (мысалы, ≤ 15 мин).
RTO (Recovery Time Objective) - қалпына келтірудің рұқсат етілген ең ұзақ уақыты (мысалы, ≤ 2 сағат).
Black-start - «нөлден» қалпына келтіру: темір/кластер/құпиялар/деректер/DNS.
Air-gap - көшірмелерді физикалық/логикалық оқшаулау (таспа/өшірілген аккаунт/офлайн-тасығыш).
Immutability (WORM) - өзгермейтін сақтау (Lock/Retention таспасы/объектісі).

DR-дайындық деңгейлері

Cold Site - инфрақұрылым жоқ/мұздатылған; RTO: сағат-күн; ең арзан CAPEX/OPEX.
Warm Site - үлгілер/суреттер/жартылай дайын қызметтер; RTO: ондаған минут-сағат.
Hot Site - белсенді репликалар; RTO: минут; қымбат әрі күрделі.
Гибрид: ядро → hot/warm, басқалары → cold (іске қосылғанда басымдықпен).

cold-backups алмастырылмайтын жерде

Доменнің жаппай крипто зарарсыздануы/компроматы.
Деректердің барлық репликаларға кеткен сыбайлас жемқорлығы.
Өңірдің жоғалуы/ОДО, форс-мажор (өрт, су тасқыны).
Артықшылықты есептерден қасақана жою/саботаж жасау.

cold-backups топологиясы

1. Медиа/сақтау сыныптары

Таспалар (LTO-8/9): арзан, әдепкі air-gap, жоғары сыйымдылық, жүйелі қол жетімділік.
Offline-дискілер/NAS: «сейф-кейстер» тек бэкап/restore терезесіне қосылады.
Объектінің мұрағаттық сыныптары (Glacier-ұқсас): төмен сақтау бағасы, жоғары алу уақыты.

2. Орналастыру

Басқа алаң/өңір; өзге провайдер/аккаунт; жеке кілттер/әкімшілер.

3. Иммутабельділік

WORM/Object Lock (Compliance/Governance) ретеншн және Legal Hold таспалары.

3-2-1-1-0 саясаты (cold-ға назар аудара отырып)

Деректердің 3 көшірмесі (прод + жергілікті резервтік + оффсайт).
2 түрлі тасушы (диск/таспа/нысан).
1 оффсайт (басқа алаң/бұлт).
1 өзгермейтін (WORM/air-gap).
0 тексеру қателері (checksum/кезеңдік тест-қалпына келтіру).

Каталогтар, метадеректер және тұтастықты бақылау

Бэкап каталогы: не, қайда, қашан, нұсқа, кілттер, чек-сома, мерзімі ретеншн.
Активтер каталогы: қызмет → тәуелділік → том/бакет → басымдық.
Checksums және manifest файлдары: жазуға және қалпына келтіруге салыстыру.
Canary файлдары: тасымалдаушылардың проблемаларын ерте анықтау үшін тұрақты қалпына келтіру.

Шифрлау және кілттер

Тыныштықта (лента/объекті) және ұшуда (көшіру) шифрлау.
KMS/Vault dual-control, мастер-кілттерге арналған оффлайн-сейфтер, ротация.
Өнімдер/бэкаптар/мұрағаттар үшін бөлек кілттер (blast-радиусты барынша азайту).
DR кезінде кілттерге қол жеткізудің құжатталған процесі (талаптар, рөлдер, журнал).

DR жоспары: басымдық және бірізділік

Басымдықтар картасы (мысал):

1. Сәйкестендіру және қол жеткізу: IdP (ең аз аймақ), Vault/KMS, желілік ядро.

2. Деректер және басқару жазықтықтары: etcd K8s, конфигалар, секrets, бейнелер тізілімдері, деплоялардың артефактілері.

3. Транзакциялық ДБ/әмиян: журналдар + соңғы full/incremental.

4. Төлем/интеграциялық шлюздер: кілттер, сертификаттар, IP/DNS.

5. Веб/апи-фронттары: канареялық іске қосу, нысаннан статикалық мазмұн.

6. Талдау/есептілік: ядро аяқталғаннан кейін.

Қалпына келтіру реттілігі (black-start):

1. Инфрақұрылым: желі, DNS/Anycast, IAM ядролары, базалық бейнелер/кластер.

2. Құпиялар/сертификаттар: Vault/KMS-ті cold-backup-тан қалпына келтіру, bootstrap-құпияларды тарату.

3. Бақылау жазықтығы: etcd/Control Plane/тіркелімдер/репозиторийлер.

4. Деректер: журналдардан cold-backup + PITR ДҚ-ны өрістету (RPO бойынша).

5. Қолданбалар: ағашқа тәуелділікті іске қосу, кэштерді/CDN жылыту.

6. Тесттер және валидация: health-сынамалар, консистенттілік, бақылау сомалары.

7. Трафикті ауыстырып қосу: DNS/маршруттау/теңгерімдегіштер (кезең-кезеңмен/канареялық).

8. Пост-тексеру: ағындардың/қарыздардың болмауы, логизация және DR актісі.

cold-restore рәсімдері (типтік)

Таспалар: мүкәммал, жүктеу, параллель ағындар, файлдар → каталогтар → қалпына келтіру таспалары; іздеу және қайта орау уақытын есепке алу.
Мұрағат сыныптары: үзіп алу сұрауы (minutes → hours), ыстық қоймада staging, манифест бойынша қалпына келтіру.
Offline дискілері: read-only қосу, checksum → көшіру.
Практика: қалпына келтіру үшін оқшауланған «құмсалғыш», содан кейін сынама ортаға көшіру.

Коммуникация және орг. DR кезіндегі құрылым

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
Арналар: резервтік (корпоративтік доменнен тыс), дауыс/чат, SecureDocs.
Клиенттерге/серіктестерге/реттеушілерге хабарлау үлгілері; апдейттердің жиілігі; бірыңғай «шындық көзі».
Бірыңғай оқиғалар журналы: таймлайн, шешімдер, иелері.

DNS, желілер және трафик

Split-brain-қорғау: конфигурациядағы «DR-режим» жалаушалары; шектеулі функционал үшін feature-flags.
DNS стратегиясы: төмен TTL алдын ала, тәуелсіз DNS провайдері; A/AAAA/CNAME кезең-кезеңімен ауысу, CDN жылыту.
Бағыттау: Anycast/Geo, DR-сайттан BGP-анонс; ACL/файрволдар IaC-тен қайта жиналады.

DR үшін SLO

RPO уақыттың 99% ≥ сақталған (мақсат шегінде журналдар/инкременттер лаг).
RTO black-start (толық сценарий) тоқсанына бір рет тесттерде мақсатты (мысалы, 4 сағат) ≤.
DR-жаттығулардың табысы - сыни міндеттердің 100% терезеде орындалды.
Иммутабельділік - Retention/Lock = 100% бэкап үлесі.
Тұтастығын тексеру - кесте бойынша 100%; тасымалдаушының істен шығуы → көші-қонға арналған тикет.

Тесттер мен жаттығулар

Table-top: сценарийлер, рөлдер, чек парақтары, байланыс парағы.
Техникалық: бақылау сомалары мен консистенттілігін тексерумен «құмсалғышқа» ДБ/файлдарды/құпияларды іріктеп қалпына келтіру.
Black-start-drill: бір рет/тоқсан (немесе бір рет/жарты жыл) - DR-сайтта ядроны толық іске қосу.
Post-mortem: фактілер, тар жерлер, жақсарту жоспары (SLO/процестер/автоматтандыру).

Автоматтандыру және артефактілер

IaC: кластерлер, желілер, ағындар - кодта; DR-тармақтары/параметрлері.
Runbooks: компоненттік (Vault/KMS, etcd, БД, шлюздер, фронттар).
DR-пакет: негізгі доктардың оффлайн-көшірмесі (байланыстар, схемалар, сейф-фраза парольдері), физикалық қол жеткізу нұсқаулықтары.
Canary-restore: күнделікті шағын restore және checksum салыстыру.
Тегтер/белгілер: қызметтер/томдар үшін «DR-critical», «Warm-only», «Cold-only».

Енгізу чек-парағы

  • Деректер кластары және олардың RPO/RTO бизнеспен келісілген; қалпына келтіру басымдықтары анықталды.
  • cold-backups іске асырылды: тасымалдаушылар, иммутабельділік (WORM/Object Lock), оффсайт/air-gap.
  • Каталогтар: активтер, бэкаптар, кілттер; чек-сома және нұсқаларды бақылау.
  • Black-start процедуралары: желілер/DNS, IdP/Vault/KMS, бақылау жазықтығы, деректер, апп-қабат.
  • Жаттығулар: table-top тоқсан сайын; күн сайын канареялық restore; black-start рет/тоқсан-жарты жыл.
  • Коммуникациялар және реттегіш үлгілер; жекелеген байланыс арналары.
  • DR үшін SLO/метрика/алерта; басшылыққа есеп беру.
  • Провайдерлермен келісімдер (таспалар/мұрағат-сыныптар/DNS/CDN), SLA расталды.
  • Қаржы: жеткізушілердің/мұрағаттың бюджеті, логистика, жеткізушілерді мерзімдері бойынша ауыстыру.

Типтік қателер

«Реплика бар - бэкап қажет емес» → логикалық қате/шифрлаушы барлық жерге кетеді.
Барлық көшірмелердің бірыңғай компромисс векторы жоқ/air-gap.
Каталогтардың/чек-сомалардың болмауы → «бірдеңені» қалпына келтірді, бірақ ол емес.
TTL DNS өте үлкен → көп күндік трафик көші-қоны.
Сол домен/тіркелгідегі кілттер/KMS → оқиға кезінде кіруді бұғаттау.
Оқу-жаттығулар тек «қағазда» → RTO/RPO расталмаған.

iGaming/финтех ерекшелігі

Әмиян/төлем ядросы: қатаң RPO (≤ 1-5 мин) және RTO (≤ 15-60 мин); WORM бар объектіге журналдар; DR-функциясы «read-only баланс» ашық коммуникация үшін.
PSP/контент провайдерлері: алдын ала келісілген DR-IP/домен, whitelists, сертификаттар, HMAC/mTLS кілттері - DR-пакеттегі көшірмелер.
Есептілік/реттегіштер: хабарламалар үлгілері, өзгермейтін мұрағаттар, дәлелденетін тұтастық, іс-әрекеттер журналы.
Шыңдар мен іс-шаралар: DR-дайындық ірі турнирлерге/акцияларға дейін тексеріледі; канареялық restore және CDN жылыту.

Шағын runbook үлгілері

1) Vault/KMS black-start (тұжырымдама):

1. DR-кластерді баптандыру, unseal (dual-control) кілттерін жүктеу.

2. storage-backup (cold-copy) бағдарламасын қалпына келтіру.

3. Саясатты тексеру, CI/CD/K8s үшін bootstrap-құпияларды беру.

2) PostgreSQL DR (PITR из cold-backup):

1. Бос инстанцияны өрістету, cold бағдарламасынан full қалпына келтіру.

2. Мақсатты сәтке дейін WAL-журналдарды (инкременттерді) салу.

3. Консистенттілікті тексеру, репликаны қосу, read-only ашу, содан кейін read-write.

3) DNS/трафик:

1. TTL-ді жоспарлы тәуекелдерге дейін 24-72 сағат бұрын төмендету (немесе үнемі төмен ұстап тұру).

2. Чек парағы бойынша A/AAAA/CNAME ауыстырып қосу, қате/жасырындылық мониторингі.

3. Трафиктің біртіндеп өсуі (канарейка 5% → 25% → 100%).

Жиынтық

cold-backups-ке негізделген сенімді DR - бұл иммутабельді оқшауланған көшірмелер, ресімделген black-start-процедуралар, нақты RPO/RTO, тұрақты жаттығулар, ойластырылған DNS/желілік стратегия және кілттердің тәртібі. IaC және runbook бағдарламаларындағы барлығын жазыңыз, тұтастық тексерулерін және канареялық қалпына келтіруді автоматтандырыңыз - тіпті ең нашар сценарийден кейін де сізде әрқашан бақыланатын қалпына келтіру жолы болады.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.