Disaster Recovery и cold-backups
Кыскача резюме
DR - бул чоң кырсыктан кийин бизнес функцияларын калыбына келтирүү жөндөмү. Cold-backups - "акыркы коргонуу линиясы": толугу менен электр же компромисс менен калыбына келтирүү үчүн жарактуу өзгөрүлбөс/обочолонгон көчүрмөлөрү. Стратегия RTO/RPO айланасында курулган, системалардын артыкчылыктуу, жыл сайын DR-машыгуулар жана катуу иш тартиби (каталогдор, ачкычтар, текшерүүлөр).
Терминдер жана максаттар
RPO (Recovery Point Objective) - берилиштердин максималдуу жол берилген жоготуусу (мисалы, 15 мин ≤).
RTO (Recovery Time Objective) - максималдуу жол берилген калыбына келтирүү убактысы (мисалы, ≤ 2 саат).
Black-start - "нөлдөн" калыбына келтирүү: темир/кластер/сырлар/маалыматтар/DNS.
Air-gap - көчүрмөлөрдү физикалык/логикалык обочолонтуу (тасма/өчүрүлгөн эсеп/оффлайн-медиа).
Immutability (WORM) - өзгөрүлбөс сактоо (Lock/Retention менен тасма/объект).
DR даярдык деңгээл
Cold Site - инфраструктура жок/тоңдурулган; RTO: саат-күн; эң арзан CAPEX/OPEX.
Warm Site - шаблондор/сүрөттөр/жарым-жартылай даяр кызматтар; RTO: ондогон мүнөт-саат.
Hot Site - активдүү репликалар; RTO: мүнөт; кымбатыраак жана татаалыраак.
Гибрид: Core → hot/warm, бардык башка → cold (башталганда артыкчылык менен).
Кайда cold-backups алмаштырылгыс
Массалык cryptocurrency/домен компромисс.
Бардык репликаларга кеткен маалыматтар коррупциясы.
Аймакты жоготуу/маалымат борбору, форс-мажор (өрт, суу ташкыны).
артыкчылыктуу эсептер менен атайылап алып салуу/саботаж.
cold-backups топологиясы
1. Медиа/сактоо класстары
Скотч (LTO-8/9): арзан, демейки аба-gap, жогорку кубаттуулугу, ырааттуу жетүү.
Offline-дисктер/NAS: "сейф-кейстер", бир гана терезеге кошулат/калыбына келтирүү.
Archive Classes Object (Glacier сыяктуу): төмөн сактоо баасы, жогорку алуу убактысы.
2. Жайгаштыруу
Башка аянтча/аймак; башка провайдер/эсеп; жеке ачкычтар/администраторлор.
3. Иммутабелдүүлүк
WORM/Object Lock (Compliance/Governance) тасмалары менен retenshn жана Legal Hold.
Саясат 3-2-1-1-0 (cold басым менен)
3 маалыматтар көчүрмөсү (прод + жергиликтүү камдык + оффсайт).
2 ар кандай медиа (диск/лента/объект).
1 Offsite (башка аянтча/булут).
1 өзгөрүлбөс (WORM/air-gap).
0 текшерүү каталар (checksum/мезгил-мезгили менен сыноо калыбына келтирүү).
Каталогдор, метадеректер жана бүтүндүгүн контролдоо
backaps каталогу: кайда, качан, версия, ачкычтар, чек суммасы, мөөнөтү retenshna.
Активдердин каталогу: кызмат → көз карандылык → том/бакет → артыкчылык.
Checksums жана manifest Files: жазуу жана калыбына келтирүү боюнча текшерүү.
Canary файлдары: медиа көйгөйлөрүн эрте аныктоо үчүн үзгүлтүксүз калыбына келтирүү.
Шифрлөө жана ачкычтар
Тынч шифрлөө (тасма/объект) жана учуу (көчүрмө).
KMS/Vault менен dual-control, мастер-ачкычтар үчүн оффлайн сейфтери, ротация.
Прод/backup/архив үчүн өзүнчө ачкычтар (blast-радиусту азайтуу).
DR менен документтештирилген ачкычтарга жетүү процесси (талаптар, ролдор, журнал).
DR планы: артыкчылыктуу жана ырааттуулугу
Артыкчылыктар картасы (мисал):1. Идентификация жана жетүү: IdP (минималдуу аймак), Vault/KMS, тармак өзөгү.
2. Маалыматтар жана башкаруучу учактар: etcd K8s, конфиги, сырлар, сүрөттөрдүн реестрлери, деплойлордун экспонаттары.
3. Транзакциялык БД/капчык: журналдар + акыркы full/incremental.
4. Төлөм/интеграциялык шлюздар: ачкычтар, сертификаттар, IP/DNS.
5. Веб/апи-фронттор: канарейка учуруу, объектиден статикалык мазмун.
6. Аналитика/отчеттуулук: ядро аяктагандан кийин.
Калыбына келтирүү ырааттуулугу (black-start):1. Инфраструктура: тармак, DNS/Anycast, IAM ядро, базалык сүрөттөр/кластер.
2. Secrets/Күбөлүктөр: cold-backup тартып Vault/KMS калыбына келтирүү, bootstrap сырларды бөлүштүрүү.
3. Control тегиздиги: etcd/Control Plane/реестрлер/репозиторийлер.
4. Маалыматтар: DD cold-backup + PITR журналдардан (RPO боюнча) жайылтуу.
5. Колдонмолор: жыгач көз карандылыкты баштоо, кэш/CDN жылытуу.
6. Тесттер жана валидация: ден соолук үлгүлөрү, туруктуулук, контролдук суммалар.
7. Трафикти которуу: DNS/багыттоо/баланстагыч (этап-этабы менен/канарейка).
8. Пост-текшерүү: жок агып/карыздарды, Логин жана DR иш.
cold-калыбына келтирүү жол-жоболору (типтүү)
Тасмалар: инвентаризация, жүктөмөлөр, параллелдүү агымдар, map файлдар → каталогдор → калыбына келтирүү; издөө жана кайра иштетүү убактысын эсепке алуу.
Archive класстар: алуу үчүн суроо-талап (minutes → hours), ысык сактоо staging, манифест калыбына келтирүү.
Offline дисктер: Connection read-only, checksum → көчүрүп текшерүү.
Практика: калыбына келтирүү үчүн изоляцияланган "кум", андан кийин прод-чөйрөгө которуу.
Байланыш жана орг. DR түзүмү
Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
Каналдар: резервдик (корпоративдик доменден тышкары), үн/чат, SecureDocs.
Билдирүүлөрдүн үлгүлөрү: кардарларга/өнөктөштөргө/жөнгө салуучуларга; апдейттердин жыштыгы; бир "чындыктын булагы".
Окуялардын бирдиктүү журналы: таймлайн, чечимдер, ээлери.
DNS, тармак жана трафик
Split-brain-коргоо: конфигурациядагы "DR-режими" желектери; чектелген функционалдык үчүн feature-flags.
DNS стратегиясы: төмөн TTL алдын ала, көз карандысыз DNS провайдери; этап-этабы менен өзгөртүү A/AAAA/CNAME, CDN жылытуу.
Багыттоо: Anycast/Geo, DR-сайттан BGP-жарыя; ACL/firewall IaC кайра чогултулат.
DR үчүн SLO
RPO 99% убакытка ≥ сакталат (максаттын чегинде журналдардын/инкременттердин артта калышы).
RTO Black-Start (толук сценарий) ≤ максаттуу (мисалы, 4 саат) чейрек сайын сыноолордо.
DR-машыгууларынын ийгилиги - 100% маанилүү тапшырмалар терезеде аткарылды.
Иммутабилдүүлүк - Retention/Lock = 100% менен backaps үлүшү.
Бүтүндүгүн текшерүү - график боюнча 100%; ташуучунун катасы → миграция билети.
Тесттер жана машыгуулар
Table-top: сценарийлер, ролдор, чек баракчалары, байланыш тизмеси.
Техникалык: DD/файлдарды/сырларды контролдук суммаларды жана консистенттүүлүктү текшерүү менен "кумга" тандап калыбына келтирүү.
Black-start-drill: бир жолу/чейрек (же бир жолу/алты ай) - DR-сайтында ядронун толук ишке киргизүү.
Post-mortem: фактылар, тар жерлер, жакшыртуу планы (SLO/процесстер/автоматташтыруу).
Автоматташтыруу жана экспонаттар
IaC: кластерлер, тармактар, үймөктөр - коддо; DR-бутактары/параметрлери.
Runbooks: компоненттик (Vault/KMS, etcd, DD, кулпулар, frontes).
DR-пакети: негизги доктордун оффлайн көчүрмөсү (байланыштар, схемалар, сейф-сөз айкаштарынын сырсөздөрү), физикалык жетүү көрсөтмөлөрү.
Canary-калыбына келтирүү: күнүмдүк чакан калыбына келтирүү жана текшерүү текшерүү.
Tags/Tags: "DR-critical", "Warm-only", "Cold-only" кызматтары/томдору үчүн.
Киргизүү чек-тизмеси
- Маалымат класстары жана алардын RPO/RTO бизнес менен макулдашылган; калыбына келтирүү артыкчылыктары аныкталган.
- cold-backups ишке ашырылган: медиа, иммутабилдүүлүк (WORM/Object Lock), offsite/air-gap.
- Каталогдор: активдер, запастар, ачкычтар; чек-суммалар жана версияларды көзөмөлдөө.
- Black-start жол-жоболору: тармактар/DNS, IdP/Vault/KMS, контролдук учак, маалыматтар, апп катмары.
- Машыгуулар: table-top чейрек сайын; канар күн сайын калыбына келтирүү; black-start жолу/чейрек-алты ай.
- Байланыш жана жөнгө салуучу үлгүлөрү; өзүнчө байланыш каналдары.
- DR үчүн SLO/метрика/алерт; жетекчиликке отчеттор.
- Провайдерлер менен макулдашуулар (тасмалар/архивдик класстар/DNS/CDN), SLA тастыкталган.
- Каржы: медиа/архив бюджети, логистика, убакыт боюнча медиа алмаштыруу.
Типтүү каталар
"Бир сөз бар - backup кереги жок" → логикалык ката/шифрлөөчү бардык жакка барат.
Эч кандай иммутабилдүүлүк/аба-gap → бардык көчүрмөлөрдүн бир компромисс багыты.
каталогдорунун жоктугу/чек-суммасы → калыбына "бир нерсе", бирок андай эмес.
TTL DNS өтө чоң → көп күндүк жол кыймылы.
Ошол эле домендеги/аккаунттагы ачкычтар/KMS → окуя болгон учурда кирүүгө бөгөт коюу.
Машыгуулар гана "кагаз бетинде" → RTO/RPO тастыкталган эмес.
iGaming/Fintech үчүн өзгөчөлүктөрү
Капчык/төлөм негизги: катуу RPO (≤ 1-5 мин) жана RTO (≤ 15-60 мин); WORM менен объектке журналдар; DR-милдети "read-only балансы" ачык байланыш үчүн.
PSP/мазмун провайдерлери: алдын ала макулдашылган DR-IP/домен, whitelists, сертификаттар, HMAC/mTLS ачкычтары - DR-пакеттеги көчүрмөлөр.
Отчеттуулук/жөнгө салуучулар: билдирүүлөрдүн шаблондору, өзгөрүлбөс архивдер, далилденүүчү бүтүндүк, иш-аракеттер журналы.
чокулары жана иш-чаралар: DR-даярдыгы ири турнир/үлүштөрүнүн чейин текшерилет; Канар калыбына келтирүү жана CDN жылытуу.
Mini Runbook үлгүлөрү
1) Vault/KMS black-start (түшүнүк):1. DR-кластерин баштоо, unseal (dual-control) ачкычтарын жүктөө.
2. storage-backup (cold-copy) калыбына келтирүү.
3. Саясатты текшерүү, CI/CD/K8s үчүн bootstrap сырларын берүү.
2) PostgreSQL DR (PITR из cold-backup):1. Бош учурду жайылтуу, cold from full калыбына келтирүү.
2. WAL-журналдарды (инкременттерди) максаттуу учурга чейин коюу.
3. консистенцияны текшерүү, репликацияны киргизүү, read-only ачуу, андан кийин read-write.
3) DNS/жол:1. пландаштырылган тобокелдиктерге чейин 24-72 саат TTL азайтуу (же туруктуу төмөн кармап).
2. Чек баракчасы боюнча A/AAAA/CNAME которуу, ката/жашыруун мониторинг.
3. трафиктин акырындык менен өсүшү (канарейка 5% → 25% → 100%).
Жыйынтык
cold-backups таянуу менен ишенимдүү DR болуп саналат: иммутабельдүү обочолонгон көчүрмөлөрү, расмий black-start-жол-жоболору, так RPO/RTO, үзгүлтүксүз машыгуу, ойлонулган DNS/тармак стратегиясы жана ачкычтар тартип. IaC жана runbook бардык жаздырып, автоматташтырылган бүтүндүгүн текшерүү жана канара калыбына келтирүү - жана сиз ар дайым да жаман жагдайда кийин калыбына келтирүү үчүн көзөмөлгө жол болот.