Инциденттерге жана кырсыктарга реакция
(Бөлүк: Операциялар жана башкаруу)
1) Аныктамалар жана максаттар
Окуя - бул SLO/коопсуздук/комплаенс бузган же кардарлар, акча, маалымат, репутация үчүн тобокелдик жараткан окуя.
Реакциянын максаттары: тез арада кызматты калыбына келтирүү, зыянды азайтуу, далилдерди оңдоо, ачык-айкын байланыш жана кайталоону болтурбоо.
Негизги принциптер
Safety first: адамдарды/маалыматтарды/акчаны коргоо функцияларга караганда маанилүү.
One throat to choke: бирдиктүү Incident Commander (IC) чечим кабыл алат.
Actionable now: ар бир гипотеза текшерүү/иш-аракет менен коштолот.
Evidence matters: баары логикалык, артефакттар кол коюлат, таймлайн - деталдуу.
2) классификация (severity & артыкчылык)
Триггер: SLO бузуу, алерт эрежеси, кол менен жазуу, юридикалык окуя (DPO/CCO).
3) Ролдору жана жоопкерчилиги (RACI)
Incident Commander (A) - окуя лидери, милдеттерди коюу, чечим кабыл алуу, узак окуяларда IC өзгөртүү.
Tech Lead (R) - техникалык диагностика/фикстер, SRE/инженердик координация.
Comms Lead (R) - статустук жаңыртууларды жазат (ичинде/сыртында), статустук барактын ээси.
Scribe (R) - протокол, таймлайн, артефакттарды чогултуу.
Security/Legal (C/A security-учурлар үчүн) - тобокелдиктерди баалоо, милдеттүү билдирүүлөр.
Customer Support (C) - жооп шаблондору, билеттерди багыттоо.
Partner Liaison (C) - провайдерлер/тенанттар менен байланыш.
Management (I) - маалымдоо, бизнес чечимдер (кредиттер/компенсациялар).
4) Биринчи 15 мүнөт (шаблон)
1. IC дайындоо жана окуя картасын ачуу (чат канал, Video көпүрө, Jira/Tracker).
2. SEV ыйгаруу жана SLO симптом (так бузулган) бекитүү.
- runbooks/runs кирет: circuit-breakers, Trottling, каттам которуу, промо-пауза;
- компромиссте - сезгич функциялардын kill-switch.
- 4. Командалар: Tech Lead - диагностика; Comms - "техникалык холд" (10-15 мүнөттөн кийин - биринчи жаңыртуу).
- 5. Гипотезаларды аныктоо (үч максимум), ээлерин дайындоо, текшерүүгө таймерлерди коюу (5-10 мин).
- 6. Экспонаттарды чогултуу: метриктер, конфигалар, релиздердин хэштери, 'trace _ id' менен логилер, квитанциялар.
5) Биринчи саат (шаблон)
Байланыш v1 (15-20 мин): факт, камтуу, симптомдор, эмне кылабыз, кийинки жаңыртуу. Эч кандай божомолдор.
Окуянын чектери: кайсы аймактар/тенанттар/каналдар/версиялар таасир этет.
Зыянды көзөмөлдөө: убактылуу капкалар/чектөөлөр, "ызы-чуу" интеграциясын өчүрүү, деградациялык режимди киргизүү.
Forensics: тоңдуруп ийне, артефакттарды коргоо (WORM/кол тамгалар).
Жол калыбына келтирүү картасы: T + 30/T + 60 чек-поинт менен.
6) Байланыш жана статус-бет
Ички аралыктары: P1 - ар бир 15 мүнөт, P2 - 30-60 мүнөт.
Тышкы: статус-бет/тенанттар/SLA өнөктөштөр.
- Бул көрүнүп турат: "X менен: YY UTC EU аймагында текшерүү ийгиликсиз өсүшү (p95> 250 ms)"
- Ким таасир этет: "A/B/C операторлору, ~ 40% жол"
- Эмне кылабыз: "Биз альтернативдик маршрутту, Trottling промо; PSP-1 провайдери менен иштешебиз"
- Маалыматтар/мөөнөтү: "кийинки 15 мүнөттөн кийин жаңыртуу"
- Компенсация: "Биз окуя жабылгандан кийин SLA ылайык кредиттик ноталарды колдонобуз"
7) Playbook (iGaming/fintech үчүн шилтемелер)
PriceMismatch (витрина ≠ текшерүү): форс-майыптык кэш, салыштыруу 'fx _ version/tax _ rule _ version', динамикалык промо тоңдуруу, саясат боюнча айырмачылыктардын ордун толтуруу.
WebhookLag (өнөктөштөр/аффилиаттар): workers масштабдоо, batch жогорулатуу, ретрациялардын артыкчылыгы, жаңы жазылуу үчүн убактылуу капка.
Payments Outage/PSP-деградация: камдык PSP өтүү, кардарлардын убакыт кыскартуу, кол кезек клиринг, "боз" карантиндик бүтүмдөр.
RTP Drift: тыныгуу бонустар, төлөм таблицаларын/версияларын текшерүү, көрүү терезесин кеңейтүү, RTP профилин артка кайтаруу.
Fraud Spike: velocity/чектөөлөрдү күчөтүү, кошумча KYC текшерүүнү, шектүү когорталарды изоляциялоону, жогорку утуштарды кол менен кыйкырууну камтыйт.
Data/PII Exposure: системаларды изоляциялоо, DPO/Legal билдирүүсү, таасир эткен жазууларды инвентаризациялоо, убакыт боюнча жөнгө салуучу билдирүүлөр.
8) Инструменттер жана рундар (auto-actions)
Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Гвард-Рейл: "Седланийден" коргоо - чегинүү чектелген, журналдар кол коюлган, ар бир иш-аракет IC/Scribe.
Далилдөө: DSSE кол тамгалар, снапшот хэштери, Merkle тилкелери.
9) Окуянын аякташы
Критерийлер: SLO калыбына келтирилди, кезек кайтарылды, маалыматтар/акча текшерилди, тобокелдиктер жабылды, коммуникациялар жөнөтүлдү.
Жабуу ырым-жырымы: статусун акыркы жаңыртуу, белгиленген таймлайн, таасирлердин тизмеси, себептердин алдын ала гипотезалары, дайындалган пост-мортема датасы.
10) Пост-мортем (айыпсыз)
Мөөнөтү: P1 - 3 жумушчу күндүн ичинде; P2 - 5 жумушчу күн.
Мазмуну: фактылар/таймлайн, түпкү себептер (5 Whys/FRAM), таасир (SLO, каржы, кардарлар), иштеген/жок, action items (owner, мөөнөтү, өлчөнүүчү эффект).
натыйжалуулугун текшерүү: 30-60 күн өткөндөн кийин - аткаруу ревю жана метрика (кайталануу, MTTR, алерт ызы-чуу).
11) Метрика жана SLO окуя башкаруу
MTTD/MTTA/MTTR, Change Failure Rate, Time to Comms v1,% auto-уруксат (runes).
Alert Noise: маанилүү эмес сигналдардын үлүшү, pages per on-call shift.
Repeat Incidents: 90 күндүн ичинде кайталоо үлүшү.
Post-mortem SLA: өз убагында өткөрүлгөн/жабылган үлүшү.
SLO жооп: P1 - биринчи байланыш ≤ 15 мин; MTTR ≤ 60 мин; артефакттардын толуктугу = 100%.
12) Укук/комплаенс/купуялык
Юридикалык билдирүүлөр: жергиликтүү жөнгө салуучу органдардын агып чыгуу/инциденттер боюнча мөөнөттөрү.
PII-минималдаштыруу: биринчиликке жетүү бекитилген жоболор аркылуу гана; токенизация/маскировка.
Артефакттарды сактоо: WORM журналдары, юрисдикциялар боюнча сактоо мөөнөтү; кирүү көзөмөлү (RBAC/ABAC, JIT).
Контрагенттер: келишимдик SLA, эскалация процесси, процесстердин квитанциялары.
13) Нөөмөттөрдү жана эскалацияларды уюштуруу
24 × 7 on-call: ролдорду айлантуу (SRE, App, Data, Security, Payments).
Эскалация матрицасы: аймактар/продуктылар/провайдерлер үчүн ким; байланыштарды кайталоо (чат/үн/SMS).
Машыгуулар (GameDays): симуляциялар - PSP кулашы, Retray көчкү, Retro баалар, ачкычтын компромисс, аймактын ийгиликсиз.
14) Dashbord окуялар
Жылуулук (азыр): SLO статусу, p95/p99, аймактардын/тенанттардын картасы, тапшырмалардын кезеги, экспонаттар чогултулган/жок.
Тарых: инциденттердин түрлөрү боюнча тенденциялар, рундардын натыйжалуулугу, себептердин кайталанышы.
Сапатты көзөмөлдөө: толук убакыт, "coverage" post-мортем, SLA байланыш.
15) Киргизүү чек-тизмеси
- SEV шкаласын жана SLO триггерлерин бекитүү.
- Ролдорду дайындоо (IC/Tech/Comms/Scribe/Sec/Legal) жана 24 × 7.
- Окуя картасынын бирдиктүү үлгүсүн жана статус баракчасын ишке киргизүү.
- Playbook сүрөттөө (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
- аудит жана "кызыл баскычы" менен рундарды ишке ашыруу.
- Forensic саясатын камтыйт: WORM/кол/экспонаттарды чогултуу.
- Байланыш регламенти (ички/тышкы) , SLA жаңыртуулар.
- Post-мортем жараяны жана үлгүлөрү; KPI аткаруу action items.
- GameDays ай сайын; инциденттердин тенденцияларын кварталдык карап чыгуу.
- Dashboard IR метр (MTTA/MTTR/Noise/Repeat/Comms SLA).
16) FAQ
Эмне үчүн "IC бир"?
Чечим кабыл алуунун бир пункту башаламандыкты жок кылат жана реакцияны тездетет.
Качан ачык жарыялоо керек?
Тастыкталган факт жана турукташтыруу планы болгондо. Жөнгө салуу мөөнөттөрүн баалаңыз.
Эмне маанилүү - фикс же отчет?
Биринчи - калыбына келтирүү жана коопсуздук. Параллель - артефакттарды чогултуу. Отчет - турукташтыруудан кийин.
Баарын автоматташтырууга болобу?
Жок, бирок рундар "тез-тез жана жөнөкөй" кадамдарды жаап. Калганы - так плейбуктар жана машыгуулар аркылуу.
Резюме: Күчтүү Incident Response - бул PagerDuty жана чат каналы гана эмес. Бул ролдорду тартип, тез алгачкы 15 мүнөт, башкарылуучу рундар, ачык-айкын байланыш, далилдүү жана милдеттүү пост-мортем менен Forensics болуп саналат. Мындай контур менен сиз MTTR кыскартуу, акча жана маалыматтарды коргоо жана кардарлардын жана жөнгө салуучулардын ишенимин жогорулатуу.