GH GambleHub

Оқиғалардың өршуі

1) Мақсаты мен қағидаттары

Оқыс оқиғалардың өршуі - бұл пайдаланушылар мен бизнес-метрикаға әсерді барынша азайту үшін дұрыс рөлдер мен ресурстарды жылдам тартудың басқарылатын процесі.

Негізгі қағидаттар:
  • Жылдамдық идеалдықтан да маңызды. Кешігуден гөрі оқиғаны ерте жариялап, деэскалациялаған дұрыс.
  • Бірыңғай қолбасшылық. Шешім үшін бір жауапты - Incident Commander (IC).
  • Ашықтық. Ішкі және сыртқы стейкхолдерлерге арналған нақты мәртебелер мен коммуникация арналары.
  • Құжатталуы. Барлық қадамдар, шешімдер мен таймлайндар аудит және жақсарту үшін тіркеледі.

2) Күрделілік градациясы (SEV/P-деңгейлер)

Шкала мысалы (домен/юрисдикцияға бейімделіңіз):
  • SEV-0/P0 (сындарлы) - негізгі функцияның толық қолжетімсіздігі (логин/төлем), деректердің жылыстауы, заңдық тәуекел. Барлық on-call, freeze релиздерінің ядросының дереу пейдж.
  • SEV-1/P1 (жоғары) - p95/p99 деградациясы, негізгі процестегі қателердің/істен шығулардың жоғары үлесі, өңірдің/провайдердің қолжетімсіздігі.
  • SEV-2/P2 (орташа) - шектеулі когорта (өңір, провайдер) үшін ішінара тозу, айналма жол бар.
  • SEV-3/P3 (төмен) - пайдаланушы үшін сыни емес, бірақ назар аударуды талап етеді (ETL фондық кідірісі, мерзімі өткен есеп).
Деңгейді анықтау матрицасы (оңайлатылған):
  • Зақымдану радиусы (қанша пайдаланушы/айналым) × ұзақтығы × сезімталдығы (реттегіш/PR) → SEV деңгейі.

3) KPI процесі

MTTD (табу уақыты) - инциденттің басынан бастап бірінші сигналға дейін.
MTTA (қабылдау уақыты) - сигналдан IC растауына дейін.
MTTR (қалпына келтіру уақыты) - SLO/функцияны қалпына келтіргенге дейін.
Escalation Latency - растаудан бастап қажетті рөлді/пәрменді қосуға дейін.
Reopen Rate - «шешілгеннен» кейін қайта ашылған оқыс оқиғалардың үлесі.
Comm SLA - сыртқы/ішкі жаңартулардың аралықтарын сақтау.

4) Рөлдер және жауапкершілік (RACI)

Incident Commander (IC): шешім иесі деңгейді, жоспарды, freeze, эскалацияны, деэскалацияны белгілейді. Фикстер жазбайды.
Tech Lead (TL): техникалық диагностика, гипотезалар, инженерлерді үйлестіру.
Comms Lead (CL): мәртебе беттері, клиенттік және ішкі коммуникация, Legal/PR-мен келісу.
Scribe: фактілерді, таймлайндарды, қабылданған шешімдерді дәл белгілеу.
Liaisons (байланыс): сыртқы провайдерлердің/командалардың өкілдері (төлемдер, KYC, хостинг).
On-call инженерлері: жоспарды орындау, плейбуктерді/тасылымдарды іске қосу.

Әрбір рөл бойынша кезекші кестелер мен бэкаптарды белгілеңіз.

5) Арналар мен артефактілер

War-room арнасы (ChatOps): авто-аннотация үлгісімен (нұсқалар, жалаулар, канареялар) бірыңғай үйлестіру нүктесі (Slack/Teams).
SEV-1 үшін бейнекөпір +.
Оқыс оқиғаның тегі (one-pager): ID, SEV, IC, қатысушылар, гипотеза/диагноз, қадамдар, ETA, мәртебе, импакт, графикаға сілтемелер.
Мәртебе-бет: көпшілік/ішкі; тұрақты апдейттердің кестесі (мысалы, SEV-1 + үшін әрбір 15-30 минут).

6) Тайм-бокстар және стандартты аралықтар

T0 (минут 0-5): IC тағайындалған, SEV тағайындалған, freeze релиздері (қажет болса), war-room ашық.
T + 15 мин: бірінші көпшілік/ішкі хабарлама (не қозғалды, workaround, келесі жаңартылған терезе).
T + 30/60 мин: егер тұрақты динамика болмаса, келесі деңгейдегі эскалация (платформа/БД/қауіпсіздік/провайдерлер).
Тұрақты апдейттер: SEV-0: әрбір 15 минут сайын; SEV-1: әрбір 30 минут сайын; SEV-2 +: әр сағат сайын.

7) Авто-эскалация қағидалары (іске қосу саясаты)

Код ретінде жазылады және мониторингке/алертингке қосылады:
  • Burn-rate бюджеттің қателері қысқа және ұзын терезелердегі шектен жоғары.
  • Сыртқы сынамалар кворумы: 2 өңірдің ≥ HTTP/TLS/DNS деградациясын тіркейді.
  • Бизнес-SLI (төлемдердің/тіркеулердің табысы) SLO-дан төмен түседі.
  • Security-сигнатуралар: ағып кету/компромат күдігі.
  • Провайдерлік сигнал: «major outage» мәртебесінің вебхук.

8) Табудан шешуге дейінгі процесс

1. Инцидент декларациясы (IC): SEV, қамту, freeze, плейбуктерді іске қосу.
2. Диагностика (TL): гипотезалар, радиусты оқшаулау (өңір, провайдер, фича), тексеру (DNS/TLS/CDN/ДБ/кэш/шина).
3. Митигиялық әрекеттер (жылдам жеңістер): бас тарту/канарейка ↓, фича-тозу жалауы, провайдердің failover, rate-limit, кэш-оверлей.
4. Коммуникация (CL): статус-бет, клиенттер/серіктестер, Legal/PR, кесте бойынша жаңартулар.
5. Қалпына келтіруді растау: сыртқы синтетика + нақты метрика (SLI), freeze алу.
6. Деэскалация: SEV төмендеуі, бақылауға өту N минут/сағат.
7. Жабу және RCA: пост-мортеманы дайындау, action items, иелері және мерзімдері.

9) Сыртқы провайдерлермен жұмыс

Бірнеше өңірлерден провайдерлерге жеке сынамалар + сұрау/қателердің айна-мысалдары.
Эскалация туралы келісімдер (байланыстар, жауаптың SLA, басымдық, мәртебенің вебхоктары).
Автоматты failover/SLO провайдері бойынша трафикті қайта бөлу.
Дәлелдеу базасы: таймлайн, sample сұраулары/жауаптары, жасырындылық/қателер кестелері, провайдердің ID тикеті.

10) Реттеуіш, қауіпсіздік және PR

Security/P0: оқшаулау, артефактілерді жинау, жария етуді барынша азайту, міндетті хабарламалар (ішкі/сыртқы/реттеуші).
Legal: сыртқы жаңартулардың тұжырымдамаларын келісу, шарттық SLA/айыппұлдарды есепке алу.
PR/Клиенттік қызмет: жауаптардың дайын үлгілері, Q&A, өтемақылар/кредиттер (егер қолданылса).

11) Хабарлама үлгілері

Бастапқы (T + 15):
  • "Біз [функцияны/өңірді] қозғайтын SEV-1 оқиғасын зерттеп жатырмыз. Симптомдары: [қысқаша]. Тексеріп шығу жолын іске қостық [сипаттама]. Келесі жаңарту [уақытта]"
Жаңарту:
  • "Диагностика: [гипотеза/растау]. Әрекеттер: [провайдерді ауыстырыңыз/релизді қайтарыңыз/деградацияны қосыңыз]. Импакт [пайыз/қоғам] дейін төмендетілген. Келесі жаңартылым - [уақыт]"
Шешім:
  • "Оқиға SEV-1 шешілді. Себебі: [тамыр]. Қалпына келтіру уақыты: [MTTR]. Келесі қадамдар: [фикс/тексеру/бақылау N сағат]. Пост-мортем - [қашан/қайда]"

12) Плейбуктер (шамамен)

Төлемдер табысының құлдырауы: А провайдеріне үлесті азайту, Х% -ды В-ға ауыстыру; «degrade-payments-UX» қосу; лимиттердегі ретраларды қосуға; фин-команданы хабардар ету.
p99 API өсуі: жаңа нұсқаның канарейкасын кішірейту; ауыр фичтерді сөндіру; TTL кэшін ұлғайту; БД-индекстерді/коннектілерді тексеру.
DNS/TLS/CDN проблемасы: сертификаттарды/тізбекті тексеру; жазбаны жаңарту; сақтық CDN-ге ауысу; кэшті қайта жинау.
Security-күдік: тораптарды оқшаулау, негізгі ротация, mTLS тұтқаларын қосу, артефактілерді жинау, Legal хабарламасы.

13) Деэскалация және «шешілді» критерийлері

Инцидент төмендегі деңгейге ауыстырылады, егер:
  • SLI/SLO жасыл аймақта тұрақты ≥ N интервал;
  • регресссіз - митигациялық әрекеттер мен бақылау орындалған;
  • security-сынып үшін - векторлардың жабықтығы расталды, кілттер/құпиялар ротацияланды.

Жабу - action items иелері мен мерзімдері таймлайнды белгілегеннен кейін ғана.

14) Post-mortem (тәтті емес)

Құрылымы:

1. Фактілер (пайдаланушылар/метриктер көрген таймлайн).

2. Түбірлік себеп (техникалық/процестік).

3. Эскалацияда не істеді/істемеді.

4. Алдын алу шаралары (тесттер, алерттар, лимиттер, сәулет).

5. Мерзімдері мен иелерімен іс-қимыл жоспары.

6. Error budget-пен байланыс және SLO/процестерді қайта қарау.

15) Процестің жетілу өлшемдері

Пайдаланушылардың шағымдарына дейін декларацияланған оқыс оқиғалардың үлесі.
SEV деңгейлері бойынша MTTA; қажетті рөлді қосу уақыты.
Апдейт аралықтарын сақтау (Comm SLA).
Қолмен «шығармашылықсыз» плейбуктермен шешілген оқыс оқиғалардың пайызы.
action items постмортемалардан уақытында орындалуы.

16) Қарсы үлгілер

«Біреу бірдеңе жасаңыз» - IC/рөлдер жоқ.
war-room көп дауысты - әрекеттердің орнына нұсқалар туралы дау.
Кеш декларация → адамдарды жинау уақытын жоғалту.
freeze және релиздер аңдатпалары жоқ - параллель өзгерістер себебін жасырады.
Сыртқы коммуникацияның болмауы - шағымдардың күшеюі/PR-тәуекел.
Постмортемсіз және әрекеттерсіз жабу - сол қателіктерді қайталаймыз.

17) IC чек-парағы (қалта карточкасы)

  • SEV тағайындау және war-room ашу.
  • TL, CL, Scribe тағайындау, on-call қатысуын тексеру.
  • Релиз-freeze қосу (SEV-1 + кезінде).
  • Ақиқат көздерін растау: SLI дашбордтар, синтетика, логи, трейсинг.
  • Жылдам митигирлейтін әрекеттерді қабылдау (кері/жалаушалар/failover).
  • Кесте бойынша тұрақты жаңартуларды қамтамасыз ету.
  • Criteria for Resolve және қалпына келтірілгеннен кейін бақылау.
  • Пост-мортемді бастау және action items иелерін тағайындау.

18) Күнделікті операцияларға кіріктіру

Жаттығулар (game-days): негізгі сценарийлер бойынша симуляциялар.
Плейбуктер каталогы: нұсқаланған, сыналған, параметрлері бар.
Құралдар: «/declare », «/page», «/status », «/rollback».
Интеграция: тикетинг, статус-бет, пост-мортемалар, CMDB/сервис-каталог.
SLO/Error Budget-пен келісу: авто-эскалация триггерлері және freeze ережелері.

19) Қорытынды

Эскалация - бұл кезекшіге жай ғана қоңырау шалу емес, операциялық тәртіп. IC тағайындаған SEV-тің нақты деңгейлері, дайын плейбуктер, жаңартулардың тайм-бокстары және SLO және budget-саясаттардың өлшемдерімен интеграциялау хаотикалық өртті болжамды нәтижемен басқарылатын процеске айналдырады - сервисті тез қалпына келтіру, ең төменгі PR/реттеуші тәуекел және әрбір оқиғалардан кейін жүйелі жақсартулар.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.