Идоракунии ҳодисаҳо
(Қисм: Технология ва инфрасохтор)
Хулосаи мухтасар
Идоракунии ҳодисаҳо як раванди такрорӣ барои зуд барқарор кардани арзиши корбар ва кам кардани зарари корӣ мебошад. Дастгирӣ - нақшҳои возеҳ (Менеҷери ҳодисаҳо, Tech Lead, Comms), дарвозаҳои SLO, авҷгирӣ, равандҳои Chat
1) Ҳадафҳо ва принсипҳо
Суръат ва бехатарӣ: ташхиси босуръат → устувории бехатар → барқароршавии устувор.
Соҳиби ягона - Менеҷери таъиншудаи ҳодиса (IM) қарорҳои равандро қабул мекунад.
Иртибот ҳамчун маҳсулот: навсозиҳои пешгӯишаванда барои ҷонибҳои манфиатдор ва корбарон.
Маълумот> андешаҳо: SLO/ченакҳо/роҳҳо/гузоришҳо манбаи ҳақиқат мебошанд.
Беайбӣ: таҳлили сабабҳо бе айбдоркунии шахсӣ; тамаркуз ба такмили система.
2) Таснифи ҳодисаҳо (Вазнинӣ/Таъсир/Таъҷилӣ)
Вазнинӣ (мисол):- SEV1 (интиқодӣ): зарари вазнин ба даромад/TTW/пардохтҳо,> 20% корбарон ё тамоми минтақаҳо; Таҳдиди SLA беқурб/PII.
- SEV2 (баланд): қисман таназзули ҷараёни калидҳо (амонат/гарав/оғози бозиҳо), таъсир 5-20%.
- SEV3 (миёна): таназзули намоёни хадамоти дуюмдараҷа, гузариш мавҷуд аст.
- SEV4 (паст): таъсири ночиз, маҳдуд, таъсир ба SLO/SLA нест.
Таъсир: кӣ зарар мебинад (ҳама/минтақа/иҷорагир/канал). Таъхирнопазирӣ: сатҳи таназзул (зуд сӯзондан/сӯзондан дар буҷаи хато).
3) Давраи ҳаёти ҳодисаҳо
1. Муайян кунед - сигнал аз огоҳиҳо/SLO/синтетика/ҳисоботҳо.
2. Эътироф кунед - ҳангоми занг қабулро тасдиқ мекунад, IM-ро таъин мекунад.
3. Triage - Холҳои SEV/Таъсир, ҷамъоварии гипотеза, кашфи War-Room.
4. Сабукгардонӣ - мӯътадилсозӣ (гузариш/гузариши масир/phicheflags/миқёс).
5. Муошират - навсозиҳои мунтазами вазъ (дар дохил/берун).
6. Барқароршавӣ - Барқарорсозии пурраи SLO/бизнес.
7. Наздик - сабти хронология, ҷамъоварии артефактҳо, PIR (RCA + ашёи амал).
4) Нақшҳо ва масъулиятҳо (RACI)
Менеҷери ҳодисаҳо (IM) - соҳиби раванд, нақшҳоро таъин мекунад, вақтро назорат мекунад, қарорҳои равандро қабул мекунад (R).
Пешбари техникӣ (TL) - ташхис/гипотеза/ислоҳ, муҳандисони координатӣ (A/R) мегузаронад.
Иртибот (Comms) - навсозиҳои вазъ, пайвастшавӣ бо дастгирӣ/бизнес/PR, саҳифаи ҳолат (R).
Scribe - протокол (ҷадвал, қарорҳои қабулшуда, пайвандҳо, артефактҳо) (R).
Ҷонибҳои манфиатдор - Маҳсулот/пардохтҳо/Провайдерҳои бозӣ/Амният (C/I).
Ҳадди аққал дар як SEV1: IM + TL + Comms + Scribe. Якҷоя кардани нақшҳо дар SEV2 иҷозат дода шудааст.
5) War-Room i Chat 'Ops
Каналҳои инфиродӣ: '# account-warroom- <id>' (кор), '# caption-status' (танҳо навсозиҳо).
Фармонҳои қолиб: '/оғози ҳодиса ', '/навсозии вазъ', '/занг <соҳиби> ', '/бозгашт', '/ях кардан ', '/миқёс + N'.
Бот контекстро боло мебарад: версияҳои охирин, панелҳо, огоҳиҳои марбута, намунаҳои пайгирӣ, схемаҳои вобастагӣ.
Қоидаҳои иртибот: мухтасар, дар бораи далелҳо, як баромадкунанда (TL), IM мӯътадил аст.
6) Триггерҳо ва дарвозаҳо
Дарвозаҳои SLO: сӯхтани зуд/суст, коҳиши табдили пардохт, TTW p95> ҳадди ниҳоӣ, p99 API
Амалҳои худкор: канарейка, бозгашт, имкон додани ҳолати таназзул (функсияҳои маҳдудкунанда), имкон додани синтетикаи басомади баланд.
Яхкунӣ: ҳама озодкунӣ/муҳоҷирати пиёда пеш аз мӯътадил ва PIR.
7) Сенарияҳои маъмулӣ (намунаҳои runabook)
A) Пардохтҳо: афзоиши танаффус/нокомӣ дар PSP
1. Тарғиботро қатъ кунед ва релизҳои давриро пардохт кунед.
2. Гузариши масири PSP-ро ба интизорӣ гузаред, вақт/бозпас гирифтани сиёсатро баланд бардоред.
3. Муқоисаи амалиётҳои нопурра, такрор бо калидҳои idempotent.
4. Comms communication дастгирӣ: оё шумо захира мекунед? ЭТА.
B) API p99 ва 5xx пас аз озод шудан
1. Рӯйгардон (кабуд-сабз/канарейка → устувор).
2. Санҷед хит кэш, умқи навбат, нуқтаҳои доғ/провайдери бозӣ.
3. Миқёси муваққатӣ, маҳдуд кардани хусусиятҳои вазнин тавассути парчамҳои хусусӣ.
C) Провайдери бозӣ дастнорас аст
1. Гузариш ба трафик ба студияҳо/бозиҳои мавҷуда, баннерии вазъро нишон диҳед.
2. Санҷишҳои синтетикиро ҳар 30-60 с фаъол кунед.
3. Дар бораи ҷуброн/мукофотпулӣ (тибқи сиёсат) розӣ шавед - ба PIR илова кунед.
D) ихроҷ/гумонбаршудаи PII
1. Ҷудокунии компонент, бекоркунии калид/аломат, ҷамъоварии журнал (WORM).
2. Алоқаи ҳуқуқӣ/ҳамоҳангсозии танзим.
3. Амалҳои пас аз ҳодиса: гардиши махфӣ, ниқоб, дастрасӣ.
8) Алоқа (дохилӣ/беруна)
Басомади навсозӣ: SEV1 - ҳар 15-30 дақиқа, SEV2 - 30-60 дақиқа.
Қолаби ҳолати дохилӣ:- Чӣ шикастааст: "Амонатҳо тавассути PSP-X: Болоравии вақтҳо".
- Таъсир: "TR/BR, ~ 18% корбарони ҷараён".
- Вақте ки он оғоз ёфт: "12:07 EET, SEV1."
- Мо чӣ кор мекунем: "Гузариш ба масир ба PSP-Y, retrayes/cap cap фаъол аст".
- Навсозии навбатӣ: "дар 20 дақиқа".
- Тамос: "IM @ duty-im, TL @ oncall-pay".
Вазъи ҷамъиятӣ (саҳифа/шабакаҳои иҷтимоӣ) - ихтисоршуда, бидуни PII ва тафсилоти нолозим, бо ETA ва пайванд ба навсозиҳои минбаъда.
9) Ҷамъоварӣ ва аудити артифакт
Ҷадвали рӯйдодҳо (дақиқии дақиқа), версияҳои хидмат, парчамҳои хусусият, тағиротҳои конфигуратсия.
Тасвирҳои панели панелҳо, масирҳои тахминӣ (trace_id), гузоришҳо "пеш аз/дар давоми/баъд аз он").
Истинодҳо ба чиптаҳо, PR, релизҳо, runabooks.
Ҳисоботи коммуникатсия (ҳангоми/ба/чӣ).
Ин ҳама ба корти ҳодиса илова мекунад.
10) Пӯшида ва PIR (Шарҳи пас аз ҳодиса)
Формати PIR (кӯтоҳ):- Хулоса: чӣ ҳодиса рӯй дод, миқёс, давомнокӣ, SEV.
- Таъсир: корбарон/минтақаҳо, SLO/SLA, Fin. таъсир.
- Вақт: ба таври муфассал, аз рӯи дақиқа.
- Сабаби решавӣ: техникӣ + ташкилӣ (чаро қаблан муайян карда нашуда буд).
- Муайянкунӣ ва муҳофизат: чӣ кӯмак кард/ноком шуд (огоҳиҳо, синтетика, phicheflags).
- Ҷузъҳои амал: вазифаҳои мушаххас, соҳибон, мӯҳлатҳо (ва чӣ гуна самараро тафтиш кардан).
- Дарсҳои омӯхта: Он чизе ки мо дар раванд/меъморӣ/мушоҳида тағйир медиҳем.
Қоидаҳо: ҳеҷ гуна пардохт, далелҳои ҳадди аксар, пайгирии ҳатмӣ пас аз 2-4 ҳафтаи санҷиши ашёи анҷомшуда.
11) Ченакҳои эътимоднокии раванд
MTTD - Вақти миёна барои муайян кардан
МТТА (... Эътироф кунед) - пеш аз тасдиқи занг.
MTTR (... Барқарор кардан) - то барқарор шудани SLO.
Тағир додани сатҳи нокомӣ -% релизҳо, ки ба ҳодисаҳо оварда мерасонанд.
Меъёри ҳодисаҳо аз ҷониби SEV, тақсимот аз рӯи домен (Пардохтҳо/Бозиҳо/Инфра).
Сифати ҳушдор: Таносуби ғавғо/дурӯғ, вақт ба амал пас аз ҳушдор.
Comm-SLA: мувофиқат ба басомади навсозиҳои вазъ.
12) Ҳамгироӣ бо SLO ва релизҳо
Дарвозаҳо дар CD: таблиғи канарӣ танҳо бо шахсони боэътимоди SLO сабз (мавҷудият, p95, conv, TTW).
Тартиби яхкунӣ: вақте ки fast-burn/SEV1 - пеш аз PIR релизҳоро қатъ кунед.
Эзоҳҳои худкор дар графикҳо: релизҳо/парчамҳо/муҳоҷират дар панели панелҳо намоёнанд.
13) Танзим ва мувофиқат
PII: ниқоб/бегона дар гузоришҳо/роҳҳо, мағозаҳои аудити WORM, назорати дастрасӣ.
Минтақа: Маълумоти корбарро берун аз қаламрави иҷозатдодашуда қабул накунед.
Ҳисобот: мактубҳо/огоҳиҳои ба расмият даровардашуда ба танзимгарон - қолабҳо ва раванди шиддат.
14) Омӯзиш ва омодагӣ (Рӯзи бозӣ)
Машқҳои семоҳа: "тарки PSP", "провайдери бозӣ дастнорас", "p99 surge", "ихроҷи калидӣ".
Вақтсанҷҳо дар MTTA/MTTR, ретро дар машқ.
Навсозии runabooks ва тамосҳо, санҷиши фармонҳои Chatops.
15) Рӯйхати омодагӣ (пеш аз ҳодиса)
1. Қоидаҳои SEV ва матритсаи шиддат мувофиқат карданд.
2. Ротатсияи таъйиншудаи занг, IM/TL/Comms/Scribe.
3. Runabooks барои сенарияҳои асосӣ (пардохтҳо, бозиҳо, пойгоҳи додаҳо, кэшҳо, навбатҳо).
4. Корти SLO ва огоҳиҳои сатҳи сӯхтан, саҳифаи вазъ.
5. Бот-и чат: фармонҳо, контексти худкор, қолабҳои ҳолат.
6. Қолабҳои PIR ва кортҳои ҳодиса.
7. Таҷдиди мунтазами рӯзи бозӣ ва тамос/ҳуқуқҳо.
8. Сиёсати яхкунӣ ва "тугмаи сурх" (бозгашт/куштан-гузариш).
16) Антипаттернҳо
Ягон IM вуҷуд надорад, "издиҳом боиси бесарусомонӣ ва таъхирҳо мешаванд.
Набудани дарвозаҳои SLO → муайянкунии дер, огоҳиҳои ғалоғула.
Ҳангоми рух додани ҳодиса бидуни яхкунӣ ва садамаҳои нақлиётӣ озод шавед.
Журналҳо ва роҳҳо кофӣ нестанд, артефактҳо § PIR заиф нестанд.
Фарҳанги айбдоркунӣ → хатогиҳои пинҳоншуда, тарс аз шиддат.
Иртиботи илҳомбахш → аз даст додани эътимод ба тиҷорат/корбар.
17) Қолибҳо (нусхабардорӣ ба вики шумо)
A) Корти ҳодиса (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
B) Навсозии вазъ (дохилӣ)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
C) PIR (cap)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
Хулоса
Идоракунии қавии ҳодисаҳо сохтор + интизом аст: нақшҳои қаблан мувофиқашуда, дарвозаҳои SLO, runabooks-ҳои корӣ, иртиботи шаффоф ва PIR-и "бегуноҳ". Ин ҳалқа MTTA/MTTR-ро коҳиш медиҳад, арзиши вақтро паст мекунад, эътимоди корбарро эҷод мекунад ва ба шумо имкон медиҳад, ки қавитарро озод кунед - аммо бехатар.