Hadisələrin idarə edilməsi
(Bölmə: Texnologiya və Infrastruktur)
Qısa xülasə
Hadisələrin idarə edilməsi istifadəçi dəyərinin tez bir zamanda bərpa edilməsi və biznesə zərərin minimuma endirilməsi prosesidir. Dayaqlar - aydın rollar (Incident Manager, Tech Lead, Comms), SLO-geytlar, eskalasiyalar, ChatOps-proseslər, hazırlanmış runabuklar və ölçülə bilən action items ilə «günahsız» post-insident təhlili.
1) Məqsədlər və prinsiplər
Sürət və təhlükəsizlik: sürətli diaqnoz → təhlükəsiz sabitləşmə → davamlı bərpa.
Yeganə sahibi: təyin edilmiş Incident Manager (IM) prosessual qərarlar qəbul edir.
Məhsul kimi rabitə: Steykholders və istifadəçilər üçün proqnozlaşdırıla bilən yeniləmə.
Verilər> rəylər: SLO/metrika/treys/log həqiqət mənbəyidir.
Blameless: şəxsi ittihamlar olmadan səbəblərin təhlili; sistem təkmilləşdirmələrinə diqqət yetirin.
2) Hadisələrin təsnifatı (Severity/Impact/Urgency)
Severity (nümunə):- SEV1 (kritik): gəlirlərə/TTW/ödənişlərə ciddi zərər,> 20% istifadəçilər və ya bütün regionlar; SLA pozuldu/PII təhlükəsi.
- SEV2 (yüksək): əsas axınların qismən deqradasiyası (depozit/bahis/oyunların başlaması), təsir 5-20%.
- SEV3 (orta): ikinci dərəcəli xidmətlərin nəzərəçarpacaq dərəcədə deqradasiyası, dolama var.
- SEV4 (aşağı): kiçik, məhdud effekt, SLO/SLA-ya təsir etmədən.
Impact: kim toxunur (bütün/region/tenant/kanal). Urgency: deqradasiya sürəti (səhv büdcəsinə görə fast-burn/slow-burn).
3) Hadisənin həyat dövrü
1. Detect - alert/SLO/sintetik/reportaj siqnalı.
2. Acknowledge - on-call qəbulu təsdiqləyir, IM təyin edir.
3. Triage - SEV/Impact qiymətləndirilməsi, hipotezlərin toplanması, War-Room-un açılması.
4. Mitigate - sabitləşdirmə (geri/marşrut keçid/ficheflags/miqyaslandırma).
5. Communicate - müntəzəm status update (daxili/xarici).
6. Recover - SLO/biznes metrik tam bərpa.
7. Close - xronologiyanın fiksasiyası, artefaktların toplanması, PIR (RCA + action items).
4) Rollar və məsuliyyət (RACI sxemi)
Incident Manager (IM) - proses sahibi, rolları təyin edir, vaxtı izləyir, proses qərarlarını qəbul edir (R).
Technical Lead (TL) - diaqnostika/hipotezlər/fikslər aparır, mühəndisləri əlaqələndirir (A/R).
Communications (Comms) - status-update, dəstək/biznes/PR, status-səhifə (R).
Scribe - protokol (taymline, qəbul edilmiş qərarlar, istinadlar, artefaktlar) (R).
Stakeholders - məhsul/ödənişlər/oyun provayderləri/təhlükəsizlik (C/I).
Minimum SEV1: IM + TL + Comms + Scribe. SEV2 rolların birləşdirilməsinə icazə verilir.
5) War-Room и ChatOps
Ayrı-ayrı kanallar: '#incident -warroom- <id>' (işçi), '#incident -status' (yalnız yenilənmə).
Şablon komandaları: '/incident start ', '/status update', '/call <owner> ', '/rollback', '/freeze ', '/scale + N'.
Bot konteksti gücləndirir: son buraxılışlar, daşbordlar, əlaqəli alertlər, trace exemplars, asılılıq sxemləri.
Ünsiyyət qaydaları: qısa, faktlara görə, bir spiker (TL), IM moderasiya edir.
6) Triggerlər və geytalar
SLO-geytlər: fast/slow burn, ödəniş dönüşümünün azalması, TTW p95> eşik, p99 API ↑, ödəniş növbələri «yanır».
Avtomatlaşdırma: stop canary, rollback, degrade rejimi (funksiyaların məhdudlaşdırılması), yüksək tezlikli sintetika.
Freeze: stabilizasiya və PIR qədər bütün relizlər/stop miqrasiya.
7) Tipik ssenarilər (runabuk-patternlər)
A) Ödənişlər: PSP-də vaxtların/fasilələrin artması
1. Stop promote və ödəniş kontur relizləri dondurma.
2. PSP marşrutunu ehtiyat marşruta keçin, siyasətə görə vaxtını/retrasını artırın.
3. Tamamlanmamış əməliyyatların yoxlanılması, idempotent açarları ilə təkrar.
4. Comms → sapport rabitə: ehtiyat işləyirsinizmi? ETA.
B) API p99 ↑ və 5xx buraxıldıqdan sonra
1. Geri çəkilmə (blue-green/canary → stable).
2. Cash-hit, növbələrin dərinliyini, DB/oyun provayderlərinin qaynar nöqtələrini yoxlayın.
3. Müvəqqəti miqyaslandırma, feature flags vasitəsilə ağır fiqurların məhdudlaşdırılması.
C) Oyun provayderi mövcud deyil
1. Mövcud studiyalara/oyunlara trafik keçin, status bannerini göstərin.
2. Hər 30-60s sintetik yoxlamaları daxil edin.
3. Kompensasiyalar/bonuslar (siyasət üzrə) razılaşdırılsın - PIR-ə daxil edilsin.
D) PII sızması/şübhəsi
1. İzolyasiya komponentləri, açar/tokenlərin revokasiyası, log yığımı (WORM).
2. Hüquqi kommunikasiyanın/tənzimləyicinin razılaşdırılması.
3. Post-insident hərəkətləri: gizli-rotasiya, maskalanma, giriş.
8) Rabitə (daxili/xarici)
Yeniləmə tezliyi: SEV1 - hər 15-30 dəqiqədə, SEV2 - 30-60 dəqiqədə.
Daxili status şablonu:- Nə qırılır: «PSP-X vasitəsilə depozitlər: zaman artımı.»
- Kimə təsir etdi: «TR/BR, ~ 18% axın istifadəçiləri.»
- Nə zaman başladı: «12:07 EET, SEV1.»
- Nə edirik: «Marşrutu PSP-Y-yə keçiririk, retralar/limitlər daxil.»
- Növbəti yeniləmə: «20 dəqiqə sonra.»
- Əlaqə: «IM @duty -im, TL @oncall -pay.»
İctimai status (səhifə/sosial şəbəkələr) - qısaldılmış, PII və lazımsız detallar olmadan, ETA və əlavə yeniləmələrə keçid ilə.
9) Artefaktların toplanması və audit
Hadisələrin taymline (dəqiqlik dəqiqliyi), xidmətlərin versiyaları, fiça bayraqları, konfiqurasiya dəyişiklikləri.
Daşbordların şəkilləri, təqribən marşrutlar (trace_id), loqlar «əvvəl/zamanı/sonra».
Bilet linkləri, PR, buraxılışlar, Runabuki.
Rabitə hesabatı (nə vaxt/kimə/nə).
Hər şey hadisənin xəritəsinə çevrilir.
10) Bağlanma və PIR (Post-Incident Review)
PIR formatı (qısa):- CV: nə baş verdi, miqyası, müddəti, SEV.
- Təsir: istifadəçilər/regionlar, SLO/SLA, fin. effekt.
- Time Line: dəqiqələrlə ətraflı.
- Root Cause: Texniki + təşkilati (niyə əvvəllər yoxlanılmadı).
- Detections & Defense: nə kömək etdi/uğursuz (alert, sintetik, phichephlages).
- Action Items: xüsusi vəzifələr, sahibləri, şərtlər (və necə təsiri yoxlamaq).
- Lessons Learned: proses/memarlıq/müşahidə nə dəyişir.
Qaydalar: ittiham olmadan, maksimum faktlar, 2-4 həftəlik yoxlamadan sonra məcburi follow-up.
11) Proses etibarlılığının metrikası
MTTD (Mean Time to Detect) - orta aşkarlama vaxtıdır.
MTTA (… Acknowledge) - on-call təsdiqlənənə qədər.
MTTR (… Bərpa) - SLO bərpa olunana qədər.
Change Failure Rate - hadisələrə səbəb olan buraxılışların% -i.
SEV üzrə Incident Rate, domen paylaması (Payments/Games/Infra).
Alert Quality: səs-küylü/saxta payı, alertdən sonra hərəkətə qədər vaxt.
Comm-SLA: status yeniləmələrinin dövriliyinə riayət edilməsi.
12) SLO və buraxılışlar ilə inteqrasiya
CD-də geytlar: yalnız yaşıl SLO-proxy (availability, p95, conv, TTW) ilə kanaryaların təşviqi.
Freeze prosedurları: fast-burn/SEV1 - PIR-ə qədər buraxılışları dayandırın.
Qraflarda avto-annotasiyalar: relizlər/bayraqlar/miqrasiyalar daşbordlarda görünür.
13) Tənzimləyici və komplayens
PII: log/treys, WORM audit anbarı, giriş nəzarəti.
Regionallıq: istifadəçi məlumatlarını icazə verilən yurisdiksiyalardan kənara çıxarmayın.
Hesabat: tənzimləyicilərə rəsmiləşdirilmiş məktublar/bildirişlər - şablonlar və eskalasiya prosesi.
14) Təlim və hazırlıq (Game-Day)
Rüblük təlimlər: «PSP düşməsi», «oyun provayderi əlçatmaz», «p99 sıçrayışı», «açar sızması».
MTTA/MTTR, retro təlimlərdə zamanlayıcılar.
Runabook və kontaktları yeniləyin, ChatOps komandalarını yoxlayın.
15) Hazırlıq yoxlama siyahısı (hadisədən əvvəl)
1. SEV qaydaları və eskalasiya matrisi razılaşdırılmışdır.
2. On-call rotasiya təyin, IM/TL/Comms/Scribe.
3. Əsas ssenarilər üzrə Runabuki (ödənişlər, oyunlar, BD, caches, növbələr).
4. SLO-kart və burn-rate risklər, status-səhifə.
5. ChatOps-bot: komandalar, avtokonteks, status şablonları.
6. PIR şablonları və hadisə kartları.
7. Müntəzəm game-day və əlaqə/hüquq reviziyaları.
8. freeze siyasəti və «qırmızı düymə» (rollback/kill-switch).
16) Antipattern
Vahid IM yoxdur, «izdiham liderdir» → xaos və gecikmələr.
SLO geytlərinin olmaması → gec deteksiya, səs-küylü həyəcanlar.
freeze → kaskad nasazlıqlar olmadan hadisə zamanı azad.
Qeydlər və treyslər kifayət deyil, artefaktlar yoxdur → zəif PIR.
Ittiham mədəniyyəti → gizli səhvlər, eskalasiya qorxusu.
Rabitə «ilham» → biznes/istifadəçi etibarının itirilməsi.
17) Şablonlar (sizin wiki kopyalayın)
A) Hadisə kartı (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
B) Status-yeniləmə (daxili)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
C) PIR (papaq)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
Nəticələr
Güclü insident idarəetməsi struktur + nizam-intizamdır: əvvəlcədən razılaşdırılmış rollar, SLO geytaları, işlənmiş runabuklar, şəffaf kommunikasiyalar və «zərərsiz» PIR. Bu kontur MTTA/MTTR azaldır, fasilələrin dəyərini azaldır, istifadəçilərin etibarını gücləndirir və daha cəsarətli, lakin təhlükəsiz buraxmağa imkan verir.