Hadysalary dolandyrmak
(Bölüm: Tehnologiýalar we infrastruktura)
Gysgaça gysgaça
Hadysalary dolandyrmak ulanyjy gymmatyny çalt dikeltmek we telekeçilige ýetirilen zyýany azaltmak boýunça gaýtalanýan prosesdir. Goldaw - aýdyň rollar (Incident Manager, Tech Lead, Comms), SLO-geýtlar, eskalasiýalar, ChatOps-prosesler, taýýarlanan Runabuklar we ölçelip bolýan action items bilen "zyýansyz" wakadan soňky derňewler.
1) Maksatlar we ýörelgeler
Tizlik we howpsuzlyk: çalt diagnoz → howpsuz durnuklaşdyryş → durnukly dikeldiş.
Ýeke-täk eýesi: bellenen Incident Manager (IM) prosessual kararlary kabul edýär.
Aragatnaşyk önüm hökmünde: steýkholderler we ulanyjylar üçin öňünden aýdyp boljak täzelenmeler.
Maglumatlar> Pikirler: SLO/metrika/söwda/logi - hakykat çeşmesi.
Blameless: şahsy aýyplamalar bolmazdan sebäpleri seljermek; ulgamlaýyn gowulaşmalara ünsi jemleýär.
2) Hadysalaryň klassifikasiýasy (Severity/Impact/Urgency)
Severity (mysal):- SEV1 (möhüm): girdejä/TTW/töleglere uly zyýan, ulanyjylaryň> 20% -i ýa-da tutuş sebitler; SLA bozuldy/PII howpy.
- SEV2 (ýokary): esasy akymlaryň bölekleýin pese gaçmagy (depozit/stawka/oýunlaryň başlamagy), täsiri 5-20%.
- SEV3 (orta): ikinji derejeli hyzmatlaryň ep-esli pese gaçmagy, aýlanyp geçmek bar.
- SEV4 (pes): kiçijik, çäkli täsir, SLO/SLA täsir etmezden.
Impact: kim täsir eder (ähli/sebit/tenant/kanal). Urgency: pese gaçmagyň tizligi (ýalňyşlyklaryň býudjeti boýunça fast-burn/slow-burn).
3) Wakanyň durmuş sikli
1. Detect - alertlerden/SLO/sintetikadan/hasabatlardan signal.
2. Acknowledge - on-call kabul edilendigini tassyklaýar, IM belleýär.
3. Triage - SEV/Impact çaklamasy, çaklamalary ýygnamak, War-Roomyň açylmagy.
4. Mitigate - durnuklaşdyryş (yzyna/marşruty üýtgetmek/fiziki baýlyklar/masştablamak).
5. Communicate - yzygiderli ýagdaý-täzelenmeler (içerde/daşarda).
6. Recover - SLO/iş metrikleriniň doly dikeldilmegi.
7. Close - hronologiýany düzetmek, artefaktlary ýygnamak, PIR (RCA + action items).
4) Rollar we jogapkärçilik (RACI-shema)
Incident Manager (IM) - prosesiň eýesi, rollary belleýär, wagty yzarlaýar, prosesiň kararlaryny kabul edýär (R).
Technical Lead (TL) - diagnostika/gipotezalar/fiksleri alyp barýar, inersenerleri utgaşdyrýar (A/R).
Communications (Comms) - status-täzelenmeler, goldaw/işewürlik/PR bilen aragatnaşyk, status-sahypa (R).
Scribe - teswirnama (wagt, kabul edilen kararlar, salgylanmalar, artefaktlar) (R).
Stakeholders - önüm/tölegler/oýun üpjün edijileri/howpsuzlyk (C/I).
Iň az SEV1: IM + TL + Comms + Scribe. SEV2 rollary birleşdirmäge ýol berilýär.
5) War-Room и ChatOps
Aýry-aýry kanallar: '#incident -warroom- <id>' (iş), '#incident -status' (diňe täzelenmeler).
Şablon buýruklary: '/incident start ', '/status update', '/call <owner> ', '/rollback', '/freeze ', '/scale + N'.
Bot konteksti güýçlendirýär: soňky neşirler, daşbordlar, baglanyşykly alertler, trace exemplars, endikleriň shemalary.
Aragatnaşyk düzgünleri: gysgaça, faktlar boýunça, bir spiker (TL), IM moderasiýa edýär.
6) Triggerler we geýtlar
SLO-geýtlar: fast/slow burn, töleg öwrülişiginiň peselmegi, TTW p95> bosagasy, p99 API ↑, töleg nobatlary "ýakylýar".
Awtomatiki hereketler: dur kanary, rollback, degrade-re modeimi (funksiýalary çäklendirmek), ýokary ýygylyk sintetikasyny goşmak.
Freeze: stabilizasiýa we PIR-e çenli ähli aýaklaryň çykarylmagy/göçmegi.
7) Nusgawy ssenariýalar (runabuk-patternler)
A) Tölegler: PSP-den wagtlaryň/şowsuzlyklaryň ýokarlanmagy
1. Töleg konturynyň çykarylyşyny duruzmak we doňdurmak.
2. PSP ugruny ätiýaçlyk ugruna geçiriň, syýasat boýunça wagt/retraini ýokarlandyryň.
3. Tamamlanmadyk amallary deňeşdirmek, idempotent açarlary bilen gaýtalamak.
4. Aragatnaşyk Comms → sapport: ätiýaçlyk işleýärsiňizmi? ETA.
B) API p99 ↑ we 5xx çykarylandan soň
1. Tersine (blue-green/canary → stable).
2. Keş-hitini, nobatlaryň çuňlugyny, DB/oýun üpjün edijileriniň gyzgyn nokatlaryny barlaň.
3. Wagt ölçegi, feature flags arkaly agyr şekilleri çäklendirmek.
C) Oýun üpjün ediji elýeterli däl
1. Traffigi elýeterli studiýalara/oýunlara geçiriň, status bannerini görkeziň.
2. Sintetiki barlaglary her 30-60s goşuň.
3. Kompensasiýalary/bonuslary ylalaşmak (syýasat boýunça) - PIR-e girizmek.
D) PII-e syzmak/şübhe
1. Komponentiň izolýasiýasy, açarlaryň/bellikleriň gaýtalanmagy, log ýygnamak (WORM).
2. Hukuk aragatnaşygynyň/düzgünleşdirijiligiň ylalaşylmagy.
3. Wakadan soňky hereketler: gizlin-rotasiýa, gizlemek, elýeterlilik.
8) Aragatnaşyk (içerki/daşarky)
Täzelenmeleriň ýygylygy: SEV1 - her 15-30 minutda, SEV2 - 30-60 minutda.
Içerki ýagdaý şablony:- Bozulan zat: "PSP-X arkaly goýumlar: wagtlaryň ösüşi."
- Kime täsir edildi: "TR/BR, ~ akymyny ulanyjylaryň 18% -i."
- Haçan başlandy: "12:07 EET, SEV1."
- Näme edýäris: "Marşruty PSP-Y-a geçirýäris, retralar/nyrh çäklendirmeleri bar."
- Indiki täzelenme: "20 minutdan soň."
- Aragatnaşyk: "IM @duty -im, TL @oncall -pay."
Jemgyýetçilik ýagdaýy (sahypa/sosial ulgamlar) - gysgaldylan, PII-siz we goşmaça jikme-jikliksiz, ETA we goşmaça täzelenmelere salgylanma bilen.
9) Artefaktlary ýygnamak we audit
Wakalaryň wagty (minutlyk takyklyk), hyzmatlaryň wersiýalary, surat baýdaklary, konfigurasiýalaryň üýtgemegi.
Daşbordlaryň suratlary, takmynan ýollar (trace_id), logi "öň/wagtynda/soň".
Biletlere, PR, goýberilişlere, runabuklara salgylanmalar.
Aragatnaşyk boýunça hasabat (haçan/kime/näme).
Hemme zat wakanyň kartasyna öwrülýär.
10) Ýapmak we PIR (Post-Incident Review)
PIR formaty (gysga):- Gysgaça maglumat: näme boldy, masştab, dowamlylygy, SEV.
- Täsiri: ulanyjylar/sebitler, SLO/SLA, fin. täsiri.
- Wagt aralygy: jikme-jik, minutlaýyn.
- Root Cause: Tehniki + guramaçylyk (näme üçin öň kesgitlenmedi).
- Detections & Defenses: näme kömek etdi/şowsuzlyga uçratdy (alertler, sintetika, fizeflaglar).
- Action Items: anyk meseleler, eýeler, möhletler (we täsirini nädip barlarys).
- Lessons Learned :/arhitektura/syn edilişinde näme üýtgedýäris.
Düzgünler: aýyplamasyz, iň köp faktlar, ýerine ýetirilen nokatlary barlamagyň 2-4 hepdesinden soň hökmany follow-up.
11) Prosesiň ygtybarlylygynyň metrikleri
MTTD (Mean Time to Detect) - orta tapyş wagty.
MTTA (… Acknowledge) - on-call tassyklanýança.
MTTR (… Restore) - SLO dikeldilýänçä.
"Change Failure Rate" - hadysalara sebäp bolan neşirleriň% -i.
SEV boýunça Incident Rate, domen paýlanyşy (Payments/Games/Infra).
Alert Quality: şowhunly/ýalan, alertden soňky hereket wagty.
Komm-SLA: status-täzelenmeleriň ýygylygyny berjaý etmek.
12) SLO we relizler bilen integrasiýa
CD-de geýtlar: diňe ýaşyl SLO-proxy (availability, p95, conv, TTW) bilen kanareýka mahabatlandyrylýar.
Freeze-proseduralar: fast-burn/SEV1 - PIR-e çenli goýberişleri duruzmak.
Awto-düşündirişler grafalarda: relizler/baýdaklar/göçmeler daşbordlarda görünýär.
13) Düzgünleşdiriji we komplayens
PII: bloglarda/söwdalarda, WORM-audit ammarlarynda gizlenmek/lakamlaşdyrmak, elýeterlilige gözegçilik etmek.
Sebitlilik: ulanyjy maglumatlaryny rugsat berlen ýurisdiksiýalaryň çäginden çykarmazlyk.
Hasabat: düzgünleşdirijilere resmileşdirilen hatlar/habarnamalar - şablonlar we eskalasiýa prosesi.
14) Okuw we taýýarlyk (Game-Day)
Çärýekleýin maşklar: "PSP ýykylmagy", "oýun üpjün edijisi elýeterli däl", "p99 partlama", "açar syzmagy".
Maşklar boýunça MTTA/MTTR, retro boýunça taýmerler.
Runabuklary we aragatnaşyklary täzelemek, ChatOps buýruklaryny barlamak.
15) Taýynlyk çek-sanawy (wakadan öň)
1. SEV düzgünleri we eskalasiýa matrisi ylalaşyldy.
2. On-call rotasiýa, IM/TL/Comms/Scribe bellendi.
3. Esasy ssenariler boýunça Runabuki (tölegler, oýunlar, BD, nagt pullar, nobatlar).
4. SLO-kart we burn-rate alertleri, status-sahypa.
5. ChatOps-bot: buýruklar, awtokonteks, status şablonlary.
6. PIR şablonlary we waka kartoçkalary.
7. Yzygiderli game-day we aragatnaşyklaryň/hukuklaryň barlaglary.
8. freeze syýasaty we "gyzyl düwme" (rollback/kill-switch).
16) Antipatternler
Ýekeje IM ýok, "mähelle öňde barýar" → bulam-bujarlyk we gijikdirmeler.
SLO geýtleriniň ýoklugy → giç deteksiýa, şowhunly aladalar.
freeze → kaskad şowsuzlyklary bolmazdan waka wagtynda goýberiň.
Bloglar we söwdalar ýeterlik däl, artefaktlar ýok → gowşak PIR.
Aýyplama medeniýeti → gizlin ýalňyşlyklar, güýçlenmek gorkusy.
"Ylham boýunça" aragatnaşyklar → Işewürleriň/ulanyjylaryň ynamyny ýitirmek.
17) Şablonlar (wiki göçüriň)
A) Waka kartoçkasy (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
B) Status-täzelenme (içerki)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
C) PIR (şlýapa)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
Netijeler
Wakalary güýçli dolandyrmak - bu gurluş + düzgün-nyzam: öňünden ylalaşylan rollar, SLO-geýtlar, işlenip düzülen Runabuklar, aç-açan aragatnaşyk we "zyýansyz" PIR. Şeýle konturlar MTTA/MTTR-i azaldýar, iş wagtynyň bahasyny azaldýar, ulanyjylaryň ynamyny güýçlendirýär we has batyrgaý, ýöne howpsuz çykmaga mümkinçilik berýär.