Hakyky wagt alertleri
1) Maksady we ýörelgeleri
Maksat: SLO-a, girdejä we ylalaşyga howp salýan wakalar barada zerur adamlara/ulgamlara wagtynda, takyk we maksatly habar bermek we dogry hereketleri (el bilen/awtomatiki) başlamak.
Ýörelgeler: SLO-first, sesi azaltmak, düşündirmek, kontekst, iş täsiri boýunça ileri tutmak, "bir signal - bir düşnükli hereket".
2) Signallaryň taksonomiýasy
SLO-signallary: kritiki ýollar boýunça ýalňyşlyklaryň býudjetiniň burn-rate (login, goýum, stawka, netije).
KRI: töwekgelçiligiň irki görkezijileri (bank/GEO boýunça PSP-de auth-success-iň düşmegi, ösüş consumer-lag, p99 ↑).
Wakalar: garaşlylyk çyralary, faýlower, el bilen çalyşmalar, gorag (rate-limit, WAF).
Howpsuzlyk/laýyklyk: duýgur amallaryň köpelmegi, PII eksporty, SoD düzgünleriniň bozulmagy.
3) Duýduryş derejeleri we SLA
4) Çeşmeler we kontekstiň baglanyşygy
Telemetriýa: metrikler/söwdalar/loglar, sintetika we RUM.
Kataloglar: CMDB/hyzmat-mapa, eýeler, garaşlylyk.
Üýtgeşmeler: relizler, fiçflaglar, göçmeler, meýilleşdirilen işler.
Daşarky üpjün edijiler: PSP/KYC/oýun studiýalary/CDN/WAF statuslary.
Her alert baýlaşýar: golaýda näme üýtgedi? (release/fichflag), haýsy garaýyşlar gyzyl?, haýsy segment täsir eder? (GEO/PSP/bank/tenant).
5) SLO-alerting düzgünleri (özeni)
Burn-rate: iki penjire (çalt 1h we haýal 6-24h). Habarçy - diňe bir wagtyň özünde geçende.
Guardrails: p99/error-rate üçin bosagalar diňe SLO-ny çalşyp bilmeýän kontekstleýin derňewiň triggeri bolup hyzmat edýär.
Impakt: baha "auditoriýanyň paýy × pul/min × düzgünleşdiriji" → P1-P4 derejesi.
6) Sesiň basylmagy
De-duplikasiýa: hyzmat/tenant/sebäp boýunça toparlara bölmek; onlarça signalyň ýerine bir hadysany gözden geçirýäris.
Gisterezis: N-iz-M tassyklamalar, anomaliýanyň iň az dowamlylygy.
Saýlamalar/sazlar: meýilleşdirilen işler, belli hadysalar, "follow-the-sun" penjireleri.
Reýt-çäkler we kwotalar: çeşme/bellik/tenant; "tupandan" goramak.
Kardinallygyň peselmegi: userId/sessionId-iň alert belliklerinde gadagan.
7) Marşrut we eskalasiýa
Kontekste marşrut: domen (Payments/Games/Core), gurşaw (prod/stage), sebit, agyrlyk.
Eskalasiýa: t0 - on-call L1; t0 + X - L2/domen eýesi; t0 + Y - IC/gollanma. X/Y wagty P1-P3 baglydyr.
Kanallar boýunça köpeltmek: pager + P1-de söhbetdeşlik; P3 bilen söhbetdeşlik/bilet.
Çalşyk: kontekstiň awto-geçirilmegi (timeline, ýerine ýetirilen hereketler, çaklamalar).
8) Awto-hereketler (auto-remediation)
Tölegler: PSP-ni health × fee × conversion arkaly geçirmek, banklary/usullary çäklendirmek, jitter bilen retra.
Oýunlar/jedeller: öň tarapdaky write amallaryny, queue-page/waiting-room kesişmek/çäklendirmek.
Infra: traffigi ewakuasiýa etmek, pese gaçýan workerleri täzeden başlamak, lag boýunça masştablamak.
Howpsuzlyk/gabat gelmek: PII eksportyny wagtlaýyn ýapyň, P1 amallary üçin dual-control giriziň.
Islendik awto-hereket - yzyna gaýtarmak syýasaty we yzyna gaýtarmak ölçegleri bilen.
9) Runbook-ilkinji tejribe
Her bir alert runbook bilen baglanyşyklydyr: maksat, çalt anyklaýyş (3-5 barlag), fiks/yzyna gaýtarmak ädimleri, aragatnaşyk adamlary, daşbordlara we status sahypasyna baglanyşyklar. Söhbetdeşlik/habarlaşmada hereketleriň gysgaça kartoçkasyny görkezýäris.
10) On-call syýasaty
Aýlanyş 24 × 7, domen örtügi (Payments/Game Core/SRE).
"Second on-call" P1 üçin, war-rumda iki adamyň düzgüni.
Kwiet-hours we zolaklar boýunça nobat penjireleri (follow-the-sun).
Okuw: çärýekleýin maşklar (tabletop/game-day), şadow-çalşyklar.
Ýadawlygyň öňüni almak üçin wakadan soňky karzlar (comp-time).
11) Integrasiýa
Waka-dolandyryş: kartoçkalary, täzelenme lentalaryny, IC/CL rollaryny, taýmerleri awto-döretmek.
Status-sahypa: şablonlar we lokalizasiýa bilen P1/P2 (Comms Lead arkaly) çap etmek.
Relizler: SLI boýunça release-gates, alertlerde awto-stop/rollback.
Kataloglar: eýeler, CMDB, üpjün edijileriň aragatnaşyklary.
12) Alertleriň mysallary (iGaming)
1. Auth-success PSP-1 v TR ↓ 10 minutda 25%
P2 → P1 amallaryň> 30% -ini ýapanda.
Awto-hereket: PSP-2/3 traffigini gaýtadan paýlamak; ýönekeýleşdirilen 3DS-ni açmak; alert Partner Manager.
2. p99 "nyrh → settl"> EU-da 3 × kadalar
Sebäpleri: lag replikasiýa, workerleriň nobaty.
Awto-hereket: Skale-out workers, warmup kesiş, kritiki däl hileleri wagtlaýyn öçürmek.
3. Export PII spikes
Bilet/tassyknama bolmadyk ýagdaýynda P1.
Awto-hereket: düşüriş bloky, Compliance habarnamasy, SoD barlagy.
13) Alerting hil ölçegleri (KPI/KRI)
MTTA-Comms/MTTA-Ops: reaksiýa/ilkinji hereket üçin wagt.
"Precision/Recall", "False Alarm Rate".
SLO, TTD bozulmanka lead-time (ýüze çykarylan wagt).
Pager fatigue: alertow/adam/hepde., gijeki jaňlar, "boş zatlaryň" göterimi.
Auto-fix rate: Adamsyz awto-reaksiýa bilen ýapyk meseleleriň paýy.
Aging: asylan P3/P4> X günüň paýy.
14) Gymmaty dolandyrmak
Alertler/çeşmeler üçin kwotalar, artykmaç bellikleriň kesilmegi.
Downsampling we metrik agregasiýa, sampling ýollary; synplar boýunça retensiýa.
Yzygiderli cost-review: $/alert, $/SLI-daşbord, "agyr" seriýalar.
15) Gizlinlik we gabat gelmek
Alertleriň we bellikleriň tekstinde PII ýok; kesgitleýjileriň belligi.
Giriş syýasaty (RBAC/ABAC), alert konfigurasiýalarynda SoD.
Düzgünleriň üýtgemeginiň barlagy, wersiýalaşdyryş, synaglar we diff.
16) Durmuşa geçirmegiň ýol kartasy (6-10 hepde)
Ned. 1-2: SLI/KRI katalogy, eýeleriň kartasy, P1-P4 derejeleri, ilkinji SLO düzgünleri (burn-rate).
Ned. 3-4: dedup/histerezis/sailanslar, waka-ulgam we söhbetdeşlikler, runbook-baglamalar bilen integrasiýa.
Ned. 5-6: Payments/Queues, release-gates, fid status-sahypa üçin awto hereketler.
Ned. 7-8: kontekst (relizler/fiçflaglar/üpjün edijiler), PSP ýylylyk kartlary × bank × GEO, maşklar P1/P2.
Ned. 9-10: FinOps alerting, KPI-daşbordlar, bosagalara we kwotalara täzeden garamak, on-call okatmak.
17) Artefaktlar we şablonlar
Alert Spec: metrika/şert, penjireler, basyş, eýesi, runbook, awto-hereketler.
Routing Map: domen → kanal → eskalasiýa, ätiýaçlyk aragatnaşyklar.
Silence Policy: aýdym-saz düzgünleri (meýilleşdirilen/belli hadysalar), kim goşup biler.
On-call Handbook: rotasiýa, çalşyk, P1/P2 barlag sahypalary, kanallar.
Post-Incident Pack: alertleri düşürmek/wagt çyzyklary, signallaryň hilini seljermek.
18) Antipatternler
SLO → ses we ýadawlyk bolmazdan "çig" p95/p99 jaň ediji.
Şol bir zat hakda onlarça signal (baba/korrelýasiýa ýok).
Alertde runbook ýa-da eýesi ýok.
Möwsümlilik/segmentasiýa bolmazdan "daşda" bosagasy (GEO/PSP/bank/sagat).
Awto-hereketlerden soň yzyna gaýtarylman (roll-back kriteriýalary ýok).
PII we userId bilen bellikler → töwekgelçilikler we kardinallygyň partlamasy.
Jemi
Hakyky peýdaly alerting SLO-merkezi konweýer: burn-rate bilen kontekstli düzgünler, akylly sesleri basyp ýatyrmak, aýdyň marşrut we eskalasiýa, runbook-ilkinji tejribe we ygtybarly awto hereketler. Şeýle konturlar ulanyjylardan öň möhüm wakalary ele alýar, MTTR-i peseldýär, girdejini goraýar we şol bir wagtyň özünde on-call-i "habarçy-dowzah" rutininden goraýar.