Real vaqtdagi alertlar
1) Maqsad va prinsiplar
Maqsad: SLO, tushum va komplayensga tahdid soluvchi voqealar haqida kerakli odamlarni/tizimlarni o’z vaqtida, aniq va manzilli ravishda xabardor qilish va to’g "ri harakatlarni (qo’lda/avtomatik) boshlash.
Tamoyillar: SLO-first, shovqinni kamaytirish, tushuntirish qobiliyati, kontekst, biznes ta’siri bo’yicha ustuvorlik, «bitta signal - bitta tushunarli harakat».
2) Signallar taksonomiyasi
SLO-signallar: tanqidiy yo’llar bo’yicha xatolar budjeti burn-rate (login, depozit, stavka, xulosa).
KRI: xavfning dastlabki indikatorlari (bank/GEO bo’yicha PSPda auth-success pasayishi, consumer-lag o’sishi, p99 ↑).
Hodisa: qaramlik flaplari, failover, qo’lda o’zgartirish, himoyalarning ishga tushirilishi (rate-limit, WAF).
Xavfsizlik/komplayens: sezgir operatsiyalarning ko’payishi, PII eksporti, SoD buzilishi.
3) Ogohlantirishlar darajasi va SLA
4) Kontekstning manbalari va korrelyatsiyasi
Telemetriya: metriklar/treyslar/loglar, sintetika va RUM.
Kataloglar: CMDB/servis-mapa, egalari, qaramliklar.
Oʻzgarishlar: relizlar, fichflaglar, migratsiyalar, rejali ishlar.
Tashqi provayderlar: PSP/KYC/oʻyin studiyalari/CDN/WAF maqomlari.
Har bir alert boyib ketadi: yaqin atrofda nima oʻzgardi? (reliz/fichflag), qanday qaramliklar qizil?, qaysi segment ta’sir qiladi? (GEO/PSP/bank/tenant).
5) SLO-alerting qoidalari (yadro)
Burn-rate: ikkita deraza (tez 1 soat va sekin 6-24 soat). Peyjer - faqat bir vaqtning o’zida oshib ketganda.
Guardrails: p99/error-rate chegaralari faqat kontekstni tahlil qilish uchun trigger boʻlib xizmat qiladi, SLO oʻrnini bosmaydi.
Impakt: «auditoriya ulushi × pul/min × regulyator» bahosi → P1-P4 darajasi.
6) Shovqinni bostirish
Deduplikatsiya: servis/tenant/sabab bo’yicha guruhlash; o’nlab signallar o’rniga bitta voqeani ko’rib chiqamiz.
Gisterezis: N-iz-M tasdig’i, anomaliyaning minimal davomiyligi.
Saylens/myutlar: rejali ishlar, taniqli hodisalar, «follow-the-sun» derazalari.
Reyt-limitlar va kvotalar: manbaga/leybl/tenantga; «bo’ron» dan himoya qilish.
Kardinallikni kamaytirish: userId/sessionId alert yorliqlarida taqiqlangan.
7) Yo’naltirish va eskalatsiyalar
Kontekstga ko’ra routing: domen (Payments/Games/Core), muhit (prod/stage), mintaqa, og’irlik.
Eskalatsiyalar: t0 - on-call L1; t0 + X - L2/domen egasi; t0 + Y - IC/qoʻllanma. Vaqt X/Y P1-P3 bogʻliq.
Kanallar boʻyicha takrorlash: pager + P1 chat; P3 chat/chiptasi.
Smena: kontekstni avto-uzatish (timeline, bajarilgan harakatlar, gipotezalar).
8) Avto-harakatlar (auto-remediation)
To’lovlar: PSPni health × fee × conversion orqali o’zgartirish, banklarni/usullarni cheklash, jitter bilan retrajlar.
O’yinlar/stavkalar: kesh-wedge/cheklash write-operatsiyalar, queue-page/waiting-room frontda.
Infra: trafikni evakuatsiya qilish, tanazzulga uchraydigan vorkerlarni restart qilish, lag bo’yicha masshtablash.
Xavfsizlik/komplayens: PII eksportini vaqtincha yopish, P1 operatsiyalari uchun dual-control kiritish.
Har qanday avto-harakat - qaytarish siyosati va qaytarish mezonlari bilan.
9) Runbook-birinchi tajriba
Har bir alert runbook bilan bog’liq: maqsad, tezkor diagnostika (3-5 tekshirish), fix/qaytarish qadamlari, aloqada bo’lgan shaxslar, dashbordlar va maqom sahifasiga havolalar. Chat/peyjer orqali harakatlarning qisqacha kartasini koʻrsatamiz.
10) On-call siyosat
24 × 7 aylantirish, domenlar bilan qoplash (Payments/Game Core/SRE).
«Second on-call» P1 uchun, varrumda ikki kishining qoidasi.
Quiet-hours va zonalar bo’yicha navbatchi derazalar (follow-the-sun).
O’qitish: har choraklik mashg’ulotlar (tabletop/game-day), shadow-smenalar.
Yonib ketmaslik uchun hodisadan keyingi kreditlar (comp-taym).
11) Integratsiya
Hodisa-menejment: avto- kartochkalar, yangilanishlar lentalari, IC/CL rollari, taymerlar.
Maqom sahifasi: P1/P2 chop etish (Comms Lead orqali).
Relizlar: SLI bo’yicha release-gates, alertlarda avto-stop/rollback.
Kataloglar: egalari, CMDB, provayder aloqalari.
12) Alertlar misollari (iGaming)
1. Auth-success v PSP-1 v TR ↓ 10 daqiqa uchun 25%
P2 → P1> 30% tranzaksiyalarni qamrab olganda.
Avto harakat: PSP-2/3 trafigini qayta taqsimlash; soddalashtirilgan 3DSni kiritish; alert Partner Manager.
2. p99 «stavka → settl»> 3 × EU normalari
Sabablari: lag replikatsiya, vorkerlar navbati.
Avto- harakat: skale-out vorkerlar, warmup kesh, vaqtincha o’chirib qo’yish muhim bo’lmagan fichlar.
3. Export PII spikes
P1 - tiket/ma’qullash mavjud bo’lmaganda.
Avto-harakat: tushirish bloki, Compliance xabarnomasi, SoD tekshiruvi.
13) Alerting sifati metrikasi (KPI/KRI)
MTTA-Comms/MTTA-Ops: reaksiyaga/birinchi harakatga qadar vaqt.
Precision/Recall, False Alarm Rate.
SLO, TTD buzilgunga qadar Lead-time (aniqlash vaqti).
Pager fatigue: alertov/kishi/hafta., tungi qo’ng’iroqlar, «bo’sh joylar» foizi.
Auto-fix rate: odamsiz avto-reaksiya bilan yopilgan muammolar ulushi.
Aging: osilgan P3/P4> X kun ulushi.
14) Qiymatni boshqarish
Alertlar/manbalar uchun kvotalar, ortiqcha leybllarni kesish.
Downsampling va metriklar agregatsiyasi, sempling trassalari; sinflar bo’yicha retensiyalar.
Muntazam cost-review: $/alert, $/SLI-dashboard, «og’ir» seriyalar.
15) Maxfiylik va komplayens
Alertlar va yorliqlar matnida PIIsiz; identifikatorlarni tokenlashtirish.
Kirish siyosati (RBAC/ABAC), SoD alert konfiguratsiyasida.
Qoidalarni o’zgartirish auditi, versiyalash, test va diff.
16) Joriy etish yo’l xaritasi (6-10 hafta)
Ned. 1-2: SLI/KRI katalogi, egalari xaritasi, P1-P4 darajalari, birinchi SLO qoidalari (burn-rate).
Ned. 3-4: dedup/gisterezis/saylenslar, hodisa tizimi va chatlar bilan integratsiya, runbook-bog’lamalar.
Ned. 5-6: Payments/Queues, release-gates uchun avto harakatlar, fid maqom sahifasi.
Ned. 7-8: kontekst (relizlar/fichflaglar/provayderlar), PSP issiqlik kartalari × bank × GEO, o’quv P1/P2.
Ned. 9-10: FinOps alerting, KPI-dashbordlar, chegaralar va kvotalarni qayta ko’rib chiqish, on-kolla o’qitish.
17) Artefaktlar va shablonlar
Alert Spec: metrika/shart, derazalar, bostirish, egasi, runbook, avto harakatlar.
Routing Map: domen → kanal → eskalatsiya, zaxira aloqalar.
Silence Policy: myut qoidalari (rejali/ma’lum hodisalar), kim kiritishi mumkin.
On-call Handbook: rotatsiyalar, smenalar, P1/P2 chek varaqalari, kanallar.
Post-Incident Pack: alertlarni tushirish/vaqtinchalik chiziqlar, signallar sifatini tahlil qilish.
18) Antipatternlar
SLO’siz «xom» p95/p99 peyjer → shovqin va charchoq.
Bir narsa haqida o’nlab signallar (dedup/korrelyatsiya yo’q).
Runbook yoki egasi mavjud emas.
Mavsumiylik/segmentatsiyasiz «toshda» chegara (GEO/PSP/bank/soat).
Avtomatik harakatlardan keyin qaytarilmasdan (roll-back mezonlari mavjud emas).
PII va userId bilan yorliqlar → xavf-xatarlar va kardinallikning portlashi.
Jami
Haqiqiy foydali alerting - bu SLO-markaziy konveyer: burn-rate kontekstli qoidalar, shovqinni aqlli bostirish, aniq routing va eskalatsiyalar, runbook-birinchi tajriba va xavfsiz avto harakatlar. Bunday kontur foydalanuvchilardan oldin tanqidiy voqealarni ushlaydi, MTTRni kamaytiradi, daromadni himoya qiladi va bir vaqtning o’zida u-call-ni «peyjer-do’zax» rutinidan saqlaydi.