Bildirishnomalar va alertlar tizimi
(Bo’lim: Operatsiyalar va Boshqaruv)
1) Vazifasi va prinsiplari
Maqsad - kam, lekin aniq: faqat tegishli signallarni yetkazish, o’z vaqtida va mas’ul odamga/robotga tushunarli next-step bilan.
Prinsiplar:- Actionable by default: Har bir alertning egasi, ustuvorligi, javob muddati va amal qilish tugmasi mavjud.
- SLO-first: Alertlar ixtiyoriy metriklar atrofida emas, balki SLI/SLO atrofida quriladi.
- Noise-control: dedup, korrelyatsiyalar, bo’ronni bostirish.
- Context-rich: meta maʼlumotlar (mintaqa, tenant, versiya, trace_id) va runbukga havola.
- Audit-ready: barcha alertlar va reaksiyalar kvitatsiya qilinadi va o’zgarmas jurnalda saqlanadi.
2) Signal manbalari
Tech. telemetriya: foydalanish imkoniyati, p95/p99, error-rate, navbatlar, resurs limitlari.
Biznes tadbirlari: PriceMismatch, WebhookLag, RTP Drift, frod signallari.
Xavfsizlik/komplayens: SoD buzilishlari, PII kirish, kalitlar/sertifikatlarni ekspiratsiya qilish.
Rejalashtiruvchi: muddati o’tgan SLA vazifalari, DLQ ko’chkilar, retry-storms.
3) Tasniflash va ustuvorliklar
Guardrails: alertlar SLO/xato byudjetiga (burn rate) nisbatan tuziladi.
4) Routing va eskalatsiyalar 24 × 7
’region/tenant/product/provider/severity’ kontekstida routing.
Eskalatsiya zinapoyasi: on-call muhandisi → jamoaviy lid → Duty Manager → Exec/Legal (PII/moliya uchun).
Navbatchilik: rollar bo’yicha rotatsiyalar (SRE, App, Data, Security, Payments), zaxira aloqalar (chat/ovoz/SMS).
Sukunat oynalari: tungi, reliz, marketing; P1 uchun istisnolar.
5) Shovqinni kamaytirish va korrelyatsiya
Deduplikatsiya:’(fingerprint, region, tenant, route)’va’trace _ id’.
«Bo’ron» ning bosimi: faol P1 da dublikatlarni vaqtincha bostirish.
Korrelyatsiyalar: asosiy sabab atrofida signallarni guruhlash (reliz/fich/provayder).
Gisterezis: «arra» dan qochish uchun ostonaga kirish/chiqish har xil.
6) Alert tarkibi (shablon)
Sarlavha: qisqacha va batafsil - «EU/Checkout: p95> 250ms (SLO breach)».
Asosiy maydonlar: ustuvorlik, vaqt, hudud, tenant, versiya, trace_id, affected%, sababi.
Endi nima qilish kerak: birinchi 1-3 qadam + runbook/tugmalarga havola (Re-route, Rollback, Pause Promo).
Keyingi aloqa: N daqiqadan so’ng, egasi (IC/on-call).
7) Yetkazib berish kanallari
Chat/messenjer: triajning asosiy kanali (tugmali bot-kartochkalar).
Peyjer/ovoz/SMS: P1 uchun.
Pochta: hisobotlar va non-urgent (P3/Info).
Vebxuklar: tiketing/orkestrlar bilan integratsiya qilish.
Maqom-sahifa: mijozlar va hamkorlarni tashqi xabardor qilish.
8) Integratsiya va «harakatlar tugmasi»
Hodisa-bot: kartochka yaratadi, IC tayinlaydi, videomost ochadi, taymerlar boshlanadi.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Huquqlar: runalarni ishga tushirish rollar bilan cheklangan; barcha harakatlar imzolanadi va dalolatnoma tuziladi.
9) Multiregion va multi-tenant
Hududlar bo’yicha mustaqil SLO/chegaralar; mahalliy hodisalar butun dunyoni «bo’yab qo’ymaydi».
Koʻrinish filtrlari: sheriklar/tenantlar faqat oʻzlarinikini koʻradi.
Yurisdiksiya talablari: xabarnoma matnlari, tillar, vaqt mintaqalari.
10) Siyosat, jadvallar, sukunat oynalari
Alertlar siyosati: egalari, ostonalari, kanallari, eskalatsiyalari, shablonlari.
Taqvimlar: ish/ishdan tashqari vaqt, reliz/marketing oynalari.
Change freeze: katta aksiyalar paytida chegaralarni yumshatish yoki «P1 emas» ni bostirish.
11) Audit va yuridik qayd etish
Kvitansiyalar: tanqidiy alertlar uchun -’receipt _ hash’va DSSE-imzo.
WORM jurnallari: hodisalar va reaksiyalarni o’zgarmas saqlash (kim nima qilganini tasdiqladi).
Chain-of-custody: eskalatsiyalar va yechimlarni izlash.
12) Bildirishnomalar tizimining metrikasi va SLO
MTTA (acknowledge): P1 ≤ 5-10 min; P2 ≤ 30 daqiqa
Page rate/On-call load: bir smenaga signallar - maqsadli diapazonda.
False Positive%: maqsadli chegara ≤ (odatda <10-15%).
Correlation efficiency: guruhlangan signallar ulushi ≥ 80%.
Delivery SLO: chat ≥ 99. 9%, SMS/ovoz ≥ 99. 5%.
Time-to-Action: p95 alertdan runani ishga tushirish uchun.
13) Dashbordlar va reportlar
Tezkor: faol hodisalar, burn-rate, hududlar/tenantlar xaritasi, alertlar navbati.
Alertlarning sifati: shovqin, FP, ostona retestlari, «ovozsiz zonalar».
On-call yuklamasi: peyjey chastotasi, reaksiya vaqti, «out of hours».
Post-hodisa: running samaradorligi, sabablarning takrorlanishi.
14) iGaming/fintech xususiyatlari
Payments/PSP: P1 - provayderning ishlamay qolishi, avtorizatsiyaning ishlamay qolishi ko’payishi; zaxira PSPdagi avto-rout.
RTP & Limits: kuzatilayotgan RTP dreyfiga alertlar, limitlardan oshib ketish, shubhali yutuqlar namunalari.
Affiliates/vebxuklar: yetkazib berish kechikishi, dubllarning o’sishi, tasdiqlangan kvitansiyalarning pasayishi.
Price/FX/Tax: vitrinaning mos kelmasligi, artefaktlar versiyasining sinxronligi.
Mas’uliyatli o’yin: RG-triggerlar va ularni/Compliance qo’llab-quvvatlash uchun o’z vaqtida eskalatsiya qilish.
15) RACI
16) Joriy etish chek-varaqasi
- North-Star va SLI/SLO belgilash; alertlarni burn-rate bilan bog’lash.
- Siyosat katalogini kiriting: chegaralar, kanallar, eskalatsiyalar, sukunat oynalari.
- Dedupni, korrelyatsiyalarni, gisterezisni, bo’ronni bostirishni amalga oshirish.
- Ko’p mintaqaviy va multi-tenant ko’rinish qoidalarini moslash.
- «Harakat tugmalari» va runbuklarni ulash; ishga tushirish huquqini cheklash.
- WORM/kvitansiyalarni, trace_id trassalarini va run-auditni kiritish.
- Sifat dashbordlarini qurish (noise, FP, MTTA, page rate).
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Ostonalarni muntazam ravishda qayta ko’rib chiqish; A/B chegara «ovozsiz» metriklarda.
- Har oyda on-call yuklamasi va yaxshilanishlari bo’yicha hisobot.
17) Pleybuklar (referens)
PSP Outage (P1): zaxiraga avto-rout, mijozlar vaqtini pasaytirish, «kulrang» tranzaksiyalar karantini, 15 daqiqadan so’ng status-apdeyt.
WebhookLag (P2): vorkerlar/batch ko’payishi, navbatlarning ustuvorligi, ixtiyoriy endpointlarning vaqtinchalik tanaffusi.
PriceMismatch (P1/P2): keshning fors-nogironligi, solishtirish’fx _ version/tax _ rule _ version’, artefaktning qaytarilishi, kompensatsiya.
RTP Drift (P2): bonuslar/promo pauzasi, profillar auditi, kuzatuv oynasini kengaytirish.
Security: SoD/MFA fail (P1/P2): operatsiyani blokirovka qilish, JIT-qayta tekshirish, forensika va zarur hollarda Legal.
18) FAQ
Qanday qilib noto’g’ri ishlarni kamaytirish mumkin?
SLO-yo’naltirilgan qoidalar, korrelyatsiyalar, gisterezis, o’qitish oynalari va chegaralarni muntazam qayta ko’rib chiqish.
Nima muhimroq - qamrov yoki aniqlik?
P1 uchun - aniqlik va tezlik (yaxshiroq, ammo tanqidiy). P3 uchun - trendlar va qiymatni qamrab olish.
Telefon peyjingi kerakmi?
Ha, P1 uchun; chat mavjud emas yoki «yopiq» boʻlishi mumkin.
Qanday qilib on-call buyrugʻini yoqmaslik kerak?
page rate limitlari, yuklamalarni qayta taqsimlash, «follow-the-sun», oylik shovqin-suron.
Xulosa: Bildirishnomalar va alertlar tizimi signaldan harakatlanishga boshqariladigan konveyerdir. Uni SLOda quring, shovqinni o’chiring, kontekstga qarab yo’naltiring, harakat tugmalarini bering va hamma narsani qonuniy ravishda tuzating. Shunday qilib, siz MTTAni qisqartirasiz, on-call’dan yukni olib tashlaysiz va provayderlarning keskin ko’tarilishi va nosozliklarida ham biznesning barqarorligini oshirasiz.