Bildiriş və xəbərdarlıq sistemi
(Bölmə: Əməliyyatlar və İdarəetmə)
1) Təyinat və prinsiplər
Məqsəd az, lakin dəqiq çatdırmaqdır: yalnız müvafiq siqnallar, vaxtında və məsuliyyətli bir insana/robota başa düşülən next-step.
Prinsiplər:- Actionable by default: Hər bir alertin sahibi, prioriteti, reaksiya müddəti və fəaliyyət düyməsi var.
- SLO-first: Alertlər ixtiyari metriklər ətrafında deyil, SLI/SLO ətrafında qurulur.
- Noise-control: dedup, korrelyasiya, fırtına yatırılması.
- Context-rich: metadata (region, tenant, versiya, trace_id) və runbook link.
- Audit-ready: Bütün risklər və reaksiyalar hesablanır və dəyişməz jurnalda saxlanılır.
2) Siqnal mənbələri
Tech. telemetriya: əlçatanlıq, p95/p99, error-rate, növbələr, resurs limitləri.
Biznes tədbirləri: PriceMismatch, WebhookLag, RTP Drift, frod siqnalları.
Təhlükəsizlik/uyğunluq: SoD pozuntuları, PII giriş, açar/sertifikatların ekspirasiyası.
Planlayıcı: vaxtı keçmiş SLA tapşırıqları, DLQ uçqunları, retry-storms.
3) Təsnifat və prioritetlər
Guardrails: böhtanlar SLO/büdcə səhvləri (burn rate) ilə bağlı formalaşdırılır.
4) Marşrut və eskalasiya 24 × 7
Kontekstə görə routing: 'region/tenant/product/provider/severity'.
Eskalasiya pilləkəni: on-call mühəndis → komanda lideri → Duty Manager → Exec/Legal (PII/maliyyə üçün).
Növbətçilik: rollar üzrə rotasiyalar (SRE, App, Data, Security, Payments), ehtiyat kontaktlar (chat/səs/SMS).
Sükut pəncərələri: gecə, reliz, marketinq; P1 üçün istisnalar.
5) Səs-küy azaldılması və korrelyasiya
Deduplikasiya: '(fingerprint, region, tenant, route)' və 'trace _ id'.
"Fırtına 'nın təzyiqi: aktiv P1-də dublikatların müvəqqəti yatırılması.
Korrelyasiya: kök səbəb ətrafında siqnalların qruplaşdırılması (release/fich/provayder).
Histeresis: giriş/çıxış «mişar» qarşısını almaq üçün fərqlidir.
6) Alert məzmunu (şablon)
Başlıq: qısa və ətraflı - «EU/Checkout: p95> 250ms (SLO breach)».
Əsas sahələr: prioritet, vaxt, region, tenant, versiya, trace_id, affected%, sahə. səbəb.
İndi nə etmək lazımdır: ilk 1-3 addım + runbook/düymələrə keçid (Re-route, Rollback, Pause Promo).
Növbəti rabitə: N dəqiqə sonra, sahibi (IC/on-call).
7) Çatdırılma kanalları
Chat/messencer: triajın əsas kanalı (düyməli bot kartları).
Пейджер/səs/SMS: P1 üçün.
Poçt: hesabatlar və qeyri-urgent (P3/Info).
Vebhuki: tiketinq/orkestratorlarla inteqrasiya.
Status-səhifə: müştərilərə və tərəfdaşlara xarici bildiriş.
8) İnteqrasiya və «hərəkət düymələri»
Hadisə-bot: kart yaradır, IC təyin edir, videomost açır, zamanlayıcılar başlayır.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Hüquqlar: runs rolları ilə məhdudlaşır; Bütün hərəkətlər imzalanır və loglaşdırılır.
9) Multiregion və multi-tenant
Bölgələr üzrə müstəqil SLO/eşiklər; yerli hadisələr bütün dünyanı «rəngləmir».
Görünürlük filtrləri: tərəfdaşlar/tenantlar yalnız özlərini görürlər.
Yurisdiksiya tələbləri: bildiriş mətnləri, dillər, saat kəmərləri.
10) Siyasətlər, cədvəllər, sükut pəncərələri
Alert siyasəti: sahibləri, eşiklər, kanallar, eskalasiyalar, şablonlar.
Təqvimlər: iş/qeyri-iş vaxtı, buraxılış/marketinq pəncərələri.
Change freeze: Böyük promosyonlar zamanı «P1 olmayan» məhdudiyyətlərin yumşaldılması və ya yatırılması.
11) Audit və hüquqi fiksasiya
Qəbzlər: kritik alertlər üçün - 'receipt _ hash' və DSSE-imza.
WORM jurnalları: hadisələrin və reaksiyaların dəyişməz saxlanması (kim nə etdiyini təsdiqlədi).
Chain-of-custody: eskalasiya və həllərin izi.
12) Metrik və SLO bildiriş sistemi
MTTA (acknowledge): P1 ≤ 5-10 dəq; P2 ≤ 30 dəq.
Page rate/On-call load: növbə siqnalları - hədəf diapazonda.
Yanlış Pozitiv%: Hədəf həddi ≤ (adətən <10-15%).
Correlation efficiency: qruplaşdırılmış siqnalların payı ≥ 80%.
Delivery SLO: chat ≥ 99. 9%, SMS/səs ≥ 99. 5%.
Time-to-Action: p95 alert rune başlamaq üçün.
13) Daşbordlar və Reportsiyalar
Əməliyyat: aktiv insidentlər, burn-rate, regionların/tenantların xəritəsi, alertlərin növbəsi.
Alertlərin keyfiyyəti: səs-küy, FP, eşik retestləri, «səssiz zonalar».
On-call yükü: page tezliyi, reaksiya vaxtı, «out of hours».
Post-insident: runes səmərəliliyi, təkrarlanabilirlik səbəbləri.
14) iGaming/Fintech xüsusiyyətləri
Payments/PSP: P1 - provayderin uğursuzluğu, icazələrin uğursuzluğunun artması; ehtiyat PSP avto-rout.
RTP & Limits: Müşahidə olunan RTP sürüklənməsi, həddi aşma, şübhəli qalibiyyət nümunələri.
Affiliates/webhucks: çatdırılma gecikməsi, dubl artımı, təsdiqlənmiş qəbzlərin düşməsi.
Price/FX/Tax: vitrin uyğunsuzluğu, artefaktların versiyası.
Məsuliyyətli oyun: RG tetikləyiciləri və/Compliance-a dəstək olaraq onların vaxtında eskalasiyası.
15) RACI
16) Giriş çek siyahısı
- North-Star və SLI/SLO müəyyən; burn-rate ilə alert bağlamaq.
- Siyasət kataloqunu daxil edin: eşiklər, kanallar, eskalasiyalar, sükut pəncərələri.
- Deadup, korrelyasiya, histerezis, fırtına yatırılması həyata.
- Multi-regional və multi-tenant görünürlük qaydaları konfiqurasiya.
- «hərəkət düymələri» və runbook bağlamaq; start hüquqlarını məhdudlaşdırmaq.
- WORM/qəbzləri, izləmə trace_id və run auditini daxil edin.
- Keyfiyyət daşbordları (noise, FP, MTTA, page rate).
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Eşikləri mütəmadi olaraq nəzərdən keçirmək; A/B eşikləri «səssiz» metriklərdə.
- On-call yükü və təkmilləşdirilməsi haqqında hesabat aylıq.
17) Playbook (referans)
PSP Outage (P1): ehtiyat avto-rout, müştərilərin vaxtının azaldılması, «boz» əməliyyatların karantini, 15 dəqiqə sonra status-update.
WebhookLag (P2): workers/batch artırmaq, növbə prioritet, isteğe bağlı end-point müvəqqəti fasilə.
PriceMismatch (P1/P2): fors-əlil cache, müqayisə 'fx _ version/tax _ rule _ version', artefaktın geri qaytarılması, kompensasiya.
RTP Drift (P2): bonus/promo fasiləsi, profil auditi, müşahidə pəncərəsinin genişləndirilməsi.
Security: SoD/MFA fail (P1/P2): əməliyyat bloklanması, JIT-yoxlama, forensika və lazım olduqda Legal.
18) FAQ
Saxta pozuntuları necə azaltmaq olar?
SLO yönümlü qaydalar, korrelyasiya, histerezis, təlim pəncərələri və eşiklərin müntəzəm yenidən baxılması.
Daha vacib olan - əhatə və ya dəqiqlik?
P1 üçün - dəqiqlik və sürət (daha yaxşı, lakin kritik). P3 üçün - trendlərin əhatə dairəsi və dəyəri.
Telefon çağrı lazımdır?
Bəli, P1 üçün; chat əlçatmaz və ya «qapalı» ola bilər.
Necə on-call komanda «yandırmaq» deyil?
page rate limitləri, yüklərin yenidən bölüşdürülməsi, «follow-the-sun», aylıq səs-küy.
Xülasə: Bildiriş və alertlər sistemi siqnaldan işə idarə olunan konveyerdir. SLO-da qurun, səs-küyü söndürün, kontekstə istiqamətləndirin, hərəkət düymələrini verin və hər şeyi qanuni olaraq düzəldin. Belə ki, siz MTTA-nı azaltırsınız, on-call yükünü aradan qaldırırsınız və provayderlərin kəskin sıçrayışları və uğursuzluqları ilə belə biznesin sabitliyini artırırsınız.