GH GambleHub

Real vaxt alertləri

1) Məqsəd və prinsiplər

Məqsəd: SLO, gəlir və komplayensiyanı təhdid edən hadisələr barədə lazımi insanları/sistemləri vaxtında, dəqiq və məqsədyönlü şəkildə xəbərdar etmək və düzgün hərəkətlər (əl/avtomatik) etmək.
Prinsipləri: SLO-first, səs-küyün minimuma endirilməsi, izaholunma, kontekst, biznes təsiri prioritetləşdirilməsi, 'bir siqnal bir başa düşülən hərəkətdir ".


2) Siqnalların taksonomiyası

SLO siqnalları: kritik yollar (giriş, depozit, bahis, çıxarış) üzrə büdcə səhvləri.
KRI: erkən risk göstəriciləri (bank/GEO üzrə PSP-də auth-success-in düşməsi, artım consumer-lag, p99 ↑).
Hadisə: asılılıq flap, failover, əl dəyişdirmə, qoruyucuların işə salınması (rate-limit, WAF).
Təhlükəsizlik/uyğunluq: həssas əməliyyatların artması, PII ixracı, SoD pozuntuları.


3) Səviyyələr və SLA xəbərdarlıqları

SəviyyəNümunəKanalReaksiyaSLA ilk cavab
P1Bölgədə mövcud olmayan depozitlər/dərəcələr, PII sızmasıPager (zəng/Push), növbətçi var-roomDərhal avtomatik hərəkətlər + on-call≤ 5 dəqiqə
P2Güclü deqradasiya p99, PSP problemi banklardaPager/prioritet chatPəncərə müdaxiləsi≤ 15 dəqiqə
P3Lokal deqradasiya/bypass varÇat/SorğuPlanlaşdırılmış düzəliş≤ 60 dəqiqə
P4Bildirişlər/tendensiyalarSorğu/poçtAnaliz/PlanCədvələ görə

4) Mənbələr və kontekstin korrelyasiyası

Telemetriya: metriklər/treys/loqlar, sintetika və RUM.
Kataloqlar: CMDB/servis-mapa, sahibləri, asılılıqlar.
Dəyişikliklər: buraxılışlar, fiçflaglar, miqrasiyalar, planlı işlər.
Xarici provayderlər: PSP/KYC/oyun studiyaları/CDN/WAF statusları.
Hər bir alert zənginləşir: yaxınlıqda nə dəyişdi? (release/fichflag), hansı asılılıqlar qırmızı?, hansı seqment təsir edəcək? (GEO/PSP/bank/tenant).


5) SLO-alertinq qaydaları (nüvə)

Burn-rate: iki pəncərə (sürətli 1h və yavaş 6-24h). Peycer - yalnız eyni vaxtda aşdıqda.
Guardrails: p99/error-rate eşikləri SLO-nu əvəz etməyən yalnız kontekst analizi üçün tetikleyici rolunu oynayır.
Impact: qiymətləndirilməsi «auditoriya payı × pul/dəq × tənzimləyici» → P1-P4 səviyyəsi.


6) Səs-küyün yatırılması

Deduplikasiya: xidmət/tenant/səbəb üzrə qruplaşdırma; onlarca siqnal əvəzinə bir hadisəni araşdırırıq.
Histeresis: N-in-M təsdiqləri, anomaliyanın minimal müddəti.
Saylens/musiqilər: planlı işlər, məşhur hadisələr, «follow-the-sun» pəncərələri.
Reyt limitləri və kvotalar: mənbə/etiket/tenant; «fırtına» qorunması.
Kardinallığın azaldılması: userId/sessionId alert etiketlərində qadağan edilmişdir.


7) Marşrutlaşdırma və eskalasiya

Kontekstə görə marşrutlaşdırma: domen (Payments/Games/Core), mühit (prod/stage), region, ağırlıq.
Eskalasiya: t0 - on-call L1; t0 + X - L2/domen sahibi; t0 + Y - IC/təlimat. X/Y vaxtı P1-P3 asılıdır.
Kanallarda dublyaj: pager + P1 chat; P3 chat/bilet.
Dəyişiklik: kontekstin avtomatik ötürülməsi (timeline, yerinə yetirilmiş hərəkətlər, fərziyyələr).


8) Avtomatik hərəkətlər (auto-remediation)

Ödənişlər: PSP-nin health × fee × conversion vasitəsilə dəyişdirilməsi, bankların/metodların məhdudlaşdırılması, jitter ilə retrajlar.
Oyunlar/bahislər: cache-wedge daxil/write-əməliyyatları məhdudlaşdırmaq, ön queue-page/waiting-room.
Infra: trafikin boşaldılması, deqradasiya işçilərinin yenidən başlaması, lag miqyası.
Təhlükəsizlik/uyğunluq: PII ixracını müvəqqəti bağlamaq, P1 əməliyyatları üçün dual-control daxil etmək.
Hər hansı bir avtomatik hərəkət - geri qaytarma siyasəti və geri dönüş meyarları ilə.


9) Runbook-ilk təcrübə

Hər bir alert runbook ilə bağlıdır: məqsəd, sürətli diaqnostika (3-5 yoxlamalar), fiks/geri addım, əlaqə, dashboard linkləri və status səhifəsi. Söhbət/peycer qısa hərəkət kartı göstərir.


10) On-call siyasət

24 × 7 rotasiya, domen örtüyü (Payments/Game Core/SRE).
P1 üçün «Second on-call», var-room iki adamın qaydası.
Quiet-hours və zonalar üzrə növbə pəncərələri (follow-the-sun).
Təlim: rüblük təlimlər (tabletop/game-day), shadow-növbələr.
Post-insident kreditlər (comp-time) tükənməmək üçün.


11) İnteqrasiya

Hadisə menecmenti: kartların avtomatik yaradılması, yeniləmə lentləri, IC/CL rolları, zamanlayıcılar.
Status-səhifə: şablonlar və lokalizasiya ilə P1/P2 (Comms Lead vasitəsilə) nəşr.
Relizlər: SLI release-gates, alertlər zamanı avtomatik-stop/rollback.
Kataloqlar: sahibləri, CMDB, provayder əlaqə.


12) Alert nümunələri (iGaming)

1. Auth-success in PSP-1 in TR ↓ 10 dəqiqə üçün 25%

P2 → P1> 30% əməliyyat əhatə edir.
Avtomatik hərəkət: PSP-2/3 trafikini yenidən bölüşdürün; sadələşdirilmiş 3DS daxil edin; alert Partner Manager.

2. p99 «mərc → settl»> AB-də 3 × normalar

Səbəbləri: lag replikasiya, workers növbəsi.
Avtomatik hərəkət: scale-out workers, warmup cache, müvəqqəti qeyri-kritik ficks söndürmək.

3. Export PII spikes

Bilet/təsdiq olmadıqda P1.
Avtomatik hərəkət: boşaltma bloku, Compliance bildirişi, SoD yoxlaması.


13) Alertinq keyfiyyət metrikası (KPI/KRI)

MTTA-Comms/MTTA-Ops: reaksiya/ilk hərəkət əvvəl vaxt.
Precision/Recall, False Alarm Rate.
SLO, TTD (aşkarlama vaxtı) pozulmadan əvvəl lider vaxt.
Pager fatigue: alert/adam/həftə., Gecə zəngləri, faiz «boş».
Auto-fix rate: İnsan olmadan avtomatik reaksiya ilə bağlı problemlərin payı.
Yaşlanma: P3/P4> X gün asma payı.


14) Dəyərin idarə edilməsi

Alertlər/mənbələr üçün kvotalar, həddindən artıq etiketlərin kəsilməsi.
Downsampling və metrik aqreqasiya, sampling trass; siniflər üzrə retensiyalar.
Müntəzəm cost-review: $/alert, $/SLI-dashboard, «ağır» seriyası.


15) Gizlilik və uyğunluq

Alert və etiketlərin mətnində PII yoxdur; identifikatorların tokenizasiyası.
Giriş siyasəti (RBAC/ABAC), SoD alert konfiqurasiyasında.
Qaydaların dəyişdirilməsi auditi, versiyalaşdırma, testlər və diff.


16) Yol xəritəsi (6-10 həftə)

Ned. 1-2: SLI/KRI kataloqu, sahiblərinin xəritəsi, P1-P4 səviyyələri, ilk SLO qaydaları (burn-rate).
Ned. 3-4: dedup/histerezis/saylens, hadisə sistemi və söhbətlər, runbook bağları ilə inteqrasiya.
Ned. 5-6: Payments/Queues, release-gates, fid status-səhifəsi üçün avtomatik hərəkətlər.
Ned. 7-8: kontekst (relizlər/fitflaglar/provayderlər), PSP istilik kartları × bank × GEO, P1/P2 təlimləri.
Ned. 9-10: FinOps alerting, KPI-dashboard, eşik və kvota yenidən baxılması, on-call təlim.


17) Artefaktlar və şablonlar

Alert Spec: metrika/şərt, pəncərələr, boğma, sahibi, runbook, avtomatik hərəkətlər.
Routing Map: domen → kanal → eskalasiya, ehtiyat kontaktlar.
Silence Policy: musiqi qaydaları (planlı/məşhur hadisələr), kim daxil edə bilər.
On-call Handbook: rotasiyalar, növbə, P1/P2 yoxlama vərəqləri, kanallar.
Post-Incident Pack: alertlərin boşaldılması/vaxt xətləri, siqnalların keyfiyyətinin təhlili.


18) Antipattern

SLO → səs-küy və yorğunluq olmadan «xam» p95/p99 peycer.
Eyni şey haqqında onlarla siqnal (heç bir baba/korrelyasiya).
Runbook və ya sahibinin olmaması.
Mövsümlük/seqmentasiya olmadan «daşda» eşik (GEO/PSP/bank/saat).
Avtomatik hərəkətlərdən sonra geri qaytarılmadan (roll-back meyarları yoxdur).
PII və userId ilə etiketlər → risklər və partlayış kardinallığı.


Yekun

Həqiqətən faydalı alertinq SLO-mərkəzli konveyerdir: burn-rate ilə kontekst qaydalar, ağıllı səs-küy yatırma, aydın marşrut və eskalasiya, runbook ilk təcrübə və təhlükəsiz avtomatik hərəkətlər. Belə bir kontur istifadəçilərdən əvvəl kritik hadisələri tutur, MTTR-i azaldır, gəliri qoruyur və eyni zamanda on-call-ı «peycer-cəhənnəm» rutinindən qoruyur.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.