GH GambleHub

Əməliyyat və İdarəetmə → Hadisələrin nəticələrinin azaldılması

Hadisələrin nəticələrinin azaldılması

1) Məqsəd və prinsiplər

Məqsəd: xidmətin uğursuzluğunda hadisənin artmasının qarşısını almaq və zərəri minimuma endirmək: fasilə vaxtı, pul, nüfuz və tənzimləyici risklərə görə.

Prinsiplər:
  • Containment first: uğursuzluğun yayılmasını dayandırın (blast radius ↓).
  • Graceful degradation: «heç işləmir» daha yaxşı «pis işləyir».
  • Decouple & fallback: müstəqil komponentlər və təhlükəsiz alternativlər.
  • Decision speed> perfect info: sürətli geri qaytarıla bilən hərəkətlər (feature flag, route switch).
  • Communicate early: bir həqiqət mənbəyi, aydın statuslar və ETA mərhələləri.

2) Hadisə modeli və nəticələrin taksonomiyası

Təsir: istifadəçilər (region, seqment), pul (GGR/NGR, prosessinq), komplayens (KYC/AML), tərəfdaşlar/provayderlər.
Növləri: performans deqradasiyası, qismən asılılıq uğursuzluğu (PSP, KYC, oyun provayderi), reliz regressiyası, məlumat hadisəsi (vitrin gecikməsi/ETL), DDoS/Spark yük.
Səviyyələr (P1-P4): kritik core-flow fasiləsindən yerli qüsura qədər.

3) Nəticələrin azaldılması nümunələri (texniki)

3. 1 Lokalizasiya və blast radius məhdudlaşdırılması

Şərtlər/regionlar üzrə təcrid: problemli şard/regionu söndürürük, qalanları fəaliyyətini davam etdirir.
Circuit Breaker: səhvlər/vaxtlar asılılığının tez bir zamanda aradan qaldırılması ⇒ işçilərin qorunması.
Bulkhead (arakəsmələr): kritik yollar üçün ayrı-ayrı birləşmə/növbələr hovuzları.
Traffic Shadowing/Canary: tam keçid qədər yeni versiyası vasitəsilə trafik hissəsinin qaçışı.

3. 2 Idarə olunan deqradasiya (graceful)

Read-only rejimi: naviqasiya və tarixi saxlayarkən mutasiyaların müvəqqəti bloklanması (məsələn, dərəcələr/depozitlər).
Funksional kəsilmələr: ikinci dərəcəli widget/lendskape, ağır tövsiyələr, «isti» axtarışlar.
Cash-follback: stale-cache-dən xidməti cavablar (stale-while-revalidate), sadələşdirilmiş modellər.
Sadələşdirilmiş limitlər: betch/səhifə ölçüsünün azaldılması, TTL uzadılması, bahalı filtrlərin bağlanması.

3. 3 Yükün idarə edilməsi

Shed/Throttle: «ədalətli» artıq sorğular atmaq: IP/açar/end-point, core əməliyyatları prioritet ilə.
Backpressure: istehlakçıların lag istehsalçılarının məhdudlaşdırılması; Jitter ilə retry dinamikası.
Queue shaping: P1-flow (ödənişlər, avtorizasiya) və fon analitikası üçün xüsusi növbələr.

3. 4 Sürətli açarlar

Feature Flags & Kill-switch: Problemli ficin buraxılmadan dərhal söndürülməsi.
Traffic Routing: Provayderin dəyişdirilməsi (PSP A → B), datacenterdən yan keçmək, «isti» replikaya keçid.
Toggle konfiqurasiyaları: vaxtlar, retrajlar, QPS limitləri - audit mərkəzi vasitəsilə.

3. 5 Məlumatlar və hesabatlar

Gecikmiş mutasiyalar: sonrakı çatdırılma ilə outbox/log qeyd.
Müvəqqəti denormallaşma: materiallaşdırılmış vitrinlərdən oxumaqla DB yükünü azaltmaq.
Degrade BI: müvəqqəti olaraq «saat 12:00 UTC-də məlumat» işarəsi ilə last-good-snapshot göstərin.

4) Domen nümunələri (iGaming)

KYC provayderinin uğursuzluğu: alternativ provayderi daxil edirik; «aşağı riskli» limitlər üçün - azaldılmış hesab limitləri ilə sadələşdirilmiş ssenari üzrə müvəqqəti yoxlama.
PSP-nin yüksək gizliliyi: yerli pul kisələrinə müvəqqəti üstünlük, ödəniş limitlərinin azaldılması, ödənişlərin bir hissəsinin «T + Δ» növbəsinə qoyulması.
Oyun provayderində uğursuzluq: xüsusi titulları/provayderi gizlədirik, lobbilərimizi və alternativlərimizi saxlayırıq, «İş gedir, X/Y cəhd edin» bannerini göstəririk.

5) Təşkilat və rollar (ICS - Incident Command System)

IC (Incident Commander): vahid koordinasiya, hərəkətlərin prioritetləşdirilməsi.
Ops Lead/SRE: containment, rutinqlər, fich bayraqları, infrastruktur.
Comms Lead: status yeniləmələri, status səhifələri, daxili chat/poçt.
Subject Matter Owner: təsirlənmiş alt sistemin sahibi (PSP, KYC, oyun provayderi).
Liaison biznes üçün: məhsul, dəstək, maliyyə, uyğunluq.
Scribe: time line, həllər, post-mortem üçün artefaktlar.

Qayda: aktiv "war-room 'da 7 ± 2 nəfərdən çox olmayan, qalanları -" sorğu əsasında ".

6) Rabitə

Kanallar: status-səhifə, daxili #incident-kanal, PagerDuty/teleskop, yeniləmə şablonları.
Temperatur: P1 - hər 15-20 dəqiqə; P2 - 30-60 dəq.
Yeniləmə şablonu: nə qırıldı → kimə təsir etdi → artıq nə edildi → növbəti addım → növbəti yeniləşmə zamanı göstərici.
Müştəri dəstəyi: L1/L2 üçün əvvəlcədən hazırlanmış makroslar və FAQ, «qismən deqradasiya» markerləri, kompensasiya siyasəti.

7) Uğur metrikası və tetikləyicilər

MTTD/MTTA/MTTR, Time containment, SLO Burn Rate (1h/6h/24h pəncərə).
Revenue at risk: seqmentlər üzrə itirilmiş GGR/NGR qiymətləndirilməsi.
Blast radius%: istifadəçilərin/regionların/funksiyaların təsiri altındadır.
Comms SLA: status yeniləmələrinin vaxtında.
False-positive/false-negative alerts, ikincili hadisələr.

Deqradasiya triggerləri (nümunələr):
  • p95 açar API> astanası 5 dəq ardıcıl → cache follback və trottling daxildir.
  • Consumer lag> 2 dəq → qeyri-kritik istehsalçıları dondurun, işçiləri qaldırın.
  • PSP success <97% 10 min → trafikin payını ehtiyat PSP-yə köçürün.

8) Playbook (sıxılmış)

8. 1 «Gizlilik ↑ u/api/deposit»

1. Error% və PSP-xarici taymautları yoxlayın → Qısa taymautları və jitter retrausları daxil edin.
2. Limitlər/kataloqlar cachini işə salın, «yerində» ağır yoxlamaları söndürün.
3. Trafiki qismən ehtiyat PSP-yə köçürün.
4. Riskləri azaltmaq üçün ödəniş/depozit limitlərini müvəqqəti olaraq azaltmaq.
5. Post-fix: indeks/denorm, asenkronluğu artırın.

8. 2 «KYC asılır»

1. Alternativ provayderə keçin, məhdudiyyətlərlə «sadələşdirilmiş KYC» daxil edin.
2. Artıq keçənlər üçün KYC statuslarını önbelleğe alın.
3. Rabitə: profildə banner, ETA.

8. 3 «ETL/BI geri qalır»

1. Panelləri «stale» + timestamp ilə işarələyin.
2. Ağır yenidənqurma dayandırın, inkremental daxil edin.
3. Cob paralelliyi ↑, KPI əməliyyat vitrinləri üçün prioritet.

9) Hadisə öncəsi dizayn həlli (proaktiv)

Fich bayraqlar cədvəli: end-pointlər/provayderlər/vidjetlər üzrə atom açarları.
Trottlinq/şeddinq siyasəti: prioritetlər üzrə əvvəlcədən razılaşdırılmış «bürünc/gümüş/qızıl» səviyyələri.
Deqradasiya testləri: müntəzəm «fire-drills», game-days, xaos-eksperimentlər (gecikmələr/səhvlər əlavə).
Xarici asılılıq kvotaları: limitlər, səhv büdcəsi, backoff strategiyaları.
Runbook 'i: qısa addım-addım təlimat və komandalar/nümunələri ilə konfiqs.

10) Təhlükəsizlik və uyğunluq

Fail-safe: deqradasiya zamanı - pozuntu riski ilə əməliyyatları bloklamaq, «retrayaları gücləndirmək» deyil.
PII və maliyyə məlumatları: əl ilə gəzinti zamanı - ciddi audit, minimal imtiyazlar, tokenizasiya.
İzlər: IC/operatorların tam fəaliyyət jurnalı, bayraqların/konfiqurasiyaların dəyişdirilməsi, vaxt xəttinin ixracı.

11) Anti-nümunələr

«Aydın olana qədər gözləyirik» - containment qızıl vaxt itkisi.
«Qələbəyə qədər retrayları bükün» - qar topası və asılılıq fırtınası.
Seqmentasiya olmadan qlobal fich bayraqları - şam söndürün, şəhərdə elektrik deyil.
«Qorxutmamaq üçün» sükut - biletlərin artması, etimad itkisi.
Yoxlama olmadan kövrək əl prosedurları - uyğunluq riski.

12) Çek vərəqləri

Kritik dəyişikliklərdən əvvəl

  • Kanarya marşrutu + sürətli geri dönüş (feature flag).
  • SLO guardrails və p95/error%.
  • Asılı xidmətlərə yük simulyasiya edilmişdir.
  • Rabitə planı və sahibləri.

Hadisə zamanı

  • Müəyyən IC və rabitə kanalları.
  • containment tətbiq (izolyasiya/bayraqlar/routes).
  • Idarə olunan deqradasiya aktivdir.
  • Status-səhifə yenilənib, dəstək bildirilib.

Hadisədən sonra

  • Post-mortem ≤ 5 iş günü, heç bir «günahkar axtarır».
  • Sahibləri və müddəti ilə fəaliyyət.
  • Təkrarlanabilirlik testi: ssenari səsləndirilir və alertlər/testlərlə əhatə olunur.
  • Oyunlar və təlimlər yeniləndi.

13) Mini artefaktlar (şablonlar)

Müştərilər üçün status şablonu (P1):
💡 Aİ regionunda X provayderindən ödənişlərin qismən deqradasiyasını yaşayırıq. Depozitlər alternativ üsullarla mövcuddur. Biz yan keçidi işə saldıq və tərəfdaşla işləyirik. Növbəti yeniləmə - 20 dəqiqə sonra.
Post-mortem şablonu (1 səh.):
  • Nə oldu → Təsir → Kök səbəbi → Nə işlədi/işləmədi → Uzun müddətli fiks → Action items (sahibləri/şərtləri).

14) Yekun

Hadisələrin nəticələrinin azaldılması sürətli və geri qaytarıla bilən qərarların intizamıdır: lokallaşdırmaq, idarəolunan deqradasiya etmək, yükü yenidən bölüşdürmək, şəffaf ünsiyyət qurmaq və təkmilləşdirmələri möhkəmləndirmək. Siz bu gün bir dəqiqəlik «taktiki sabitlik» qazanırsınız və onu sabah strateji sabitliyə çevirirsiniz.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.