Əməliyyat və İdarəetmə → Hadisələrin nəticələrinin azaldılması
Hadisələrin nəticələrinin azaldılması
1) Məqsəd və prinsiplər
Məqsəd: xidmətin uğursuzluğunda hadisənin artmasının qarşısını almaq və zərəri minimuma endirmək: fasilə vaxtı, pul, nüfuz və tənzimləyici risklərə görə.
Prinsiplər:- Containment first: uğursuzluğun yayılmasını dayandırın (blast radius ↓).
- Graceful degradation: «heç işləmir» daha yaxşı «pis işləyir».
- Decouple & fallback: müstəqil komponentlər və təhlükəsiz alternativlər.
- Decision speed> perfect info: sürətli geri qaytarıla bilən hərəkətlər (feature flag, route switch).
- Communicate early: bir həqiqət mənbəyi, aydın statuslar və ETA mərhələləri.
2) Hadisə modeli və nəticələrin taksonomiyası
Təsir: istifadəçilər (region, seqment), pul (GGR/NGR, prosessinq), komplayens (KYC/AML), tərəfdaşlar/provayderlər.
Növləri: performans deqradasiyası, qismən asılılıq uğursuzluğu (PSP, KYC, oyun provayderi), reliz regressiyası, məlumat hadisəsi (vitrin gecikməsi/ETL), DDoS/Spark yük.
Səviyyələr (P1-P4): kritik core-flow fasiləsindən yerli qüsura qədər.
3) Nəticələrin azaldılması nümunələri (texniki)
3. 1 Lokalizasiya və blast radius məhdudlaşdırılması
Şərtlər/regionlar üzrə təcrid: problemli şard/regionu söndürürük, qalanları fəaliyyətini davam etdirir.
Circuit Breaker: səhvlər/vaxtlar asılılığının tez bir zamanda aradan qaldırılması ⇒ işçilərin qorunması.
Bulkhead (arakəsmələr): kritik yollar üçün ayrı-ayrı birləşmə/növbələr hovuzları.
Traffic Shadowing/Canary: tam keçid qədər yeni versiyası vasitəsilə trafik hissəsinin qaçışı.
3. 2 Idarə olunan deqradasiya (graceful)
Read-only rejimi: naviqasiya və tarixi saxlayarkən mutasiyaların müvəqqəti bloklanması (məsələn, dərəcələr/depozitlər).
Funksional kəsilmələr: ikinci dərəcəli widget/lendskape, ağır tövsiyələr, «isti» axtarışlar.
Cash-follback: stale-cache-dən xidməti cavablar (stale-while-revalidate), sadələşdirilmiş modellər.
Sadələşdirilmiş limitlər: betch/səhifə ölçüsünün azaldılması, TTL uzadılması, bahalı filtrlərin bağlanması.
3. 3 Yükün idarə edilməsi
Shed/Throttle: «ədalətli» artıq sorğular atmaq: IP/açar/end-point, core əməliyyatları prioritet ilə.
Backpressure: istehlakçıların lag istehsalçılarının məhdudlaşdırılması; Jitter ilə retry dinamikası.
Queue shaping: P1-flow (ödənişlər, avtorizasiya) və fon analitikası üçün xüsusi növbələr.
3. 4 Sürətli açarlar
Feature Flags & Kill-switch: Problemli ficin buraxılmadan dərhal söndürülməsi.
Traffic Routing: Provayderin dəyişdirilməsi (PSP A → B), datacenterdən yan keçmək, «isti» replikaya keçid.
Toggle konfiqurasiyaları: vaxtlar, retrajlar, QPS limitləri - audit mərkəzi vasitəsilə.
3. 5 Məlumatlar və hesabatlar
Gecikmiş mutasiyalar: sonrakı çatdırılma ilə outbox/log qeyd.
Müvəqqəti denormallaşma: materiallaşdırılmış vitrinlərdən oxumaqla DB yükünü azaltmaq.
Degrade BI: müvəqqəti olaraq «saat 12:00 UTC-də məlumat» işarəsi ilə last-good-snapshot göstərin.
4) Domen nümunələri (iGaming)
KYC provayderinin uğursuzluğu: alternativ provayderi daxil edirik; «aşağı riskli» limitlər üçün - azaldılmış hesab limitləri ilə sadələşdirilmiş ssenari üzrə müvəqqəti yoxlama.
PSP-nin yüksək gizliliyi: yerli pul kisələrinə müvəqqəti üstünlük, ödəniş limitlərinin azaldılması, ödənişlərin bir hissəsinin «T + Δ» növbəsinə qoyulması.
Oyun provayderində uğursuzluq: xüsusi titulları/provayderi gizlədirik, lobbilərimizi və alternativlərimizi saxlayırıq, «İş gedir, X/Y cəhd edin» bannerini göstəririk.
5) Təşkilat və rollar (ICS - Incident Command System)
IC (Incident Commander): vahid koordinasiya, hərəkətlərin prioritetləşdirilməsi.
Ops Lead/SRE: containment, rutinqlər, fich bayraqları, infrastruktur.
Comms Lead: status yeniləmələri, status səhifələri, daxili chat/poçt.
Subject Matter Owner: təsirlənmiş alt sistemin sahibi (PSP, KYC, oyun provayderi).
Liaison biznes üçün: məhsul, dəstək, maliyyə, uyğunluq.
Scribe: time line, həllər, post-mortem üçün artefaktlar.
Qayda: aktiv "war-room 'da 7 ± 2 nəfərdən çox olmayan, qalanları -" sorğu əsasında ".
6) Rabitə
Kanallar: status-səhifə, daxili #incident-kanal, PagerDuty/teleskop, yeniləmə şablonları.
Temperatur: P1 - hər 15-20 dəqiqə; P2 - 30-60 dəq.
Yeniləmə şablonu: nə qırıldı → kimə təsir etdi → artıq nə edildi → növbəti addım → növbəti yeniləşmə zamanı göstərici.
Müştəri dəstəyi: L1/L2 üçün əvvəlcədən hazırlanmış makroslar və FAQ, «qismən deqradasiya» markerləri, kompensasiya siyasəti.
7) Uğur metrikası və tetikləyicilər
MTTD/MTTA/MTTR, Time containment, SLO Burn Rate (1h/6h/24h pəncərə).
Revenue at risk: seqmentlər üzrə itirilmiş GGR/NGR qiymətləndirilməsi.
Blast radius%: istifadəçilərin/regionların/funksiyaların təsiri altındadır.
Comms SLA: status yeniləmələrinin vaxtında.
False-positive/false-negative alerts, ikincili hadisələr.
- p95 açar API> astanası 5 dəq ardıcıl → cache follback və trottling daxildir.
- Consumer lag> 2 dəq → qeyri-kritik istehsalçıları dondurun, işçiləri qaldırın.
- PSP success <97% 10 min → trafikin payını ehtiyat PSP-yə köçürün.
8) Playbook (sıxılmış)
8. 1 «Gizlilik ↑ u/api/deposit»
1. Error% və PSP-xarici taymautları yoxlayın → Qısa taymautları və jitter retrausları daxil edin.
2. Limitlər/kataloqlar cachini işə salın, «yerində» ağır yoxlamaları söndürün.
3. Trafiki qismən ehtiyat PSP-yə köçürün.
4. Riskləri azaltmaq üçün ödəniş/depozit limitlərini müvəqqəti olaraq azaltmaq.
5. Post-fix: indeks/denorm, asenkronluğu artırın.
8. 2 «KYC asılır»
1. Alternativ provayderə keçin, məhdudiyyətlərlə «sadələşdirilmiş KYC» daxil edin.
2. Artıq keçənlər üçün KYC statuslarını önbelleğe alın.
3. Rabitə: profildə banner, ETA.
8. 3 «ETL/BI geri qalır»
1. Panelləri «stale» + timestamp ilə işarələyin.
2. Ağır yenidənqurma dayandırın, inkremental daxil edin.
3. Cob paralelliyi ↑, KPI əməliyyat vitrinləri üçün prioritet.
9) Hadisə öncəsi dizayn həlli (proaktiv)
Fich bayraqlar cədvəli: end-pointlər/provayderlər/vidjetlər üzrə atom açarları.
Trottlinq/şeddinq siyasəti: prioritetlər üzrə əvvəlcədən razılaşdırılmış «bürünc/gümüş/qızıl» səviyyələri.
Deqradasiya testləri: müntəzəm «fire-drills», game-days, xaos-eksperimentlər (gecikmələr/səhvlər əlavə).
Xarici asılılıq kvotaları: limitlər, səhv büdcəsi, backoff strategiyaları.
Runbook 'i: qısa addım-addım təlimat və komandalar/nümunələri ilə konfiqs.
10) Təhlükəsizlik və uyğunluq
Fail-safe: deqradasiya zamanı - pozuntu riski ilə əməliyyatları bloklamaq, «retrayaları gücləndirmək» deyil.
PII və maliyyə məlumatları: əl ilə gəzinti zamanı - ciddi audit, minimal imtiyazlar, tokenizasiya.
İzlər: IC/operatorların tam fəaliyyət jurnalı, bayraqların/konfiqurasiyaların dəyişdirilməsi, vaxt xəttinin ixracı.
11) Anti-nümunələr
«Aydın olana qədər gözləyirik» - containment qızıl vaxt itkisi.
«Qələbəyə qədər retrayları bükün» - qar topası və asılılıq fırtınası.
Seqmentasiya olmadan qlobal fich bayraqları - şam söndürün, şəhərdə elektrik deyil.
«Qorxutmamaq üçün» sükut - biletlərin artması, etimad itkisi.
Yoxlama olmadan kövrək əl prosedurları - uyğunluq riski.
12) Çek vərəqləri
Kritik dəyişikliklərdən əvvəl
- Kanarya marşrutu + sürətli geri dönüş (feature flag).
- SLO guardrails və p95/error%.
- Asılı xidmətlərə yük simulyasiya edilmişdir.
- Rabitə planı və sahibləri.
Hadisə zamanı
- Müəyyən IC və rabitə kanalları.
- containment tətbiq (izolyasiya/bayraqlar/routes).
- Idarə olunan deqradasiya aktivdir.
- Status-səhifə yenilənib, dəstək bildirilib.
Hadisədən sonra
- Post-mortem ≤ 5 iş günü, heç bir «günahkar axtarır».
- Sahibləri və müddəti ilə fəaliyyət.
- Təkrarlanabilirlik testi: ssenari səsləndirilir və alertlər/testlərlə əhatə olunur.
- Oyunlar və təlimlər yeniləndi.
13) Mini artefaktlar (şablonlar)
Müştərilər üçün status şablonu (P1):- Nə oldu → Təsir → Kök səbəbi → Nə işlədi/işləmədi → Uzun müddətli fiks → Action items (sahibləri/şərtləri).
14) Yekun
Hadisələrin nəticələrinin azaldılması sürətli və geri qaytarıla bilən qərarların intizamıdır: lokallaşdırmaq, idarəolunan deqradasiya etmək, yükü yenidən bölüşdürmək, şəffaf ünsiyyət qurmaq və təkmilləşdirmələri möhkəmləndirmək. Siz bu gün bir dəqiqəlik «taktiki sabitlik» qazanırsınız və onu sabah strateji sabitliyə çevirirsiniz.