Yük və risklərin proqnozlaşdırılması
1) Niyə lazımdır
Yük və risklərin proqnozlaşdırılması infrastruktur və prosesləri pik hadisələrə (buraxılışlar, turnirlər, promosyon kampaniyaları, matçlar, bayramlar) əvvəlcədən hazırlamaq, büdcə fasilələrini və həddindən artıq xərcləri minimuma endirmək imkanı verir. Nəticələr üçün istifadə olunur:- kapasite planlaşdırma (capacity planning) və büdcə;
- SLO/SLI parametrləri, səhv büdcələri və alertinq siyasəti;
- buraxılış strategiyasının seçilməsi (canary, blue-green, dark launch);
- risklərin idarə edilməsi: deqradasiyanın, növbələrin, əməliyyatların, SLA cərimələrinin qarşısını almaq.
2) Əsas anlayışlar
Yük (Yük): Daxil olan hadisələrin/əməliyyatların intensivliyi (RPS, TPS, events/sec), həmçinin CPU/RAM/IO/NET istehlakı.
Kapasite: müəyyən SLO və dəyəri ilə davamlı əldə edilə bilən performans.
Risk: arzuolunmaz hadisənin ehtimalı × təsiri (SLA-uğursuzluq, hadisə, həddindən artıq istehlak).
Erkən göstəricilər: hadisədən əvvəl böyüyən metriklər (latency p95/p99, queue depth, GC pauses, error rate, saturation).
Təhlükəsizlik marjası (Headroom): Mövcud tutumun cari yükə nisbəti.
3) Məlumat mənbələri və metrika
Mənbələr: loqlar və metriklər (Prometheus/OTel), izlər, biznes hadisələri (Kafka), CDN/WAF/ALB loqlar, marktex məlumatları (kampaniyalar), hadisə təqvimləri, billing/sümüklər (FinOps), fitness/buraxılışlar, növbələr (Kafka/Rabbit), BD/caches.
Açar metriklər:- Trafik: RPS/TPS, aktiv istifadəçilər (DAU/MAU), sessiyalar, addım çevirmə.
- Performans: latency p50/p95/p99, throughput, səhvlər (4xx/5xx), timeouts, retries.
- Ресурсы: CPU/LoadAvg, RAM/GC, disk IOps/lat, network bw, connection pool usage.
- Növbələr: backlog, lag, consumer lag, time-in-queue.
- БД: QPS, lock waits, slow queries, replication lag.
- Кэши: hit ratio, eviction rate, hot keys.
- Biznes səviyyəsi: dəqiqədə depozitlər/dərəcələr, ödəniş uğursuzluqları, KYC/AML növbəsi.
- Etibarlılıq: SLI/SLO, error budget burn rate (1h/6h/24h).
4) Əsas proqnozlaşdırma modelləri
1. Determinik və təqvim: məşhur sürücülər (tarix/vaxt, matçlar, turnirlər, market-hovuzlar, geo, səhmdar toplar) reqressiya.
2. Statistik: mövsümlük/trend (ARIMA/ETS), bayramlarla reqressiya, Prophet kimi yanaşmalar.
3. ML/Ensemble: qradiyent gücləndirici/Random Forest/XGBoost/LightGBM; fiçlər əlavə: hava, valyuta məzənnəsi, idman xəbərləri, rəqib hadisələr.
4. Qarışıq: ekzogen amillər üçün əsas mövsümlük + ML üçün statistika (kampaniyalar, buraxılışlar).
5. Kvotalar/kvantillər: headroom planlaşdırılması üçün yalnız orta deyil, həm də p90/p95 proqnozu.
Model çıxışları: RPS/TPS proqnozu və etibarlı intervallarla T + 1h/T + 24h/T + 7d/T + 30d üfüqlərdə gecikmə/səhv paylanması.
5) Növbələr və məhdudiyyətlər: mini-nəzəriyyə
L = λ × W (sistemdə orta miqdar = intensivlik × orta vaxt).
Dar yerlər: BD/Cache/Shine/Pool bağlantıları/API provayderlərinin limitləri.
Saturation: yüklədikdə> 70-80% gecikmə qeyri-xətti artır.
Backpressure: istehlakçıların həddindən artıq yükdən qorunması (limitlər, növbələr, shed-siyasətlər, fich deqradasiyası).
6) Kapasite planlaşdırılması (Capacity Planning)
«SLO 'dan» metodu: tələb olunan p99-latentlik və icazə verilən error rate → headroom N% -də hansı throughput saxlanılır.
«Ssenarilərdən» metodu: «Çempionlar Liqası matçı», «Qara Cümə», «Miqyaslı turnir» → üst trafik kvantilləri + bir AZ/qovşağın uğursuzluğu.
«cost-aware» metodu: endirimlər, rezervasyonlar, spot/abunələr, autoscaling nəzərə alınmaqla $/RPS konfiqurasiyaları seçin.
Artefaktlar: Capacity Model per xidməti, limitlər və kvotalar (API, DB, növbələr), «dar yer → hərəkət» cədvəli (şardlama, keşləmə, replika, CQRS, async).
7) Risklərin idarə edilməsi
Risk reyestri: identifikator, təsvir, ehtimal, təsir (maliyyə/SLA/tənzimləyici), sahibləri, profilaktika/reaksiya planları.
Kateqoriyalar: yükləmə (həddindən artıq yükləmə), infrastruktur (AZ/region fail), asılılıq (ödəniş provayderləri), buraxılış (reqres), ərzaq (kampaniya gözləniləndən daha çox yüksəlib), komplayens (limitlər/tənzimləyici).
Matris: Heatmap (Low/Medium/High × Impact).
KRI (Key Risk Indicators): xətaların dərinliyi, p99 artımı, hit-ratio, burn rate> 2 ×, provayderlərin səhvləri.
8) Erkən xəbərdarlıq və alertinq
Early-warning SLIs: p95 artım, cache hit azalma, tail latency artım, retry/timeout artım, consumer lag artım.
Burn-rate səhv büdcə riskləri: sürətli (1h) və yavaş (6-24h) pəncərələr.
Eşik və anomaliya bazalı alertlər: əsas eşiklər + anomaliya modelləri (IQR, STL, axın detektorları).
Siqnalların aqreqasiyası: deqradasiya ilə relizlər/fitness/kampaniyalar hadisələrinin korelyasiyası.
9) Ssenari təhlili və «what-if»
«Trafik artımı 10 dəqiqə ərzində + 60% olarsa?»
«Əgər CDN/WAF 5% legitim trafik kəsir?»
«Ödəniş provayderi icazələrin 30% -ni itirirsə?»
Hər bir ssenari üçün: gözlənilən metriklər, dar yerlər, deqradasiya addımları (kritik olmayan fich off toggle), əl/avtomatik skail, provayderlərin keçid.
10) Test və proqnozların yoxlanılması
Yükləmə testləri: sintetik trafik (k6/JMeter/Locust), «real qarışıq» profilləri.
Game Days/Chaos: AZ-ın kəsilməsi, BD-nin deqradasiyası, hovuzun tükənməsi.
Shadow/Dark: Prod təsir etmədən yeni yolun «kölgəsinə» trafik.
Dəqiqlik retrospektivi: MAPE/SMAPE/RMSE + post-mortem "harada səhv? ”.
11) Proseslər və rollar
RACI:- Responsible: SRE/Platform/DS-analitiklər.
- Accountable: Head of Ops/SRE.
- Consulted: Dev Leads, Marketing, Finance (FinOps).
- Informed: Support/Compliance/Business.
- Kadens: həftəlik proqnozların yenilənməsi, SLO/Capacity-nin aylıq yenidən baxılması, əvvəlcədən tədbirlər.
12) Alətlər və yığın
Verilənlər: Kafka, ClickHouse/BigQuery, Lake/DWH, dbt.
Monitorinq: Prometheus, Grafana, Tempo/Jaeger, Loki/ELK, OTEL.
ML/Proqnozlar: Airflow/Argo, feature store, ARIMA/ETS/GBM modelləri, proqnoz xidməti (gRPC/REST).
Тесты: k6/JMeter/Locust, Fault-injection/Chaos Mesh.
İdarəetmə: Feature Flags, Autoscaling (HPA/KEDA), Policy-as-Code.
FinOps: cost explorer, showback/chargeback, $/RPS dashboard.
13) Praktik tətbiq metodikası (roadmap)
1. Metriklərin və asılılıqların inventarlaşdırılması → kritik yolların xəritəsi (depozit, dərəcə, nəticə).
2. SLO/SLI və səhv büdcələri → hədəf p95/p99, error-rates, burn-alertlər.
3. Məlumatların toplanması və təmizlənməsi → hadisələrin/metriklərin vahid təbəqəsi, deduplikasiya, gecikmə.
4. Əsas mövsümlük proqnozu → gündəlik/həftəlik nümunələr, bayramlar/matçlar.
5. Genişlənmə sürücüləri → market kampaniyaları, buraxılışlar, geo, ödəniş pəncərələri.
6. Capacity modelləri → headroom xidmətləri, limitlər, dar yerlər, optimallaşdırma planı.
7. «what-if» ssenariləri və deqradasiya cədvəli (kill-switches, read-only, grace).
8. Testlər/kölgələr vasitəsilə yoxlama → model və eşik düzəlişləri.
9. Əməliyyat rutini → həftəlik proqnozlar, əvvəlcədən review, postivent retro.
10. Avtomatlaşdırma → Avtoskeyl, provayderlərin avto-keçid, avto-fitness.
14) Antipattern
p95/p99 quyruqsuz «yalnız orta» proqnozu.
Ignor növbələr və hovuzlar - problemlər zirvəyə çıxır.
Validasiya və dəqiqlik metrikləri olmadan «Əl ilə gözə».
Xərclərlə əlaqəsi yoxdur → həddindən artıq miqyaslı.
Deqradasiya planının və fitzeflagların olmaması.
15) Daşbordlar və hesabatlar
Exec dashboard: RPS/TPS proqnozu (p50/p90/p95), headroom, risk istilik kartı, burn-rate.
Texniki dashboard: p95/p99 latency services, növbələr/lag, hit-ratio, qoşulma hovuzu, DB/cache, xarici API limitləri.
Maliyyə: $/RPS, xərclər proqnozu, optimallaşdırma effekti.
Proqnozların dəqiqliyi: real vs proqnoz, dövrlər/geo/kanallar üzrə səhv.
16) Artefakt şablonları
Risk Register: ID, risk, ehtimal/təsir, sahibi, KRI, prevention planı, reaksiya planı.
Capacity Sheet: xidmət, cari throughput, limit, dar yer, headroom, tələb olunan genişləndirmə, ETA/qiymət.
What-If Cards: ssenari, giriş faktorları, gözlənilən metriklər, hərəkətlər, tamamlama meyarı.
Playbook Degrade: Off üçün Fich siyahısı, QoS səviyyələri, cache/static marşrutları, retry/timeout limitləri.
17) Əsas KPI funksiyaları
SLO yerinə yetirilməsi (məqsədli dövrlər%), erkən göstəricilərə reaksiya vaxtı, proqnozların dəqiqliyi (MAPE/SMAPE), həddindən artıq yüklənmə hadisələrinin sayı, avtomatik miqyasların payı, SLO deqradasiyası olmadan $/RPS qənaət.
Yekun
Yük və risklərin sistemli proqnozlaşdırılması bir dəstədir: keyfiyyət məlumatları → mənalı metriklər → yoxlanılan modellər → ssenarilər və playbooks → miqyas və deqradasiyanın avtomatlaşdırılması. Belə bir kontur hətta ekstremal zirvələrdə sabitlik, xərclərin proqnozlaşdırılması və sabit istifadəçi təcrübəsi təmin edir.