Güc planlaşdırılması və yük artımı
Qısa xülasə
Güc gözlənilən yük artımı və uğursuzluqlarla hədəf SLO-ya tab gətirmək qabiliyyətidir. Əsas:1. Tələb proqnozu (əsas trend + mövsümlük + tədbirlər).
2. Yükləmə modeli (internet üçün open-model).
3. Təhlükəsizlik marjası (headroom) və səhv büdcə.
4. Ölçmə (üfüq/şaquli/avtomatik) + məhdudlaşdırıcılar (rate-limit/backpressure).
5. Maliyyə: $/1000 RPS, $/ms p95, TCO ssenariləri.
Terminlər və metriklər
Throughput: RPS/QPS/CPS - faktiki bant genişliyi.
Latency p95/p99: xüsusi yollar üçün hədəf SLO.
Saturation: CPU/yaddaş/IO/FD/qoşulma/növbə yükləmək.
Error rate: 5xx/timeout/429, dövr üçün səhv büdcə.
Headroom: pik trafikdə pulsuz güc payı (30% ≥ tövsiyə olunur).
Burst: qısa müddətli sıçrayış (saniyə/dəqiqə), Spike: kəskin artım × N.
Əsas modellər və formullar
Little 's Law (növbəli sistemlər üçün)
L = λ W
L - sistemdə orta sorğu sayı, λ - orta giriş intensivliyi (RPS), W - sistemdə orta vaxt. Növbələrin dərinliyini qiymətləndirmək üçün faydalıdır.
Yükləmə əmsalı (ρ)
ρ = λ / μ
μ - xidmət sürəti (100% CPU-da RPS). ρ → 1 latentlik qeyri-xətti artır - ρ ≤ 0 iş nöqtəsini saxlayın. 6–0. 75.
Safety factor/ehtiyat
Capacity_required = Peak_load (1 + Headroom) Degradation_factor
Burada Degradation_factor N imtinasını, cache deqradasiyasını, bir RO/region itkisini (məsələn, 1. 2).
Tələb proqnozu
1. Tarix: gündəlik/həftəlik profillər, mövsümilik, hadisələrlə korrelyasiya (matçlar/axınlar/ödənişlər).
2. Tədbirlər: ssenari əmsalları (adi gün × 1, turnir × 2. 3, final × 3. 5).
3. Dalğalanma mənbələri: marketinq kampaniyaları, buraxılışlar, botların anomaliyaları.
4. Proqnoz vahidləri: marşrutlar üzrə RPS (login, lobby, catalog, payments), CPS TLS, QPS DB, IOPS disk, egress Gb/c.
5. Etibar: iki ssenari saxlayın - mühafizəkar və aqressiv.
Yükün modelləşdirilməsi
Open-model (Poisson-oxşar giriş): ictimai API/web üçün inandırıcı - sizing üçün istifadə edin.
Closed-model (VU + think-time): daxili ardıcıllıqlar üçün uyğun; birləşdirin.
Marşrutların qarışıqları: end nöqtələri üzrə çəki payları; yalnız «isti» deyil, həm də «bahalı» (qeydiyyat, depozit) daxil edin.
Unutmayın: retralar, növbələr, tərəfdaşların limitləri (PSP, üçüncü tərəf API).
Təhlükəsizlik ehtiyatının dizaynı
Headroom hədəf: ≥ 30% pik (internet üçün); ödəniş nüvəsi və kritik yollar üçün - 40-50%.
N + 1/N + 2: SLO pozulmadan 1-2 instansiya/zonanın nasazlığına tab gətiririk.
Multi-region: Hər bir bölgə ümumi zirvənin 60% ≥ çəkir (qonşunun itkisini yaşamaq üçün).
Degrade rejimi: ikinci dərəcəli funksiyaları söndürmək, payload azaltmaq, cache/stab cavabları yandırmaq.
Laylara görə Sizing
Şəbəkə/Edge
Ön CPS/RPS, TLS-handshake p95, resumption ≥ 70%, egress Gbit/s.
Anycast/Geo-routing, CDN/WAF limitləri (əvvəlcədən razılaşdırın).
Ehtiyat: link/aplink ≥ pik × 1. 3, ehtiyat ilə SYN backlog, H3 üçün UDP/443.
Balans/Proxy
RPS instant, open connections, növbələr, CPU/IRQ.
Keepalive və connection pooling - backends əlaqələri azaldır.
Ehtiyat: ρ ≤ 0. 7, limiter по CPS/RPS per route.
Proqramlar
Platoda nüvə (RPS/core) üçün hədəf performans.
Hovuzlar (thread/DB/HTTP) - limitlərə etibar etməyin.
Ehtiyatı: 60-70% CPU və latency-trigger (p95) qədər avtoskeyl.
Caches
Hit-ratio, həcm hotset, eviction, replika.
Ehtiyat: yaddaş ≥ 1. 2 × hotset, şəbəkə headroom ≥ 30%.
Verilənlər bazası
QPS/TPM, p95 sorğular, kilidi, tampon cache, WAL/replication lag.
IOPS və disk latency - p95 açarı.
Ehtiyat: CPU iş nöqtəsi 50-65%, lag replika <hədəf; charding planı və read-replicas.
Disklər/Anbarlar
IOPS (4k/64k), throughput, fsync cost.
Ehtiyatı: IOPS ≥ pik × 1. 5, hədəf pəncərədə latency p95; jurnal/məlumat altında ayrı-ayrı hovuzlar.
GPU/ML (onlayn inference varsa)
Samples/s, latency, VRAM headroom, batching.
Ehtiyat: batch parametrləri altında «mişar» yük, warm-pool GPU.
Avtomatik miqyaslandırma
HPA/KEDA: CPU + xüsusi metrlər (p95 latency, RPS, növbə).
Warm pools: events əvvəl qızdırılmış instants.
Step-scaling: cooldown ilə addımlar «kəsmək» deyil.
Reaksiya müddəti: ön təbəqə üçün T_scale ≤ 1-2 dəqiqə hədəf; DB üçün - əvvəlcədən.
Məhdudlaşdırıcılar və backpressure
Rate-limit по IP/ASN/device/route; tərəfdaşlar üçün kvotalar.
TTL ilə növbələr, «nəzakətli» uğursuzluq (429/grey-wol vasitəsilə) vaxtından əvvəl.
İdempotentlik: ödənişlər üçün açarlar; budget + jitter ilə retrai.
Request collapsing/SWR: sıçrayış zamanı origin oyatmayın.
Sürətli hesablama nümunəsi
Verilənlər: API-də 35k RPS zirvəsinin proqnozu, p95 ≤ 250 ms, 60% CPU-da orta xidmət vaxtı 8 ms → μ ≈ 125 RPS/core, instance üçün 8 nüvə → ~ 1000 RPS/instance.
Addım 1 (ehtiyatsız): 35 instansiya.
Addım 2 (headroom 30%): 35 × 1. 3 = 46.
Addım 3 (bir AZ imtina, + 20%): 46 × 1. 2 ≈ 55.
Addım 4 (yuvarlaq + isti ehtiyat 10%): 61 instant.
Yoxlama: ρ ≈ 35k/( 61k) ≈ 0. 57 - yaşıl zonada.
Maliyyə modeli (FinOps)
$/1000 RPS laylar üzrə (edge, proxy, app, DB).
$/ms p95 (quyruq azaldılması dəyəri).
TCO ssenariləri: on-demand vs reserved vs spot (fasilə riski ilə).
Güc planı: hesabların/klasterlərin rüblük limitləri, bulud kvotaları, PSP/CDN limitləri.
Uğursuzluğa hazırlıq və DR
Multi-AZ/region: hər bir çiyin yükün 60% -ni ≈.
Failover planı: withdraw Anycast, GSLB keçid, TTL ≤ 60-120s.
Kritik asılılıqlar: PSP/bank limitləri, ikinci dərəcəli provayder.
Dövri təlimlər: PoP/BG/cache off ilə game day.
Müşahidə və erkən doyma siqnalları
Sabit giriş ilə p95/p99 və növbələrin böyüməsi.
Düşmə hit-ratio cache, origin egress artım.
Retransmits/ECN CE artımı, TLS resumption düşməsi.
429/timeout və retry-rate.
DB üçün - münaqişələrin artması, checkpoint time, WAL fsync.
Əməliyyat təcrübələri
Capacity review aylıq: fakt vs plan.
tədbirlər altında Change windows: freeze nüvələri və limitləri.
Prewarm (CDN/DNS/TLS/hovuzlar) zirvəsinə qədər 10-30 dəqiqə.
Limitlərin versiyası: Git-də rate-limit/hovuz konfiqlərini düzəldin.
iGaming/Fintech üçün xüsusiyyətlər
Turnirlər/matçlar: spike + plateau profilləri, boz botlar üçün marşrutlar, ayrı-ayrı qeydiyyat/depozit limitləri.
Ödənişlər/PSP: provayder/metod kvotaları, fallback marşrutları, egress-IP hovuzları, SLA Time-to-Wallet.
Məzmun provayderləri: studiyaların paylanması, isti keşlər, şard-hovuzlar.
Antifrod/AML: qayda/skorinq limiti, zirvədə işıq qaydalarına qədər deqradasiya.
Giriş çek siyahısı
- Pik proqnozu (baza/mövsüm/tədbirlər), iki ssenari.
- SLO/səhv büdcə və hədəf headroom ≥ 30%.
- Laylar üzrə Sizing (edge/proxy/app/cache/DB/IO/şəbəkə).
- Məhdudlaşdırıcılar: rate-limit, növbələr, idempotency, retry-budget.
- HPA/KEDA + warm pools; tədbirdən əvvəl təşviq planı.
- Multi-AZ/region, failover-playbook, TTL və GSLB.
- Bulud/PSP/CDN kvotaları razılaşdırılmış və sənədləşdirilmişdir.
- Müşahidə: capacity dashboard, erkən doyma siqnalları.
- DR-təlimlər və müntəzəm capacity-review.
Tipik səhvlər
Orta RPS planı heç bir quyruq/sıçrayış.
ρ≈0. 9 «kağız üzərində» - gecikmə ən kiçik səs-küy ilə partlayır.
Xarici xidmətlərin limitlərini (PSP/CDN/DB-klasteri).
Heç bir degrade rejimi və backpressure - kaskad faylları.
Əvvəlcədən istiləşmədən avtomatik miqyaslı - zirvədən «sonra» vaxtını alır.
Bütün təbəqələr üçün vahid headroom - dar yer miqrasiya edir.
Mini playbuklar
Pik hadisədən əvvəl (T-30 dəq)
1. minReplicas/target HPA artırmaq, warm pool.
2. CDN/DNS/TLS/konnektləri qızdırın, caches qızdırın.
3. Razılaşma ilə hovuz limitlərini və PSP kvotalarını qaldırın.
4. Boz marşrutları/bot filtrlərini işə salın, ağır enpointləri daraltın.
Bölgənin qismən itkisi
1. GSLB → qonşu region, TTL 60-120 s.
2. Degrade rejimini işə salın (cache/sadələşdirilmiş çıxış).
3. PSP/egress-IP limitlərini yenidən bölüşdürün.
4. Status rabitə, p95/səhv nəzarət.
Retrajların artması
1. retry-budget aşağı, backoff + jitter.
2. GET-də request-collapsing/SWR daxil edin.
3. «Səs-küylü» ASN üçün rate-limiti müvəqqəti olaraq sərtləşdirin.
Yekun
Gücün planlaşdırılması tələb proqnozudur + mühəndislik modeli + təhlükəsizlik ehtiyatı + əməliyyat qolları. SLO və headroom rəsmiləşdirin, xarici limitləri nəzərə alın, miqyas və deqradasiyanı avtomatlaşdırın, «millisaniyə dəyərini» ölçün və müntəzəm capacity-review keçirin. Sonra yükün artması riskə deyil, biznesin idarə olunan metrikasına çevriləcəkdir.