Resursların bölüşdürülməsi
1) Vəzifə və prinsiplər
Resursların bölüşdürülməsi (yük, layihələr, hadisələr) tələbi (CPU/RAM/IO/şəbəkə, lisenziyalar, insanlar, büdcələr) hədəf SLO və FinOps məhdudiyyətlərinə uyğunlaşdırmaq üçün sistemli bir yoldur.
Əsas prinsiplər:- SLO-first: resurs keyfiyyət məqsədi var; seçmə - onu dözmək üçün bir vasitədir.
- Fairness + Priority: hər kəs üçün ədalətli pay, lakin prioritet - zəmanət.
- Isolation: blast-radius «acıq» yüklərini məhdudlaşdırırıq.
- Elasticity: faktiki tələbat altında avtomatik genişləndirilməsi/sıxılması.
- Cost-aware: hər əlavə resurs SLO/gəlir başa düşülən təsiri olmalıdır.
- Evidence-based: həllər telemetriya və təcrübələrlə təsdiqlənir.
2) Resursların taksonomiyası
Hesablamalar: CPU/Memory/GPU, konteyner hovuzları, serversiz kvotalar.
Saxlama: IOPS/keçid, isti/isti/soyuq təbəqələr, cache.
Şəbəkə: egress/ingress, CDN, xüsusi kanallar, IP hovuzlar.
Data: DWH/Streaming Slots/Window Resources, Backfill Windows.
İnsanlar: on-call slots, IC/Release, SRE/Dev vaxt (saat/sprint).
Vendorlar: provayderlərin limitləri (PSP/KYC/CDN), rate-limits və konnektlər.
3) Prioritetləşdirmə modeli (portfel)
Tier-0: həyati flow (giriş, ödənişlər). Zəmanətli resurslar, ayrı-ayrı hovuzlar.
Tier-1: Biznes kritik (KOR məhsulu, D-1 hesabatları). Üstünlük kvotaları.
Tier-2/3: köməkçi/tədqiqat. Burstable, büdcə limitləri.
Layihələr: Impact × Urgency × Confidence × Cost → reytinqi; SAV/portfeldə koordinasiya.
4) Paylama siyasəti (zəmanət, kvota, limit)
Guaranteed (dedicated): fix-pay/ehtiyat; üçün Tier-0/1.
Burstable: əsas kvota + limitinə qədər pulsuz almaq hüququ.
Best-effort: heç bir zəmanət, əvəz edilə bilər.
Quota/Limit-as-Code: Bütün kvotalar və limitlər deklarativ olaraq təsvir edilmişdir (siyasətçi anbarı).
Preemption/Pod Disruption Budget: Kimi və hansı sürətlə sıxışdırmaq olar.
Şəbəkə kvotaları: egress/tenant, provayderlərə qoşulma limitləri.
5) Multitenant və izolyasiya
Namespace/Account per tenant: ayrı-ayrı limitlər, büdcə, audit.
Səs-küylü qonşular: cgroups/requests/limits/IO-throttling; «ağır» vəzifələr üçün ayrı-ayrı nodlar.
P95-izolyasiya: SLO orta deyil, üzlük ilə hesablanır; burst p95 qonşuları qırmamalıdır.
Data tenancy: VIP/regionlar üçün ayrı havuz saxlama qatları və caches.
6) Avtomatik ölçmə və elastiklik
HPA/VPA/Cluster-autoscaler: yalnız CPU deyil, SLI/SLI-proxy (latency p95, queue depth) miqyası.
Scheduled scaling: pik pəncərələr/hadisələr altında əvvəlcədən.
Warm pools: sürətli skeylaps üçün qızdırılmış düyünlər/bağlantılar.
Şəbəkə/CDN: RUM/Anycast/POP yükü üzrə avtomatik yenidən balans.
7) Növbələr, xidmət sinifləri və SLA
Siniflər: hədəf gözləmə vaxtı və səhv büdcəsi ilə 'gold/silver/bronze'.
Növbələr/şinlər: prioritetləşdirmə, Tier-0 üçün ayrı-ayrı partiyalar, DLQ.
Backpressure: nüvəni qorumaq üçün drop/shape/slow disiplinləri.
Adaptiv taymautlar/retralar: xidmət sinfi və cari vəziyyət altında.
8) İnsan resursları
Dəyişiklik və örtük: trafikə uyğunluq (follow-the-sun), zirvədə P1 + P2 dubli.
SRE/Dev fokusu: KPI ilə reaktiv/proaktiv (məsələn, 50/50) üçün vaxt faizi.
Resurs sorğusu: saat/sprint üçün RFC şablonları, şəffaf prioritet növbəsi.
9) Maliyyə modeli (FinOps)
Vahid iqtisadiyyat: $/1k sorğu, $/uğurlu ödəniş, $/GiB log.
Büdcə və alertlər: hesab/tenant kvotaları, həddindən artıq xərcləmə xəbərdarlıqları.
Optimizasiya: isti/isti/soyuq saxlama, log-sampling, qeyri-kritik üçün spot hovuzlar.
Showback/Chargeback: komanda/tenant xərcləri hesabatları effektivliyi motivasiya edir.
10) Provayderlərin idarə edilməsi
Limitlər və pəncərələr: müqavilə TPS və PSP/KYC/CDN-də növbələr; təqvimdə planlaşdırılan pəncərələr.
Failover profilləri: çəki və bir neçə provayder arasında marşrut.
Nəbz metrləri: cavab vaxtı, arıza müqaviməti, dəyəri/uğurlu əməliyyat.
11) Yetkinlik paylama metrikası
SLO Adherence siniflər üzrə: gold/silver/bronze-də% uyğunluq.
Resource Efficiency: CPU/RAM/IO (median/p95) təkrar emal, idle payı.
Cost per SLO-point: SLO məqsədini saxlamaq üçün xərclərin dəyişdirilməsi.
Throttling/Preemption rate: nə qədər tez-tez və kimləri sıxışdırmaq.
Hotspot MTTA: hovuz/tenantların həddindən artıq istiləşməsinə cavab vaxtı.
Fairness Index: Tenantlar arasında gecikmələrin/kvotaların yayılması (cini/variasiya).
12) Çek vərəqləri
Paylanmadan əvvəl
- SLO məqsədləri və xidmət sinfi müəyyən edilmişdir.
- Yük telemetri var (p95/p99, böyümə, mövsümlük).
- Kvotalar/limitlər Git təsvir və review keçdi.
- Qonşuların effektləri yoxlanılır (izolyasiya testləri).
- Plan geri və guardrails hazırdır.
Həftəlik əməliyyat otağı
- Heatmap hovuz atılması və hotspot hesabat.
- FinOps hesabatı: $/vahid, artıq xərclər, anomaliyalar.
- Provayder limitləri və SLA tamamlandı.
- Növbələr: siniflərdə gecikmə, oruc yoxdur.
- CAPA müəyyən edilmiş iş yerləri üzrə.
13) Şablonlar (fikirlər)
13. 1 Kvota siyasəti (YAML)
yaml tenant: vip-eu class: gold compute:
cpu:
request: "8000m"
limit: "12000m"
memory:
request: "16Gi"
limit: "24Gi"
storage:
tier: hot iops_min: 8000 network:
egress_mbps_cap: 500 slo:
latency_p95_ms: 250 preemption:
protected: true burst:
allowed: true max_factor: 1.5
13. 2 Avtomatik miqyaslı profil (fraqment)
yaml autoscaling:
metric: "queue_depth" # или biz_sli.payment_latency_p95 target: 200 min_replicas: 6 max_replicas: 60 warm_pool: 4 cooldown_sec: 120
13. 3 sinif xidmət və növbələr
yaml class: gold sla:
wait_p95_ms: 150 queue:
partition: "gold-eu"
retry_policy:
attempts: 2 backoff_ms: 200 backpressure: "shape" # иначе drop/slow
13. 4 Resurs üçün müraciət (insanlar)
RFC: RES-OPS-2025-11
Цель: усилить on-call P2 на пике ноябрьских промо (EU)
Период: 2025-11-25..2025-12-05
Обоснование: прогноз трафика +30%, прошлогодний p95 MTTA ↑
Запрос: +1 P2 слот/сутки, +IC в prime-time
14) Prosedurlar və avtomatlaşdırma
Planner-bot: siyasətçi anbarında SLO, PR trafik tarixi və məqsədlərindən kvotaların hesablanması.
Guardrails-bot: kvota çatışmazlığı/oversubscription ilə deploam dayandırılması siqnal.
Komms-bot: sinif həddindən artıq xərclənməsi/sıxışdırılması/dəyişdirilməsi barədə komandalara bildirişlər.
Annotasiyalar: buraxılışlar/xidmət pəncərələri iş zamanı çəki/kvotaları dəyişir (sonra suppression aradan qaldırılması).
15) Anti-nümunələr
SLO və telemetriya olmadan «hisslərə görə» seçin.
«Səs-küylü qonşular» təcrid olmadan hər kəs üçün bir böyük hovuz.
Üst limit olmadan nəzarətsiz burst → qonşuları «boğmaq».
Heç bir backpressure/növbə → qartopu taymaut.
Qeydlərin/egress dəyərinə məhəl qoymamaq «sakit» büdcə sızmasıdır.
Sabit kvotalar mövsümlük/pik olmadan → əlçatmazlıq və ya həddindən artıq istehlak.
16) Yol xəritəsi (4-8 həftə)
1. Ned. 1-2: resursların və xidmətlərin inventarlaşdırılması; siniflərin təyinatı (gold/silver/bronze); ilkin kvotalar; əsas SLO.
2. Ned. 3-4: SLI-proxy avto-ölçmək daxil; növbələri və backpressure qurmaq; Tier-0 hovuzları təcrid etmək.
3. Ned. 5-6: FinOps hesabat ($/vahid, kvota, büdcə riskləri); warm-pools və pik günlərdə boyalı skeyllər.
4. Ned. 7-8: Planner/Guardrails avtomatlaşdırılması, tenant kabineti (kvota/dəyər görünürlüyü), rüblük review fairness & hotspots.
17) Yekun
Resursların bölüşdürülməsi birdəfəlik konfiqurasiya deyil, SLO, telemetriya və FinOps-da quraşdırılmış canlı prosesdir. Prioritetlər rəsmiləşdirildikdə, kvotalar və limitlər - kod kimi, təcrid və elastiklik - default olaraq və həllər metrik və dəyərlə təsdiqləndikdə, sistem davamlı olaraq zirvələri yaşayır, kritik flouları qoruyur və büdcəni «yandırmır».