Infrastruktur xərclərinin optimallaşdırılması
Qısa xülasə
Infrastrukturun maliyyə səmərəliliyi üç şeyə əsaslanır:1. Şəffaf ölçülmə (tag, showback/chargeback, $/dəyər vahidi).
2. Mühəndislik intizamı (rightsizing, avto skeyl, düzgün anbar/cache/şəbəkə sinifləri).
3. Memarlıq həlləri (baytlar və millisaniyələr «axır»).
Məqsəd SLO və inkişaf sürətini saxlayarkən TCO-nu azaltmaqdır.
Biznes metrika və unit-economics
$/1000 RPS - əsas marşrutlarda 1000 sorğunun emal dəyəri.
$/ms p95 - 1 ms gecikmə quyruğunun azaldılması dəyəri (dönüşüm üçün vacibdir).
$/oyunçu/ay və ya $/depozit - iGaming/fintech üçün.
TCO = compute + storage + network egress + managed-services + lisenziyalar + dəstək.
Texniki borcun kapitallaşdırılması: log latentliyi/sızmasının nə qədər olduğunu qeyd edin.
- API $120/saat dəyərində və hədəf p95 ilə 60k RPS verirsə, $/1000 RPS ≈ $2/saat. Hər hansı bir optimallaşdırma bu «vahid qiyməti» ilə müqayisə edilməlidir.
Inventar və etiketləmə
Tag 'env', 'owner', 'product', 'service', 'region', 'cost-center', 'tier'.
Showback/Chargeback: komandalar/xidmətlər haqqında həftəlik hesabatlar.
«Heç-heçə» resurslarına nəzarət: etiketsiz - yerləşdirmirik, yeniləmirik.
sql
SELECT env, product, service,
SUM(cost_usd) AS cost_month,
SUM(rps) AS rps_month,
SUM(cost_usd)/NULLIF(SUM(rps)/1000,0) AS usd_per_1k_rps
FROM finops_daily
WHERE usage_date BETWEEN:from AND:to
GROUP BY 1,2,3;
Rightsizing və instansiya sinifləri
CPU/Memory profilləri: yük altında profilləri çıxarın; Sorğuları/limitləri 50-70% CPU «iş nöqtəsinə» endirin.
Ölçüləri: çox vaxt M böyük əvəzinə N kiçik daha sərfəlidir (min-packing + CA daha yaxşı).
ARM instants: yığın uyğun olduqda müqayisə edilə bilən performans ilə daha ucuzdur.
İsti/soyuq hovuzlar: daimi «yağ» əvəzinə kiçik bir warm ehtiyatı saxlayın.
Endirimlər və istehlak modelləri
Reserved/Savings Plans/Committed Use: davamlı bazanı sifariş edin (40-70% qənaət).
Spot/Preemptible: kritik olmayan/asenkron vəzifələr, CI, analitiklər, cash-workerlər üçün.
Mix-strategiya: baza - reserved, zirvələr - on-demand, fon - spot.
Avtomatik skeylinq və elastiklik
HPA/KEDA SLO siqnalları ilə (latency, queue lag, RPS), yalnız CPU ilə deyil.
Tez başlanğıc üçün warm pools və image pre-pull ilə Cluster Autoscaler.
Histerezis ilə Scale-down «kəsmə» klasterləri (anti-flapping).
Şəbəkə və egress - sakit «yeyən» büdcə
CDN/tiered-cache/origin-shield origin egress azaldır.
Sıxılma (Brotli/gzip), webp/avif, diff-API (yalnız dəyişdirilmiş sahələri ötürmək).
Xarici API çağırışlarını qruplaşdırın, keepalive/retry-budget istifadə edin.
DC daxilində daha az söhbət: event-driven, batching, hadisələrin aqreqasiyası.
Anbarlar və məlumatlar
Saxlama sinifləri: isti (NVMe), isti (gp2/gp3), soyuq (S3/Glacier/arxiv).
Lifecycle siyasətləri: «köhnə» obyektlərin ucuz siniflərə avtomatik köçürülməsi.
DWH, TTL-də vaxt cədvəllərinə/snapshotlara sıxma/partizan.
Həddindən artıq replikasiyadan imtina: ağlabatan RF, qənaətli snapshot siyasəti.
Caching: DB-dən «bahalı» oxunmalar əvəzinə hot-set üçün Redis/Memcached.
Qeydlər, metriklər, treys - ağılla ödəmək
Log (rate-limit səviyyəsinə/şablonuna görə), danışmaq əvəzinə «struktur» log.
Tail-based sampling (p99 «quyruqları» saxlamaq və səhvlər, qalan - aqressiv kəsmək).
Downsampling metrik: push-gates yığılması, yüksək-res saxlama yalnız 7-14 gün.
PII filtrasiya - həm riskləri, həm də həcmi azaldır.
Memarlıq və «millisaniyə dəyəri»
HTTP/2/3 + resumption: az handshake → az CPU/egress/gecikmə.
Cache və TTL açarı: yüksək hit-ratio - birbaşa pul (daha az origin və DB).
gRPC/protobaf xidmət üçün: daha az bayt.
Arxa plan tapşırıqları üçün Batch/stream; idempotentlik → daha az retraj.
DD seçimi: «hamısı bir» saxlama - tez-tez oxumaq üçün ucuz KV/caches, analitika - sütunlu DWH.
Verilənlər sxemləri: qısa sahələr/sıxılmış tiplər, indekslərin kardinallığına nəzarət.
DR, ehtiyatlar və multi-region
Biznes məqsədi: RTO/RPO → DR. dəyəri. Kifayət qədər aktiv-passiv olduqda aktiv-aktiv üçün artıq ödəməyin.
Soyuq ehtiyat nüsxələri ucuz sinifdə saxlayın, replika diferensialdır.
ROP/regionların vahid paketi: hər zona 60% pik ≥ çəkir → qonşunun «qızıl» artıqlığı olmadan imtinasına tab gətiririk.
Mühit və CI/CD
Steycing/preview-mühit, avto-TTL.
Spot, artefakt cache, paralellik məhdudiyyətləri üçün CI runner.
Test məlumatları yığcam, on-the-fly generation, gigabayt saxlama deyil.
Təchizatçılar və lisenziyaların idarə edilməsi
Hər rübdə bir dəfə həcmləri və qiymət növlərini nəzərdən keçirin.
Rəqabətli backup provayder - sövdələşmədə arqument.
Lisenziyalar (APM/təhlükəsizlik): «Dünyanın bütün qeydləri» üçün deyil, faydalı siqnal üçün $ hesablayın.
Proseslər və idarəetmə
FinOps mərasimləri: həftəlik komanda hesabatı, aylıq Cost Review (ilk 10 «sızma», action items).
Guardrails: layihə/neyspace üçün kvotalar, büdcə-alertlər, etiketsiz resursların yayılmasına qadağa.
Blameless post-dəniz «qiymət hadisələri» (sızma, runaway autoscale).
IaC: bütün limitlər, siniflər, TTL - anbarda, PR-review.
Qənaət çek siyahısı
- Tag/showback/charjback daxildir, «heç-heçə» resursları yoxdur.
- Rightsizing profilləri, ARM/digər növləri qiymətləndirilir.
- Kommit endirimlər bazanı bağlayır, spot - fon/analitika/CI.
- SLO-metrik HPA/KEDA, warm-pullar ilə CA.
- CDN/tiered-cache, sıxılma, «səs-küy» olmadan cache açarı.
- Saxlama: siniflər, lifecycle, TTL, hot-set üçün caches.
- Log/treys: sempling, tail-based, PII filtrələr.
- DR RTO/RPO, ucuz sinifdə soyuq backup.
- Auto-TTL ilə mühit, CI spot.
- FinOps ritmlər və IaC guardrails.
Tipik səhvlər
«Metrik olmadan optimallaşdırma»: heç bir $/1000 RPS → variantları müqayisə edilə bilməz.
Söndürülmüş/istifadə olunmayan resurslar aylarla asılır.
İsti sinifdə «hər şeyi» saxlamaq, lifecycle yoxdur.
Logi kimi «qara dəlik»: 100% ingest, 0% istifadə.
latency/növbələr istisna olmaqla CPU üzrə avto-skeyl → həddindən artıq ödəmə və SLO-reqress.
İş əsaslandırılması olmadan çox aqressiv DR.
Mikroservislər «işarə üçün» - xidmətlərarası trafik və yüklərin artması.
Mini playbuklar
1) Sürətli hesab auditi (48 saat)
1. Top 10 xidmət/region üzrə kəsilir. 2) Hər biri üçün - $/1000 RPS, hit-ratio CDN, egress.
2. TTL/Cash açarlarını çıxarın, «səs-küylü» qeydləri söndürün. 4) S3/obyektlər lifecycle daxil.
2) Egress 25% azalması
1. Tiered-cache+shield, `stale-while-revalidate`. 2) Şəkilləri webp/avif-də sıxın.
2. Diff-API və mətn üçün gzip/brotli. 4) Təkrar sorğuları/retrajları yoxlayın.
3) DB xərclərinin kəsilməsi
1. Top sorğular (p95/IO) → indekslər/batching. 2) Hot-set в Redis.
2. Köhnə məlumatların arxivləşdirilməsi (TTL), ucuz qapıda read-replicas.
4) Skeylin «mişar» dayandırılması
1. stabilization/cooldown artırın. 2) MinReplicas> 0 zirvədə.
2. Konnektlərin qızdırılması/TLS. 4) Əlavə retraları kəsin.
«Qənaətli» Nginx nümunəsi (sıxılma, cache, SWR)
nginx proxy_cache_path /var/cache/nginx levels=1:2 keys_zone=EDGE:512m max_size=50g inactive=7d;
server {
listen 443 ssl http2 reuseport;
Compression brotli on; brotli_comp_level 5; gzip on;
Static: year, immutable location/assets/{
add_header Cache-Control "public, max-age=31536000, immutable" always;
try_files $uri =404;
}
Semi-dynamics: s-maxage + SWR location/catalog/{
proxy_cache EDGE;
add_header Cache-Control "public, s-maxage=600, max-age=120, stale-while-revalidate=900, stale-if-error=86400" always;
proxy_ignore_headers Set-Cookie;
proxy_pass https://origin_catalog;
}
}
iGaming/Fintech üçün xüsusiyyətlər
Piki (matçlar/turnirlər): əvvəlcədən 'minReplicas' qaldırmaq və CDN/TLS qızdırmaq, lakin headroom nöqtəli saxlamaq - yalnız isti yollarda (kataloqlar, lobbi, matçlar), qalanları - deqrad rejimi.
Ödənişlər/PSP: referans cache (BIN, limitlər), idempotentlik ikiqat dəyərini azaldır, provayderlərin ağ siyahıları üçün ayrıca egress hovuzu.
Antifrod/botlar: «boz» marşrutlar və hər bir sorğu üzrə bahalı dərin yoxlama əvəzinə kənarda ucuz çağırışlar.
Canlı məzmun/provayderlər: kənarda cache + yeniləmə tezliyinin məhdudlaşdırılması; CDN müqavilələri böyük hadisələrə yenidən baxılır.
Yekun
Xərclərin optimallaşdırılması birdəfəlik təmizləmə deyil, daimi FinOps prosesidir: dəyəri ölçün ($/vahid), qənaətli həlləri avtomatlaşdırın (cache/TTL/sampling), endirimlərdən və düzgün resurs siniflərindən istifadə edin, SLO altında elastikliyi saxlayın və arxitekturanı ödəmədiyi yerlərdə çətinləşdirməyin. Beləliklə, məhsulun sürətini və platformanın sabitliyini qoruyaraq TCO-nu azaltacaqsınız.