Amallar we Dolandyryş → Ulgamlaryň kuwwaty boýunça aladalar
Ulgamlaryň kuwwaty boýunça alertler
1) Bu näme üçin zerur?
Kuwwatly aladalar wakadan has öň tehniki çäklere ýakynlaşmak barada duýduryş berýär: "Biz potolokdan 80% -de - ulalmagyň wagty geldi". Azyk kärhanalary üçin bu gönüden-göni pul hakda: sessiýalaryň sypdyrylan nyrhlary/goýumlary, düşekleri, live-oýunlaryň gijikdirilmegi we üpjün edijileriň şowsuzlyklary = ýitirilen girdeji, abraý, jerimeler we yzyna gaýtarmalar.
Maksatlar:- Iň ýokary ýüklere (wakalara, ýaryşlara, akymlara, uly kampaniýalara) çydap bolar.
- Awto skeylingi wagtynda açyň we capacity uplift-i meýilleşdiriň.
- SLO/pul töwekgelçiligi ýüze çykanda sesleri azaltmak we "iş boýunça" oýandyrmak.
- Runbook arkaly inersenerlere takyk maslahat bermek.
2) Esasy düşünjeler
Kuwwatlylygy: iň durnukly geçirijilik ukyby (RPS/TPS, konnektler, IOPS, throughput).
Headroom: häzirki ýük bilen çäkleriň arasyndaky ätiýaçlyk.
SLO/SLA: elýeterlilik/jogap wagtynyň maksatly derejeleri; alertler "SLO-aware" bolmaly.
Burn-rate: SLO-býudjetiniň ýalňyşlyklaryny/gizlinligini "ýakmak" tizligi.
High/Low Watermark: Otomatik dikeldiş üçin ýokarky/aşaky derejeler.
3) Signallaryň arhitekturasy we maglumat çeşmeleri
Teleemetriýa: metrikler (Prometheus/OTel), loglar (ELK/ClickHouse), yzarlamalar (OTel/Jaeger).
Gatlak çemeleşmesi: gatlaklar boýunça alertler (Edge → API → işewürlik hyzmatlary → nobatlar/akymlar → DB/keşler → faýl/obýekt ammarlary → daşarky üpjün edijiler).
Kontekst: Fiçeflaglar, relizler, marketing kampaniýalary, ýaryşlar, geo-ýerleşiş.
Şina hadysasy: Alertmanager/PagerDuty/Opsgenie/Slack; runbook we eskalasiýa matrisine baglanyşyk.
4) Gatlaklar boýunça esasy metrikler (näme gözegçilik etmeli we näme üçin)
Edge / L7
RPS, 95-/99-percentile latency, error rate (5xx/4xx), open connections.
Rate-limits/quotas, drops на CDN/WAF/Firewall.
API-шлюз / Backend-for-Frontend
Worker/work-pool boýunça saturation, soraglaryň nobaty, downstrimlere timeouts.
Pese gaçmagyň paýy (fallbacks, circuit-breakers).
Nobatlar/Akym (Kafka/Rabbit/Pulsar)
Lag/consumer delay, backlog growth rate, throughput (msg/s, MB/s).
Partition skew, rebalancing churn, ISR (Kafka üçin), retrai/baba-leiter.
Asinxron workerler
Wezipelere garaşmak wagty, nobatyň uzynlygy, SLA-nyň möhleti geçen wezipeleriniň göterimi.
Pullarda Saturation CPU/Memory/FD.
Keshler (Redis/Memcached)
Hit ratio, latency, evictions, used memory, birikdirilen müşderiler/ops/s.
Klaster: slots/replikalar, failover events.
БД (PostgreSQL/MySQL/ClickHouse)
Active connections vs max, lock waits, replication lag, buffer/cache hit.
IOPS, read/write latency, checkpoint/flush, bloat/fragmentation.
Obýekt/faýl ammary
PUT/GET latency, 4xx/5xx, egress, soraglar/sek, üpjün edijiniň çäkleri.
Daşarky üpjün edijiler (tölegler/KUS/oýun üpjün edijileri)
TPS çäkleri, QPS penjireleri, error rate/timeout, retraýlaryň nobaty, "cost per call".
Infrastruktura
CPU/Memory/FD/IOPS/Network saturation.
HPA/VPA wakalary, pending pods, konteýner OOM/Throttling.
5) Kuwwatly alertleriň görnüşleri
1. Statik bosagalar
Ýönekeý we düşnükli: 'db _ connections> 80% max'. "Signal-maýak" ýaly gowy.
2. Adaptiw (dinamiki) bosagalar
Möwsümlilige we tendensiýa esaslanýar (rolling windows, STL-dekompozisiýa). "Hepdäniň şu sagady/güni üçin adatdan daşary ýokary" tutmaga mümkinçilik berýär.
3. SLO gönükdirilen (burn-rate)
Error-budget iýmek tizligi X sagadyň gözýetiminde SLO-a täsir edende işleýär.
4. Prognostika (forecast-alerts)
"Häzirki tendensiýada 20 minutdan nobat 90% -e ýeter". Gysga penjirelerde/Robust/Prophet ýaly çyzykly çaklamany ulanýarlar.
5. Komponentler (multi-signal)
'queue _ lag ↑' + 'consumer _ cpu 85%' + 'autoscaling at max' → "el bilen gatyşmak zerur".
6) Çäk syýasatlary we anti-ses
High/Low Watermark:- Ýokaryk: duýduryş 70-75%, girit 85-90%. Aşak: histerezis 5-10 pp. "Bosagada kesmezlik".
- Kritler üçin 'for: 5m', duýduryş üçin 'for: 10-15m'. Night-mode: Çagyryşsyz söhbetdeşlige möhüm däl ugrukdyrmak.
- Waka kartoçkalaryny köpeltmezlik üçin hyzmat/klaster/geo boýunça toparlanyň.
- Eger KYC üpjün edijisi daşarda bolsa we API ýalňyşlyklary netije bolsa, bu ähli sarp edijileriň däl-de, integrasiýa eýesiniň habarydyr.
- Mahabat döwründe "garaşylýan ösüş" üçin ses çäklerini ýokarlandyryň, ýöne SLO-alertleri elsiz galdyryň.
7) Düzgünleriň mysallary (psevdo-Prometheus)
DB konnektleri:
ALERT PostgresConnectionsHigh
IF (pg_stat_activity_active / pg_max_connections) > 0. 85
FOR 5m
LABELS {severity="critical", team="core-db"}
ANNOTATIONS {summary="Postgres connections >85%"}
Kafka lag + awto-skeyling çäkleri:
ALERT StreamBacklogAtRisk
IF (kafka_consumer_lag > 5_000_000 AND rate(kafka_consumer_lag[5m]) > 50_000)
AND (hpa_desired_replicas == hpa_max_replicas)
FOR 10m
LABELS {severity="critical", team="streaming"}
Burn-rate SLO (API gizlinligi):
ALERT ApiLatencySLOBurn
IF slo_latency_budget_burnrate{le="300ms"} > 4
FOR 15m
LABELS {severity="page", team="api"}
ANNOTATIONS {runbook="wiki://runbooks/api-latency"}
Redis ýat we ewikşenler:
ALERT RedisEvictions
IF rate(redis_evicted_keys_total[5m]) > 0
AND (redis_used_memory / redis_maxmemory) > 0. 8
FOR 5m
LABELS {severity="warning", team="caching"}
Töleg üpjün ediji - çäklendirmeler:
ALERT PSPThroughputLimitNear
IF increase(psp_calls_total[10m]) > 0. 9 psp_rate_limit_window
FOR 5m
LABELS {severity="warning", team="payments", provider="PSP-X"}
8) SLO-çemeleşme we işewürlik ileri tutulýan ugur
Signaldan işe täsir etmeklige: kuwwaty boýunça alertler töwekgelçilik to SLO-a (anyk oýunlar/geo/GGR metrikleri, goýumyň öwrülişigi) salgylanmalydyr.
Köp derejeli: on-call hyzmaty üçin duýduryşlar; krit - domen eýesiniň page; SLO-güýz - esasy waka we toparlaýyn "birleşdirilen" kanal.
Zaýalanma aýratynlyklary: ýüküň awtomatiki azalmagy (bölekleýin read-only, agyr şekilleriň kesilmegi, jekpot-brodkastlaryň ýygylygynyň peselmegi, göni oýunlarda "agyr" animasiýalaryň öçürilmegi).
9) Awto-skeyling we "dogry" triggerler
HPA/VPA: nyşan diňe bir CPU/Memory boýunça däl, eýsem iş ölçegleri boýunça hem (RPS, queue lag, p99 latency).
Warm-up taýmingleri: sowuk başlangyç we üpjün edijiniň çäklerini göz öňünde tutuň (ASG spin-up, konteýner bilderleri, nagt pullary gyzdyrmak).
Guardrails: ýalňyşlyklaryň köpelmegi bilen durmak şertleri; "skeilim meselesinden" goramak.
Capacity-playbooks: şard/partiýa/göçürme nirede we nädip goşmaly, sebitler boýunça traffigi nädip paýlamaly.
10) Amal: dizaýn etmekden işe çenli
1. Çäkleri kartlamak: her gatlak boýunça "hakyky" bottleneck-çäkleri ýygnamak (max conns, IOPS, TPS, üpjün edijileriň quotas).
2. Metrik çaklamalary saýlamak: haýsy signallar "N minutdan soň ýykylarys" diýip görkezýär.
3. Bosagalaryň dizaýny: high/low + SLO-burn + komponent.
4. Her girit üçin Runbook: diagnostika ädimleri ("näme açmaly", "haýsy buýruklar", "nirede ýokarlanmaly"), hereketleriň üç görnüşi: çalt aýlanmak, ulalmak, zaýalanmak.
5. Synag: ýükleriň simulýasiýasy (chaos/game days), alertleriň "gury uçuşlary", anti-ses barlagy.
6. Rewyu we ogullyga almak: signalyň eýesi = hyzmatyň eýesi. Eýesi bolmasa - page ýok.
7. Retrospektivler we sazlamalar: ýalan/sypdyrylanlaryň hepdelik seljermesi; metrika "MTTA (ack), MTTD, MTTR, Noise/Signal ratio".
11) Anti-patternler
CPU> 90% ⇒ howsala: latency/queues bilen baglanyşyk bolmazdan, bu adaty bolup biler.
"Hemmeler üçin bir çäk": dürli sebitler/wagt zolaklary - dürli traffik profilleri.
Runbook-syz alert: aç-açan hereketsiz page on-call-y azaldar.
Üpjün edijilere körlük: daşarky kwotalar/çäkler köplenç ssenarileri ilkinji bolup "bozýar" (PSP, KYC, antifrod, oýun üpjün edijileri).
Histerezis ýok: 80 %/79% serhetde "kesmek".
12) iGaming/Maliýe platformalarynyň aýratynlyklary
Meýilnama boýunça iň ýokary derejeler: deslapky wagt, ýaryşlaryň finaly, iri oýunlar; maksatly sözleri öňünden ýokarlandyrmak we nagt pullary doldurmak.
Göni akymlar we jekpotlar: ýaýlym çäreleriniň partlamalary → brokerlerde/websoketlerde çäklendirmeler.
Tölegler we KYC: üpjün edijileriň penjireleri, antifrod-skoring; ätiýaçlyk ugurlary we goýumlaryň "grace-re regimeimini" saklamak.
Geo-balans: üpjün edijiniň ýerli şowsuzlyklary - traffigi headroom bolan goňşy sebite alyp gitmek.
Jogapkärçilik: nyrhlary/jekpotlary ýitirmek töwekgelçiligi bolan ýagdaýynda - domen toparyna derrew habar bermek + işewürlik duýduryşy.
13) Daşbordlar (iň az toplum)
Capacity Overview: gatlaklar boýunça headroom, töwekgelçilikli ýerleriň ilkinji 3-si, burn-rate SLO.
Stream & Queues: lag, backlog growth, consumer saturation, HPA state.
DB & Cache: konnektler, repl-lag, p95/p99 latency, hit ratio, evictions.
Providers: TPS/penjireler/kwotalar, timeouts/errors, jaňlaryň bahasy.
Release/Feature context: eňňitleriň gapdalyndaky relizler/aýratynlyklar.
14) Girizmegiň çek-sanawy
- "Hakyky" çäkleriň we eýeleriň sanawy.
- Metrik çaklamalaryň kartasy + gatlaklaryň arasyndaky baglanyşyk.
- Statiki bosagalar + histerezis.
- SLO-burn-möhüm ýollarda alertler (goýum, stawka, göni oýun).
- Nobatdaky prognostiki aladalar/akymlar/konnektler.
- Suppression/maintenance penjireleri; syýasatyň anti-sesi.
- Runbook 'we buýruklar, grafikler, zaýalanma fiçeflaglary.
- Ýalan täsirleri seljermek we sazlamak.
- Marketing kampaniýalaryny we wakalaryň senenamasyny hasaba almak.
15) Runbook şablonynyň mysaly (gysgaça)
Signal: 'StreamBacklogAtRisk'
Maksat: lag> 10 mln ösüşiň we işläp taýýarlamagyň gijikdirilmeginiň öňüni almak> 5 minut.
Diagnostika (3-5 minut):1. Barla 'hpa _ desired/max', throttle/oom.
2. 'rate (lag)', bölekler boýunça paýlanyş (skew).
3. Brokeri barlaň (ISR, under-replicated, network).
Hereket:- Consumer-replicas + N ulalt, max-in-flight ulalt.
- "Möhüm topikler" üçin ileri tutulýan howuzy açyň.
- Ikinji bejerginiň ýygylygyny wagtlaýyn azalt/enrichment.
- Eger 'ASG at max' bolsa, bulutdan wagtlaýyn uplift soraň; paralel - agyr funksiýalaryň zaýalanmagyny goşmak.
- Yzyna gaýdyp gelmek: 'lag <1 million' 15 minutdan soň "adaty trafik" profiline gaýdyp gelmek.
- Eskalasiýa: Kafka klasteriniň eýesi, soňra SRE platformasy.
16) KPI we signallaryň hili
Coverage: konteýner alertleri bilen örtülen möhüm ýollaryň% -i.
Noise/Signal: on-call/hepdede 1 ýalan page-den köp bolmaly däldir.
MTTD/MTTR: kuwwatly hadysalar SLO zarbalaryndan ≤ 5 minut öň ýüze çykarylýar.
Proactive saves: Öňüni alnan hadysalaryň sany (postmortemalar boýunça).
17) Çalt başlamak (konserwatiw defoltlar)
DB: konnektleriň 75% -ini duýdurmak/IOPS/lat; krit 85%, histerezis 8-10 pp.
Nagt pullar: 'hit <0. 9 'I' evictions> 0 '> 5 min - duýduryş;' used _ mem> 85% '- krit.
Nobatlar: 'lag' ösüş> 3 σ ortaça 30d + 'hpa at max' - krit.
API: `p99 > SLO1. 3 '10 min - duýduryş;' burn-rate> 4 '15 min - krit.
Üpjün edijiler: 'throughput> 90% kwota' - duýduryş; 'timeouts> 5%' - krit.
18) FAQ
Q: Näme üçin diňe "CPU> 80%" diýmeli däl?
A: latency/nobatlar konteksti bolmasa, bu ses. CPU-nyň özi töwekgelçilige deň däldir.
Q: Adaptasiýa bosagalary gerekmi?
A: Hawa, gündelik/hepdelik möwsümlilik üçin - ýalan täsirleri azaldar.
Q: Marketing/çäreleri nädip göz öňünde tutmaly?
A: Kampaniýalaryň senenamasy → grafiklerdäki düşündirişler + anti-sesiň wagtlaýyn düzedilmegi, ýöne SLO-alertlere degmäň.