GH GambleHub

Wakalar we SRE pleýbuklary

1) Waka näme we SLO bilen nähili baglanyşygy bar

Waka - SLO/hyzmat funksiýasyny bozýan ýa-da düzgün bozmak töwekgelçiligini döredýän waka (nädogry býudjet kabul ederliksiz çalt ýakylýar).
Nusgawy metrikler: MTTD, MTTA, MTTR, MTBF.
Býudjet ýalňyşlygy we burn-rate eskalasiýa penjirelerini hem ileri tutýar.


2) Agyrlyk derejesi (SEV) we ölçegler

SEVBelgiTäsirMTTR maksady
SEV-1Esasy trafik üçin möhüm SLO/doly töleg bozuldyÄhli ulanyjylar/tölegler≤ 60 minut
SEV-2Pese gaçmak (p95 latentlik, 5хх/töleg ýalňyşlyklary ↑)Möhüm bölek≤ 4 sagat
SEV-3Lokal problemalar/bazline ret edildiAýratyn hyzmat/sebit≤ 1 iş güni
SEV-4Häzirki täsir etmezden bolup biljek töwekgelçilik/kemçilikFiksleri taýýarlamakmeýilnama boýunça

SEV triggerleri: 5xx% -den ýokary, p95> bosagasy, töleg decline spike, Kafka-lag> bosagasy, NodeNotReady> X min, TLS <7 gün gutarýar, DDoS/syzmak signallary.


3) Rollar we jogapkärçilik (RACI)

Incident Commander (IC) - ýeke-täk karar kabul etmek, meseleleriň akymyny dolandyrmak, SEV statusyny üýtgetmek.
Ops Lead (Tech Lead) - tehniki strategiýa, çaklamalar, fiksleriň utgaşdyrylmagy.
Communications Lead (Comms) - status-update (içerki/daşarky), StatusPage/chat/poçta.
Scribe (Hronist) - timline, çözgütler, artefaktlar, grafikalara/ýazgylara baglanyşyklar.
On-call Engineers/SMEs - pleýbuklar boýunça hereketleriň ýerine ýetirilişi.
Howpsuzlyk/Gizlinlik - howpsuzlyk ýa-da PII hadysalarynda goşulýar.
FinOps/Payments - billing/PSP/bahasyna täsir edende.


4) Wakanyň durmuş sikli

1. Detekt (alert/report/sintetika) → hadysanyň awto-kartoçkasyny döretmek.
2. Triaj (IC bellendi, SEV berildi, iň az kontekstiň ýygyndysy).
3. Durnuklaşdyrma (mitigation: fichu/rollback/rate-limit/failover öçürmek).
4. Derňew (RCA-çaklamalar, faktlary ýygnamak).
5. Hyzmaty dikeltmek (SLO tassyklamak, gözegçilik).
6. Aragatnaşyk (içerde/daşarda, jemleýji hasabat).
7. Postmortem (aýyplamasyz, CAPA-meýilnama, eýeler, möhletler).
8. Prevention (synaglar/alertler/pleýbuklar/baýdaklar, topara goşmaça okuw).


5) Aragatnaşyk we "war-room"

Wakanyň ýekeje kanaly ('#inc-sev1-YYYMMDD-hhmm'), diňe faktlar we hereketler.
Radio-teswirnamanyň stilindäki toparlar: "IC: rollback wersiýasyny belleýärin 1. 24 → ETA 10 min".
Status-täzelenmeler: SEV-1 her 15 minutda, SEV-2 - her 30-60 minutda.
Status Page/daşarky aragatnaşyk - şablon boýunça Comms Lead arkaly.
Gadagan: paralel "ümsüm" otaglar, umumy kanala barlanmadyk çaklamalar.


6) Alerting we SLO-burn (düzgünleriň mysaly)

Çalt kanal (1-5 minut) we haýal kanal (1-2 sagat) burn-rate.
Köp signallar: býudjet ýalňyşlygy, 5xx%, p95, Kafka-lag, töleg decline-rate, sintetika.
Esasy sebäbini gözlemek - diňe alamatlar durnuklaşandan soň.

Mysallar (jemlenen):
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01

Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4

7) Pleýbuklar vs ranbuklar

Pleýbuk - hadysanyň (şahalaryň, şertleriň, töwekgelçilikleriň) görnüşi boýunça hereketleriň ssenarisi.
Ranbuk - ädimleriň/toparlaryň anyk "kartasy" (barlaglar, fiksler, tassyklamalar).
Düzgün: pleýbuk birnäçe bukjalara salgylanýar (rollbacks, feature-flags, failover, masştablamak, traffigi petiklemek we ş.m.).


8) Wakanyň kartoçkasynyň şablony

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"

9) SRE playbook şablony (Markdown)

markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.

Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)

Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез

Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства

Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам

Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука

10) Nusgawy pleýbuklar

10. 1 API 5xx Spike

Durnuklaşdyryş: problemaly ficheflagy öçürmek; API-iň nusgalaryny ýokarlandyrmak; Kesleşmegi açyň; yza çekilmegi.
Diagnostika: diff reliz, log ýalňyşlyklary (top-exceptions), p95 beýikligi, basyş BD/kesh.
Töwekgelçilikler: töleglerdäki/bekendlerdäki kaskad.

10. 2 БД: replication lag / lock storm

Durnuklaşdyryş: agyr joblaryň/hasabatlaryň togtadylmagy; okalyşlary ussata gönükdirmek; wal_buffers/replika-sloty artdyrmak.
Diagnostika: uzak amallar, haýyşlary petiklemek, meýilnamany üýtgetmek.
Düzediş: indeksler/hintler, joblary täzeden meýilleşdirmek, haýyşlary bölmek.

10. 3 Kafka consumer lag

Durnuklaşdyryş: ulanyjylary wagtlaýyn masştablamak; möhüm däl hyzmatlardan önümçiligi azaltmak; partiýany/kwotalary köpeltmek.
Diagnostika: rebalances, haýal deserializasiýa, GC-arakesmeler.
Barlamak: lag → maksat bahasyna, damjalar ýok.

10. 4 K8s NodeNotReady/çeşme tupany

Durnuklaşdyryş: cordon + drain; ýükleri gaýtadan paýlamak; CNI/overlay barlaň; Şowhunly DaemonSet 'leri öçüriň.
Diagnostika: disk pressure, OOM, throttling, network drops.
Öňüni alyş: pod disruption budgets, resurs limitleri/requests.

10. 5 TLS/şahadatnamalar gutarýar

Durnuklaşdyryş: syry mejbury täzelemek/ingress; wagtlaýyn override.
Diagnostika: ynam zynjyry, clock-skew.
Öňüni alyş: alert T-30/T-7/T-1, awto-renual.

10. 6 DDoS/anomal traffik

Durnuklaşdyryş: WAF/bot-düzgünler, rate-limit/geo-süzgüçler, upstream shed load.
Diagnostika: hüjüm profilleri (L3/4/7), çeşmeler, "saýawanlar".
Öňüni alyş: üpjün edijiler bilen anycast, autoscaling, kesh, play-nice.

10. 7 Töleg PSP-autage

Durnuklaşdyryş: alternatiw PSP/usullar üçin smart-routing; jitter bilen retry götermek; UI-iň "ýumşak" pese gaçmagy.
Diagnostika: kodlar boýunça şowsuzlyklaryň spike, API statuslary/PSP status sahypasy.
Aragatnaşyk: işewürlik we sapport üçin aç-açan täzelenmeler, ND/konwersiýanyň dogry statistikasy.

10. 8 Howpsuzlyk hadysasy/PII syzmagy

Durnuklaşdyryş: düwünleriň izolýasiýasy/gizlin-aýlanyş, ekstruziýanyň petiklenmegi, Legal Hold.
Diagnostika: wagtlaýyn giriş, täsir eden subýektler/meýdanlar.
Habarnamalar: ýurisdiksiýalaryň talaplary boýunça düzgünleşdirijiler/hyzmatdaşlar/ulanyjylar.
Öňüni alyş: DLP/segmentasiýany güýçlendirmek, "least privilege".


11) Pleýbuklary awtomatlaşdyrmak

ChatOps buýruklary: '/ic set sev 1 ', '/deploy rollback api 1. 23. 4`, `/feature off X`.
Runbook-botlar: ýarym awtomatiki ädimler (drain node, flip traffic, purge cache).
Öz-healing huki: detektor → standart mitigation (rate-limit, restart, scale).
Alertlerden we toparlardan awto-kartoçkalary/wagtlaýynlary döretmek.


12) Pleýbuklaryň hili: çek-sanawy

  • Aýdyň alamatlar we detektorlar (metrikler/loglar/ýollar).
  • Töwekgelçilige baha bermek bilen durnuklaşdyrmagyň çalt ädimleri.
  • Buýruklar/skriptlar aktual, staging-de barlanýar.
  • SLO dikeldişini tassyklamak.
  • Aragatnaşyk şablonlary we daşarky täzelenmeleriň ölçegleri.
  • Postmortem baglanyşygy we CAPA ýapylandan soň.

13) Postmortem (blameless) we CAPA

Maksat: günäkäri tapmak däl-de, öwrenmek.
Mazmuny: näme boldy, nädip gowy/erbet boldy, faktorlaryň goşandy (tech + prosesler), öňüni almak üçin hereketler.
Möhlet: SEV-1 - 48 sagadyň dowamynda; SEV-2 - 3 iş güni.
CAPA: anyk eýeler, möhletler, ölçelip bolýan täsirler (MTTR-iň peselmegi/MTTD-iň ösüşi).


14) Hukuk taraplary we subutnama binýady

Legal Hold: loglary/trassalary/alertleri, write-once ammarlaryny doňdurmak.
Artefaktlary saklamak zynjyry: rollar boýunça elýeterlilik, bitewilige gözegçilik.
Düzgünleşdiriji habarnamalar: ýurisdiksiýalar üçin möhletler/şablonlar (esasanam, täsir eden töleglerde/PII).
Gizlinlik: tertipleşdirilende PII-ni minimallaşdyrmak we gizlemek.


15) Wakalar prosesiniň netijeliliginiň metrikleri

MTTD/MTTA/MTTR kwartallar we domenler boýunça.
SEV-iň dogrulygy (underrating/overrating).
Awto-mitigeit hadysalarynyň paýy.
Top-N ssenarilerini pleýbuklar bilen örtmek (> 90%).
CAPA-ny wagtynda ýerine ýetirmek.


16) Tapgyrlar boýunça ornaşdyrmak

1. 1-nji hepde: SEV-matrisa, on-call rollary, kartoçkanyň umumy şablony, war-room düzgünleri.
2. 2-nji hepde: Ilkinji 5 alamat üçin oýunlar (5xx, BD-lag, Kafka-lag, NodeNotReady, TLS).
3. 3-nji hepde: ChatOps/botlar, awto-kartoçkalar, aragatnaşyk şablonlary/StatusPage.
4. 4-nji hepde: Howpsuzlyk pleýbuklary, PSP-Autages, Legal Hold, yzygiderli oýun/bulam-bujarlyk oýunlary.


17) "Çalt" sumkalaryň mysallary (bölekler)

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api

Drain node

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

Feature-flag OFF (mysal)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) Mini-FAQ

SEV-1 haçan galdyrmaly?
Esasy SLO/iş funksiýasy (tölegler, login, oýun) ejir çekende, burn-rate öňümizdäki sagatlar üçin býudjeti "iýýär".

Has möhümi - RCA ýa-da dikeldiş?
Hemişe durnuklaşma, soň RCA. Durnuklaşmaga çenli wagt esasy görkezijidir.

Hemme zady awtomatlaşdyrmalymy?
Ýygy-ýygydan we howpsuz ädimleri awtomatlaşdyryň; seýrek/töwekgelçilikli - ýarym awtoulag we IC tassyklamasy arkaly.


Jemi

Wakalaryň ygtybarly prosesi üç sütüne esaslanýar: anyk rollar we SEV düzgünleri, awtomatlaşdyrylan hil pleýbuklary/ranbuklary we aýyplamasyz postmortemleriň medeniýeti. Şablonlary düzüň, on-call öwrediň, MTTR/nädogry býudjetini ölçäň we detektorlary we oýun kitaplaryny yzygiderli gowulaşdyryň - bu iş wagtynyň töwekgelçiligini we bahasyny gönüden-göni peseldýär.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.