Wakalar we SRE pleýbuklary
1) Waka näme we SLO bilen nähili baglanyşygy bar
Waka - SLO/hyzmat funksiýasyny bozýan ýa-da düzgün bozmak töwekgelçiligini döredýän waka (nädogry býudjet kabul ederliksiz çalt ýakylýar).
Nusgawy metrikler: MTTD, MTTA, MTTR, MTBF.
Býudjet ýalňyşlygy we burn-rate eskalasiýa penjirelerini hem ileri tutýar.
2) Agyrlyk derejesi (SEV) we ölçegler
SEV triggerleri: 5xx% -den ýokary, p95> bosagasy, töleg decline spike, Kafka-lag> bosagasy, NodeNotReady> X min, TLS <7 gün gutarýar, DDoS/syzmak signallary.
3) Rollar we jogapkärçilik (RACI)
Incident Commander (IC) - ýeke-täk karar kabul etmek, meseleleriň akymyny dolandyrmak, SEV statusyny üýtgetmek.
Ops Lead (Tech Lead) - tehniki strategiýa, çaklamalar, fiksleriň utgaşdyrylmagy.
Communications Lead (Comms) - status-update (içerki/daşarky), StatusPage/chat/poçta.
Scribe (Hronist) - timline, çözgütler, artefaktlar, grafikalara/ýazgylara baglanyşyklar.
On-call Engineers/SMEs - pleýbuklar boýunça hereketleriň ýerine ýetirilişi.
Howpsuzlyk/Gizlinlik - howpsuzlyk ýa-da PII hadysalarynda goşulýar.
FinOps/Payments - billing/PSP/bahasyna täsir edende.
4) Wakanyň durmuş sikli
1. Detekt (alert/report/sintetika) → hadysanyň awto-kartoçkasyny döretmek.
2. Triaj (IC bellendi, SEV berildi, iň az kontekstiň ýygyndysy).
3. Durnuklaşdyrma (mitigation: fichu/rollback/rate-limit/failover öçürmek).
4. Derňew (RCA-çaklamalar, faktlary ýygnamak).
5. Hyzmaty dikeltmek (SLO tassyklamak, gözegçilik).
6. Aragatnaşyk (içerde/daşarda, jemleýji hasabat).
7. Postmortem (aýyplamasyz, CAPA-meýilnama, eýeler, möhletler).
8. Prevention (synaglar/alertler/pleýbuklar/baýdaklar, topara goşmaça okuw).
5) Aragatnaşyk we "war-room"
Wakanyň ýekeje kanaly ('#inc-sev1-YYYMMDD-hhmm'), diňe faktlar we hereketler.
Radio-teswirnamanyň stilindäki toparlar: "IC: rollback wersiýasyny belleýärin 1. 24 → ETA 10 min".
Status-täzelenmeler: SEV-1 her 15 minutda, SEV-2 - her 30-60 minutda.
Status Page/daşarky aragatnaşyk - şablon boýunça Comms Lead arkaly.
Gadagan: paralel "ümsüm" otaglar, umumy kanala barlanmadyk çaklamalar.
6) Alerting we SLO-burn (düzgünleriň mysaly)
Çalt kanal (1-5 minut) we haýal kanal (1-2 sagat) burn-rate.
Köp signallar: býudjet ýalňyşlygy, 5xx%, p95, Kafka-lag, töleg decline-rate, sintetika.
Esasy sebäbini gözlemek - diňe alamatlar durnuklaşandan soň.
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01
Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4
7) Pleýbuklar vs ranbuklar
Pleýbuk - hadysanyň (şahalaryň, şertleriň, töwekgelçilikleriň) görnüşi boýunça hereketleriň ssenarisi.
Ranbuk - ädimleriň/toparlaryň anyk "kartasy" (barlaglar, fiksler, tassyklamalar).
Düzgün: pleýbuk birnäçe bukjalara salgylanýar (rollbacks, feature-flags, failover, masştablamak, traffigi petiklemek we ş.m.).
8) Wakanyň kartoçkasynyň şablony
yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active monitoring resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"
9) SRE playbook şablony (Markdown)
markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.
Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)
Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез
Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства
Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам
Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука
10) Nusgawy pleýbuklar
10. 1 API 5xx Spike
Durnuklaşdyryş: problemaly ficheflagy öçürmek; API-iň nusgalaryny ýokarlandyrmak; Kesleşmegi açyň; yza çekilmegi.
Diagnostika: diff reliz, log ýalňyşlyklary (top-exceptions), p95 beýikligi, basyş BD/kesh.
Töwekgelçilikler: töleglerdäki/bekendlerdäki kaskad.
10. 2 БД: replication lag / lock storm
Durnuklaşdyryş: agyr joblaryň/hasabatlaryň togtadylmagy; okalyşlary ussata gönükdirmek; wal_buffers/replika-sloty artdyrmak.
Diagnostika: uzak amallar, haýyşlary petiklemek, meýilnamany üýtgetmek.
Düzediş: indeksler/hintler, joblary täzeden meýilleşdirmek, haýyşlary bölmek.
10. 3 Kafka consumer lag
Durnuklaşdyryş: ulanyjylary wagtlaýyn masştablamak; möhüm däl hyzmatlardan önümçiligi azaltmak; partiýany/kwotalary köpeltmek.
Diagnostika: rebalances, haýal deserializasiýa, GC-arakesmeler.
Barlamak: lag → maksat bahasyna, damjalar ýok.
10. 4 K8s NodeNotReady/çeşme tupany
Durnuklaşdyryş: cordon + drain; ýükleri gaýtadan paýlamak; CNI/overlay barlaň; Şowhunly DaemonSet 'leri öçüriň.
Diagnostika: disk pressure, OOM, throttling, network drops.
Öňüni alyş: pod disruption budgets, resurs limitleri/requests.
10. 5 TLS/şahadatnamalar gutarýar
Durnuklaşdyryş: syry mejbury täzelemek/ingress; wagtlaýyn override.
Diagnostika: ynam zynjyry, clock-skew.
Öňüni alyş: alert T-30/T-7/T-1, awto-renual.
10. 6 DDoS/anomal traffik
Durnuklaşdyryş: WAF/bot-düzgünler, rate-limit/geo-süzgüçler, upstream shed load.
Diagnostika: hüjüm profilleri (L3/4/7), çeşmeler, "saýawanlar".
Öňüni alyş: üpjün edijiler bilen anycast, autoscaling, kesh, play-nice.
10. 7 Töleg PSP-autage
Durnuklaşdyryş: alternatiw PSP/usullar üçin smart-routing; jitter bilen retry götermek; UI-iň "ýumşak" pese gaçmagy.
Diagnostika: kodlar boýunça şowsuzlyklaryň spike, API statuslary/PSP status sahypasy.
Aragatnaşyk: işewürlik we sapport üçin aç-açan täzelenmeler, ND/konwersiýanyň dogry statistikasy.
10. 8 Howpsuzlyk hadysasy/PII syzmagy
Durnuklaşdyryş: düwünleriň izolýasiýasy/gizlin-aýlanyş, ekstruziýanyň petiklenmegi, Legal Hold.
Diagnostika: wagtlaýyn giriş, täsir eden subýektler/meýdanlar.
Habarnamalar: ýurisdiksiýalaryň talaplary boýunça düzgünleşdirijiler/hyzmatdaşlar/ulanyjylar.
Öňüni alyş: DLP/segmentasiýany güýçlendirmek, "least privilege".
11) Pleýbuklary awtomatlaşdyrmak
ChatOps buýruklary: '/ic set sev 1 ', '/deploy rollback api 1. 23. 4`, `/feature off X`.
Runbook-botlar: ýarym awtomatiki ädimler (drain node, flip traffic, purge cache).
Öz-healing huki: detektor → standart mitigation (rate-limit, restart, scale).
Alertlerden we toparlardan awto-kartoçkalary/wagtlaýynlary döretmek.
12) Pleýbuklaryň hili: çek-sanawy
- Aýdyň alamatlar we detektorlar (metrikler/loglar/ýollar).
- Töwekgelçilige baha bermek bilen durnuklaşdyrmagyň çalt ädimleri.
- Buýruklar/skriptlar aktual, staging-de barlanýar.
- SLO dikeldişini tassyklamak.
- Aragatnaşyk şablonlary we daşarky täzelenmeleriň ölçegleri.
- Postmortem baglanyşygy we CAPA ýapylandan soň.
13) Postmortem (blameless) we CAPA
Maksat: günäkäri tapmak däl-de, öwrenmek.
Mazmuny: näme boldy, nädip gowy/erbet boldy, faktorlaryň goşandy (tech + prosesler), öňüni almak üçin hereketler.
Möhlet: SEV-1 - 48 sagadyň dowamynda; SEV-2 - 3 iş güni.
CAPA: anyk eýeler, möhletler, ölçelip bolýan täsirler (MTTR-iň peselmegi/MTTD-iň ösüşi).
14) Hukuk taraplary we subutnama binýady
Legal Hold: loglary/trassalary/alertleri, write-once ammarlaryny doňdurmak.
Artefaktlary saklamak zynjyry: rollar boýunça elýeterlilik, bitewilige gözegçilik.
Düzgünleşdiriji habarnamalar: ýurisdiksiýalar üçin möhletler/şablonlar (esasanam, täsir eden töleglerde/PII).
Gizlinlik: tertipleşdirilende PII-ni minimallaşdyrmak we gizlemek.
15) Wakalar prosesiniň netijeliliginiň metrikleri
MTTD/MTTA/MTTR kwartallar we domenler boýunça.
SEV-iň dogrulygy (underrating/overrating).
Awto-mitigeit hadysalarynyň paýy.
Top-N ssenarilerini pleýbuklar bilen örtmek (> 90%).
CAPA-ny wagtynda ýerine ýetirmek.
16) Tapgyrlar boýunça ornaşdyrmak
1. 1-nji hepde: SEV-matrisa, on-call rollary, kartoçkanyň umumy şablony, war-room düzgünleri.
2. 2-nji hepde: Ilkinji 5 alamat üçin oýunlar (5xx, BD-lag, Kafka-lag, NodeNotReady, TLS).
3. 3-nji hepde: ChatOps/botlar, awto-kartoçkalar, aragatnaşyk şablonlary/StatusPage.
4. 4-nji hepde: Howpsuzlyk pleýbuklary, PSP-Autages, Legal Hold, yzygiderli oýun/bulam-bujarlyk oýunlary.
17) "Çalt" sumkalaryň mysallary (bölekler)
Rollback API (K8s)
bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api
Drain node
bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m
Feature-flag OFF (mysal)
bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'
18) Mini-FAQ
SEV-1 haçan galdyrmaly?
Esasy SLO/iş funksiýasy (tölegler, login, oýun) ejir çekende, burn-rate öňümizdäki sagatlar üçin býudjeti "iýýär".
Has möhümi - RCA ýa-da dikeldiş?
Hemişe durnuklaşma, soň RCA. Durnuklaşmaga çenli wagt esasy görkezijidir.
Hemme zady awtomatlaşdyrmalymy?
Ýygy-ýygydan we howpsuz ädimleri awtomatlaşdyryň; seýrek/töwekgelçilikli - ýarym awtoulag we IC tassyklamasy arkaly.
Jemi
Wakalaryň ygtybarly prosesi üç sütüne esaslanýar: anyk rollar we SEV düzgünleri, awtomatlaşdyrylan hil pleýbuklary/ranbuklary we aýyplamasyz postmortemleriň medeniýeti. Şablonlary düzüň, on-call öwrediň, MTTR/nädogry býudjetini ölçäň we detektorlary we oýun kitaplaryny yzygiderli gowulaşdyryň - bu iş wagtynyň töwekgelçiligini we bahasyny gönüden-göni peseldýär.