GH GambleHub

Ҳодисаҳо ва китобҳои бозикунии SRE

1) Ҳодиса чист ва чӣ гуна он ба SLO алоқаманд аст

Ҳодиса ҳодисаест, ки функсияи SLO/хидматро вайрон мекунад ё хатари вайронкуниро ба вуҷуд меорад (буҷети хато ба зудӣ ғайри қобили қабул сӯзонда мешавад).
Нишондиҳандаҳои классикӣ: MTTD, MTTA, MTTR, MTBF.
Хатогии буҷа ва сатҳи сӯзондан равзанаҳои афзалиятнок ва афзоишро муайян мекунанд.


2) Сатҳи вазнинӣ (SEV) ва меъёрҳо

SEVАломатгузорӣТаъсирҲадафи MTTR
SEV-1SLO-и интиқодӣ/ҳамагӣ барои трафики асосӣҲамаи корбарон/пардохтҳо≤ 60 дақ
SEV-2Таназзул (таъхири p95, хатоҳои 5xx/пардохт)Қисми назаррас≤ 4 соат
SEV-3Масъалаҳои маҳаллӣ/базаҳо рад карда шудандХизматрасонии инфиродӣ/минтақа≤ 1 рӯзи корӣ
SEV-4Хавф/нуқсони эҳтимолӣ бидуни таъсири ҷорӣОмодасозии ислоҳҳотибқи нақша

Триггерҳои SEV: аз 5xx%, p95> ҳадди ниҳоӣ, хӯшаҳои коҳиши пардохт, Кафка-лаг> ҳадди ниҳоӣ, Node


3) Нақшҳо ва масъулиятҳо (RACI)

Фармондеҳи ҳодисаҳо (IC) - қабули қарорҳои ягона, идоракунии ҷараёни вазифаҳо, тағйири вазъи SEV.
Ops Lead (Tech Lead) - стратегияи техникӣ, фарзияҳо, ҳамоҳангсозии ислоҳҳо.
Пешбарии коммуникатсия (Comms) - навсозиҳои ҳолат (дохилӣ/беруна), Status/Page/chat/mail.
Scribe (Chronicler) - ҷадвал, қарорҳо, артефактҳо, пайвандҳо ба графикҳо/гузоришҳо.
Муҳандисони занг/SME - иҷрои амалҳои дафтарчаи бозӣ.
Амният/Махфият - Барои ҳодисаҳои амниятӣ ё PII фаъол аст.
Пардохтҳо/пардохтҳо - ҳангоми таъсир ба биллинг/PSP/арзиш.


4) Давраи ҳаёти ҳодисаҳо

1. Муайянкунӣ (ҳушдор/гузориш/синтетикӣ) → худкори сохтани корти ҳодиса.
2. Triage (IC таъин шудааст, SEV таъин шудааст, ҷамъоварии ҳадди ақали контекст).
3. Стабилизатсия (сабуккунӣ: хомӯш кардани хусусият/бозгашт/меъёри-лимит/нокомӣ).
4. Тафтишот (фарзияҳои RCA, ҷамъоварии далелҳо).
5. Барқарорсозии хидмат (SLO-ро тасдиқ кунед, мушоҳида).
6. Иртибот (дар дохил/берун, гузориши ниҳоӣ).
7. Постмортем (ҳеҷ гуна пардохт, нақшаи CAPA, соҳибон, мӯҳлатҳо).
8. Пешгирӣ (санҷишҳо/огоҳиҳо/дафтарҳо/парчамҳо, таълими иловагии даста).


5) Алоқа ва "ҳуҷраи ҷанг"

Канали ягонаи ҳодисаҳо ('# inc-sev1-YYYYMMDD-hhmm'), танҳо далелҳо ва амалҳо.

Фармонҳои услуби протоколи радио: "IC: Ман версияи 1-ро таъин мекунам. 24 → ETA 10 дақ"

Навсозии вазъ: SEV-1 ҳар 15 дақиқа, ҳар 30-60 дақиқа SEV-2 кунед.
Саҳифаи вазъ/иртиботи беруна - тавассути Comms Пешбар аз рӯи қолаб.
Манъшуда: утоқҳои параллелии "ором", фарзияҳои санҷидашуда ба канали умумӣ.


6) Огоҳӣ ва сӯзондани SLO (қоидаҳои мисол)

Канали тез (1-5 дақиқа) ва суръати сӯхтани канал (1-2 соат).
Сигналҳои сершумор: хатои буҷа, 5xx%, p95, Кафка-қафо, меъёри коҳиши пардохт, синтетика.
Ҷустуҷӯи сабаби решавӣ - танҳо пас аз мӯътадил кардани аломатҳо.

Намунаҳо (умумӣ):
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01

Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4

7) Китобҳои бозӣ ва рутбаҳо

Китоби бозӣ - сенарияи амалҳо аз рӯи намуди ҳодиса (тақсимот, шароит, хатарҳо).
Runbook - "харита" -и мушаххаси қадамҳо/фармонҳо (санҷиш, ислоҳ, санҷиш).
Қоида: китоби бозӣ ба якчанд дафтарчаҳо дахл дорад (рӯйпӯшҳо, парчамҳои хусусӣ, нокомӣ, миқёс, бастани трафик ва ғайра).


8) Қолаби корти ҳодиса

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"

9) Қолаби китоби SRE (Markdown)

markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.

Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)

Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез

Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства

Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам

Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука

10) Китобҳои маъмулии бозӣ

10. 1 API 5xx хӯшае

Стабилизатсия: хомӯш кардани ficheflag мушкил; Нусхаҳои API-ро афзоиш диҳед Имкон диҳед, ки кэш нусхабардориро бозмедорад.
Ташхис: озодкунии дифф, хатогиҳо дар гузоришҳо (истисноҳои боло), афзоиши p95, фишори DB/кэш.
Хатарҳо: каскад дар пардохт/пуштибонӣ.

10. 2 BD: такрори ақибмонӣ/тӯфони қулф

Стабилизатсия: боздоштани ҷойҳои вазнин/ҳисоботҳо; мутолиаи масир ба афзоиши устод wal_buffers/replika-sloty.
Ташхис: муомилоти тӯлонӣ, бастани дархостҳо, тағир додани нақша.
Ислоҳкунӣ: индексатсияҳо/маслиҳатҳо, азнавсозии ҷойҳои корӣ, дархостҳои тақсимшуда.

10. 3 Қафои истеъмолкунандаи Кафка

Стабилизатсия: истеъмолкунандагони муваққатӣ; коҳиш додани истеҳсол аз хизматрасониҳои интиқодӣ; зиёд кардани ҳизбҳо/квотаҳо.
Ташхис: мувозинат, биёбоншавии суст, таваққуфи GC.
Санҷиш: ақибмонӣ → ба арзиши мақсаднок, қатраҳо нест.

10. 4 K8s гиреҳи омодагӣ/тӯфони захиравӣ

Стабилизатсия: кордон + дренаж; аз нав тақсим кардани борҳо; CNI-ро санҷед/сарпӯшро хомӯш кунед Daemonsets-и пурғавғо.
Ташхис: фишори диск, OOM, дротлинг, тарки шабака.
Пешгирӣ: буҷаҳои вайронкунии pod, маҳдудиятҳо/дархостҳо.

10. Мӯҳлати амали 5 TLS/сертификатҳо

Стабилизатсия: навсозии маҷбурии махфӣ/воридшавӣ; муваққатан бекор карда шавад.
Ташхис: занҷири эътимод, соат-соат.
Пешгирӣ: огоҳиҳо T-30/T-7/T-1, худкор аз нав.

10. 6 ҳаракати ғайримуқаррарӣ DD

Стабилизатсия: қоидаҳои WAF/бот, меъёри лимит/гео-филтрҳо, сарбории болооб.
Ташхис: профилҳои ҳамла (L3/4/7), манбаъҳо, чатрҳо.
Пешгирӣ: дилхоҳ, autoscaling, caching, play-хуб бо провайдерҳо.

10. 7 Пардохти PSP-хомӯшӣ

Стабилизатсия: масири интеллектуалӣ ба PSP/усулҳои алтернативӣ; баланд бардоштани такрорӣ бо jitter; таназзули UI "мулоим".
Ташхис: нокомии хӯша аз рӯи рамзҳо, статуси API/саҳифаҳои ҳолати PSP.
Иртибот: навсозиҳои шаффоф барои тиҷорат ва дастгирӣ, омори дурусти ND/табдили.

10. 8 Ҳодисаи бехатарӣ/ихроҷи PII

Стабилизатсия: ҷудокунии гиреҳ/гардиши махфӣ, бастани exfiltration, Hold Legal.
Ташхис: мӯҳлатҳои дастрасӣ, мавзӯъҳо/майдонҳои зарардида.
Огоҳӣ: Танзимгарон/Шарикон/Истифодабарандагон аз рӯи талаботи салоҳият.
Пешгирӣ: Такмили DLP/сегментатсия, "камтарин имтиёз".


11) Автоматикунонии китобҳои бозӣ

Фармонҳои Chatops: '/ic set sev 1 ', '/ҷойгиркунии api rollback 1. 23. 4 ', '/хусусияти хомӯш X'.
Bots-bots: қадамҳои нимавтоматӣ (гиреҳи дренажӣ, трафики флип, кэши тоза).
Дастгоҳҳои худидоракунии шифобахш: детектор → сабуккунии стандартӣ (меъёри маҳдудият, аз нав оғоз кардан, миқёс).
Кортҳо/мӯҳлатҳои худкориро аз огоҳиҳо ва фармонҳо эҷод кунед.


12) Сифати дафтарчаи бозӣ: рӯйхати назоратӣ

  • Аломатҳо ва детекторҳои тоза (ченакҳо/гузоришҳо/пайҳо).
  • Қадамҳои мӯътадилсозии босуръат бо арзёбии хатар.
  • Фармонҳо/скриптҳо наванд, дар саҳна тафтиш карда мешаванд.
  • Тафтиши барқароркунии SLO.
  • Қолабҳои иртибот ва меъёрҳои навсозии беруна.
  • Истинод пас аз марг ва CAPA пас аз пӯшида.

13) Постмортем (беайб) ва CAPA

Мақсад: омӯхтан, пайдо накардани гунаҳгор.
Муҳтаво: чӣ шуд, чӣ хуб/бад ёфт шуд, саҳми омилҳо (он + равандҳо), амалҳо барои пешгирӣ.
Мӯҳлат: SEV-1 - дар муддати 48 соат; SEV-2 - 3 рӯзи корӣ.
CAPA: соҳибони мушаххас, вақт, таъсири ченшаванда (коҳиш додани MTTR/зиёдшавии MTTD).


14) Ҷанбаҳои ҳуқуқӣ ва пойгоҳи далелҳо

Нигоҳдории ҳуқуқӣ: сабтҳои яхкунӣ/роҳҳо/огоҳиҳо, нигоҳдории якдафъаина.
Силсилаи нигаҳдории артефактҳо: дастрасӣ аз рӯи нақш, назорати якпорчагӣ.
Огоҳиҳои танзимкунанда: мӯҳлатҳо/қолибҳо барои қаламравҳо (хусусан бо пардохтҳои зарардида/PII).
Махфият: ҳадди аққал кам кардани PII ва ниқоб ҳангоми таҳлил.


15) Нишондиҳандаҳои иҷрои раванди ҳодисаҳо

MTTD/MTTA/MTTR аз рӯи семоҳа ва домен.
Дақиқии SEV (underrating/overrating).
Ҳиссаи ҳодисаҳои худкор сабук.
Фарогирии Playbook сенарияҳои боло N (> 90%).
CAPA-ро сари вақт иҷро кунед.


16) Амалисозӣ аз рӯи марҳила

1. Ҳафтаи 1: матритсаи SEV, нақшҳои занг, қолаби корти умумӣ, қоидаҳои ҳуҷраи ҷанг.

2. Ҳафтаи 2: Китобҳои бозӣ барои 5 аломати боло (5xx, ақибмонии DB, Кафка-lag, Node

3. Ҳафтаи 3: Chat

4. Ҳафтаи 4 +: Китобҳои бехатарӣ, Қатъи PSP, Нигоҳдории ҳуқуқӣ, Машқҳои мунтазам/Бозиҳои хаос


17) Намунаҳои китобҳои "рӯза" (пораҳо)

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api

Гиреҳро холӣ кунед

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

Хусусияти парчам OFF (мисол)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) Мини-FAQ

Кай бояд SEV-1 баланд кард?
Вақте ки функсияи калидии SLO/бизнес (пардохтҳо, воридшавӣ, бозӣ) азият мекашад ва меъёри сӯзондан буҷаро барои чанд соат пеш "мехӯрад".

Чӣ муҳимтар аст - RCA ё барқароршавӣ?
Ҳамеша мӯътадил, пас RCA. Вақти ба эътидол овардани нишондиҳандаи асосӣ аст.

Оё ба ман лозим аст, ки ҳама чизро автоматӣ кунам?
Қадамҳои зуд-зуд ва бехатарро автоматӣ кунед; нодир/хатарнок - тавассути тасдиқи нимтайёр ва IC.


Натиҷа

Раванди боэътимоди ҳодиса ба се сутун такя мекунад: нақшҳои возеҳ ва қоидаҳои SEV, китобҳои босифат/рутбаҳо бо автоматизатсия ва фарҳанги пас аз марг бидуни айб. Намунаҳои сабт, қатораи занг, андозагирии MTTR/буҷаи хато ва доимо беҳтар кардани детекторҳо ва дафтарҳои бозӣ - ин хатар ва арзиши истироҳатро мустақиман коҳиш медиҳад.

Contact

Тамос гиред

Барои саволҳо ё дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Оғози интегратсия

Email — муҳим аст. Telegram ё WhatsApp — ихтиёрӣ.

Номи шумо ихтиёрӣ
Email ихтиёрӣ
Мавзӯъ ихтиёрӣ
Паём ихтиёрӣ
Telegram ихтиёрӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиёрӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.