Ҳодисаҳо ва китобҳои бозикунии SRE
1) Ҳодиса чист ва чӣ гуна он ба SLO алоқаманд аст
Ҳодиса ҳодисаест, ки функсияи SLO/хидматро вайрон мекунад ё хатари вайронкуниро ба вуҷуд меорад (буҷети хато ба зудӣ ғайри қобили қабул сӯзонда мешавад).
Нишондиҳандаҳои классикӣ: MTTD, MTTA, MTTR, MTBF.
Хатогии буҷа ва сатҳи сӯзондан равзанаҳои афзалиятнок ва афзоишро муайян мекунанд.
2) Сатҳи вазнинӣ (SEV) ва меъёрҳо
Триггерҳои SEV: аз 5xx%, p95> ҳадди ниҳоӣ, хӯшаҳои коҳиши пардохт, Кафка-лаг> ҳадди ниҳоӣ, Node
3) Нақшҳо ва масъулиятҳо (RACI)
Фармондеҳи ҳодисаҳо (IC) - қабули қарорҳои ягона, идоракунии ҷараёни вазифаҳо, тағйири вазъи SEV.
Ops Lead (Tech Lead) - стратегияи техникӣ, фарзияҳо, ҳамоҳангсозии ислоҳҳо.
Пешбарии коммуникатсия (Comms) - навсозиҳои ҳолат (дохилӣ/беруна), Status/Page/chat/mail.
Scribe (Chronicler) - ҷадвал, қарорҳо, артефактҳо, пайвандҳо ба графикҳо/гузоришҳо.
Муҳандисони занг/SME - иҷрои амалҳои дафтарчаи бозӣ.
Амният/Махфият - Барои ҳодисаҳои амниятӣ ё PII фаъол аст.
Пардохтҳо/пардохтҳо - ҳангоми таъсир ба биллинг/PSP/арзиш.
4) Давраи ҳаёти ҳодисаҳо
1. Муайянкунӣ (ҳушдор/гузориш/синтетикӣ) → худкори сохтани корти ҳодиса.
2. Triage (IC таъин шудааст, SEV таъин шудааст, ҷамъоварии ҳадди ақали контекст).
3. Стабилизатсия (сабуккунӣ: хомӯш кардани хусусият/бозгашт/меъёри-лимит/нокомӣ).
4. Тафтишот (фарзияҳои RCA, ҷамъоварии далелҳо).
5. Барқарорсозии хидмат (SLO-ро тасдиқ кунед, мушоҳида).
6. Иртибот (дар дохил/берун, гузориши ниҳоӣ).
7. Постмортем (ҳеҷ гуна пардохт, нақшаи CAPA, соҳибон, мӯҳлатҳо).
8. Пешгирӣ (санҷишҳо/огоҳиҳо/дафтарҳо/парчамҳо, таълими иловагии даста).
5) Алоқа ва "ҳуҷраи ҷанг"
Канали ягонаи ҳодисаҳо ('# inc-sev1-YYYYMMDD-hhmm'), танҳо далелҳо ва амалҳо.
Фармонҳои услуби протоколи радио: "IC: Ман версияи 1-ро таъин мекунам. 24 → ETA 10 дақ"
Навсозии вазъ: SEV-1 ҳар 15 дақиқа, ҳар 30-60 дақиқа SEV-2 кунед.
Саҳифаи вазъ/иртиботи беруна - тавассути Comms Пешбар аз рӯи қолаб.
Манъшуда: утоқҳои параллелии "ором", фарзияҳои санҷидашуда ба канали умумӣ.
6) Огоҳӣ ва сӯзондани SLO (қоидаҳои мисол)
Канали тез (1-5 дақиқа) ва суръати сӯхтани канал (1-2 соат).
Сигналҳои сершумор: хатои буҷа, 5xx%, p95, Кафка-қафо, меъёри коҳиши пардохт, синтетика.
Ҷустуҷӯи сабаби решавӣ - танҳо пас аз мӯътадил кардани аломатҳо.
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01
Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4
7) Китобҳои бозӣ ва рутбаҳо
Китоби бозӣ - сенарияи амалҳо аз рӯи намуди ҳодиса (тақсимот, шароит, хатарҳо).
Runbook - "харита" -и мушаххаси қадамҳо/фармонҳо (санҷиш, ислоҳ, санҷиш).
Қоида: китоби бозӣ ба якчанд дафтарчаҳо дахл дорад (рӯйпӯшҳо, парчамҳои хусусӣ, нокомӣ, миқёс, бастани трафик ва ғайра).
8) Қолаби корти ҳодиса
yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active monitoring resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"
9) Қолаби китоби SRE (Markdown)
markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.
Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)
Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез
Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства
Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам
Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука
10) Китобҳои маъмулии бозӣ
10. 1 API 5xx хӯшае
Стабилизатсия: хомӯш кардани ficheflag мушкил; Нусхаҳои API-ро афзоиш диҳед Имкон диҳед, ки кэш нусхабардориро бозмедорад.
Ташхис: озодкунии дифф, хатогиҳо дар гузоришҳо (истисноҳои боло), афзоиши p95, фишори DB/кэш.
Хатарҳо: каскад дар пардохт/пуштибонӣ.
10. 2 BD: такрори ақибмонӣ/тӯфони қулф
Стабилизатсия: боздоштани ҷойҳои вазнин/ҳисоботҳо; мутолиаи масир ба афзоиши устод wal_buffers/replika-sloty.
Ташхис: муомилоти тӯлонӣ, бастани дархостҳо, тағир додани нақша.
Ислоҳкунӣ: индексатсияҳо/маслиҳатҳо, азнавсозии ҷойҳои корӣ, дархостҳои тақсимшуда.
10. 3 Қафои истеъмолкунандаи Кафка
Стабилизатсия: истеъмолкунандагони муваққатӣ; коҳиш додани истеҳсол аз хизматрасониҳои интиқодӣ; зиёд кардани ҳизбҳо/квотаҳо.
Ташхис: мувозинат, биёбоншавии суст, таваққуфи GC.
Санҷиш: ақибмонӣ → ба арзиши мақсаднок, қатраҳо нест.
10. 4 K8s гиреҳи омодагӣ/тӯфони захиравӣ
Стабилизатсия: кордон + дренаж; аз нав тақсим кардани борҳо; CNI-ро санҷед/сарпӯшро хомӯш кунед Daemonsets-и пурғавғо.
Ташхис: фишори диск, OOM, дротлинг, тарки шабака.
Пешгирӣ: буҷаҳои вайронкунии pod, маҳдудиятҳо/дархостҳо.
10. Мӯҳлати амали 5 TLS/сертификатҳо
Стабилизатсия: навсозии маҷбурии махфӣ/воридшавӣ; муваққатан бекор карда шавад.
Ташхис: занҷири эътимод, соат-соат.
Пешгирӣ: огоҳиҳо T-30/T-7/T-1, худкор аз нав.
10. 6 ҳаракати ғайримуқаррарӣ DD
Стабилизатсия: қоидаҳои WAF/бот, меъёри лимит/гео-филтрҳо, сарбории болооб.
Ташхис: профилҳои ҳамла (L3/4/7), манбаъҳо, чатрҳо.
Пешгирӣ: дилхоҳ, autoscaling, caching, play-хуб бо провайдерҳо.
10. 7 Пардохти PSP-хомӯшӣ
Стабилизатсия: масири интеллектуалӣ ба PSP/усулҳои алтернативӣ; баланд бардоштани такрорӣ бо jitter; таназзули UI "мулоим".
Ташхис: нокомии хӯша аз рӯи рамзҳо, статуси API/саҳифаҳои ҳолати PSP.
Иртибот: навсозиҳои шаффоф барои тиҷорат ва дастгирӣ, омори дурусти ND/табдили.
10. 8 Ҳодисаи бехатарӣ/ихроҷи PII
Стабилизатсия: ҷудокунии гиреҳ/гардиши махфӣ, бастани exfiltration, Hold Legal.
Ташхис: мӯҳлатҳои дастрасӣ, мавзӯъҳо/майдонҳои зарардида.
Огоҳӣ: Танзимгарон/Шарикон/Истифодабарандагон аз рӯи талаботи салоҳият.
Пешгирӣ: Такмили DLP/сегментатсия, "камтарин имтиёз".
11) Автоматикунонии китобҳои бозӣ
Фармонҳои Chatops: '/ic set sev 1 ', '/ҷойгиркунии api rollback 1. 23. 4 ', '/хусусияти хомӯш X'.
Bots-bots: қадамҳои нимавтоматӣ (гиреҳи дренажӣ, трафики флип, кэши тоза).
Дастгоҳҳои худидоракунии шифобахш: детектор → сабуккунии стандартӣ (меъёри маҳдудият, аз нав оғоз кардан, миқёс).
Кортҳо/мӯҳлатҳои худкориро аз огоҳиҳо ва фармонҳо эҷод кунед.
12) Сифати дафтарчаи бозӣ: рӯйхати назоратӣ
- Аломатҳо ва детекторҳои тоза (ченакҳо/гузоришҳо/пайҳо).
- Қадамҳои мӯътадилсозии босуръат бо арзёбии хатар.
- Фармонҳо/скриптҳо наванд, дар саҳна тафтиш карда мешаванд.
- Тафтиши барқароркунии SLO.
- Қолабҳои иртибот ва меъёрҳои навсозии беруна.
- Истинод пас аз марг ва CAPA пас аз пӯшида.
13) Постмортем (беайб) ва CAPA
Мақсад: омӯхтан, пайдо накардани гунаҳгор.
Муҳтаво: чӣ шуд, чӣ хуб/бад ёфт шуд, саҳми омилҳо (он + равандҳо), амалҳо барои пешгирӣ.
Мӯҳлат: SEV-1 - дар муддати 48 соат; SEV-2 - 3 рӯзи корӣ.
CAPA: соҳибони мушаххас, вақт, таъсири ченшаванда (коҳиш додани MTTR/зиёдшавии MTTD).
14) Ҷанбаҳои ҳуқуқӣ ва пойгоҳи далелҳо
Нигоҳдории ҳуқуқӣ: сабтҳои яхкунӣ/роҳҳо/огоҳиҳо, нигоҳдории якдафъаина.
Силсилаи нигаҳдории артефактҳо: дастрасӣ аз рӯи нақш, назорати якпорчагӣ.
Огоҳиҳои танзимкунанда: мӯҳлатҳо/қолибҳо барои қаламравҳо (хусусан бо пардохтҳои зарардида/PII).
Махфият: ҳадди аққал кам кардани PII ва ниқоб ҳангоми таҳлил.
15) Нишондиҳандаҳои иҷрои раванди ҳодисаҳо
MTTD/MTTA/MTTR аз рӯи семоҳа ва домен.
Дақиқии SEV (underrating/overrating).
Ҳиссаи ҳодисаҳои худкор сабук.
Фарогирии Playbook сенарияҳои боло N (> 90%).
CAPA-ро сари вақт иҷро кунед.
16) Амалисозӣ аз рӯи марҳила
1. Ҳафтаи 1: матритсаи SEV, нақшҳои занг, қолаби корти умумӣ, қоидаҳои ҳуҷраи ҷанг.
2. Ҳафтаи 2: Китобҳои бозӣ барои 5 аломати боло (5xx, ақибмонии DB, Кафка-lag, Node
3. Ҳафтаи 3: Chat
4. Ҳафтаи 4 +: Китобҳои бехатарӣ, Қатъи PSP, Нигоҳдории ҳуқуқӣ, Машқҳои мунтазам/Бозиҳои хаос
17) Намунаҳои китобҳои "рӯза" (пораҳо)
Rollback API (K8s)
bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api
Гиреҳро холӣ кунед
bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m
Хусусияти парчам OFF (мисол)
bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'
18) Мини-FAQ
Кай бояд SEV-1 баланд кард?
Вақте ки функсияи калидии SLO/бизнес (пардохтҳо, воридшавӣ, бозӣ) азият мекашад ва меъёри сӯзондан буҷаро барои чанд соат пеш "мехӯрад".
Чӣ муҳимтар аст - RCA ё барқароршавӣ?
Ҳамеша мӯътадил, пас RCA. Вақти ба эътидол овардани нишондиҳандаи асосӣ аст.
Оё ба ман лозим аст, ки ҳама чизро автоматӣ кунам?
Қадамҳои зуд-зуд ва бехатарро автоматӣ кунед; нодир/хатарнок - тавассути тасдиқи нимтайёр ва IC.
Натиҷа
Раванди боэътимоди ҳодиса ба се сутун такя мекунад: нақшҳои возеҳ ва қоидаҳои SEV, китобҳои босифат/рутбаҳо бо автоматизатсия ва фарҳанги пас аз марг бидуни айб. Намунаҳои сабт, қатораи занг, андозагирии MTTR/буҷаи хато ва доимо беҳтар кардани детекторҳо ва дафтарҳои бозӣ - ин хатар ва арзиши истироҳатро мустақиман коҳиш медиҳад.