GH GambleHub

Ҳодисаҳо ва китобҳои бозикунии SRE

1) Ҳодиса чист ва чӣ гуна он ба SLO алоқаманд аст

Ҳодиса ҳодисаест, ки функсияи SLO/хидматро вайрон мекунад ё хатари вайронкуниро ба вуҷуд меорад (буҷети хато ба зудӣ ғайри қобили қабул сӯзонда мешавад).
Нишондиҳандаҳои классикӣ: MTTD, MTTA, MTTR, MTBF.
Хатогии буҷа ва сатҳи сӯзондан равзанаҳои афзалиятнок ва афзоишро муайян мекунанд.

2) Сатҳи вазнинӣ (SEV) ва меъёрҳо

SEVАломатгузорӣТаъсирҲадафи MTTR
SEV-1SLO-и интиқодӣ/ҳамагӣ барои трафики асосӣҲамаи корбарон/пардохтҳо≤ 60 дақ
SEV-2Таназзул (таъхири p95, хатоҳои 5xx/пардохт)Қисми назаррас≤ 4 соат
SEV-3Масъалаҳои маҳаллӣ/базаҳо рад карда шудандХизматрасонии инфиродӣ/минтақа≤ 1 рӯзи корӣ
SEV-4Хавф/нуқсони эҳтимолӣ бидуни таъсири ҷорӣОмодасозии ислоҳҳотибқи нақша

Триггерҳои SEV: аз 5xx%, p95> ҳадди ниҳоӣ, хӯшаҳои коҳиши пардохт, Кафка-лаг> ҳадди ниҳоӣ, Node

3) Нақшҳо ва масъулиятҳо (RACI)

Фармондеҳи ҳодисаҳо (IC) - қабули қарорҳои ягона, идоракунии ҷараёни вазифаҳо, тағйири вазъи SEV.
Ops Lead (Tech Lead) - стратегияи техникӣ, фарзияҳо, ҳамоҳангсозии ислоҳҳо.
Пешбарии коммуникатсия (Comms) - навсозиҳои ҳолат (дохилӣ/беруна), Status/Page/chat/mail.
Scribe (Chronicler) - ҷадвал, қарорҳо, артефактҳо, пайвандҳо ба графикҳо/гузоришҳо.
Муҳандисони занг/SME - иҷрои амалҳои дафтарчаи бозӣ.
Амният/Махфият - Барои ҳодисаҳои амниятӣ ё PII фаъол аст.
Пардохтҳо/пардохтҳо - ҳангоми таъсир ба биллинг/PSP/арзиш.

4) Давраи ҳаёти ҳодисаҳо

1. Муайянкунӣ (ҳушдор/гузориш/синтетикӣ) → худкори сохтани корти ҳодиса.
2. Triage (IC таъин шудааст, SEV таъин шудааст, ҷамъоварии ҳадди ақали контекст).
3. Стабилизатсия (сабуккунӣ: хомӯш кардани хусусият/бозгашт/меъёри-лимит/нокомӣ).
4. Тафтишот (фарзияҳои RCA, ҷамъоварии далелҳо).
5. Барқарорсозии хидмат (SLO-ро тасдиқ кунед, мушоҳида).
6. Иртибот (дар дохил/берун, гузориши ниҳоӣ).
7. Постмортем (ҳеҷ гуна пардохт, нақшаи CAPA, соҳибон, мӯҳлатҳо).
8. Пешгирӣ (санҷишҳо/огоҳиҳо/дафтарҳо/парчамҳо, таълими иловагии даста).

5) Алоқа ва "ҳуҷраи ҷанг"

Канали ягонаи ҳодисаҳо ('# inc-sev1-YYYYMMDD-hhmm'), танҳо далелҳо ва амалҳо.

Фармонҳои услуби протоколи радио: "IC: Ман версияи 1-ро таъин мекунам. 24 → ETA 10 дақ"

Навсозии вазъ: SEV-1 ҳар 15 дақиқа, ҳар 30-60 дақиқа SEV-2 кунед.
Саҳифаи вазъ/иртиботи беруна - тавассути Comms Пешбар аз рӯи қолаб.
Манъшуда: утоқҳои параллелии "ором", фарзияҳои санҷидашуда ба канали умумӣ.

6) Огоҳӣ ва сӯзондани SLO (қоидаҳои мисол)

Канали тез (1-5 дақиқа) ва суръати сӯхтани канал (1-2 соат).
Сигналҳои сершумор: хатои буҷа, 5xx%, p95, Кафка-қафо, меъёри коҳиши пардохт, синтетика.
Ҷустуҷӯи сабаби решавӣ - танҳо пас аз мӯътадил кардани аломатҳо.

Намунаҳо (умумӣ):
promql
Error rate 5xx> SLO sum (rate (http_requests_total{status=~"5"..}[5m]) )/sum (rate (http_requests_total[5m]))> 0. 01

Burn-rate fast (example)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14. 4

7) Китобҳои бозӣ ва рутбаҳо

Китоби бозӣ - сенарияи амалҳо аз рӯи намуди ҳодиса (тақсимот, шароит, хатарҳо).
Runbook - "харита" -и мушаххаси қадамҳо/фармонҳо (санҷиш, ислоҳ, санҷиш).
Қоида: китоби бозӣ ба якчанд дафтарчаҳо дахл дорад (рӯйпӯшҳо, парчамҳои хусусӣ, нокомӣ, миқёс, бастани трафик ва ғайра).

8) Қолаби корти ҳодиса

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <name>
comms_lead: <name>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx = 12% (usually <0. 5%), deposit conversion -20%"
mitigation: "rollback to 1. 23. 4, rate-limit 2k rps on, feature X off"
timeline:
- "17:42: alert SLO burn-rate fast"
- "17:46: IC appointed, war-room open"
- "17:52: release 1 found. 24 as a candidate"
- "18:02: Rollback complete, 5xx back to 0. 3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "another surge is possible when turning on feature X"
next_steps: "canary release, tests, postmortem until 2025-11-05"

9) Қолаби китоби SRE (Markdown)

markdown
Playbook: <title>
Area/symptoms
List of detectors, signatures in metrics/logs/traces.

Triage & Mitigation
- [] Restrict traffic/enable WAF rule/OFF feature
- [] Rollback/canary release/roll out configuration fix
- [] Enable degradation mode (read-only, cache force)

Diagnostics (RCA hints)
- Metrics:... Logs:... Trails:...
- Common Root Causes/Hypothesis Checklist

Risks and communications
- Internal/external updates, SLA obligations

Verification
- [] SLO restored (threshold/window time)
- [] No recourse for related services

Follow-up
- CAPA, tasks in backlog, updating alerts/dashboards/playbook

10) Китобҳои маъмулии бозӣ

10. 1 API 5xx хӯшае

Стабилизатсия: хомӯш кардани ficheflag мушкил; Нусхаҳои API-ро афзоиш диҳед Имкон диҳед, ки кэш нусхабардориро бозмедорад.
Ташхис: озодкунии дифф, хатогиҳо дар гузоришҳо (истисноҳои боло), афзоиши p95, фишори DB/кэш.
Хатарҳо: каскад дар пардохт/пуштибонӣ.

10. 2 BD: такрори ақибмонӣ/тӯфони қулф

Стабилизатсия: боздоштани ҷойҳои вазнин/ҳисоботҳо; мутолиаи масир ба афзоиши устод wal_buffers/replika-sloty.
Ташхис: муомилоти тӯлонӣ, бастани дархостҳо, тағир додани нақша.
Ислоҳкунӣ: индексатсияҳо/маслиҳатҳо, азнавсозии ҷойҳои корӣ, дархостҳои тақсимшуда.

10. 3 Қафои истеъмолкунандаи Кафка

Стабилизатсия: истеъмолкунандагони муваққатӣ; коҳиш додани истеҳсол аз хизматрасониҳои интиқодӣ; зиёд кардани ҳизбҳо/квотаҳо.
Ташхис: мувозинат, биёбоншавии суст, таваққуфи GC.
Санҷиш: ақибмонӣ → ба арзиши мақсаднок, қатраҳо нест.

10. 4 K8s гиреҳи омодагӣ/тӯфони захиравӣ

Стабилизатсия: кордон + дренаж; аз нав тақсим кардани борҳо; CNI-ро санҷед/сарпӯшро хомӯш кунед Daemonsets-и пурғавғо.
Ташхис: фишори диск, OOM, дротлинг, тарки шабака.
Пешгирӣ: буҷаҳои вайронкунии pod, маҳдудиятҳо/дархостҳо.

10. Мӯҳлати амали 5 TLS/сертификатҳо

Стабилизатсия: навсозии маҷбурии махфӣ/воридшавӣ; муваққатан бекор карда шавад.
Ташхис: занҷири эътимод, соат-соат.
Пешгирӣ: огоҳиҳо T-30/T-7/T-1, худкор аз нав.

10. 6 ҳаракати ғайримуқаррарӣ DD

Стабилизатсия: қоидаҳои WAF/бот, меъёри лимит/гео-филтрҳо, сарбории болооб.
Ташхис: профилҳои ҳамла (L3/4/7), манбаъҳо, чатрҳо.
Пешгирӣ: дилхоҳ, autoscaling, caching, play-хуб бо провайдерҳо.

10. 7 Пардохти PSP-хомӯшӣ

Стабилизатсия: масири интеллектуалӣ ба PSP/усулҳои алтернативӣ; баланд бардоштани такрорӣ бо jitter; таназзули UI "мулоим".
Ташхис: нокомии хӯша аз рӯи рамзҳо, статуси API/саҳифаҳои ҳолати PSP.
Иртибот: навсозиҳои шаффоф барои тиҷорат ва дастгирӣ, омори дурусти ND/табдили.

10. 8 Ҳодисаи бехатарӣ/ихроҷи PII

Стабилизатсия: ҷудокунии гиреҳ/гардиши махфӣ, бастани exfiltration, Hold Legal.
Ташхис: мӯҳлатҳои дастрасӣ, мавзӯъҳо/майдонҳои зарардида.
Огоҳӣ: Танзимгарон/Шарикон/Истифодабарандагон аз рӯи талаботи салоҳият.
Пешгирӣ: Такмили DLP/сегментатсия, "камтарин имтиёз".

11) Автоматикунонии китобҳои бозӣ

Фармонҳои Chatops: '/ic set sev 1 ', '/ҷойгиркунии api rollback 1. 23. 4 ', '/хусусияти хомӯш X'.
Bots-bots: қадамҳои нимавтоматӣ (гиреҳи дренажӣ, трафики флип, кэши тоза).
Дастгоҳҳои худидоракунии шифобахш: детектор → сабуккунии стандартӣ (меъёри маҳдудият, аз нав оғоз кардан, миқёс).
Кортҳо/мӯҳлатҳои худкориро аз огоҳиҳо ва фармонҳо эҷод кунед.

12) Сифати дафтарчаи бозӣ: рӯйхати назоратӣ

  • Аломатҳо ва детекторҳои тоза (ченакҳо/гузоришҳо/пайҳо).
  • Қадамҳои мӯътадилсозии босуръат бо арзёбии хатар.
  • Фармонҳо/скриптҳо наванд, дар саҳна тафтиш карда мешаванд.
  • Тафтиши барқароркунии SLO.
  • Қолабҳои иртибот ва меъёрҳои навсозии беруна.
  • Истинод пас аз марг ва CAPA пас аз пӯшида.

13) Постмортем (беайб) ва CAPA

Мақсад: омӯхтан, пайдо накардани гунаҳгор.
Муҳтаво: чӣ шуд, чӣ хуб/бад ёфт шуд, саҳми омилҳо (он + равандҳо), амалҳо барои пешгирӣ.
Мӯҳлат: SEV-1 - дар муддати 48 соат; SEV-2 - 3 рӯзи корӣ.
CAPA: соҳибони мушаххас, вақт, таъсири ченшаванда (коҳиш додани MTTR/зиёдшавии MTTD).

14) Ҷанбаҳои ҳуқуқӣ ва пойгоҳи далелҳо

Нигоҳдории ҳуқуқӣ: сабтҳои яхкунӣ/роҳҳо/огоҳиҳо, нигоҳдории якдафъаина.
Силсилаи нигаҳдории артефактҳо: дастрасӣ аз рӯи нақш, назорати якпорчагӣ.
Огоҳиҳои танзимкунанда: мӯҳлатҳо/қолибҳо барои қаламравҳо (хусусан бо пардохтҳои зарардида/PII).
Махфият: ҳадди аққал кам кардани PII ва ниқоб ҳангоми таҳлил.

15) Нишондиҳандаҳои иҷрои раванди ҳодисаҳо

MTTD/MTTA/MTTR аз рӯи семоҳа ва домен.
Дақиқии SEV (underrating/overrating).
Ҳиссаи ҳодисаҳои худкор сабук.
Фарогирии Playbook сенарияҳои боло N (> 90%).
CAPA-ро сари вақт иҷро кунед.

16) Амалисозӣ аз рӯи марҳила

1. Ҳафтаи 1: матритсаи SEV, нақшҳои занг, қолаби корти умумӣ, қоидаҳои ҳуҷраи ҷанг.

2. Ҳафтаи 2: Китобҳои бозӣ барои 5 аломати боло (5xx, ақибмонии DB, Кафка-lag, Node

3. Ҳафтаи 3: Chat

4. Ҳафтаи 4 +: Китобҳои бехатарӣ, Қатъи PSP, Нигоҳдории ҳуқуқӣ, Машқҳои мунтазам/Бозиҳои хаос

17) Намунаҳои китобҳои "рӯза" (пораҳо)

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Verification:
kubectl -n prod top pods -l app=api

Гиреҳи холӣ

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

Хусусияти парчам OFF (мисол)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) Мини-FAQ

Кай бояд SEV-1 баланд кард?
Вақте ки функсияи калидии SLO/бизнес (пардохтҳо, воридшавӣ, бозӣ) азият мекашад ва меъёри сӯзондан буҷаро барои чанд соат пеш "мехӯрад".

Чӣ муҳимтар аст - RCA ё барқароршавӣ?
Ҳамеша мӯътадил, пас RCA. Вақти ба эътидол овардани нишондиҳандаи асосӣ аст.

Оё ба ман лозим аст, ки ҳама чизро автоматӣ кунам?
Қадамҳои зуд-зуд ва бехатарро автоматӣ кунед; нодир/хатарнок - тавассути тасдиқи нимтайёр ва IC.

Ҷамъ

Раванди боэътимоди ҳодиса ба се сутун такя мекунад: нақшҳои возеҳ ва қоидаҳои SEV, китобҳои босифат/рутбаҳо бо автоматизатсия ва фарҳанги пас аз марг бидуни айб. Намунаҳои сабт, қатораи занг, андозагирии MTTR/буҷаи хато ва доимо беҳтар кардани детекторҳо ва дафтарҳои бозӣ - ин хатар ва арзиши истироҳатро мустақиман коҳиш медиҳад.

Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.