Инциденттердин күчөшү
1) Максаты жана принциптери
Инциденттердин күчөшү - колдонуучуларга жана бизнес-метрикага таасирин азайтуу үчүн туура ролдорду жана ресурстарды тез тартуу үчүн башкарылуучу процесс.
Негизги принциптери:- Ылдамдык идеалдуулукка караганда маанилүү. Окуяны кечигип койгондон көрө эртерээк жарыялап, деэскалациялоо жакшы.
- Бирдиктүү командачылык. чечим үчүн жооптуу бири - Incident Commander (IC).
- Ачык-айкындуулук. Ички жана тышкы стейкхолдерлер үчүн так статустар жана байланыш каналдары.
- Документация. Бардык кадамдар, чечимдер жана таймлайндар аудит жана жакшыртуу үчүн белгиленет.
2) олуттуу градация (SEV/P-деңгээл)
Scale мисал (домен/юрисдикция ылайыкташтырылган):- SEV-0/P0 (критикалык) - негизги функциянын толук жеткиликсиздиги (логин/төлөм), маалыматтардын ачыкка чыгышы, юридикалык тобокелдик. токтоосуз пейдж бардык негизги on-call, freeze релиздер.
- SEV-1/P1 (жогорку) - p95/p99 деградациясы, негизги процесстеги каталардын/мүчүлүштүктөрдүн көбөйүшү, региондун/провайдердин жеткиликсиздиги.
- SEV-2/P2 (ортоңку) - чектелген когорта (аймак, провайдер) үчүн жарым-жартылай деградация, айланма жол бар.
- SEV-3/P3 (төмөн) - колдонуучу үчүн маанилүү эмес, бирок көңүл бурууну талап кылат (ЭТЛдин фон кечигүүсү, мөөнөтү өтүп кеткен отчет).
- Кыйроонун радиусу (канча колдонуучу/жүгүртүү) × узактыгы × сезгичтиги (жөнгө салуучу/PR) → SEV деңгээл.
3) KPI жараяны
MTTD (аныктоо убактысы) - окуя башталгандан баштап биринчи сигналга чейин.
MTTA (кабыл алуу убактысы) - сигналдан IC тастыктоого чейин.
MTTR (калыбына келтирүү убактысы) - SLO/милдети калыбына чейин.
Escalation Latency - туура ролу/команда кошуу үчүн тастыктоо.
Reopen Rate - "чечилген" кийин кайра ачылган окуялардын үлүшү.
Comm SLA - тышкы/ички жаңылануулардын интервалдарын сактоо.
4) Ролдору жана жоопкерчилиги (RACI)
Incident Commander (IC): чечим ээси, деңгээл белгилейт, план, freeze, эскалация, деэскалация. Фикстер жазбайт.
Tech Lead (TL): техникалык диагностика, гипотезалар, инженерлердин координациясы.
Comms Lead (CL): статус-беттер, кардар жана ички байланыш, Юридикалык/PR менен макулдашуу.
Scribe: так чындыктарды чечүү, убакыт, кабыл алынган чечимдер.
Liaisons (байланыш): тышкы провайдерлердин/командалардын өкүлдөрү (төлөмдөр, KYC, хостинг).
On-call инженерлер: плейбуктарды/тебүүнү ишке киргизүү планын аткаруу.
Ар бир ролу үчүн нөөмөт графиктерди жана backaps дайындоо.
5) Каналдар жана экспонаттар
War-room каналы (ChatOps): auto-аннотация үлгүсү менен бирдиктүү координация чекити (Slack/Teams) (версиялар, желектер, канареялар).
SEV-1 + үчүн Video көпүрө.
Окуя билети (one-pager): ID, SEV, IC, катышуучулар, гипотеза/диагноз, кадамдар, ETA, статус, импакт, графиктерге шилтемелер.
Статус-бет: коомдук/ички; үзгүлтүксүз update тартиби (мисалы, ар бир 15-30 мүнөт үчүн SEV-1 +).
6) убакыт кутучалар жана стандарттык аралыктар
T0 (мин. 0-5): IC дайындалган, SEV дайындалган, freeze релиздер (керек болсо), war-room ачык.
T + 15 мин: биринчи коомдук/ички билдирүү (таасир workaround, кийинки update терезе).
T + 30/60 мин: туруктуу динамикасы жок болсо, кийинки деңгээл эскалация (платформа/DD/коопсуздук/провайдерлер).
Үзгүлтүксүз апдейт: SEV-0: ар бир 15 мүнөт; SEV-1: ар бир 30 мүнөт; SEV-2 +: ар бир саат.
7) Авто-эскалация эрежелери (ишке киргизүү саясаты)
Код катары жазылып, мониторинг/алертингге кошулат:- Burn-rate бюджеттин каталары кыска жана узун терезелерде босогодон жогору.
- Тышкы үлгүлөрдүн өлчөмү: 2 аймактардын ≥ HTTP/TLS/DNS деградациясын белгилейт.
- Бизнес-SLI (төлөмдөрдүн/катталуулардын ийгилиги) SLO төмөн түшөт.
- Security-белгилер: агып шектенүү/компроматтар.
- Провайдердик сигнал: "major outage" статусу вебхук.
8) Аныктоодон чечимге чейинки процесс
1. Окуя жарыялоо (IC): SEV, камтуу, freeze, playbook ишке киргизүү.
2. Диагностика (TL): гипотезалар, радиусту изоляциялоо (аймак, провайдер, фича), текшерүү (DNS/TLS/CDN/DD/кэш/шина).
3. Mitigation иш-аракеттер (Fast Victory): артка/канарейка ↓, Ficha-желеги деградация, failover провайдер, rate-limit, кэш-overley.
4. Байланыш (CL): статус-бет, кардарлар/өнөктөштөр, мыйзамдуу/PR, график боюнча жаңыртуулар.
5. калыбына келтирүү ырастоо: тышкы синтетика + реалдуу метрика (SLI), freeze алып салуу.
6. Деэскалация: SEV төмөндөшү, байкоого өтүү N мүнөт/саат.
7. Жабуу жана RCA: post-mortem даярдоо, action items, ээлери жана шарттары.
9) Тышкы провайдерлер менен иштөө
бир нече аймактар менен камсыз кылуу үчүн өз үлгүлөрү + күзгү лог-мисалдар суроо/каталар.
Эскалация келишимдери (байланыштар, жооп SLA, артыкчылык, статус вебхоктору).
автоматтык failover/SLO жөнөтүүчүнүн трафикти кайра бөлүштүрүү.
Далилдөө базасы: таймлайн, sample суроолор/жооптор, жашыруун графиктер/каталар, провайдердин ID билети.
10) жөнгө салуу, коопсуздук жана PR
Security/P0: обочолонуу, артефакттарды чогултуу, ачыкка чыгарууну минималдаштыруу, милдеттүү билдирүүлөр (ички/тышкы/жөнгө салуучу).
Legal: тышкы апдейттердин формулировкаларын макулдашуу, келишимдик SLA/айыптарды эсепке алуу.
PR/Кардар кызматы: даяр жооп үлгүлөрү, Q&A, ордун толтуруу/кредиттер (колдонулса).
11) Билдирүүлөрдүн үлгүлөрү
Баштапкы (T + 15):- "Биз [функцияны/аймакты] козгогон SEV-1 окуясын иликтеп жатабыз. Белгилери: [кыскача]. Биз айланма жолду активдештирдик [баяндоо]. Кийинки жаңыртуу - [убакыт]"
- "Диагностика: [гипотеза/ырастоо]. Иш-аракеттер: [жөнөтүүчү которулган/бошотуу/деградация киргизилген]. Импакт төмөндөтүлгөн [пайыздык/когорта]. Кийинки жаңыртуу - [убакыт]"
- "Окуя SEV-1 чечилди. Себеби: [тамыр]. Калыбына келтирүү убактысы: [MTTR]. Кийинки кадамдар: [fix/текшерүү/байкоо N саат]. Пост-мортем - [качан/кайда]"
12) Playbook (үлгүлүү)
Төлөмдөрдүн ийгилигинин төмөндөшү: А провайдердин үлүшүн азайтуу, Х% В которуу; "degrade-payments-UX" кирет; лимиттерде ретраларды киргизүү; фин командасына кабарлаш керек.
p99 API өсүшү: жаңы версия канарейка азайтуу; оор чач өчүрүү; кэш-TTL жогорулатуу; БД-индекстерди/байланыштарды текшерүү.
DNS/TLS/CDN көйгөйү: күбөлүк/чынжыр текшерүү; жазууну жаңыртуу; резервдик CDN которуу; кэшти кайра чогултуу.
Security-шектенүү: түйүндөрдү изоляциялоо, негизги ротация, mTLS туткаларын күйгүзүү, артефакттарды чогултуу, мыйзамдуу билдирүү.
13) Деэскалация жана критерийлер "чечилди"
Окуя төмөнкү деңгээлге которулат, эгерде:- SLI/SLO жашыл зонада туруктуу ≥ N аралыгы;
- митигирлөөчү аракеттер жана байкоо - регрессиясыз аткарылган;
- security-класс үчүн - жабык векторлор тастыкталган, ачкычтар/сырлар айланат.
Жабуу - убакытты, action items ээлерин жана мөөнөттөрүн бекиткенден кийин гана.
14) Post-mortem (тамеки эмес)
Түзүлүшү:1. Фактылар (колдонуучулар/метриктер көргөн таймлайн).
2. Негизги себеп (техникалык/процесстик).
3. Эмне иштеген/эскалация иштеген жок.
4. Алдын алуу чаралары (тесттер, тобокелдиктер, лимиттер, архитектура).
5. Мөөнөтү жана ээлери менен иш-аракеттер планы.
6. error budget менен байланыш жана SLO/жараяндарды кайра карап чыгуу.
15) Жетилүү жараянынын метрикасы
Колдонуучулардын даттанууларына чейин жарыяланган инциденттердин үлүшү.
SEV боюнча MTTA; туура ролду кошуу убактысы.
Жаңылоо интервалдарын сактоо (Comm SLA).
Кол менен "чыгармачылыгы" жок плейбуктар менен чечилген инциденттердин пайызы.
өз убагында post-mortems тартып action items аткаруу.
16) Анти-үлгүлөрү
"Кимдир бирөө бир нерсе кылгыла" - эч кандай IC/ролу.
war-room көп үндүү - иш-аракеттердин ордуна нускалары жөнүндө талаш.
Кеч декларация → адамдарды чогултуу убактысын жоготуу.
Эч кандай freeze жана жарыялоо аннотациялары - параллелдүү өзгөрүүлөр себебин жашырат.
Тышкы байланыштын жоктугу - даттануулардын күчөшү/PR-тобокелдик.
Постмортем жана иш-аракеттер жок жабуу - ошол эле каталарды кайталап.
17) IC чек тизмеси (чөнтөк карта)
- SEV ыйгаруу жана war-room ачуу.
- дайындоо TL, CL, Scribe, текшерүү on-call бар.
- Release-freeze (SEV-1 + менен) кирет.
- Чындыктын булактарын ырастоо: SLI дашборддору, синтетика, логи, соода.
- Fast mitigation иш-аракеттерди кабыл алуу (артка/желектер/failover).
- График боюнча үзгүлтүксүз жаңыланууларды камсыз кылуу.
- Recovery Criteria for Resolve жана калыбына кийин байкоо.
- Пост-мортеманы баштоо жана action items ээлерин дайындоо.
18) күнүмдүк иш киргизүү
Машыгуулар (оюн-күндөр): негизги сценарийлер боюнча симуляциялар.
Плейбук каталогу: версияланган, сыналган, параметрлери менен.
Куралдар: ChatOps-команда "/declare ", "/page", "/status ", "/rollback".
Интеграциялар: тикетинг, статус-бет, пост-мортемалар, CMDB/сервис-каталог.
SLO/Error Budget менен макулдашуу: авто-эскалация триггерлери жана freeze эрежелери.
19) Жыйынтык
Эскалация - бул операциялык тартип, жөн гана нөөмөтчүгө чалуу эмес. Так деңгээл SEV, дайындалган IC, даяр playbooks, убакыт кутучалар жана SLO жана бюджет-саясат көрсөткүчтөр менен бириктирүү башаламан отко алдын ала натыйжасы менен башкарылуучу жараянын айлантат - тез калыбына келтирүү кызматы, минималдуу PR/жөнгө салуу тобокелдиги жана ар бир окуядан кийин системалык жакшыртуу.