GH GambleHub

Инциденттердин күчөшү

1) Максаты жана принциптери

Инциденттердин күчөшү - колдонуучуларга жана бизнес-метрикага таасирин азайтуу үчүн туура ролдорду жана ресурстарды тез тартуу үчүн башкарылуучу процесс.

Негизги принциптери:
  • Ылдамдык идеалдуулукка караганда маанилүү. Окуяны кечигип койгондон көрө эртерээк жарыялап, деэскалациялоо жакшы.
  • Бирдиктүү командачылык. чечим үчүн жооптуу бири - Incident Commander (IC).
  • Ачык-айкындуулук. Ички жана тышкы стейкхолдерлер үчүн так статустар жана байланыш каналдары.
  • Документация. Бардык кадамдар, чечимдер жана таймлайндар аудит жана жакшыртуу үчүн белгиленет.

2) олуттуу градация (SEV/P-деңгээл)

Scale мисал (домен/юрисдикция ылайыкташтырылган):
  • SEV-0/P0 (критикалык) - негизги функциянын толук жеткиликсиздиги (логин/төлөм), маалыматтардын ачыкка чыгышы, юридикалык тобокелдик. токтоосуз пейдж бардык негизги on-call, freeze релиздер.
  • SEV-1/P1 (жогорку) - p95/p99 деградациясы, негизги процесстеги каталардын/мүчүлүштүктөрдүн көбөйүшү, региондун/провайдердин жеткиликсиздиги.
  • SEV-2/P2 (ортоңку) - чектелген когорта (аймак, провайдер) үчүн жарым-жартылай деградация, айланма жол бар.
  • SEV-3/P3 (төмөн) - колдонуучу үчүн маанилүү эмес, бирок көңүл бурууну талап кылат (ЭТЛдин фон кечигүүсү, мөөнөтү өтүп кеткен отчет).
Деңгээлди аныктоо матрицасы (жөнөкөйлөштүрүлгөн):
  • Кыйроонун радиусу (канча колдонуучу/жүгүртүү) × узактыгы × сезгичтиги (жөнгө салуучу/PR) → SEV деңгээл.

3) KPI жараяны

MTTD (аныктоо убактысы) - окуя башталгандан баштап биринчи сигналга чейин.
MTTA (кабыл алуу убактысы) - сигналдан IC тастыктоого чейин.
MTTR (калыбына келтирүү убактысы) - SLO/милдети калыбына чейин.
Escalation Latency - туура ролу/команда кошуу үчүн тастыктоо.
Reopen Rate - "чечилген" кийин кайра ачылган окуялардын үлүшү.
Comm SLA - тышкы/ички жаңылануулардын интервалдарын сактоо.

4) Ролдору жана жоопкерчилиги (RACI)

Incident Commander (IC): чечим ээси, деңгээл белгилейт, план, freeze, эскалация, деэскалация. Фикстер жазбайт.
Tech Lead (TL): техникалык диагностика, гипотезалар, инженерлердин координациясы.
Comms Lead (CL): статус-беттер, кардар жана ички байланыш, Юридикалык/PR менен макулдашуу.
Scribe: так чындыктарды чечүү, убакыт, кабыл алынган чечимдер.
Liaisons (байланыш): тышкы провайдерлердин/командалардын өкүлдөрү (төлөмдөр, KYC, хостинг).
On-call инженерлер: плейбуктарды/тебүүнү ишке киргизүү планын аткаруу.

Ар бир ролу үчүн нөөмөт графиктерди жана backaps дайындоо.

5) Каналдар жана экспонаттар

War-room каналы (ChatOps): auto-аннотация үлгүсү менен бирдиктүү координация чекити (Slack/Teams) (версиялар, желектер, канареялар).
SEV-1 + үчүн Video көпүрө.
Окуя билети (one-pager): ID, SEV, IC, катышуучулар, гипотеза/диагноз, кадамдар, ETA, статус, импакт, графиктерге шилтемелер.
Статус-бет: коомдук/ички; үзгүлтүксүз update тартиби (мисалы, ар бир 15-30 мүнөт үчүн SEV-1 +).

6) убакыт кутучалар жана стандарттык аралыктар

T0 (мин. 0-5): IC дайындалган, SEV дайындалган, freeze релиздер (керек болсо), war-room ачык.
T + 15 мин: биринчи коомдук/ички билдирүү (таасир workaround, кийинки update терезе).
T + 30/60 мин: туруктуу динамикасы жок болсо, кийинки деңгээл эскалация (платформа/DD/коопсуздук/провайдерлер).
Үзгүлтүксүз апдейт: SEV-0: ар бир 15 мүнөт; SEV-1: ар бир 30 мүнөт; SEV-2 +: ар бир саат.

7) Авто-эскалация эрежелери (ишке киргизүү саясаты)

Код катары жазылып, мониторинг/алертингге кошулат:
  • Burn-rate бюджеттин каталары кыска жана узун терезелерде босогодон жогору.
  • Тышкы үлгүлөрдүн өлчөмү: 2 аймактардын ≥ HTTP/TLS/DNS деградациясын белгилейт.
  • Бизнес-SLI (төлөмдөрдүн/катталуулардын ийгилиги) SLO төмөн түшөт.
  • Security-белгилер: агып шектенүү/компроматтар.
  • Провайдердик сигнал: "major outage" статусу вебхук.

8) Аныктоодон чечимге чейинки процесс

1. Окуя жарыялоо (IC): SEV, камтуу, freeze, playbook ишке киргизүү.
2. Диагностика (TL): гипотезалар, радиусту изоляциялоо (аймак, провайдер, фича), текшерүү (DNS/TLS/CDN/DD/кэш/шина).
3. Mitigation иш-аракеттер (Fast Victory): артка/канарейка ↓, Ficha-желеги деградация, failover провайдер, rate-limit, кэш-overley.
4. Байланыш (CL): статус-бет, кардарлар/өнөктөштөр, мыйзамдуу/PR, график боюнча жаңыртуулар.
5. калыбына келтирүү ырастоо: тышкы синтетика + реалдуу метрика (SLI), freeze алып салуу.
6. Деэскалация: SEV төмөндөшү, байкоого өтүү N мүнөт/саат.
7. Жабуу жана RCA: post-mortem даярдоо, action items, ээлери жана шарттары.

9) Тышкы провайдерлер менен иштөө

бир нече аймактар ​ ​ менен камсыз кылуу үчүн өз үлгүлөрү + күзгү лог-мисалдар суроо/каталар.
Эскалация келишимдери (байланыштар, жооп SLA, артыкчылык, статус вебхоктору).
автоматтык failover/SLO жөнөтүүчүнүн трафикти кайра бөлүштүрүү.
Далилдөө базасы: таймлайн, sample суроолор/жооптор, жашыруун графиктер/каталар, провайдердин ID билети.

10) жөнгө салуу, коопсуздук жана PR

Security/P0: обочолонуу, артефакттарды чогултуу, ачыкка чыгарууну минималдаштыруу, милдеттүү билдирүүлөр (ички/тышкы/жөнгө салуучу).
Legal: тышкы апдейттердин формулировкаларын макулдашуу, келишимдик SLA/айыптарды эсепке алуу.
PR/Кардар кызматы: даяр жооп үлгүлөрү, Q&A, ордун толтуруу/кредиттер (колдонулса).

11) Билдирүүлөрдүн үлгүлөрү

Баштапкы (T + 15):
  • "Биз [функцияны/аймакты] козгогон SEV-1 окуясын иликтеп жатабыз. Белгилери: [кыскача]. Биз айланма жолду активдештирдик [баяндоо]. Кийинки жаңыртуу - [убакыт]"
Жаңыртуу:
  • "Диагностика: [гипотеза/ырастоо]. Иш-аракеттер: [жөнөтүүчү которулган/бошотуу/деградация киргизилген]. Импакт төмөндөтүлгөн [пайыздык/когорта]. Кийинки жаңыртуу - [убакыт]"
Чечим:
  • "Окуя SEV-1 чечилди. Себеби: [тамыр]. Калыбына келтирүү убактысы: [MTTR]. Кийинки кадамдар: [fix/текшерүү/байкоо N саат]. Пост-мортем - [качан/кайда]"

12) Playbook (үлгүлүү)

Төлөмдөрдүн ийгилигинин төмөндөшү: А провайдердин үлүшүн азайтуу, Х% В которуу; "degrade-payments-UX" кирет; лимиттерде ретраларды киргизүү; фин командасына кабарлаш керек.
p99 API өсүшү: жаңы версия канарейка азайтуу; оор чач өчүрүү; кэш-TTL жогорулатуу; БД-индекстерди/байланыштарды текшерүү.
DNS/TLS/CDN көйгөйү: күбөлүк/чынжыр текшерүү; жазууну жаңыртуу; резервдик CDN которуу; кэшти кайра чогултуу.
Security-шектенүү: түйүндөрдү изоляциялоо, негизги ротация, mTLS туткаларын күйгүзүү, артефакттарды чогултуу, мыйзамдуу билдирүү.

13) Деэскалация жана критерийлер "чечилди"

Окуя төмөнкү деңгээлге которулат, эгерде:
  • SLI/SLO жашыл зонада туруктуу ≥ N аралыгы;
  • митигирлөөчү аракеттер жана байкоо - регрессиясыз аткарылган;
  • security-класс үчүн - жабык векторлор тастыкталган, ачкычтар/сырлар айланат.

Жабуу - убакытты, action items ээлерин жана мөөнөттөрүн бекиткенден кийин гана.

14) Post-mortem (тамеки эмес)

Түзүлүшү:

1. Фактылар (колдонуучулар/метриктер көргөн таймлайн).

2. Негизги себеп (техникалык/процесстик).

3. Эмне иштеген/эскалация иштеген жок.

4. Алдын алуу чаралары (тесттер, тобокелдиктер, лимиттер, архитектура).

5. Мөөнөтү жана ээлери менен иш-аракеттер планы.

6. error budget менен байланыш жана SLO/жараяндарды кайра карап чыгуу.

15) Жетилүү жараянынын метрикасы

Колдонуучулардын даттанууларына чейин жарыяланган инциденттердин үлүшү.
SEV боюнча MTTA; туура ролду кошуу убактысы.
Жаңылоо интервалдарын сактоо (Comm SLA).
Кол менен "чыгармачылыгы" жок плейбуктар менен чечилген инциденттердин пайызы.
өз убагында post-mortems тартып action items аткаруу.

16) Анти-үлгүлөрү

"Кимдир бирөө бир нерсе кылгыла" - эч кандай IC/ролу.
war-room көп үндүү - иш-аракеттердин ордуна нускалары жөнүндө талаш.
Кеч декларация → адамдарды чогултуу убактысын жоготуу.
Эч кандай freeze жана жарыялоо аннотациялары - параллелдүү өзгөрүүлөр себебин жашырат.
Тышкы байланыштын жоктугу - даттануулардын күчөшү/PR-тобокелдик.
Постмортем жана иш-аракеттер жок жабуу - ошол эле каталарды кайталап.

17) IC чек тизмеси (чөнтөк карта)

  • SEV ыйгаруу жана war-room ачуу.
  • дайындоо TL, CL, Scribe, текшерүү on-call бар.
  • Release-freeze (SEV-1 + менен) кирет.
  • Чындыктын булактарын ырастоо: SLI дашборддору, синтетика, логи, соода.
  • Fast mitigation иш-аракеттерди кабыл алуу (артка/желектер/failover).
  • График боюнча үзгүлтүксүз жаңыланууларды камсыз кылуу.
  • Recovery Criteria for Resolve жана калыбына кийин байкоо.
  • Пост-мортеманы баштоо жана action items ээлерин дайындоо.

18) күнүмдүк иш киргизүү

Машыгуулар (оюн-күндөр): негизги сценарийлер боюнча симуляциялар.
Плейбук каталогу: версияланган, сыналган, параметрлери менен.
Куралдар: ChatOps-команда "/declare ", "/page", "/status ", "/rollback".
Интеграциялар: тикетинг, статус-бет, пост-мортемалар, CMDB/сервис-каталог.
SLO/Error Budget менен макулдашуу: авто-эскалация триггерлери жана freeze эрежелери.

19) Жыйынтык

Эскалация - бул операциялык тартип, жөн гана нөөмөтчүгө чалуу эмес. Так деңгээл SEV, дайындалган IC, даяр playbooks, убакыт кутучалар жана SLO жана бюджет-саясат көрсөткүчтөр менен бириктирүү башаламан отко алдын ала натыйжасы менен башкарылуучу жараянын айлантат - тез калыбына келтирүү кызматы, минималдуу PR/жөнгө салуу тобокелдиги жана ар бир окуядан кийин системалык жакшыртуу.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.