GH GambleHub

Инциденттерди башкаруу

(Бөлүк: Технология жана инфраструктура)

Кыскача резюме

Инциденттерди башкаруу - бул колдонуучунун баалуулугун тез калыбына келтирүү жана бизнеске келтирилген зыянды азайтуу үчүн кайталануучу процесс. Таяныч - так ролдору (Incident Manager, Tech Lead, Comms), SLO-гейтс, эскалация, ChatOps-процесстер, даярдалган рунабуктар жана "бейкүнөө" пост-инциденттик талдоо менен өлчөнүүчү action items.

1) Максаттары жана принциптери

Ылдамдык жана коопсуздук: тез диагноз → коопсуз турукташтыруу → туруктуу калыбына келтирүү.
Жалгыз ээси: дайындалган Incident Manager (IM) процессуалдык чечимдерди кабыл алат.
Продукт катары байланыш: стейкхолдерлер жана колдонуучулар үчүн алдын ала тактоо.
Маалыматтар> пикирлер: SLO/метрика/соода/логи - чындыктын булагы.
Blameless: жеке айыптоосуз себептерди талдоо; системалык өркүндөтүүлөргө көңүл бурат.

2) Окуя классификациясы (Severity/Impact/Urgency)

Severity (мисал):
  • SEV1 (критикалык): киреше/TTW/төлөмдөргө олуттуу зыян,> 20% колдонуучулар же бүтүндөй аймактар; SLA бузулган/PII коркунуч.
  • SEV2 (жогорку): негизги агымдардын жарым-жартылай бузулушу (депозиттик/коюм/оюндарды ишке киргизүү), таасири 5-20%.
  • SEV3 (орто): экинчилик кызматтардын байкаларлык деградациясы, айланып өтүү бар.
  • SEV4 (төмөн): SLO/SLA эч кандай таасири жок, кичинекей, чектелген таасири.

Таасир: ким таасир этет (бардык/аймак/тенант/канал). Urgency: бузулуу ылдамдыгы (fast-burn/slow-burn бюджет каталар).

3) окуя жашоо цикли

1. Detect - alert/SLO/синтетика/репортаж сигнал.
2. Acknowledge - on-call кабыл алууну тастыктайт, IM дайындайт.
3. Triage - SEV/Impact баалоо, гипотезаларды чогултуу, War-Room ачуу.
4. Mitigate - турукташтыруу (артка/багытын которуу/ficheflagy/масштабдоо).
5. Communicate - туруктуу статус-апдейт (ичинде/сыртында).
6. Recover - SLO/бизнес-метр толук калыбына келтирүү.
7. Close - хронологияны бекитүү, артефакттарды чогултуу, PIR (RCA + action items).

4) Ролдору жана жоопкерчилиги (RACI схемасы)

Incident Manager (IM) - процесстин ээси, ролдорду дайындайт, убакытты көзөмөлдөйт, процесстик чечимдерди кабыл алат (R).
Technical Lead (TL) - диагностиканы/гипотезаларды/фикстерди жүргүзөт, инженерлерди координациялайт (A/R).
Communications (Comms) - статус-апдейт, колдоо/бизнес/PR менен байланыш, статус-бет (R).
Scribe - протокол (таймлайн, кабыл алынган чечимдер, шилтемелер, экспонаттар) (R).
Stakeholders - продукт/төлөмдөр/оюн провайдерлери/коопсуздук (C/I).

Минималдуу SEV1: IM + TL + Comms + Scribe. SEV2 ролдорду айкалыштырууга жол берилет.

5) War-Room и ChatOps

Жеке каналдар: '#incident -warroom- <id>' (жумушчу), '#incident -status' (жаңылыктары гана).
Шаблон буйруктары: '/incident start ', '/status update', '/call <owner> ', '/rollback', '/freeze ', '/scale + N'.
Бот контекстти тартат: акыркы релиздер, дашборддор, байланышкан алерталар, trace exemplars, көз карандылык схемалары.
Байланыш эрежелери: кыскача, фактылар боюнча, бир спикер (TL), IM модератор.

6) Триггерлер жана гейтс

SLO-гейтс: fast/slow burn, төлөмдөрдүн конверсиясынын төмөндөшү, TTW p95> босого, p99 API ↑, төлөм кезектери "күйүп жатат".
Automatic: stop canary, rollback, degrade режимин күйгүзүү (функцияларды чектөө), жогорку жыштыктагы синтетиканы күйгүзүү.
Freeze: бардык бошотуу/stabilization жана PIR чейин бут көчүрүү.

7) Типтүү сценарийлер (рунабук-паттерндер)

A) Төлөмдөр: PSPден тайм/мүчүлүштүктөрдүн өсүшү

1. Stop promote жана төлөм контурунун релиздерин тоңдуруу.
2. PSP багытын резервдик багытка которуу, саясат боюнча тайм/ретраны көтөрүү.
3. Бүтпөгөн транзакцияларды салыштыруу, демпотенттик ачкычтар менен кайталоо.
4. Comms → саппорт байланыш: камдык иштеп жатабы? ETA.

B) API p99 ↑ жана 5xx чыккандан кийин

1. Артка (blue-green/canary → туруктуу).
2. Кэш-хитти, кезектердин тереңдигин, БД/оюн провайдерлеринин ысык пункттарын текшерүү.
3. Убактылуу масштабдоо, feature flags аркылуу оор чектөөлөрдү чектөө.

C) Оюн провайдери жеткиликтүү эмес

1. жеткиликтүү студиялар/оюндар үчүн трафикти которуу, статус баннерин көрсөтүү.
2. ар бир 30-60s синтетикалык текшерүү кирет.
3. Компенсацияларды/бонустарды макулдашуу (саясат боюнча) - PIRге киргизүү.

D) PII агып/шектенүү

1. Изоляция компоненти, ревокация ключей/токенов, коллекция логов (WORM).
2. Укуктук коммуникацияны/жөнгө салууну макулдашуу.
3. Пост-окуя иш-аракеттер: жашыруун-айлануу, жашыруу, жетүү.

8) Байланыш (ички/тышкы)

Тактоо жыштыгы: SEV1 - ар бир 15-30 мүнөт, SEV2 - 30-60 мүнөт.

Ички абалы шаблон:
  • Эмне сынган: "PSP-X аркылуу депозиттер: убакыт өсүшү."
  • Кимдер таасир эткен: "TR/BR, ~ 18% агымын колдонуучулар."
  • Качан башталган: "12:07 EET, SEV1."
  • Эмне кылабыз: "PSP-Y багытын которуу, Retray/чеги киргизилген."
  • Кийинки жаңылоо: "20 мүнөттөн кийин."
  • Байланыш: "IM @duty -im, TL @oncall -pay."

Коомдук статус (бет/социалдык тармактар) - кыскартылган, PII жана кошумча деталдары жок, ETA жана андан аркы жаңыланууларга шилтеме менен.

9) Артефакттарды чогултуу жана аудит

Таймлайн окуялары (мүнөттүк тактык), кызматтардын версиялары, фича-желектер, конфигурацияларды өзгөртүү.
Дашборддордун сүрөттөрү, болжолдуу жолдор (trace_id), логи "чейин/убагында/кийин".
Билеттерге шилтемелер, PR, релиздер, рунабуки.
Байланыш боюнча отчет (качан/кимге/эмне).
Баары окуянын картасына кирет.

10) Жабуу жана PIR (Post-Incident Review)

PIR форматы (кыска):
  • Резюме: эмне болду, масштабы, узактыгы, SEV.
  • Таасири: колдонуучулар/региондор, SLO/SLA, Finn. таасири.
  • Таймлайн: майда-чүйдөсүнө чейин, мүнөт сайын.
  • Root Cause: техникалык + уюштуруу (эмне үчүн мурда такталган эмес).
  • Detections & Defense: эмне жардам берди/капа (Алерт, синтетика, phicheflages).
  • Action Items: конкреттүү милдеттери, ээлери, мөөнөттөрү (жана натыйжасын текшерүү катары).
  • Lessons Learned: процессте/архитектурада/байкоодо эмне өзгөрөт.

Эрежелер: айыпсыз, максималдуу фактылар, аткарылган пункттарды текшерүү үчүн 2-4 жумадан кийин милдеттүү түрдө кайра жүктөө.

11) Процесс ишенимдүүлүгүнүн метрикасы

MTTD (Mean Time to Detect) - орточо аныктоо убактысы.
MTTA (… Acknowledge) - on-call тастыкталганга чейин.
MTTR (… Restore) - SLO калыбына чейин.
Change Failure Rate - окуяларга алып келген релиздердин%.
SEV боюнча Incident Rate, домендерди бөлүштүрүү (Payments/Games/Infra).
Alert Quality: ызы-чуу/жалган үлүшү, Алерт кийин иш-аракет чейин убакыт.
Комм-SLA: статус-апдейттердин мезгилдүүлүгүн сактоо.

12) SLO жана релиздер менен бириктирүү

CD Гейтс: жашыл SLO-Proxy (availability, p95, conv, TTW) гана канарейка промоушен.
Freeze-жол-жоболору: fast-burn/SEV1 - PIR чейин релиздерди токтотуу.
Авто-аннотациялар: релиздер/желектер/миграциялар дашборддордо көрүнүп турат.

13) Жөнгө салуучу жана комплаенс

PII: блогдордо/соодаларда, WORM-аудит сактоочу жайларда, кирүү көзөмөлүндө жашыруу/псевдоним.
Регионалдуулук: колдонуучу маалыматтарын уруксат берилген юрисдикциялардын чегинен чыгарбоо.
Отчеттуулук: жөнгө салуучу органдарга формалдаштырылган каттар/билдирүүлөр - шаблондор жана эскалация процесси.

14) Окутуу жана даярдык (Game-Day)

Чейректик машыгуулар: "PSP кулашы", "оюн провайдери жеткиликтүү эмес", "p99 жарылуу", "ачкыч агып кетиши".
MTTA/MTTR боюнча таймерлер, көнүгүүлөр боюнча ретро.
Рунабуктарды жана байланыштарды жаңыртуу, ChatOps командаларын текшерүү.

15) Даярдык чек-тизмеси (окуяга чейин)

1. SEV эрежелери жана эскалация матрицасы макулдашылды.
2. On-call rotation дайындалган, IM/TL/Comms/Scribe.
3. негизги жагдайлар боюнча Runabuki (төлөмдөр, оюндар, DD, кэш, кезек).
4. SLO-карта жана burn-rate тобокелдиктер, статус-бет.
5. ChatOps-бот: командалар, автоконтекст, статус шаблондору.
6. PIR үлгүлөрү жана окуя карталар.
7. Үзгүлтүксүз оюн-күнү жана текшерүү байланыштар/укуктар.
8. freeze саясаты жана "кызыл баскычы" (rollback/kill-switch).

16) Антипаттерндер

бир IM жок, "эл жетектейт" → башаламандык жана кечигүү.
SLO Gates жок → кеч детекция, ызы-чуу коркунучтар.
freeze → каскаддык каталар жок окуя учурунда бошотуу.
Логдор жана соода жетиштүү эмес, эч кандай экспонаттар → алсыз PIR.
Айыптоо маданияты → жашыруун каталар, эскалация коркуу.
Байланыш "илхам" → бизнес/колдонуучулардын ишенимин жоготуу.

17) Үлгүлөр (сиздин wiki көчүрүп)

A) Окуя картасы (YAML)

yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"

B) Статус-апдейт (ички)


[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im      TL: @oncall-pay

C) PIR (калпак)


Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.

Натыйжалары

Күчтүү инциденттерди башкаруу - бул түзүм + тартип: алдын ала макулдашылган ролдор, SLO-гейтс, иштелип чыккан рунабуктар, ачык-айкын коммуникациялар жана "бейкүнөө" PIR. Бул контур MTTA/MTTR кыскартат, токтоп калуу наркын азайтат, колдонуучулардын ишенимин бекемдейт жана кайраттуу бошотууга мүмкүндүк берет - бирок коопсуз.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.