GH GambleHub

Оқыс оқиғалар мен аварияларға реакция

(Бөлім: Операциялар және Басқару)

1) Анықтамалар мен мақсаттар

Инцидент - SLO/қауіпсіздік/комплаенс бұзатын немесе клиенттерге, ақшаға, деректерге, беделге қауіп төндіретін оқиға.
Реакцияның мақсаты: сервисті тез қалпына келтіру, залалды барынша азайту, дәлелдемелерді тіркеу, ашық байланыс жасау және қайталануға жол бермеу.

Негізгі қағидаттар

Safety first: адамдарды/деректерді/ақшаны қорғау функциялардан гөрі маңызды.
One throat to choke: бірыңғай Incident Commander (IC) шешімдер қабылдайды.
Actionable now: әрбір гипотеза тексерумен/әрекетпен қатар жүреді.
Evidence matters: барлығы логикаланады, артефактілерге қол қойылады, таймлайн - егжей-тегжейлі.

2) Жіктеу (severity & басымдығы)

SEVБелгілерMTTR мақсатыМысалдар
P1 / SEV-0Жаппай қол жетімсіздік/ақшаны жоғалту/PII жылыстау≤ 60 минCheckout өтпейді; ПДн ағуы; қате есептен шығару
P2 / SEV-1Күшті құлдырау/ішінара өңір4 сағатқа ≤Веб-хуктардың лаг, бағалардың рассинхроны; провайдердің жоғары қателіктері
P3 / SEV-2Жергілікті құлдырау/қателердің өсуі≤ 24 сағатӘріптестің кезегін қайта тиеу; фрод-сигналдардың көтерілуі
P4 / SEV-3Шағын жүктемелер/тренд тәуекеліЖоспарлыМетриканың ауытқуы, ескірген сертификаттар

Триггер: SLO бұзылуы, алерт ережесі, қолмен репорт, заңды инцидент (DPO/CCO).

3) Рөлдер және жауапкершілік (RACI)

Incident Commander (A) - тосын оқиғалар көшбасшысы, міндеттер қою, шешімдер қабылдау, ұзақ тосын оқиғалар кезінде IC ауысуы.
Tech Lead (R) - техникалық диагностика/фикстер, SRE/инжинирингті үйлестіру.
Comms Lead (R) - мәртебе-жаңартуларды жазады (ішкі/сыртқы), мәртебе-беттің иесі.
Scribe (R) - хаттама, таймлайн, артефактілерді жинау.
Security/Legal (C/A секьюрити-жағдайлар үшін) - тәуекелдерді бағалау, міндетті хабарламалар.
Customer Support (C) - жауап үлгілері, тикеттерді бағыттау.
Partner Liaison (C) - провайдерлермен/тенанттармен байланыс.
Management (I) - ақпараттандыру, бизнес-шешімдер (кредиттер/өтемақылар).

4) Алғашқы 15 минут (үлгі)

1. IC тағайындау және инцидент картасын ашу (чат арнасы, бейнемост, Jira/Tracker).
2. SEV беру және SLO-симптомын бекіту (нақты не бұзылған).

3. Тұрақтандыру:
  • runbooks/runs қосу: circuit-breakers, троттлинг, маршрутты ауыстырып қосу, промо-пауза;
  • компрометация кезінде - сезімтал функциялардың kill-switch.
  • 4. Командалар: Tech Lead - диагностика; Comms - «техникалық холд» (10-15 минуттан кейін - бірінші жаңарту).
  • 5. Гипотезаларды анықтау (үш максимум), иелерін тағайындау, таймерлерді тексеруге қою (5-10 мин).
  • 6. Артефактілерді жинау: метриктер, конфигалар, релиздер хэштері, 'trace _ id' логтары, түбіртектер.

5) Бірінші сағат (үлгі)

Коммуникация v1 (15-20 мин): факт, қамту, симптомдар, біз жасаймыз, келесі жаңарту. Алыпсатарлықсыз.
Оқыс оқиғаның шекаралары: қандай өңірлер/тенанттар/арналар/нұсқалар қозғалған.
Залалды бақылау: уақытша қауіптер/шектеулер, «шулы» интеграцияларды ажырату, тозу режимін қосу.
Форензика: логтардың ротациясын тоқтату, артефактілерді қорғау (WORM/қолтаңбалар).
Қалпына келтірудің жол картасы: чек-поинттерімен T + 30/T + 60.

6) Коммуникация және мәртебе-бет

Ішкі аралықтар: Р1 - әрбір 15 минут, Р2 - 30-60 минут.
Сыртқы: статус-бет/тенанттар/SLA бойынша серіктестер.

Хабар үлгісі:
  • Не көрінеді: «X: YY UTC-мен EU өңірінде checkout істен шығуының өсуі (p95> 250 мс)»
  • Кімге қатысты: «A/B/C операторлары, трафиктің 40% ~»
  • Не істейміз: "баламалы маршрут, троттлинг промо; провайдермен жұмыс істейміз PSP-1"
  • Деректер/мерзімдер: «15 минуттан кейін келесі жаңарту»
  • Өтемақы: «инцидент жабылғаннан кейін SLA-ға сәйкес кредит-ноталарды қолданамыз»

7) Плейбуктар (iGaming/финтех үшін референциялар)

PriceMismatch (витрина ≠ checkout): кэштің форс-мүгедектігі, 'fx _ version/tax _ rule _ version' салыстыру, динамикалық промо мұздату, саясат бойынша айырмашылықтарды өтеу.
WebhookLag (серіктестер/аффилиаттар): воркерлерді масштабтау, batch ұлғайту, ретрациялардың артықшылығы, жаңа жазылымдарға уақытша қапшық.
Payments Outage/PSP-деградациясы: резервтік PSP-ге ауысу, клиенттердің таймауттарының төмендеуі, кезектің қолмен клирингі, карантинге «сұр» транзакциялар.
RTP Drift: бонустарды тоқтату, төлем кестелерін/нұсқаларын тексеру, бақылау терезесін кеңейту, RTP профилін қайтару.
Fraud Spike: velocity/лимиттерді қатаңдату, қосымша KYC-тексеруді қосу, күдікті когорттарды оқшаулау, жоғары ұтыстарды қолмен ыза ету.
Data/PII Exposure: жүйелерді оқшаулау, DPO/Legal хабарламасы, қозғалған жазбаларды түгендеу, мерзімдері бойынша реттеуші хабарламалар.

8) Аспаптар мен рундар (auto-actions)

Кнопки: Pause Promo, Re-Route, Raise Limit, Rollback, Flush Cache, Disable Webhooks, Enable Safe Mode.
Гвард-рельстер: «седланийден» қорғау - сырғу шектелген, журналдарға қол қойылған, әрбір IC/Scribe әрекеті.
Дәлелденуі: DSSE қолтаңбалары, снапшот хэштері, Merkle тіліктері.

9) Оқыс оқиғаның аяқталуы

Өлшемдер: SLO қалпына келтірілді, кезек өтелді, деректер/ақша салыстырылды, тәуекелдер жабылды, коммуникациялар жіберілді.
Жабылу рәсімі: соңғы мәртебені жаңарту, тіркелген таймлайн, әсер ету тізімі, себептердің алдын ала болжамдары, пост-мортема күні белгіленді.

10) Пост-мортем (айыптаусыз)

Мерзімі: Р1 - 3 жұмыс күні ішінде; P2 - 5 жұмыс күні.
Мазмұны: фактілер/таймлайн, негізгі себептер (5 Whys/FRAM), әсер (SLO, қаржы, клиенттер), жұмыс істеген/істемеген, action items (owner, мерзімі, өлшенетін әсері).
Тиімділікті тексеру: 30-60 күннен кейін - орындау реві және метрика (қайталанушылық, MTTR, алерт шуы).

11) Метрика және SLO инцидент-менеджмент

MTTD/MTTA/MTTR, Change Failure Rate, Time to Comms v1,% авто-рұқсат етілген (рунмен).
Alert Noise: өзекті емес сигналдардың үлесі, pages per on-call shift.
Repeat Incidents: 90 күн ішінде қайталау үлесі.
Post-mortem SLA: мерзімінде жүргізілген/жабылғандардың үлесі.
SLO реакциясы: P1 - бірінші коммуникация ≤ 15 мин; MTTR ≤ 60 мин; артефактілердің толықтығы = 100%.

12) Құқық/комплаенс/құпиялылық

Заңды хабарламалар: ағулар/инциденттер бойынша жергілікті реттеуіштердің мерзімдері.
PII-азайту: бастапқы қызметке тек бекітілген джобтар арқылы ғана қол жеткізу; токенизация/бүркемелеу.
Артефактілерді сақтау: WORM-журналдар, юрисдикциялар бойынша сақтау кезеңі; кіруді бақылау (RBAC/ABAC, JIT).
Контрагенттер: шарттық SLA, эскалация процесі, талқылау түбіртектері.

13) Кезекшіліктер мен эскалацияларды ұйымдастыру

24 × 7 on-call: рөлдер бойынша ротациялар (SRE, App, Data, Security, Payments).
Эскалация матрицасы: кім өңірлер/өнімдер/провайдерлер үшін; контактілерді қайталау (чат/дауыс/SMS).
Жаттығулар (GameDays): симуляциялар - PSP құлауы, ретрайлардың көшкіні, бағалардың рассинхроны, кілттің компромисі, өңірдің істен шығуы.

14) Инциденттердің дашбордтары

Ыстық (қазір): SLO мәртебесі, p95/p99, өңірлер/тенанттар картасы, тапсырмалар кезегі, артефактілер жинақталған/жинақталмаған.
Тарих: инцидент түрлері бойынша трендтер, руна тиімділігі, себептердің қайталануы.
Сапаны бақылау: таймлайнның толықтығы, пост-мортемалардың «coverage», SLA коммуникациялар.

15) Енгізу чек-парағы

  • SEV шкаласы мен SLO триггерлерін бекіту.
  • Рөлдерді (IC/Tech/Comms/Scribe/Sec/Legal) және ротацияларды тағайындау 24 × 7.
  • Оқиға картасының бірыңғай үлгісі мен мәртебе бетін іске қосу.
  • Плейбуктерді сипаттау (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
  • Аудит және «қызыл батырмамен» руналарды сату.
  • Форензия саясатын қосу: WORM/қолтаңбалар/артефактілерді жинау.
  • Коммуникация регламенті (ішкі/сыртқы) , SLA жаңартулары.
  • Пост-мортем процесі мен үлгілері; KPI орындау action items.
  • GameDays ай сайын; инциденттер трендтеріне тоқсандық шолу.
  • Дашбордтағы IR өлшемдері (MTTA/MTTR/Noise/Repeat/Comms SLA).

16) FAQ

Неге «IC бір»?
Шешім қабылдаудың бірыңғай нүктесі хаосты жояды және реакцияны жеделдетеді.

Қашан жариялау керек?
Расталған факт пен тұрақтандыру жоспары болысымен. Реттеуші мерзімдерді бағалаңыз.

Не маңыздырақ - фикс немесе есеп?
Алдымен - қалпына келтіру және қауіпсіздік. Сонымен қатар - артефактілерді жинау. Есеп - тұрақтандырудан кейін.

Бәрін автоматтандыруға бола ма?
Жоқ, бірақ руналар «жиі және қарапайым» қадамдарды жабады. Қалғаны - нақты плейбуктер мен жаттығулар арқылы.

Резюме: Күшті Incident Response - бұл тек PagerDuty және чат арнасы ғана емес. Бұл рөлдердің тәртібі, жылдам алғашқы 15 минут, басқарылатын руналар, мөлдір коммуникациялар, дәлелденетін форензия және міндетті пост-мортем. Осындай контурмен сіз MTTR-ді төмендетесіз, ақша мен деректерді қорғайсыз және клиенттер мен реттеушілердің сенімін арттырасыз.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.