GH GambleHub

Төлемдердегі инциденттердің ойнатқышы

TL; DR

Төлемдердегі инцидент - бұл басқарылатын операция: тез жіктеу → UX (фейловер/деградация) тұрақтандыру → ақшаны сақтау (идемпотенттілік/блок-ережелер) → ашық байланыс → қалпына келтіру → RCA тіркеу. Басты SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund.

1) Күрделілік матрицасы (Severity & Impact)

SevАнықтамаМысалдарМақсаттар
P0Жаппай әсер ету, ақшалай шығындар/төлей алмауAuth <− 20 п.т., қосарланған есептен шығару, жаппай payout-фейл, settlement тоқтаMTTA ≤ 15 мин, MTTR ≤ 2 сағ
P1Сегменттер үшін елеулі тозуWebhook p95> 30 c, payout TtW p95> SLO, AR бойынша BIN/ел − 8 б.т. MTTA ≤ 30 мин, MTTR ≤ 4 сағ
P2Шектеулі сегмент/фичrefund error 0 дейін өсуі. 5%, PSP есептерінің кідіруіMTTA ≤ 4 сағ, MTTR ≤ 2 ш.а.
P3Шағын/« қағаз »Ұсақ schema driftЖоспарлы

Триггерлер: SLA/қазынашылық/салыстыру, саппорт шыңдары, AR/latency/webhooks мониторингі.

2) Байланыс рөлдері мен арнасы

Incident Commander (IC) - таймлайн мен шешімдердің иесі.
Payments Tech Lead - бағыттау, теңсіздік, фич-жалаулар.
Treasury Lead - өтімділік, prefunding, stress-резервтер.
Risk/AML - санкциялар, блок-ережелер, SoF/SoW.
Comms Manager - саппорт/серіктестер үшін үлгілер, статус-апдейттер.
Recon/Finance - салыстыру, сторно/журналдар, шығындарды бағалау.

Штаб: #payments-incident-warroom (чат), Zoom-бридж + таймлайн құжаты (UTC).

3) Әмбебап цикл (for any incident)

1. Detect & Triage → метриканы/қамтуды растау, Sev тағайындау.
2. Stabilize UX → фейловер роутинг, фич деградациясы, қауіпті автоқоспаларды мұздату.
3. Money Safety → демпотенттілікті/блоктарды (refund/payout) қосу, журналдарды тіркеу.
4. Communicate → ішкі жаңарту (15/30/60 мин), сыртқы хабарлар (статус/ETA/айналма жолдар).
5. Recover → қадамдық кері/ашу, SLO верификациялау.
6. Reconcile → леджерді/PSP/банкті салыстыру, financial impact есептеу.
7. RCA (≤ 5 р.д.) → тамыры, әрекеттері, алдын алушылары, міндеттері.

4) Үлгілік сценарийлер мен Runbook 'және

4. 1 Auth Drop/Latency Spike (карталар/А2А)

Белгілері: AR ↓, soft declines ↑, p95 auth> 1-2 s.

Әрекеттер:
  • Smart-routing: PSP_A→PSP_B, осал BIN 3DS-challenge арттыру.
  • Ретрацияны шектеу (backoff + джиттер), сәйкессіздікті қорғау 'auth _ key'.
  • Сегмент-toggle: «қатаң» сценарийге high-risk; high-ticket лимиттерін төмендету.
  • Коммуникация: «деградация туралы ескерту», баламалы әдісті ұсыну.
  • Қалпына келтіру: трафик үлесін кезең-кезеңмен қайтару, BIN × GEO бөлінісінде AR бақылау.

4. 2 Webhooks Delay / Duplicate

Белгілері: p95> 3-5 с, capture/refund/payout, телнұсқалары.

Әрекеттер:
  • polling қызметіне өту; TTL ұқсастығын күшейту.
  • Авто-рефандтар мен тәуекелді авто-төлемдерді тоқтату.
  • Анти-дубль: store-once бойынша 'idempotency _ key/provider _ txid'.
  • catch-up өңдеуді жүргізу; PSP тізілімдерімен салыстыру.
  • Қалпына келтіру: webhooks қосу, есептермен консистенттілікті салыстыру.

4. 3 Payout Fail / TtW Degradation

Белгілері: Success% ↓, TtW p95 ↑, қайтарымдар/тайм-ауттар.

Әрекеттер:
  • Резервтік рельске фейловер (RTP/SEPA/басқа PSP).
  • Treasury: prefund top-up payout-пулы, StressRes белсендіру.
  • high-risk үшін Payout-lock, VIP басымдылығы.
  • Коммуникация: ETA және баламалар, жеке кабинеттегі мәртебелердің ашықтығы.

4. 4 Refund Errors / Double Refund Risk

Белгілері: Refund error rate ↑, даулы/қайталанатын қайтарымдар.

Әрекеттер:
  • Авто-маршрутта жаһандық refund-freeze, тек қол құқықтарымен.
  • Қатты сәйкестік 'payment _ id + amount + reason'; row-lock қалдығы.
  • PSP есеп бойынша қайта салыстыру; сторно дублей в леджере, кейстер в DLQ.
  • Карталарға арналған Kommunikatsii:模板 (T + 1-T + 5 б.д.), instant - 60 с. дейін

4. 5 Settlement Delay / PSP Batch Mismatch

Белгілері: D + N есептелмеген, diff сомасы/fee.

Әрекеттер:
  • Treasury: StressRes қосыңыз, жедел төлемдерді шектеу.
  • Recon: «SUSPENSE» батшын белгілеу, PSP тикетін көтеру, statement сұрату.
  • FX/Fees: уақытша «ақиқатты» (policy) қабылдау немесе түзетуді күту.
  • Коммуникация: Саппорт үшін Q&A (құралдардың қауіпсіздігі, реттеу мерзімдері).

4. 6 Crypto On/Off-Ramp Degradation

Белгілері: TtH ↑, slippage ↑, алаңның өтімділік тапшылығы.

Әрекеттер:
  • SOR → CEX/OTC баламалы, лот өлшемін азайту (TWAP).
  • Стейблге/фиатқа кіретіндерді аудару, depeg-экспозиция лимиті.
  • Oracle> bps шегінің айырмашылығы кезінде Kill-switch.

4. 7 Voucher/Wallet Anomalies

Белгілері: Invalid PIN spike, velocity, гео-миска.

Әрекеттер:
  • Лимиттер/құлдаун, redeem құрылғыға байланыстыру, payout-lock + turnover.
  • Чектерді сұрату/SoF, блок-парақтарды толықтыру (email/device/ASN/retailer).

5) Іс-қимылдың чек-парақтары

5. 1 Алғашқы бес минут (P0/P1)

  • IC тағайындау, war-room ашу.
  • Sev, қамту, таймлайнды бастау (UTC).
  • Қауіпсіз фич-жалауларды қосу (іспеттілік, қажетті автопроцесстерді freeze).
  • Функциялардың фейловерін/деградациясын іске қосу.
  • Бірінші ішкі жаңарту (контекст, шаралар, келесі ETA).

5. 2 Оқыс оқиғаны жабу алдында

  • SLO (AR/latency/webhooks/TtW/TtR) қалпына келтірілді.
  • Салыстыру жүргізілді (internal, PSP, bank), «қара тесіктер» жоқ.
  • Қаржылық impact бағаланды, ескі/журналдар ресімделді.
  • Мәртебе-арнадағы сыртқы жаңарту/пост.
  • RCA иесі және алдын алу тапсырмалары тағайындалды.

6) Мониторинг, алерттар және дашбордтар

Негізгі тәуекелдер:
  • 'AR _ gross ↓> 3 п.т. (p7 медианаға)' → қамту бойынша P1/P0.
  • `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
  • `Payout TtW p95> SLO` или `Success%<99%` → P1.
  • `Refund Error>0. 3%` или `Double Refund>0` → P0.
  • `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Инциденттердің дашборды:

1. Фанель Attempt → Auth → Capture (базис сызығына салыстыру).

2. Heatmap AR по BIN×GEO×PSP.

3. Webhook p50/p95, телнұсқалар, дребезг.

4. Payout/Refund Health (Success%, TtW/TtR).

5. Treasury: L0, prefund, StressRes теңгерімі.

6. Recon: Mismatch Rate, Aging DLQ.

7) Коммуникация (үлгілер)

Ішкі (15 мин):
💡 `P1 Payments | Auth drop on PSP_A GEO-DE, AR −9pp vs baseline. Failover to PSP_B in progress, 3DS policy tightened for BIN 4250. Auto-refunds paused. Next update 30 min.`
Ойыншыларға (мәртебе-бет/FAQ):
💡 "Қазір кейбір пайдаланушылар үшін төлемдер мен шығыстарды растаудың кешіктірілуі байқалады. Төлемдер қауіпсіздікте сақталады. X. баламалы әдісін ұсынамыз. 30 минуттан кейін жаңарту"
Серіктестер/мерчанттарға (қысқаша):
💡 "DACH өңірлерінде А провайдері авторизациясының құлдырауы. В провайдеріне арналған фейловер іске қосылды. SLA-есеп және алдын алу шараларын RCA қорытындысы бойынша жібереміз"

8) Салыстырып тексеру және ақша (тұрақтандырудан кейін)

Авто салыстырып тексеру: provider_txid/idem_key/amount/time-bucket.
DLQ: orphan/duplicate/amount mismatch/fee drift дегенді таңдау.
Сторно/түзетулерді леджерде ресімдеу, Cost/GGR және Fraud Loss қайта есептеу.
Қазынашылық: уақытша шараларды жабу (StressRes, payout-lock), пулдардың ребалансы.

9) RCA үлгісі (Root Cause Analysis)

Контекст: күні/уақыты (UTC), Sev, қамту, метрика.
Симптомдары: не көрді (графиктер/скриншоттар).
Себебі: тамыры (тех/процестер/контрагент).
Не істеді/істемеді: фейловер, фич-жалаулар, коммуникациялар.
Қаржылық тиімділігі: есептен шығару/төлемеу/комиссия/SLA кредиттері.

Prevention:
  • Тех: лимиттер, теңсіздік, ретра, тестілер.
  • Процестер: playbook жаңарту, PSP, SLA өзгерістері бар QBR.
  • Тапсырмалардың мерзімі мен иелері.

10) Автоматтандыру және ықпалдастыру

Feature-flag platform: ел/BIN/әдісі бойынша жедел роутинг/деградация.
Runbook-бот: '/failover PSP_A→B', '/freeze refunds ', '/enable polling' пәрмендері.
Anomaly-детектор: маусымдылықты білетін AR/latency статистикалық ауытқуы.
Post-incident macros: RCA үлгісін автоматты түрде ашу, логтарды/графиктерді жинау, тексеру парағы.

11) Drill-күнтізбесі және UAT

Ай сайын: «Auth drop» drill (детектордан фейловерге дейін 15 мин).
Тоқсан сайын: «Webhook outage» + «Refund double-strike» (идемпотенттілік).
Жарты жылда бір рет: «Settlement delay + Treasury stress» (StressRes).
UAT-пакет: сәйкестілік, фейловер, салыстыру, коммуникация тест-кейстері.

12) Плейбук жетістігінің өлшемдері (операциялық KPI)

MTTA/MTTR: медиана/п95 P0/P1 бойынша.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (инциденттер бойынша сома).

13) Жиі қателер және оларды болдырмау

Фейловердің кеш белсендірілуі (автоматты шектер жоқ).
Webhooks сілкінісі кезінде авто-рефандада «freeze» болмауы.
row-lock/нұсқалау → partial refund> қалдығы жоқ.
Фактісіз коммуникация/ETA → саппортта эскалация.
Қазынашылықпен байланыс жоқ → TtP/TtW SLO-дан шығады.
Салыстырып тексеру → түсімдегі «қара тесіктер».

14) Бағдарламалар (wiki ішіндегі сілтемелік блоктар)

SLA төлем провайдерлерімен - алерт шектері мен кредиттер.
PSP төлемдері мен есептерін салыстыру - recon/DLQ рәсімдері.
Қазынашылық: өтімділік және резервтер - StressRes/Prefunding.
Төлем контурының KPI - AR/TtW/TtR/Refund Health формулалары.
Ішінара және толық рефандтар - іспеттілік және саясат.

Түйіндеме

Жұмыс плейбуки - бұл сценарий runbook 'және + автоматтандыру + пост-мортемалар пәні. Ол MTTR қысқартады, ақшаны қорғайды (демпотенттік/салыстыру/қазынашылық), пайдаланушы шығынын азайтады және SLA бойынша PSP-мен қарым-қатынасты жүйелі түрде жақсартады. Нәтижесі - AR жоғары, TtW/TtR дәліздерде, нөл дубль, болжамды ақша флоу.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.