Төлемдердегі инциденттердің ойнатқышы
TL; DR
Төлемдердегі инцидент - бұл басқарылатын операция: тез жіктеу → UX (фейловер/деградация) тұрақтандыру → ақшаны сақтау (идемпотенттілік/блок-ережелер) → ашық байланыс → қалпына келтіру → RCA тіркеу. Басты SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund.
1) Күрделілік матрицасы (Severity & Impact)
Триггерлер: SLA/қазынашылық/салыстыру, саппорт шыңдары, AR/latency/webhooks мониторингі.
2) Байланыс рөлдері мен арнасы
Incident Commander (IC) - таймлайн мен шешімдердің иесі.
Payments Tech Lead - бағыттау, теңсіздік, фич-жалаулар.
Treasury Lead - өтімділік, prefunding, stress-резервтер.
Risk/AML - санкциялар, блок-ережелер, SoF/SoW.
Comms Manager - саппорт/серіктестер үшін үлгілер, статус-апдейттер.
Recon/Finance - салыстыру, сторно/журналдар, шығындарды бағалау.
Штаб: #payments-incident-warroom (чат), Zoom-бридж + таймлайн құжаты (UTC).
3) Әмбебап цикл (for any incident)
1. Detect & Triage → метриканы/қамтуды растау, Sev тағайындау.
2. Stabilize UX → фейловер роутинг, фич деградациясы, қауіпті автоқоспаларды мұздату.
3. Money Safety → демпотенттілікті/блоктарды (refund/payout) қосу, журналдарды тіркеу.
4. Communicate → ішкі жаңарту (15/30/60 мин), сыртқы хабарлар (статус/ETA/айналма жолдар).
5. Recover → қадамдық кері/ашу, SLO верификациялау.
6. Reconcile → леджерді/PSP/банкті салыстыру, financial impact есептеу.
7. RCA (≤ 5 р.д.) → тамыры, әрекеттері, алдын алушылары, міндеттері.
4) Үлгілік сценарийлер мен Runbook 'және
4. 1 Auth Drop/Latency Spike (карталар/А2А)
Белгілері: AR ↓, soft declines ↑, p95 auth> 1-2 s.
Әрекеттер:- Smart-routing: PSP_A→PSP_B, осал BIN 3DS-challenge арттыру.
- Ретрацияны шектеу (backoff + джиттер), сәйкессіздікті қорғау 'auth _ key'.
- Сегмент-toggle: «қатаң» сценарийге high-risk; high-ticket лимиттерін төмендету.
- Коммуникация: «деградация туралы ескерту», баламалы әдісті ұсыну.
- Қалпына келтіру: трафик үлесін кезең-кезеңмен қайтару, BIN × GEO бөлінісінде AR бақылау.
4. 2 Webhooks Delay / Duplicate
Белгілері: p95> 3-5 с, capture/refund/payout, телнұсқалары.
Әрекеттер:- polling қызметіне өту; TTL ұқсастығын күшейту.
- Авто-рефандтар мен тәуекелді авто-төлемдерді тоқтату.
- Анти-дубль: store-once бойынша 'idempotency _ key/provider _ txid'.
- catch-up өңдеуді жүргізу; PSP тізілімдерімен салыстыру.
- Қалпына келтіру: webhooks қосу, есептермен консистенттілікті салыстыру.
4. 3 Payout Fail / TtW Degradation
Белгілері: Success% ↓, TtW p95 ↑, қайтарымдар/тайм-ауттар.
Әрекеттер:- Резервтік рельске фейловер (RTP/SEPA/басқа PSP).
- Treasury: prefund top-up payout-пулы, StressRes белсендіру.
- high-risk үшін Payout-lock, VIP басымдылығы.
- Коммуникация: ETA және баламалар, жеке кабинеттегі мәртебелердің ашықтығы.
4. 4 Refund Errors / Double Refund Risk
Белгілері: Refund error rate ↑, даулы/қайталанатын қайтарымдар.
Әрекеттер:- Авто-маршрутта жаһандық refund-freeze, тек қол құқықтарымен.
- Қатты сәйкестік 'payment _ id + amount + reason'; row-lock қалдығы.
- PSP есеп бойынша қайта салыстыру; сторно дублей в леджере, кейстер в DLQ.
- Карталарға арналған Kommunikatsii:模板 (T + 1-T + 5 б.д.), instant - 60 с. дейін
4. 5 Settlement Delay / PSP Batch Mismatch
Белгілері: D + N есептелмеген, diff сомасы/fee.
Әрекеттер:- Treasury: StressRes қосыңыз, жедел төлемдерді шектеу.
- Recon: «SUSPENSE» батшын белгілеу, PSP тикетін көтеру, statement сұрату.
- FX/Fees: уақытша «ақиқатты» (policy) қабылдау немесе түзетуді күту.
- Коммуникация: Саппорт үшін Q&A (құралдардың қауіпсіздігі, реттеу мерзімдері).
4. 6 Crypto On/Off-Ramp Degradation
Белгілері: TtH ↑, slippage ↑, алаңның өтімділік тапшылығы.
Әрекеттер:- SOR → CEX/OTC баламалы, лот өлшемін азайту (TWAP).
- Стейблге/фиатқа кіретіндерді аудару, depeg-экспозиция лимиті.
- Oracle> bps шегінің айырмашылығы кезінде Kill-switch.
4. 7 Voucher/Wallet Anomalies
Белгілері: Invalid PIN spike, velocity, гео-миска.
Әрекеттер:- Лимиттер/құлдаун, redeem құрылғыға байланыстыру, payout-lock + turnover.
- Чектерді сұрату/SoF, блок-парақтарды толықтыру (email/device/ASN/retailer).
5) Іс-қимылдың чек-парақтары
5. 1 Алғашқы бес минут (P0/P1)
- IC тағайындау, war-room ашу.
- Sev, қамту, таймлайнды бастау (UTC).
- Қауіпсіз фич-жалауларды қосу (іспеттілік, қажетті автопроцесстерді freeze).
- Функциялардың фейловерін/деградациясын іске қосу.
- Бірінші ішкі жаңарту (контекст, шаралар, келесі ETA).
5. 2 Оқыс оқиғаны жабу алдында
- SLO (AR/latency/webhooks/TtW/TtR) қалпына келтірілді.
- Салыстыру жүргізілді (internal, PSP, bank), «қара тесіктер» жоқ.
- Қаржылық impact бағаланды, ескі/журналдар ресімделді.
- Мәртебе-арнадағы сыртқы жаңарту/пост.
- RCA иесі және алдын алу тапсырмалары тағайындалды.
6) Мониторинг, алерттар және дашбордтар
Негізгі тәуекелдер:- 'AR _ gross ↓> 3 п.т. (p7 медианаға)' → қамту бойынша P1/P0.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Фанель Attempt → Auth → Capture (базис сызығына салыстыру).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, телнұсқалар, дребезг.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: L0, prefund, StressRes теңгерімі.
6. Recon: Mismatch Rate, Aging DLQ.
7) Коммуникация (үлгілер)
Ішкі (15 мин):8) Салыстырып тексеру және ақша (тұрақтандырудан кейін)
Авто салыстырып тексеру: provider_txid/idem_key/amount/time-bucket.
DLQ: orphan/duplicate/amount mismatch/fee drift дегенді таңдау.
Сторно/түзетулерді леджерде ресімдеу, Cost/GGR және Fraud Loss қайта есептеу.
Қазынашылық: уақытша шараларды жабу (StressRes, payout-lock), пулдардың ребалансы.
9) RCA үлгісі (Root Cause Analysis)
Контекст: күні/уақыты (UTC), Sev, қамту, метрика.
Симптомдары: не көрді (графиктер/скриншоттар).
Себебі: тамыры (тех/процестер/контрагент).
Не істеді/істемеді: фейловер, фич-жалаулар, коммуникациялар.
Қаржылық тиімділігі: есептен шығару/төлемеу/комиссия/SLA кредиттері.
- Тех: лимиттер, теңсіздік, ретра, тестілер.
- Процестер: playbook жаңарту, PSP, SLA өзгерістері бар QBR.
- Тапсырмалардың мерзімі мен иелері.
10) Автоматтандыру және ықпалдастыру
Feature-flag platform: ел/BIN/әдісі бойынша жедел роутинг/деградация.
Runbook-бот: '/failover PSP_A→B', '/freeze refunds ', '/enable polling' пәрмендері.
Anomaly-детектор: маусымдылықты білетін AR/latency статистикалық ауытқуы.
Post-incident macros: RCA үлгісін автоматты түрде ашу, логтарды/графиктерді жинау, тексеру парағы.
11) Drill-күнтізбесі және UAT
Ай сайын: «Auth drop» drill (детектордан фейловерге дейін 15 мин).
Тоқсан сайын: «Webhook outage» + «Refund double-strike» (идемпотенттілік).
Жарты жылда бір рет: «Settlement delay + Treasury stress» (StressRes).
UAT-пакет: сәйкестілік, фейловер, салыстыру, коммуникация тест-кейстері.
12) Плейбук жетістігінің өлшемдері (операциялық KPI)
MTTA/MTTR: медиана/п95 P0/P1 бойынша.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (инциденттер бойынша сома).
13) Жиі қателер және оларды болдырмау
Фейловердің кеш белсендірілуі (автоматты шектер жоқ).
Webhooks сілкінісі кезінде авто-рефандада «freeze» болмауы.
row-lock/нұсқалау → partial refund> қалдығы жоқ.
Фактісіз коммуникация/ETA → саппортта эскалация.
Қазынашылықпен байланыс жоқ → TtP/TtW SLO-дан шығады.
Салыстырып тексеру → түсімдегі «қара тесіктер».
14) Бағдарламалар (wiki ішіндегі сілтемелік блоктар)
SLA төлем провайдерлерімен - алерт шектері мен кредиттер.
PSP төлемдері мен есептерін салыстыру - recon/DLQ рәсімдері.
Қазынашылық: өтімділік және резервтер - StressRes/Prefunding.
Төлем контурының KPI - AR/TtW/TtR/Refund Health формулалары.
Ішінара және толық рефандтар - іспеттілік және саясат.
Түйіндеме
Жұмыс плейбуки - бұл сценарий runbook 'және + автоматтандыру + пост-мортемалар пәні. Ол MTTR қысқартады, ақшаны қорғайды (демпотенттік/салыстыру/қазынашылық), пайдаланушы шығынын азайтады және SLA бойынша PSP-мен қарым-қатынасты жүйелі түрде жақсартады. Нәтижесі - AR жоғары, TtW/TtR дәліздерде, нөл дубль, болжамды ақша флоу.