Төлөмдөрдөгү инциденттерди ойнотуу
TL; DR
Төлөмдөрдөгү окуя - бул башкарылуучу операция: тез классификация → UX турукташтыруу (фейловер/деградация) → акча сактоо (демпотенттүүлүк/блок-эрежелер) → ачык-айкын байланыш → калыбына келтирүү → RCA бекитүү. Негизги SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund үчүн нөлдүк сабырдуулук.
1) олуттуу матрица (Severity & Impact)
Триггерлер: SLA/Казыналыктын/салыштыруу, саппорттун чокулары, AR/latency/webhooks мониторинг.
2) Ролдору жана байланыш каналы
Incident Commander (IC) - таймлайн жана чечимдердин ээси.
Payments Tech Lead - багыттоо, боштук, fich желектери.
Treasury Lead - ликвиддүүлүк, преференция, стресс резервдери.
Тобокелдик/AML - санкциялар, блок эрежелери, SoF/SoW.
Comms Manager - саппорт/өнөктөштөр үчүн шаблондор, статус-апдейттер.
Recon/Finance - салыштыруу, сторно/журналдар, жоготууларга баа берүү.
Штаб: #payments -incident-warroom (чат), Zoom-bridge + Live Times Document (UTC).
3) Универсалдуу цикл (for any incident)
1. Detect & Triage → метрика/камтууну ырастоо, Sev ыйгаруу.
2. Stabilize UX → Feylover роутинг, phich деградация, тоңдуруп коркунучтуу унаа жардам.
3. Money Safety → демпотенттикти/блокторду (refund/payout) кошуу, журналдарды жазуу.
4. Communicate → ички жаңылоо (15/30/60 мин), тышкы билдирүүлөр (статус/ETA/айланма жолдор).
5. Recover → кадам артка/ачуу, SLO текшерүү.
6. Reconcile → ledger/PSP/банк салыштырып, каржылык таасир эсептөө.
7. RCA (≤ 5 р.д.) → тамыры, иш-аракеттер, алдын алуучулар, милдеттери.
4) типтүү жагдайлар жана Runbook 'и
4. 1 Auth Drop/Latency Spike (карталар/A2A)
Белгилери: AR ↓, soft declines ↑, p95 auth> 1-2 s.
Иш-аракеттер:- Smart-routing: PSP_A→PSP_B, аялуу BIN боюнча 3DS-challenge көбөйтүү.
- Retrains (backoff + Jitler) чектөө, 'auth _ key' демпотенттигин коргоо.
- Сегмент-toggle: "катуу" жагдайда жогорку тобокелдик; high-ticket чектерин төмөндөтүү.
- Байланыш: "деградация жөнүндө эскертүү", альтернативдик ыкманы сунуш кылуу.
- Калыбына келтирүү: трафиктин үлүшүн этап-этабы менен кайтаруу, BIN × GEO бөлүгүндө AR контролдоо.
4. 2 Webhooks Delay / Duplicate
Белгилери: p95> 3-5 c, capture/refund/payout, кайталанышы.
Иш-аракеттер:- polling өтүү; TTL демпотенттигин күчөтүү.
- Авто-рефандаларды жана кооптуу авто төлөмдөрдү тоңдуруу.
- Анти-дубль: store-once 'idempotency _ key/provider _ txid'.
- catch-up иштетүү жүргүзүү; PSP реестрлери менен салыштыруу.
- Калыбына келтирүү: webhooks күйгүзүү, отчеттор менен консистенттүүлүгүн салыштыруу.
4. 3 Payout Fail / TtW Degradation
Белгилери: Success% ↓, TtW p95 ↑, кайтарымдар/тайм-ауттор.
Иш-аракеттер:- Фейловер резервдик рельске (RTP/SEPA/башка PSP).
- Treasury: prefund top-up payout-бассейн, StressRes жандандыруу.
- Жогорку тобокелдик үчүн Payout-lock, VIP артыкчылыктуу.
- Байланыш: ETA жана альтернативалар, жеке кабинетте статустардын ачыктыгы.
4. 4 Refund Errors / Double Refund Risk
Белгилери: Refund error rate ↑, талаштуу/кайталанма кайтарымдар.
Иш-аракеттер:- авто-маршруту боюнча Global refund-freeze, укуктар менен гана кол менен.
- Катуу боштук 'payment _ id + amount + reason'; row-lock калдыгына.
- PSP отчетун кайра текшерүү; жүз эсе көп, DLQ учурларда.
- Kommunikatsii:模板 карталар үчүн (T + 1-T + 5 б.д.), instant - 60 с. чейин
4. 5 Settlement Delay / PSP Batch Mismatch
Симптомдору: D + N эсепке алынган эмес, суммалар/fee diff.
Иш-аракеттер:- Treasury: StressRes күйгүзүү, тез төлөмдөрдү чектөө.
- Recon: "SUSPENSE" батч белгилөө, PSP билетин жогорулатуу, statement сурап.
- FX/Fees: убактылуу "чындыкты" кабыл алуу (policy) же түзөтүү күтүп.
- Байланыш: Саппорт үчүн Q&A (каражаттардын коопсуздугу, жөнгө салуу мөөнөтү).
4. 6 Crypto On/Off-Ramp Degradation
Белгилери: TtH ↑, slippage ↑, сайттын ликвиддүүлүгүнүн жетишсиздиги.
Иш-аракеттер:- SOR → CEX/OTC альтернатива, лот өлчөмүн азайтуу (TWAP).
- Стейблге/фиатка киргендерди которуу, депег-экспозициянын лимити.
- oracle айырмачылыктар> bps чеги боюнча Kill-switch.
4. 7 Voucher/Wallet Anomalies
Белгилери: Invalid PIN spike, velocity, geo-misk.
Иш-аракеттер:- Лимиттер/кулдаун, redeem аппаратка байлап, payout-lock + turnover.
- Чек суроо/SoF, блок-барактарды толуктоо (email/device/ASN/retailer).
5) Иш-аракеттердин чек-баракчалары
5. 1 Беш биринчи мүнөт (P0/P1)
- IC дайындоо, war-room ачуу.
- Sev чечүү, камтуу, Таймлайн баштоо (UTC).
- Коопсуз фич-желектерди күйгүзүү (идемпотенттүүлүк, керектүү автопроцессорлорду фризе).
- Feylover/функциялардын бузулушун баштоо.
- Биринчи ички жаңылоо (контекст, чаралар, ээ. ETA).
5. 2 Окуя жабылганга чейин
- калыбына SLO (AR/latency/webhooks/TtW/TtR).
- Жүргүзүлгөн салыштыруу (internal, PSP, банк), эч кандай "кара тешиктер".
- Каржылык таасири бааланган, storno/журналдар түзүлгөн.
- Статус-каналдагы тышкы жаңылануу/пост.
- RCA ээси жана алдын алуу милдеттери дайындалды.
6) Мониторинг, алерталар жана дашборддор
Негизги алерталар:- 'AR _ gross ↓> 3 p.p. (p7 медианасы)' → Камтуунун P1/P0.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fanel Attempt → Auth → Capture (базис сызыгына салыштыруу).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, кайталанышы, drebezg.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: баланс L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Байланыш (шаблондор)
Ички (15 мин):8) Салыштыруу жана акча (турукташтыруудан кийин)
Auto-текшерүү айдап: provider_txid/idem_key/amount/time-bucket.
DLQ бөлүү: orphan/duplicate/amount mismatch/fee drift.
Сторно/коррекцияларды леджерде тариздөө, Cost/GGR жана Fraud Loss.
Казыналык: убактылуу чараларды жабуу (StressRes, payout-lock), пулдардын ребалансы.
9) RCA шаблон (Root Cause Analysis)
Контекст: Date/Time (UTC), Sev, камтуу, метрика.
Белгилери: көргөн (сүрөттөр/скриншоттор).
Себеби: тамыры (тех/процесстер/контрагент).
Эмне иштеди/иштебеди: фейловер, фич-желектер, коммуникациялар.
Финансылык эффект: эсептен чыгаруу/төлөбөө/комиссиялар/SLA кредиттери.
- Тех: лимиттер, демпотенттик, ретра, тесттер.
- Процесстер: playbook жаңыртуу, PSP менен QBR, SLA өзгөрүүлөр.
- Мөөнөтү жана тапшырмалардын ээлери.
10) Автоматташтыруу жана интеграция
Feature-flag платформа: өлкө/BIN/ыкмасы боюнча тез роутинг/деградация.
Runbook-бот: команда '/failover PSP_A→B', '/freeze refunds ', '/enable polling'.
Anomaly Detector: сезондук билүү менен статистикалык четтөө AR/latency.
Post-incident macros: автоматтык ачуу RCA-шаблон, жыйноо логиндер/графиктер, текшерүү тизмеси.
11) Drill календары жана UAT
Ай сайын: "Auth drop" drill (детектордон Фейловерге чейин 15 мин).
Квартал: "Webhook outage" + "Refund double-strike" (демпотенттик).
Алты айда бир жолу: "Settlement delay + Treasury stress" (StressRes).
UAT пакети: idempotentity, Failover, салыштыруу, байланыш сыноо учурлары.
12) Playbook ийгилик көрсөткүчтөрү (KPI иштетүү)
MTTA/MTTR: медиа/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (инциденттер боюнча сумма).
13) Көп каталар жана аларды алдын алуу үчүн кантип
Feylover кеч жандандыруу (эч кандай автоматтык босоголор).
Жок "freeze" auto-refanda учурда webhooks.
Жок row-lock/версия → partial refund> калдыгы.
Фактысыз байланыш/ETA → саппортто эскалация.
Казыналык менен байланыш жок → TtP/TtW SLOдан чыгат.
Чек → "кара тешиктер" киреше.
14) Тиркемелер (сиздин wiki ичинде шилтеме блоктору)
төлөм провайдерлери менен SLA - алерттердин жана кредиттердин босоголору.
PSP төлөмдөрүн жана отчетторун салыштыруу - recon/DLQ жол-жоболору.
Казыналык: ликвиддүүлүк жана камдар - StressRes/Prefunding.
Төлөм контурунун KPI - AR/TtW/TtR/Refund Health формулалары.
Жарым-жартылай жана толук рефандар - демпотенттүүлүк жана саясат.
Резюме
Жумушчу playbook - бул скрипт runbook 'жана + автоматташтыруу + пост-мортем тартип. Бул MTTR кыскартат, акча (демпотенттик/салыштыруу/казына) коргойт, колдонуучунун зыянды азайтуу жана системалуу PSP менен мамилелерди жакшыртат SLA. натыйжасы - жогоруда AR, коридорлордо TtW/TtR, нөл дубль, алдын ала акча.