Playbook de incidente în plăți
TL; DR
Un incident de plată este o operațiune controlată: clasificați rapid stabilizați UX (feiler/degradare) economisiți bani (reguli de idempotență/bloc) comunicați transparent restaurați RCA. Principalele SLO-uri: MTTA, MTTR, TtW/TtR, AR, Webhook p95, toleranță zero pentru dubla taxă/rambursare.
1) Matrice de severitate și impact
Declanșatoare: alerte SLA/Trezorerie/reconciliere, vârfuri de sprijin, monitorizare AR/latență/cărți web.
2) Roluri și canal de comunicare
Incident Commander (IC) este proprietarul cronologie și soluții.
Plăți Tech Lead - rutare, idempotence, caracteristică steaguri.
Trezoreria plumb - lichiditate, prefunding, rezerve de stres.
Risc/LMA - sancțiuni, reguli de bloc, SoF/SoW.
Comms Manager - șabloane pentru suport/parteneri, actualizări de stare.
Reconn/Finance - reconciliere, inversare/reviste, estimări de pierderi.
Sediul central: # payments-incident-warroom (chat), Zoom-bridge + live timeline document (UTC).
3) Bucla universală (pentru orice incident)
1. Detectați & Triaj → confirmați valorile/acoperirea, atribuiți Sev.
2. Stabilizați feilerul de rutare UX →, caracteristica de degradare, înghețarea auto-acțiunilor periculoase.
3. Money Safety → permite idempotence/blocks (rambursare/plată), repara jurnalele.
4. Comunicați → actualizare internă (15/30/60 min), mesaje externe (status/ETA/workarounds).
5. Recuperați → rollback/deschidere incrementală, verificați SLO.
6. Reconciliază → compară registrul/PSP/banca, calculează impactul financiar.
7. RCA (≤5 unități de afaceri) → rădăcină, acțiuni, prevenitori, sarcini.
4) Scenarii tipice și Runbook "și
4. 1 Auth picătură/latență Spike (Cards/A2A)
Simptome: AR↓, declines↑ moale, p95 auth> 1-2 s.
Acțiuni:- Smart-routing: PSP_A→PSP_B, crește 3DS-challenge pe BIN-uri vulnerabile.
- Limitați retraiele (backoff + jitter), protejați idempotența 'auth _ key'.
- Segment-comutare: risc ridicat în scriptul "strict'; reducerea limitelor biletelor mari.
- Comunicații: „notă de degradare”, recomandă o metodă alternativă.
- Recuperare: returnarea treptată a cotei de trafic, controlul AR în contextul BIN × OUG.
4. 2 Webhooks întârziere/duplicat
Simptome: p95> 3-5 c, lipsuri de captare/rambursare/plată, duplicate.
Acțiuni:- Trecerea la votare; spori idempotența TL.
- Congela auto-refands și riscante auto-plăți.
- Anti-dublu: stocați-o dată prin 'idempotency _ key/provider _ txid'.
- Efectuați procesarea de recuperare; reconcilierea cu registrele PSP.
- Recuperare: activați cărțile web, comparați coerența cu rapoartele.
4. 3 Payout Fail/Degradarea TtW
Simptome: Success%↓, TtW p95↑, returnări/întreruperi de timp.
Acțiuni:- Feilover la standby feroviar (RTP/SEPA/alt PSP).
- Trezorerie: prefund piscina de plăți de reîncărcare, activarea StressRes.
- Payout-lock pentru prioritizarea VIP cu risc ridicat.
- Comunicații: ETA și alternative, transparența statutelor în contul personal.
4. 4 Erori de rambursare/Risc dublu de rambursare
Simptome: rate↑ erorii de rambursare, returnări disputate/duplicate.
Acțiuni:- Global rambursare-congela pe auto-rută, manual numai cu drepturi.
- Idempotență hard 'payment _ id + sound + reason'; row-lock pe echilibru.
- Recalibrarea conform raportului PSP; inversarea duplicatelor în registru, cazuri în DLQ.
- Kommunikatsii:模板 pentru carduri (T + 1-T + 5 bp), instant - până la 60 s.
4. 5 Întârziere decontare/nepotrivire lot PSP
Simptome: D + N neinrolat, diff in sume/taxa.
Acțiuni:- Trezorerie: Activați StressRes, limitați plățile instantanee.
- Recunoaștere: marcați lotul „SUSPANS”, ridicați biletul PSP, solicitați o declarație.
- FX/Taxe: acceptați „adevărul” temporar (politică) sau așteptați corectarea.
- Comunicații: Q&A pentru sprijin (securitatea fondurilor, calendarul de decontare).
4. 6 Degradarea Crypto On/Off-Rampă
Simptome: TtH↑, slippage↑, lipsa de lichiditate a site-ului.
Acțiuni:- SOR→alternativnyy CEX/OTC, reduceți dimensiunea lotului (TWAP).
- Transferul celor care intră în stabil/fiat, limita de expunere depeg.
- Kill-switch dacă divergența oracol> bps limită.
4. 7 Anomalii voucher/portofel
Simptome: Spike PIN invalid, viteză, geo-castron.
Acțiuni:- Limite/cooldown, obligatoriu răscumpăra la dispozitiv, payout-lock + cifra de afaceri.
- Cerere verificări/SoF, completarea listelor de bloc (e-mail/dispozitiv/ASN/retailer).
5) liste de verificare de acțiune
5. 1 Primele cinci minute (P0/P1)
- Atribuiți IC, deschideți camera de război.
- Înregistrați Sev, acoperire, începutul cronologiei (UTC).
- Activați steaguri de caracteristici sigure (idempotență, înghețarea proceselor auto necesare).
- Start Feature Failover/Degradare.
- Prima actualizare internă (context, măsuri, următorul ETA).
5. 2 Înainte de închiderea incidentului
- SLO restaurat (AR/latență/webhooks/TtW/TtR).
- Reconciliere (internal↔PSP↔bank), fără găuri negre.
- Impactul financiar evaluat, inversări/reviste emise.
- Post extern de actualizare/stare canal.
- Proprietarul RCA și sarcina de prevenire este atribuită.
6) Monitorizare, alerte și tablouri de bord
Alerte cheie:- „AR_gross↓> 3 pp (până la mediana p7)” → P1/P0 în acoperire.
- "Auth p95> 1. 5 s/Webhook p95> 5 s/Succes de captare <98% '→ P1.
- 'Payout TtW p95> SLO' или 'Succes% <99%' → P1.
- "Eroare de rambursare> 0. 3% "или" Dublă rambursare> 0 "→ P0.
- „Decontare la timp <99% ”/„ Raport Livrare încălcare SLA” → P1.
1. Fanel Attempt→Auth→Capture (comparație cu linia de bază).
2. Heatmap AR по BIN × GEO × PSP.
3. Webhook p50/p95, duplicate, saritura.
4. Sănătate de plată/rambursare (Succes%, TtW/TtR).
5. Trezorerie: soldul L0, prefund, StressRes.
6. Recunoaștere: Rata de nepotrivire, îmbătrânirea DLQ.
7) Comunicații (șabloane)
Intern (15 min):8) Reconciliere și bani (după stabilizare)
Rulați auto-reconciliere: provider_txid/idem_key/amount/time-bucket.
Selectați DLQ: orfan/duplicat/suma nepotrivire/drift taxa.
Efectuați o inversare/corecție în registru, recalculați costul/GGR și pierderea fraudei.
Trezorerie: măsuri temporare de închidere (StressRes, payout-lock), piscine de reechilibrare.
9) Șablon RCA (Root Cause Analysis)
Context: Data/Ora (UTC), Sev, Acoperire, Metrica.
Simptome: ceea ce ați văzut (grafice/capturi de ecran).
Motivul: rădăcină (acele/procese/contraparte).
Ce a funcționat/nu a funcționat: feilover, steaguri de caracteristici, comunicații.
Efect financiar: reduceri/neplăți/comisioane/credite SLA.
- Acestea: limite, idempotență, retrageri, teste.
- Procese: actualizați playbook, QBR cu PSP, modificări SLA.
- Termene limită și proprietarii de sarcini.
10) Automatizare și integrare
Platforma Feature-flag: rutare instantanee/degradare în funcție de țară/BIN/metodă.
Runbook-bot: comenzi '/failover PSP_A→B', '/freeze returns', '/enable polling '.
Detector de anomalii: deviația statistică a AR/latență cu cunoașterea sezonalității.
Macrouri post-incident: deschiderea automată a șablonului RCA, colecția de jurnale/grafice, lista de verificare a reconcilierii.
11) Calendar de foraj și UAT
Lunar: burghiu „Auth drop” (15 min de la detecta la feilover).
Trimestrial: „Webhook pană” + „Rambursare dublu-grevă” (idempotence).
Semi-anual: „Întârzierea decontării + stresul trezoreriei” (StressRes).
Pachetul UAT: cazuri de testare a idempotenței, feilover, reconciliere, comunicații.
12) Playbook Success Metrics (KPI-uri operaționale)
MTTA/MTTR: mediană/p95 după P0/P1.
% auto-failover în termen de 10 min.
Incidente care previn dubla taxare/rambursare (= 100%).
Recon post-incident complet ≤ D + 1.
Credite de serviciu recuperate/lună (по SLA).
Minute de impact utilizator.
13) Greșeli frecvente și cum să le evitați
Activarea tardivă a feilover-ului (fără praguri automate).
Lipsa de „congela” pe auto-rafturi atunci când webhooks sări.
Nici un rând-lock/versioning → restituire parțială> restul.
Comunicarea fără fapte/ETA → escaladarea sprijinului.
Nici o legătură cu trezoreria → TtP/TtW ieșire SLO.
Sărind peste reconciliere → „găuri negre” în venituri.
14) Aplicații (blocuri de referință în interiorul wiki-ului)
SLA cu furnizorii de plăți - praguri de alertă și împrumuturi.
Reconcilierea plăților și rapoartelor PSP - proceduri de reconciliere/DLQ.
Trezorerie: Lichiditate și rezerve - StressRes/Prefunding.
Bucla de plată KPI - AR/TtW/TtR/Rambursarea formulelor de sănătate.
Refandurile parțiale și complete sunt idempotența și politica.
Rezumat
Playbook-ul de lucru este un scenariu runbook 'și + automatizare + disciplina post-mortems. Reduce MTTR, protejează banii (idempotence/reconciliere/trezorerie), minimizează deteriorarea utilizatorilor și îmbunătățește sistemic relațiile cu PSP-urile de pe SLA. Rezultat - AR de mai sus, TtW/TtR în coridoare, zero ia, flux de bani previzibil.