Playbook incidenti nei pagamenti
TL; DR
L'incidente nei pagamenti è un'operazione gestita: classificare e stabilizzare rapidamente UX (feelover/degrado), salvare i soldi (idampotenza/regole di blocco), in modo trasparente il comune, ripristinare il sistema RCA. I principali SLO sono MTTA, MTTR, TtW/TtR, AR, Webhook p95, tolleranza zero per il doppio cargo/refund.
1) Matrice di gravità (Severity & Impatto)
Trigger: alert SLA/Tesoro/incrociatura, picchi di zapport, monitoraggio AR/latency/webhooks.
2) Ruoli e canali di comunicazione
Incident Comment (IC) è il proprietario della timeline e delle soluzioni.
Payments Tech Lead - Instradamento, idimpotenza, flag fich.
Treasury Lead - liquidità, preferding, riserve stress.
Risk/AML - sanzioni, regole di blocco, SoF/SoW.
Comms Manager: modelli per zapport/partner, stato-update.
Recon/Finance - Incrociatura, story/log, valutazione delle perdite.
Sede: # payments-insidioso-warroom (chat), zoom-bridge + documento temporale vivo (UTC).
3) Ciclo universale (for any insident)
1. Detect & Triage è in grado di confermare le metriche/copertura, assegnare la Sev.
2. Stabilize UX → il feelover del routing, degrado del fiocco, congelamento delle attività automobilistiche pericolose.
3. Money Safety → attivare Idampotenza/blocchi (refund/payout), fissare i registri.
4. Communicate è un update interno ( min), messaggi esterni (stato/ETA/percorsi di bypass).
5. Recover ha attivato il rientro/apertura passo passo, convalida SLO.
6. Il reconcile → confrontare il ledger/PSP/banca, calcolare il financial impact.
7. RCA ( pd): radice, azioni, impedimenti, attività.
4) Script tipici e Runbook 'e
4. 1 Auth Drop/Latency Spike (carte/A2A)
I sintomi sono AR↓, soft declines↑, p95 ach> 1-2 s.
Azioni:- Smart-routing: PSP_A→PSP_B, aumentare 3DS-challenge su BIN vulnerabili.
- Limita i retrai (backoff + jitter), protegge l'idampotenza dì auth _ key '.
- Segmento-toggle: high-risk in uno script «rigoroso» Ridurre i limiti high-ticket.
- Comunicazione: «nota di degrado», raccomandare un metodo alternativo.
- Ripristino: restituzione graduale della quota di traffico, controllo AR nel taglio BIN x GEO.
4. 2 Webhooks Delay / Duplicate
Sintomi: p95> 3-5 c, passaggi capture/refund/payout, duplicati.
Azioni:- Vai a polling; Rafforzare l'idampotenza TTL.
- Congelare i rifandi auto e i pagamenti auto rischiosi.
- Anti-ripresa: store-once in'idempotency _ key/provider _ txid '.
- Eseguire l'elaborazione catch-up; incrociamento dei registri PSP.
- Ripristino: abilita webhooks, confronta consistenza con report.
4. 3 Payout Fail / TtW Degradation
I sintomi sono , , restituzioni/timeout.
Azioni:- Feelover a binario di riserva (RTP/SEPA/altro PSP).
- Treasury: preferund top-up payout pool, attivazione StressRes.
- Payout-lock per high-risk, priorità VIP.
- Le comunicazioni: l'ETA e le alternative, la trasparenza dello stato in un ufficio privato.
4. 4 Refund Errors / Double Refund Risk
I sintomi sono «Refund errore», restituzioni controverse/duplicate.
Azioni:- Global refund-freeze su un percorso automatico, solo manuale con diritti.
- Idemoty'payment _ id + amount + reason '; row-lock per il resto.
- Ricontrollare il report PSP Ci sono dei filmati nel lettore, delle valigette nel DLQ.
- Kommunikatsii:模板 per carte (T + 1-T + 5 b.d.), istante fino a 60 secondi
4. 5 Settlement Delay / PSP Batch Mismatch
Sintomi: D + N non è iscritto, diff in somme/fee.
Azioni:- Treasury: attivare il sistema, limitare i pagamenti immediati.
- Recon - Contrassegna il battello «ASPENSE», alza il ticket PSP, richiedi lo statement.
- FX/Fees - Accettare la verità temporanea o attendere la regolazione.
- Comunicazioni: Q&A per lo zapport (sicurezza dei mezzi, tempi di risoluzione).
4. 6 Crypto On/Off-Ramp Degradation
I sintomi sono TtH↑, slippage↑, scarsità di liquidità.
Azioni:- SOR→alternativnyy CEX/OTC, ridurre le dimensioni del lotto (TWAP).
- Traduzione degli stable/fiat, limite di esposizione depeg.
- Kill-switch per la soluzione oracolo> limite bps.
4. 7 Voucher/Wallet Anomalies
Sintomi: Invalid PIN spike, velocity, geo-misk.
Azioni:- Limiti/cooldown, riferimento redeem al dispositivo, payout-lock + turnover.
- Chiedi assegni/SoF, ricarica i blocchi (email/device/ASN/retailer).
5) Assegno-fogli di azione
5. 1 Cinque primi minuti (P0/P1)
- Assegna IC, apri war-room.
- Fissa Sev, copertura, avvio timeline (UTC).
- Abilita flag sicuri (idempotenza, freeze dei flussi automatici desiderati).
- Esegui il feelover/degrado delle funzioni.
- Il primo apdate interno (contesto, misure, segue ETA).
5. 2 Prima della chiusura dell'incidente
- SLO (AR/latency/webhooks/TtW/TtR) ripristinato.
- È stato verificato (internal↔PSP↔bank) e non ci sono buchi neri.
- L'impatto finanziario è stato valutato, lo store/i registri sono stati compilati.
- Outdate/post esterno nel canale di stato.
- Proprietario RCA assegnato e attività di prevenzione.
6) Monitoraggio, alert e dashboard
Alert chiave:- «AR_gross↓> 3 p.p. (a p7 mediana)» → P1/P0 per portata.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fanel Attempt→Auth→Capture (confronto alla linea di base).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, duplicati, flebo.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Comunicazioni (modelli)
Interno (15 min):8) Incrocio e denaro (dopo la stabilizzazione)
Incrocia auto: provider _ txid/idem _ key/amount/time-bucket.
Seleziona DLQ: orphan/duplicato/amount mismatch/fee drivt.
Configura lo store/correzione nel ledger, ricalca Cost/GGR e Fraud Loss.
Tesoro: chiudere misure temporanee (StressRes, payout-lock), ricalance dei pool.
9) Modello RCA (Root Cause Analysis)
Contesto: data/ora (UTC), Sec, copertura, metriche.
I sintomi sono cosa hanno visto (grafici/screenshot).
Causa: radice (quelli/processi/controparti).
Cosa ha funzionato/non ha funzionato, feelover, flag, comunicazioni.
Effetto finanziario: prelievi/mancati pagamenti/commissioni/prestiti SLA.
- Quelli sono limiti, idampotenza, retrai, test.
- Processi: aggiornamento playbook, QBR con PSP, modifiche SLA.
- Deadline e proprietari di attività.
10) Automazione e integrazione
Feature-flag platform: routing/degrado istantaneo nazionale/BIO/metodo.
Runbook-bot: comandi «/failover », «/freeze refunds», «/enable polling ».
Rilevatore Anataly - deviazione statistica AR/latency con conoscenza della stagionalità.
Post-incident macros: apertura automatica del modello RCA, raccolta di fogli/grafici, assegno-foglio di riconciliazione.
11) Calendario Drill e UAT
Ogni mese: «Auth drop» drill (15 minuti dal pezzo al feelover).
Trimestrale: «Webhook outage» + «Refund doppio-strike».
Ogni sei mesi, «Settlement delay + Treasury stress».
Pacchetto UAT: test-valigetta idempotenza, feelover, compressione, comunicazioni.
12) Metriche di successo playbook (KPI operativi)
MTTA/MTTR: mediana/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minute (importo degli incidenti).
13) Errori frequenti e come evitarli
Attivazione tardiva del feelover (nessuna soglia automatica).
Assenza di «freeze» sulla refanda automatica durante il drebezing webhooks.
Non c'è row-lock/versioning → partial refund> residuo.
Le comunicazioni senza i fatti/ETA hanno causato un'escalation nello zapport.
Non c'è nessun collegamento con il Tesoro.
→ i buchi neri nel fatturato.
14) Applicazioni (blocchi di riferimento all'interno del tuo wiki)
SLA con provider di pagamento - soglie di alert e prestiti.
Verifica dei pagamenti e dei rapporti PSP - Procedure recon/DLQ.
Tesoro, liquidità e riserve.
Il KPI del circuito di pagamento è una formula di AR/TtW/TtR/Refund Health.
I refandi parziali e completi sono idemotia e politica.
Riepilogo
Il playbook di lavoro è un runbook scenografico e + automazione + disciplina post mortem. Riduce MTTR, protegge il denaro (idampotenza/compressione/Tesoro), riduce al minimo il danno utente e migliora il rapporto con PSP SLA. Risultato: AR più alto, TtW/TtR nei corridoi, zero riprese, prevedibili flow di denaro.