GH GambleHub

Playbook incidenti nei pagamenti

TL; DR

L'incidente nei pagamenti è un'operazione gestita: classificare e stabilizzare rapidamente UX (feelover/degrado), salvare i soldi (idampotenza/regole di blocco), in modo trasparente il comune, ripristinare il sistema RCA. I principali SLO sono MTTA, MTTR, TtW/TtR, AR, Webhook p95, tolleranza zero per il doppio cargo/refund.

1) Matrice di gravità (Severity & Impatto)

SevDefinizioneEsempiObiettivi
P0Impatto massiccio, perdita di denaro/impossibilità di pagareAuth <-20 PP, doppi prelievi, payout-feel di massa, settlement stopMTTA 15 min, MTTR 2 h
P1Degrado sostanziale per i segmentiWebhook p95> 30 c, payout TtW p95> SLO, AR per BIN/paese - 8 p. MTTA 30 min, MTTR 4 h
P2Segmento limitato/ficLa crescita è di 0. 5%, ritardo dei report PSPMTTA 4 ore, MTTR 2 .
P3Minor/« cartaceo »Scorciatoia, piccolo schema draftPianificazione

Trigger: alert SLA/Tesoro/incrociatura, picchi di zapport, monitoraggio AR/latency/webhooks.

2) Ruoli e canali di comunicazione

Incident Comment (IC) è il proprietario della timeline e delle soluzioni.
Payments Tech Lead - Instradamento, idimpotenza, flag fich.
Treasury Lead - liquidità, preferding, riserve stress.
Risk/AML - sanzioni, regole di blocco, SoF/SoW.
Comms Manager: modelli per zapport/partner, stato-update.
Recon/Finance - Incrociatura, story/log, valutazione delle perdite.

Sede: # payments-insidioso-warroom (chat), zoom-bridge + documento temporale vivo (UTC).

3) Ciclo universale (for any insident)

1. Detect & Triage è in grado di confermare le metriche/copertura, assegnare la Sev.
2. Stabilize UX → il feelover del routing, degrado del fiocco, congelamento delle attività automobilistiche pericolose.
3. Money Safety → attivare Idampotenza/blocchi (refund/payout), fissare i registri.
4. Communicate è un update interno ( min), messaggi esterni (stato/ETA/percorsi di bypass).
5. Recover ha attivato il rientro/apertura passo passo, convalida SLO.
6. Il reconcile → confrontare il ledger/PSP/banca, calcolare il financial impact.
7. RCA ( pd): radice, azioni, impedimenti, attività.

4) Script tipici e Runbook 'e

4. 1 Auth Drop/Latency Spike (carte/A2A)

I sintomi sono AR↓, soft declines↑, p95 ach> 1-2 s.

Azioni:
  • Smart-routing: PSP_A→PSP_B, aumentare 3DS-challenge su BIN vulnerabili.
  • Limita i retrai (backoff + jitter), protegge l'idampotenza dì auth _ key '.
  • Segmento-toggle: high-risk in uno script «rigoroso» Ridurre i limiti high-ticket.
  • Comunicazione: «nota di degrado», raccomandare un metodo alternativo.
  • Ripristino: restituzione graduale della quota di traffico, controllo AR nel taglio BIN x GEO.

4. 2 Webhooks Delay / Duplicate

Sintomi: p95> 3-5 c, passaggi capture/refund/payout, duplicati.

Azioni:
  • Vai a polling; Rafforzare l'idampotenza TTL.
  • Congelare i rifandi auto e i pagamenti auto rischiosi.
  • Anti-ripresa: store-once in'idempotency _ key/provider _ txid '.
  • Eseguire l'elaborazione catch-up; incrociamento dei registri PSP.
  • Ripristino: abilita webhooks, confronta consistenza con report.

4. 3 Payout Fail / TtW Degradation

I sintomi sono , , restituzioni/timeout.

Azioni:
  • Feelover a binario di riserva (RTP/SEPA/altro PSP).
  • Treasury: preferund top-up payout pool, attivazione StressRes.
  • Payout-lock per high-risk, priorità VIP.
  • Le comunicazioni: l'ETA e le alternative, la trasparenza dello stato in un ufficio privato.

4. 4 Refund Errors / Double Refund Risk

I sintomi sono «Refund errore», restituzioni controverse/duplicate.

Azioni:
  • Global refund-freeze su un percorso automatico, solo manuale con diritti.
  • Idemoty'payment _ id + amount + reason '; row-lock per il resto.
  • Ricontrollare il report PSP Ci sono dei filmati nel lettore, delle valigette nel DLQ.
  • Kommunikatsii:模板 per carte (T + 1-T + 5 b.d.), istante fino a 60 secondi

4. 5 Settlement Delay / PSP Batch Mismatch

Sintomi: D + N non è iscritto, diff in somme/fee.

Azioni:
  • Treasury: attivare il sistema, limitare i pagamenti immediati.
  • Recon - Contrassegna il battello «ASPENSE», alza il ticket PSP, richiedi lo statement.
  • FX/Fees - Accettare la verità temporanea o attendere la regolazione.
  • Comunicazioni: Q&A per lo zapport (sicurezza dei mezzi, tempi di risoluzione).

4. 6 Crypto On/Off-Ramp Degradation

I sintomi sono TtH↑, slippage↑, scarsità di liquidità.

Azioni:
  • SOR→alternativnyy CEX/OTC, ridurre le dimensioni del lotto (TWAP).
  • Traduzione degli stable/fiat, limite di esposizione depeg.
  • Kill-switch per la soluzione oracolo> limite bps.

4. 7 Voucher/Wallet Anomalies

Sintomi: Invalid PIN spike, velocity, geo-misk.

Azioni:
  • Limiti/cooldown, riferimento redeem al dispositivo, payout-lock + turnover.
  • Chiedi assegni/SoF, ricarica i blocchi (email/device/ASN/retailer).

5) Assegno-fogli di azione

5. 1 Cinque primi minuti (P0/P1)

  • Assegna IC, apri war-room.
  • Fissa Sev, copertura, avvio timeline (UTC).
  • Abilita flag sicuri (idempotenza, freeze dei flussi automatici desiderati).
  • Esegui il feelover/degrado delle funzioni.
  • Il primo apdate interno (contesto, misure, segue ETA).

5. 2 Prima della chiusura dell'incidente

  • SLO (AR/latency/webhooks/TtW/TtR) ripristinato.
  • È stato verificato (internal↔PSP↔bank) e non ci sono buchi neri.
  • L'impatto finanziario è stato valutato, lo store/i registri sono stati compilati.
  • Outdate/post esterno nel canale di stato.
  • Proprietario RCA assegnato e attività di prevenzione.

6) Monitoraggio, alert e dashboard

Alert chiave:
  • «AR_gross↓> 3 p.p. (a p7 mediana)» → P1/P0 per portata.
  • `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
  • `Payout TtW p95> SLO` или `Success%<99%` → P1.
  • `Refund Error>0. 3%` или `Double Refund>0` → P0.
  • `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Dashboard incidenti:

1. Fanel Attempt→Auth→Capture (confronto alla linea di base).

2. Heatmap AR по BIN×GEO×PSP.

3. Webhook p50/p95, duplicati, flebo.

4. Payout/Refund Health (Success%, TtW/TtR).

5. Treasury: L0, prefund, StressRes.

6. Recon: Mismatch Rate, Aging DLQ.

7) Comunicazioni (modelli)

Interno (15 min):
💡 `P1 Payments | Auth drop on PSP_A GEO-DE, AR −9pp vs baseline. Failover to PSP_B in progress, 3DS policy tightened for BIN 4250. Auto-refunds paused. Next update 30 min.`
Giocatori (stato pagina/FAQ):
💡 "In questo momento ci sono ritardi nella conferma dei pagamenti e delle conclusioni per una parte degli utenti. I pagamenti vengono mantenuti al sicuro. Consigliamo un metodo X. Aggiornamento alternativo tra 30 minuti"
Partner/Merchant (breve):
💡 "Degrado delle autorizzazioni del provider A nelle regioni DACH. Il feelover del provider B è attivato. Invieremo il rapporto SLA e le misure di prevenzione a seguito di RCA"

8) Incrocio e denaro (dopo la stabilizzazione)

Incrocia auto: provider _ txid/idem _ key/amount/time-bucket.
Seleziona DLQ: orphan/duplicato/amount mismatch/fee drivt.
Configura lo store/correzione nel ledger, ricalca Cost/GGR e Fraud Loss.
Tesoro: chiudere misure temporanee (StressRes, payout-lock), ricalance dei pool.

9) Modello RCA (Root Cause Analysis)

Contesto: data/ora (UTC), Sec, copertura, metriche.
I sintomi sono cosa hanno visto (grafici/screenshot).
Causa: radice (quelli/processi/controparti).
Cosa ha funzionato/non ha funzionato, feelover, flag, comunicazioni.
Effetto finanziario: prelievi/mancati pagamenti/commissioni/prestiti SLA.

Prevention:
  • Quelli sono limiti, idampotenza, retrai, test.
  • Processi: aggiornamento playbook, QBR con PSP, modifiche SLA.
  • Deadline e proprietari di attività.

10) Automazione e integrazione

Feature-flag platform: routing/degrado istantaneo nazionale/BIO/metodo.
Runbook-bot: comandi «/failover », «/freeze refunds», «/enable polling ».
Rilevatore Anataly - deviazione statistica AR/latency con conoscenza della stagionalità.
Post-incident macros: apertura automatica del modello RCA, raccolta di fogli/grafici, assegno-foglio di riconciliazione.

11) Calendario Drill e UAT

Ogni mese: «Auth drop» drill (15 minuti dal pezzo al feelover).
Trimestrale: «Webhook outage» + «Refund doppio-strike».
Ogni sei mesi, «Settlement delay + Treasury stress».
Pacchetto UAT: test-valigetta idempotenza, feelover, compressione, comunicazioni.

12) Metriche di successo playbook (KPI operativi)

MTTA/MTTR: mediana/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minute (importo degli incidenti).

13) Errori frequenti e come evitarli

Attivazione tardiva del feelover (nessuna soglia automatica).
Assenza di «freeze» sulla refanda automatica durante il drebezing webhooks.
Non c'è row-lock/versioning → partial refund> residuo.
Le comunicazioni senza i fatti/ETA hanno causato un'escalation nello zapport.
Non c'è nessun collegamento con il Tesoro.
→ i buchi neri nel fatturato.

14) Applicazioni (blocchi di riferimento all'interno del tuo wiki)

SLA con provider di pagamento - soglie di alert e prestiti.
Verifica dei pagamenti e dei rapporti PSP - Procedure recon/DLQ.
Tesoro, liquidità e riserve.
Il KPI del circuito di pagamento è una formula di AR/TtW/TtR/Refund Health.
I refandi parziali e completi sono idemotia e politica.

Riepilogo

Il playbook di lavoro è un runbook scenografico e + automazione + disciplina post mortem. Riduce MTTR, protegge il denaro (idampotenza/compressione/Tesoro), riduce al minimo il danno utente e migliora il rapporto con PSP SLA. Risultato: AR più alto, TtW/TtR nei corridoi, zero riprese, prevedibili flow di denaro.

Contact

Mettiti in contatto

Scrivici per qualsiasi domanda o richiesta di supporto.Siamo sempre pronti ad aiutarti!

Telegram
@Gamble_GC
Avvia integrazione

L’Email è obbligatoria. Telegram o WhatsApp — opzionali.

Il tuo nome opzionale
Email opzionale
Oggetto opzionale
Messaggio opzionale
Telegram opzionale
@
Se indichi Telegram — ti risponderemo anche lì, oltre che via Email.
WhatsApp opzionale
Formato: +prefisso internazionale e numero (ad es. +39XXXXXXXXX).

Cliccando sul pulsante, acconsenti al trattamento dei dati.