GH GambleHub

Playbook de incidente în plăți

TL; DR

Un incident de plată este o operațiune controlată: clasificați rapid stabilizați UX (feiler/degradare) economisiți bani (reguli de idempotență/bloc) comunicați transparent restaurați RCA. Principalele SLO-uri: MTTA, MTTR, TtW/TtR, AR, Webhook p95, toleranță zero pentru dubla taxă/rambursare.

1) Matrice de severitate și impact

SEVDefinițieExempleScopuri
P0Impactul în masă, pierderea de numerar/incapacitatea de platăAuth <− 20 pp, taxe duble, fișier de plată în masă, oprire de decontareMTTA ≤ 15 min, MTTR ≤ 2 h
P1Degradare semnificativă pentru segmenteWebhook p95> 30 c, plata TtW p95> SLO, AR de BIN/țară − 8 pp MTTA ≤ 30 min, MTTR ≤ 4 h
P2Segment/caracteristică restricționatăCreșterea erorii de rambursare la 0. 5%, raportarea întârziată a PSPMTTA ≤ 4h, MTTR ≤ 2p
P3Minor/HârtieLog bounce, derivă schemă micăConform planului

Declanșatoare: alerte SLA/Trezorerie/reconciliere, vârfuri de sprijin, monitorizare AR/latență/cărți web.

2) Roluri și canal de comunicare

Incident Commander (IC) este proprietarul cronologie și soluții.
Plăți Tech Lead - rutare, idempotence, caracteristică steaguri.
Trezoreria plumb - lichiditate, prefunding, rezerve de stres.
Risc/LMA - sancțiuni, reguli de bloc, SoF/SoW.
Comms Manager - șabloane pentru suport/parteneri, actualizări de stare.
Reconn/Finance - reconciliere, inversare/reviste, estimări de pierderi.

Sediul central: # payments-incident-warroom (chat), Zoom-bridge + live timeline document (UTC).

3) Bucla universală (pentru orice incident)

1. Detectați & Triaj → confirmați valorile/acoperirea, atribuiți Sev.
2. Stabilizați feilerul de rutare UX →, caracteristica de degradare, înghețarea auto-acțiunilor periculoase.
3. Money Safety → permite idempotence/blocks (rambursare/plată), repara jurnalele.
4. Comunicați → actualizare internă (15/30/60 min), mesaje externe (status/ETA/workarounds).
5. Recuperați → rollback/deschidere incrementală, verificați SLO.
6. Reconciliază → compară registrul/PSP/banca, calculează impactul financiar.
7. RCA (≤5 unități de afaceri) → rădăcină, acțiuni, prevenitori, sarcini.

4) Scenarii tipice și Runbook "și

4. 1 Auth picătură/latență Spike (Cards/A2A)

Simptome: AR↓, declines↑ moale, p95 auth> 1-2 s.

Acțiuni:
  • Smart-routing: PSP_A→PSP_B, crește 3DS-challenge pe BIN-uri vulnerabile.
  • Limitați retraiele (backoff + jitter), protejați idempotența 'auth _ key'.
  • Segment-comutare: risc ridicat în scriptul "strict'; reducerea limitelor biletelor mari.
  • Comunicații: „notă de degradare”, recomandă o metodă alternativă.
  • Recuperare: returnarea treptată a cotei de trafic, controlul AR în contextul BIN × OUG.

4. 2 Webhooks întârziere/duplicat

Simptome: p95> 3-5 c, lipsuri de captare/rambursare/plată, duplicate.

Acțiuni:
  • Trecerea la votare; spori idempotența TL.
  • Congela auto-refands și riscante auto-plăți.
  • Anti-dublu: stocați-o dată prin 'idempotency _ key/provider _ txid'.
  • Efectuați procesarea de recuperare; reconcilierea cu registrele PSP.
  • Recuperare: activați cărțile web, comparați coerența cu rapoartele.

4. 3 Payout Fail/Degradarea TtW

Simptome: Success%↓, TtW p95↑, returnări/întreruperi de timp.

Acțiuni:
  • Feilover la standby feroviar (RTP/SEPA/alt PSP).
  • Trezorerie: prefund piscina de plăți de reîncărcare, activarea StressRes.
  • Payout-lock pentru prioritizarea VIP cu risc ridicat.
  • Comunicații: ETA și alternative, transparența statutelor în contul personal.

4. 4 Erori de rambursare/Risc dublu de rambursare

Simptome: rate↑ erorii de rambursare, returnări disputate/duplicate.

Acțiuni:
  • Global rambursare-congela pe auto-rută, manual numai cu drepturi.
  • Idempotență hard 'payment _ id + sound + reason'; row-lock pe echilibru.
  • Recalibrarea conform raportului PSP; inversarea duplicatelor în registru, cazuri în DLQ.
  • Kommunikatsii:模板 pentru carduri (T + 1-T + 5 bp), instant - până la 60 s.

4. 5 Întârziere decontare/nepotrivire lot PSP

Simptome: D + N neinrolat, diff in sume/taxa.

Acțiuni:
  • Trezorerie: Activați StressRes, limitați plățile instantanee.
  • Recunoaștere: marcați lotul „SUSPANS”, ridicați biletul PSP, solicitați o declarație.
  • FX/Taxe: acceptați „adevărul” temporar (politică) sau așteptați corectarea.
  • Comunicații: Q&A pentru sprijin (securitatea fondurilor, calendarul de decontare).

4. 6 Degradarea Crypto On/Off-Rampă

Simptome: TtH↑, slippage↑, lipsa de lichiditate a site-ului.

Acțiuni:
  • SOR→alternativnyy CEX/OTC, reduceți dimensiunea lotului (TWAP).
  • Transferul celor care intră în stabil/fiat, limita de expunere depeg.
  • Kill-switch dacă divergența oracol> bps limită.

4. 7 Anomalii voucher/portofel

Simptome: Spike PIN invalid, viteză, geo-castron.

Acțiuni:
  • Limite/cooldown, obligatoriu răscumpăra la dispozitiv, payout-lock + cifra de afaceri.
  • Cerere verificări/SoF, completarea listelor de bloc (e-mail/dispozitiv/ASN/retailer).

5) liste de verificare de acțiune

5. 1 Primele cinci minute (P0/P1)

  • Atribuiți IC, deschideți camera de război.
  • Înregistrați Sev, acoperire, începutul cronologiei (UTC).
  • Activați steaguri de caracteristici sigure (idempotență, înghețarea proceselor auto necesare).
  • Start Feature Failover/Degradare.
  • Prima actualizare internă (context, măsuri, următorul ETA).

5. 2 Înainte de închiderea incidentului

  • SLO restaurat (AR/latență/webhooks/TtW/TtR).
  • Reconciliere (internal↔PSP↔bank), fără găuri negre.
  • Impactul financiar evaluat, inversări/reviste emise.
  • Post extern de actualizare/stare canal.
  • Proprietarul RCA și sarcina de prevenire este atribuită.

6) Monitorizare, alerte și tablouri de bord

Alerte cheie:
  • „AR_gross↓> 3 pp (până la mediana p7)” → P1/P0 în acoperire.
  • "Auth p95> 1. 5 s/Webhook p95> 5 s/Succes de captare <98% '→ P1.
  • 'Payout TtW p95> SLO' или 'Succes% <99%' → P1.
  • "Eroare de rambursare> 0. 3% "или" Dublă rambursare> 0 "→ P0.
  • „Decontare la timp <99% ”/„ Raport Livrare încălcare SLA” → P1.
Incidente la tabloul de bord:

1. Fanel Attempt→Auth→Capture (comparație cu linia de bază).

2. Heatmap AR по BIN × GEO × PSP.

3. Webhook p50/p95, duplicate, saritura.

4. Sănătate de plată/rambursare (Succes%, TtW/TtR).

5. Trezorerie: soldul L0, prefund, StressRes.

6. Recunoaștere: Rata de nepotrivire, îmbătrânirea DLQ.

7) Comunicații (șabloane)

Intern (15 min):
💡 'Plăți P1 | Scăderea Auth pe PSP_A GEO-DE, AR −9pp vs de bază. În lipsa PSP_B în curs, politica 3DS a fost înăsprită pentru BIN 4250. Rambursările automate s-au întrerupt. Următoarea actualizare 30 minute ".
Jucători (status page/FAQ):
💡 "Există în prezent întârzieri în confirmarea plăților și retragerilor pentru unii utilizatori. Plăţile sunt asigurate. Vă recomandăm metoda alternativă X. Actualizare în 30 de minute"
Parteneri/comercianți (pe scurt):
💡 "Degradarea autorizațiilor la furnizorul A în regiunile DACH. Feilover pe furnizorul B este activat. Vom trimite raportul SLA și măsurile de prevenire pe baza rezultatelor RCA"

8) Reconciliere și bani (după stabilizare)

Rulați auto-reconciliere: provider_txid/idem_key/amount/time-bucket.
Selectați DLQ: orfan/duplicat/suma nepotrivire/drift taxa.
Efectuați o inversare/corecție în registru, recalculați costul/GGR și pierderea fraudei.
Trezorerie: măsuri temporare de închidere (StressRes, payout-lock), piscine de reechilibrare.

9) Șablon RCA (Root Cause Analysis)

Context: Data/Ora (UTC), Sev, Acoperire, Metrica.
Simptome: ceea ce ați văzut (grafice/capturi de ecran).
Motivul: rădăcină (acele/procese/contraparte).
Ce a funcționat/nu a funcționat: feilover, steaguri de caracteristici, comunicații.
Efect financiar: reduceri/neplăți/comisioane/credite SLA.

Prevenire:
  • Acestea: limite, idempotență, retrageri, teste.
  • Procese: actualizați playbook, QBR cu PSP, modificări SLA.
  • Termene limită și proprietarii de sarcini.

10) Automatizare și integrare

Platforma Feature-flag: rutare instantanee/degradare în funcție de țară/BIN/metodă.
Runbook-bot: comenzi '/failover PSP_A→B', '/freeze returns', '/enable polling '.
Detector de anomalii: deviația statistică a AR/latență cu cunoașterea sezonalității.
Macrouri post-incident: deschiderea automată a șablonului RCA, colecția de jurnale/grafice, lista de verificare a reconcilierii.

11) Calendar de foraj și UAT

Lunar: burghiu „Auth drop” (15 min de la detecta la feilover).
Trimestrial: „Webhook pană” + „Rambursare dublu-grevă” (idempotence).
Semi-anual: „Întârzierea decontării + stresul trezoreriei” (StressRes).
Pachetul UAT: cazuri de testare a idempotenței, feilover, reconciliere, comunicații.

12) Playbook Success Metrics (KPI-uri operaționale)

MTTA/MTTR: mediană/p95 după P0/P1.
% auto-failover în termen de 10 min.
Incidente care previn dubla taxare/rambursare (= 100%).
Recon post-incident complet ≤ D + 1.
Credite de serviciu recuperate/lună (по SLA).
Minute de impact utilizator.

13) Greșeli frecvente și cum să le evitați

Activarea tardivă a feilover-ului (fără praguri automate).
Lipsa de „congela” pe auto-rafturi atunci când webhooks sări.
Nici un rând-lock/versioning → restituire parțială> restul.
Comunicarea fără fapte/ETA → escaladarea sprijinului.
Nici o legătură cu trezoreria → TtP/TtW ieșire SLO.
Sărind peste reconciliere → „găuri negre” în venituri.

14) Aplicații (blocuri de referință în interiorul wiki-ului)

SLA cu furnizorii de plăți - praguri de alertă și împrumuturi.
Reconcilierea plăților și rapoartelor PSP - proceduri de reconciliere/DLQ.
Trezorerie: Lichiditate și rezerve - StressRes/Prefunding.
Bucla de plată KPI - AR/TtW/TtR/Rambursarea formulelor de sănătate.
Refandurile parțiale și complete sunt idempotența și politica.

Rezumat

Playbook-ul de lucru este un scenariu runbook 'și + automatizare + disciplina post-mortems. Reduce MTTR, protejează banii (idempotence/reconciliere/trezorerie), minimizează deteriorarea utilizatorilor și îmbunătățește sistemic relațiile cu PSP-urile de pe SLA. Rezultat - AR de mai sus, TtW/TtR în coridoare, zero ia, flux de bani previzibil.

Contact

Contactați-ne

Scrieți-ne pentru orice întrebare sau solicitare de suport.Suntem mereu gata să ajutăm!

Telegram
@Gamble_GC
Pornește integrarea

Email-ul este obligatoriu. Telegram sau WhatsApp sunt opționale.

Numele dumneavoastră opțional
Email opțional
Subiect opțional
Mesaj opțional
Telegram opțional
@
Dacă indicați Telegram — vă vom răspunde și acolo, pe lângă Email.
WhatsApp opțional
Format: cod de țară și număr (de exemplu, +40XXXXXXXXX).

Apăsând butonul, sunteți de acord cu prelucrarea datelor dumneavoastră.