Pleybuk incidents dans les paiements
TL; DR
L'incident de paiement est une opération gérable : classer rapidement l'UX (feilover/dégradation) → stabiliser l'UX (idempotence/règles de bloc) → restaurer l'argent (idempotence/règles de bloc) → communiquer de manière transparente → restaurer → enregistrer RCA. SLO principaux : MTTA, MTTR, TtW/TtR, AR, Webhook p95, tolérance zéro pour le double charge/refund.
1) Matrice de gravité (Severity & Impact)
Déclencheurs : alertes SLA/Trésorerie/Rapprochement, pics de Sapport, surveillance AR/latency/webhooks.
2) Rôles et canal de communication
Incident Commander (IC) est le propriétaire de la ligne temporelle et des solutions.
Payments Tech Lead - routage, idempotence, drapeaux fich.
Treasury Lead - liquidités, prefunding, réserves de stress.
Risk/AML - sanctions, règles de bloc, SoF/SoW.
Comms Manager - Modèles pour Sapport/Partenaires, Status Update.
Recon/Finance - rapprochement, story/logs, estimations des pertes.
QG : # payments-incident-warroom (chat), Zoom bridge + Live Time Paper (UTC).
3) Cycle universel (pour any incident)
1. Detect & Triage → confirmer les métriques/couverture, attribuer Sev.
2. Stabilize UX → faussaire de routage, dégradation des fiches, gel des voitures dangereuses.
3. Money Safety → activer l'idempotence/blocs (refund/payout), enregistrer les journaux.
4. Communication → Apdate interne (15/30/60 min), communications externes (statut/ETA/contournement).
5. Recover → pas à pas retour/ouverture, vérifier SLO.
6. Reconcile → comparer ledger/PSP/banque, calculer l'impact financier.
7. RCA (≤5 p. d.) → racine, actions, prédicteurs, tâches.
4) Scénarios types et Runbook 'et
4. 1 Auth Drop/Latency Spike (cartes/A2A)
Symptômes : AR↓, soft declines↑, p95 auth> 1-2 s.
Actions :- Smart routing : PSP_A→PSP_B, augmenter les 3DS-challenge sur les BIN vulnérables.
- Limiter les retraits (backoff + gitter), protéger l'idempotence 'auth _ key'.
- Segment-toggle : haut risque dans un scénario « strict » ; abaisser les limites de haut ticket.
- Communications : « note sur la dégradation », recommander une méthode alternative.
- Récupération : retour progressif de la part du trafic, contrôle AR en coupe BIN × GEO.
4. 2 Webhooks Delay / Duplicate
Symptômes : p95> 3-5 c, sauts capture/refund/payout, doublons.
Actions :- Passer à polling ; renforcer la TTL de l'idempotence.
- Geler les auto-refands et les auto-paiements risqués.
- Anti-prise : store-once par 'idempotency _ key/provider _ txid'.
- Effectuer un traitement catch-up ; rapprochement avec les registres PSP.
- Récupération : activez webhooks, comparez la cohérence avec les rapports.
4. 3 Payout Fail / TtW Degradation
Symptômes : Success%↓, TtW p95↑, retours/temporisations.
Actions :- Feilover sur rail de secours (RTP/SEPA/autre PSP).
- Trésor : préfund top-up payout-pool, StressRes activation.
- Payout-lock pour les risques élevés, priorité VIP.
- Communications : ETA et alternatives, transparence des statuts dans le bureau personnel.
4. 4 Refund Errors / Double Refund Risk
Symptômes : Refund error rate↑, retours controversés/en double.
Actions :- Refund-freeze global sur l'itinéraire auto, seulement manuel avec des droits.
- Idempotence dure 'payment _ id + amount + reason' ; row-lock pour le reste.
- Recalculer le rapport PSP ; story double dans la ledger, case dans la DLQ.
- Kommunikatsii:模板 pour les cartes (T + 1-T + 5 b.d.), instant - jusqu'à 60 s.
4. 5 Settlement Delay / PSP Batch Mismatch
Symptômes : D + N n'a pas été crédité, diff en montants/fee.
Actions :- Trésor : activer StressRes, limiter les paiements instantanés.
- Recon : marquer le batch « SUSPENSE », soulever le tiquet PSP, demander un statut.
- FX/Fees : accepter la « vérité » temporaire (politique) ou attendre un ajustement.
- Communications : Q&A pour le sapport (sécurité des fonds, délais de règlement).
4. 6 Crypto On/Off-Ramp Degradation
Symptômes : TtH↑, slippage↑, manque de liquidités du site.
Actions :- SOR→alternativnyy CEX/OTC, réduire la taille du lot (TWAP).
- Traduction des entrées du stable/fiat, limite d'exposition depeg.
- Kill-switch lorsque l'oracle diverge> limite bps.
4. 7 Voucher/Wallet Anomalies
Symptômes : Invalid PIN spike, velocity, géo-bol.
Actions :- Limites/couldown, relier redeem à l'appareil, payout-lock + turnover.
- Demande de chèques/SoF, remplissage des feuilles de blocs (email/device/ASN/retailer).
5) Chèques-feuilles d'action
5. 1 Cinq premières minutes (P0/P1)
- Assigner un IC, ouvrir war-room.
- Enregistrer Sev, couverture, début du temps (UTC).
- Activer les drapeaux fich sécurisés (idempotence, freeze des processus automatiques souhaités).
- Démarrer le faussaire/dégrader les fonctions.
- Première mise à jour interne (contexte, mesures, suite).
5. 2 Avant la clôture de l'incident
- Les SLO (AR/latency/webhooks/TtW/TtR) ont été restaurés.
- Rapprochement effectué (internal↔PSP↔bank), pas de « trous noirs ».
- L'impact financier est évalué, les revues sont formalisées.
- Apdate/post externe dans la chaîne de statut.
- Le propriétaire du RCA et les tâches de prévention ont été désignés.
6) Surveillance, alertes et dashboards
Alerts clés :- « AR_gross↓> 3 pp (par p7 médian) » → P1/P0 de portée.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Phanel Attempt→Auth→Capture (comparaison à la ligne de base).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, doublons, drebezg.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Trésor : bilan L0, préfund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Communications (modèles)
Intérieur (15 min) :8) Rapprochement et argent (après stabilisation)
Chassez l'auto-rapprochement : provider_txid/idem_key/amount/time-bucket.
Mettre en évidence DLQ : orphan/duplicate/amount mismatch/fee drift.
Faire des corrections dans le ledger, recalculer Cost/GGR et Fraud Loss.
Trésor : fermeture des mesures provisoires (StressRes, payout-lock), rebalance des pools.
9) Modèle RCA (Root Cause Analysis)
Contexte : date/heure (UTC), Sev, couverture, métriques.
Symptômes : ce que vous avez vu (graphiques/captures d'écran).
Cause : racine (ces/processus/contrepartie).
Ce qui a fonctionné/n'a pas fonctionné : faussaire, drapeaux de fich, communications.
Effet financier : pertes/non-paiements/commissions/crédits SLA.
- Ceux : limites, idempotence, retraits, tests.
- Processus : mise à jour de Pleybuk, QBR avec PSP, changements de SLA.
- Daedline et les propriétaires de tâches.
10) Automatisation et intégration
Feature-flag platform : routage instantané/dégradation par pays/BIN/méthode.
Runbook-bot : commandes '/failover PSP_A→B', '/freeze refunds ', '/enable polling'.
Détecteur d'anomalie : déviation statistique AR/latitude avec connaissance de la saisonnalité.
Post-incident macros : ouverture automatique du modèle RCA, collecte des logs/graphiques, chèque de rapprochement.
11) Calendrier de drill et UAT
Chaque mois : « Auth drop » drill (15 min de la pièce au faucher).
Trimestriel : « Webhook outage » + « Refund double-strike » (idempotence).
Une fois tous les six mois : « Settlement delay + Treasury stress » (StressRes).
Paquet UAT : cas de test d'idempotence, faussaire, rapprochement, communications.
12) Mesures du succès du playbook (KPI opérationnels)
MTTA/MTR : médiane/p95 par P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (montant par incident).
13) Erreurs fréquentes et comment les éviter
Activation tardive du faussaire (pas de seuils automatiques).
L'absence de « freeze » sur l'auto-refanda lors de la dreebing webhooks.
Pas de row-lock/versioning → refund partial> resultat.
Communications sans faits/ETA → escalade dans le Sapport.
Pas de lien avec le Trésor → TtP/TtW sortent de SLO.
Laissez passer le rapprochement → « trous noirs » dans les recettes.
14) Applications (blocs de référence à l'intérieur de votre wiki)
SLA avec les fournisseurs de paiement - seuils d'alertes et de prêts.
Rapprochement des paiements et des rapports PSP - Procédures recon/DLQ.
Trésorerie : liquidités et réserves - StressRes/Prefunding.
Le KPI de la boucle de paiement est la formule AR/TtW/TtR/Refund Health.
Les refands partiels et complets sont l'idempotence et la politique.
Résumé
Le pleybuc de travail est un runbook de scénario et + automatisation + discipline post-mortem. Il réduit le MTTR, protège l'argent (idempotence/rapprochement/trésorerie), minimise les dommages de l'utilisateur et améliore les relations avec le PSP sur le SLA. Le résultat est AR ci-dessus, TtW/TtR dans les couloirs, zéro prise, prévisible flow money.