Playbook incidentes em pagamentos
TL; DR
O incidente nos pagamentos é uma operação controlada: classifique rapidamente estabiliza o UX (Fawler/Degradação) guarde o dinheiro (Idempotação/Regulamento de Bloco) reestabeleça de forma transparente restabeleça a RCA. SLO principal: MTTA, MTTR, TtW/TtR, AR, Webhook p95, tolerância zero para duplo cargo/refund.
1) Matriz de gravidade (Severity & Impacto)
Triggers: alertas SLA/tesouraria/monitoramento, picos de safort, monitoramento de AR/latency/webhooks.
2) Papéis e canal de comunicação
O Incident Team (IC) é o dono da timeline e das soluções.
Payments Tech Lead - Rotação, Idempotação, Bandeiras de Fiech.
Treasury Lead - liquidez, preferding, estress reserve.
Risk/AML - sanções, regras de bloco, SoF/SoW.
Comms Gerente - modelos de safort/parceiro, status-update.
Recon/Finance - Acerto, registo/revistas, estimativas de perdas.
Sede: # payments-invent-warroom (bate-papo), Zoom-bridge + documento de timeline ao vivo (UTC).
3) Ciclo universal (for any invent)
1. O Detect & Triage → confirmar as métricas/abrangência, atribuir o Sec.
2. Stabilize UX → feedback de routing, degradação de fic, congelamento de carros perigosos.
3. Money Safety → incluir idempotidade/blocos (refund/payout), registrar as revistas.
4. Comunicate → update interno (15/30/60 min), mensagens externas (status/ETA/caminhos de volta).
5. Recover → passo a passo/abertura, verifique SLO.
6. O Recôncile → comparar o candeeiro/PSP/banco, calcular o financial impact.
7. RCA (≤5 r.d.) → raiz, ação, prevenção, tarefas.
4) Cenários típicos e Runbook 'e
4. 1 Auth Drop/Latency Spike (cartões/A2A)
Sintomas: AR↓, soft declines↑, p95 auth> 1-2 s.
Ações:- Smart-roting: PSP_A→PSP_B, aumentar 3DS-challenge em BIN vulnerável.
- Limitar retraí (backoff + jitter), proteger idempotidade 'auth _ key'.
- Segmento-toggle: high-risk em um cenário «rigoroso»; reduzir os limites de high-card.
- Comunicação: «nota de degradação», recomendar um método alternativo.
- Restauração: retoma gradual da proporção de tráfego, controle do AR em corte BIN x GEO.
4. 2 Webhooks Delay / Duplicate
Sintomas: p95> 3-5 c, omissões capture/refund/payout, duplicados.
Ações:- Ir para polling; Reforçar a idempotidade TTL.
- Congelar carros refanda e pagamentos de carros arriscados.
- Anti-toma: store-once por 'idempotency _ key/provider _ txid'.
- Fazer catch-up processamento; verificação de registros PSP.
- Restaurar: habilite webhooks, compare consistência com relatórios.
4. 3 Payout Fail / TtW Degradation
Sintomas: Success%↓, TtW p95↑, devoluções/temporários.
Ações:- O feelover para o caminho de reserva (RTP/SEPA/outro PSP).
- Treasury: prefund top-up payout-pool, ativação StressRes.
- Payout-lock para high-risk, priorizar VIP.
- Comunicação: ETA e alternativas, transparência de estatais no gabinete pessoal.
4. 4 Refund Errors / Double Refund Risk
Sintomas: Refund erro rate↑, devoluções controversas/duplicadas.
Ações:- Global refund-freeze em rota automática, apenas manual com permissões.
- Idempotidade severa 'payment _ id + amount + reason'; row-lock para o resto.
- Recontagem por relatório PSP; É muito estranho a tiragem no candeeiro, as malas no DLQ.
- Kommunikatsii:模板 para cartões (T + 1-T + 5 b.d.), momento - até 60 s.
4. 5 Settlement Delay / PSP Batch Mismatch
Sintomas de D + N não inscrito, diff em somas/fee.
Ações:- Treasury: incluir StressRes, limitar pagamentos instantâneos.
- Recon: marcar o batch «SUSPENSE», levantar o tíquete PSP, solicitar o status.
- FX/Fees: aceitar «verdade» temporária (policy) ou esperar por um ajuste.
- Comunicações: Q&A para safort (segurança de fundos, prazo de resolução).
4. 6 Crypto On/Off-Ramp Degradation
Sintomas: TtH↑, slippage↑, falta de liquidez.
Ações:- SOR→alternativnyy CEX/OTC, reduzir o tamanho do lote (TWAP).
- Traduzir os que entram no stable/fiat, limite de exposição depeg.
- Kill-switch em caso de discrepância de orador> limite bps.
4. 7 Voucher/Wallet Anomalies
Sintomas: Invalid PIN spike, velocity, geo-tigem.
Ações:- Limites/cooldown, referência redeem ao dispositivo, payout-lock + turnover.
- Consulta cheques/SoF, reposição de folhas de bloco (email/device/ASN/retailer).
5) Folha de cheque de ação
5. 1 Cinco primeiros minutos (P0/P1)
- Atribuir IC, abrir war-room.
- Fixar a Sev, abrangência, início da timeline (UTC).
- Incluir bandeiras de fich seguras (idempotidade, freeze dos processos de automóveis desejados).
- Iniciar o feelover/degradação de funções.
- Primeiro update interno (contexto, medidas, cuidado. ETA).
5. 2 Antes do encerramento do incidente
- O SLO (AR/latency/webhooks/TtW/TtR) foi restaurado.
- Foi feito o cruzamento (internal↔PSP↔bank) e não há «buracos negros».
- O impact financeiro foi avaliado e os registros foram feitos.
- Apdate externo/post no canal de status.
- O dono do RCA e as tarefas de prevenção foram designadas.
6) Monitoramento, alertas e dashboards
Alertas-chave:- 'AR_gross↓> 3 p.p (p7 da mediana)' → P1/P0 por abrangência.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fã Attempt→Auth→Capture (comparação com a linha de base).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, duplicado, drible.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: equilíbrio L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Comunicações (modelos)
Interna (15 min):8) Confecção e dinheiro (após a estabilização)
Verificar provider _ txid/idem _ key/amount/time-bucket.
Selecionar DLQ: orphan/duplicate/amount mismatch/fee drivt.
Faça a correção em estofado no candeeiro, recalque a Costa/GGR e a Fraud Loss.
Tesouro: fechar medidas provisórias (StressRes, payout-lock), revalidação de pool.
9) Modelo RCA (Root Causa Analisis)
Contexto: data/hora (UTC), Sec, abrangência, métricas.
Sintomas: o que viram (gráficos/screenshots).
Razão: raiz (aqueles/processos/contrapartida).
O que funcionou não funcionou, o feelover, as bandeiras, as comunicações.
Efeito financeiro: cancelamentos/não pagos/comissões/créditos SLA.
- Os limites, a idempotidade, os retais, os testes.
- Processos: atualização do playbook, QBR com PSP, SLA alterações.
- Deadline e donos de tarefas.
10) Automação e integração
Função-flag plataforma: routing instantâneo/degradação por país/BIN/método.
Runbook-bot: comandos de '/failover PSP_A→B ', '/freeze refunds', '/enable polling'.
Detector Anataly: variação estatística AR/latency com conhecimento de sazonalidade.
Post-invident macros: abertura automática do modelo RCA, coleta de logs/gráficos, folha de cheque de compensação.
11) Calendário Drill e UAT
Mensalmente: «Auth drop» drill (15 min de detecção a feelover).
Trimestral: «Webhook outage» + «Refund duplo-strike».
Semestralmente, «Senslement delay + Treasury stress» (StressRes).
Um pacote UAT, uma mala de teste de idempotação, um feelover, um controle, uma comunicação.
12) Métricas de sucesso de playbook (KPI operacional)
MTTA/MTTR: mediana/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (soma de incidentes).
13) Erros frequentes e como evitá-los
Ativação tardia do feelover (sem liminares automáticos).
Falta de «freeze» no refanda automático para o drible webhooks.
Não há row-lock/versioning → partial refund> sobra.
Comunicações sem factos/ETA → escalada para o safort.
Não há ligação com o Tesouro → TtP/TtW saem do SLO.
A omissão do teste → os buracos negros nos lucros.
14) Aplicativos (blocos de referência dentro do seu wiki)
SLA com provedores de pagamentos - liminares de alertas e empréstimos.
Comprimir pagamentos e relatórios PSP - procedimentos de recon/DLQ.
Tesouraria, liquidez e reservas - StressRes/Prefunding.
KPI circuito de pagamento - fórmulas AR/TtW/TtR/Refund Health.
Os refandos parciais e completos são idimpotência e política.
Currículo
Playbook de trabalho é runbook de cenário 'e + automação + disciplina pós-mortem. Ele reduz o MTTR, protege o dinheiro (idempotidade/confecção/tesouraria), minimiza os danos do usuário e melhora o relacionamento com o PSP SLA. Resultado - AR superior, nos corredores, zero dupla, previsível flow de dinheiro.