GH GambleHub

Playbook incidentes em pagamentos

TL; DR

O incidente nos pagamentos é uma operação controlada: classifique rapidamente estabiliza o UX (Fawler/Degradação) guarde o dinheiro (Idempotação/Regulamento de Bloco) reestabeleça de forma transparente restabeleça a RCA. SLO principal: MTTA, MTTR, TtW/TtR, AR, Webhook p95, tolerância zero para duplo cargo/refund.

1) Matriz de gravidade (Severity & Impacto)

SevDefiniçãoExemplosObjetivos
P0Impacto em massa, perdas em dinheiro/incapacidade de pagarAuth <- 20 p.p., débitos duplos, payout-feel em massa, senslement stopMTTA ≤ 15 min, MTTR ≤ 2 h
P1Degradação substancial para segmentosWebhook p95> 30 c, payout TtW p95> SLO, AR BIN/país - 8 p.p. MTTA ≤ 30 min, MTTR ≤ 4 h
P2Segmento limitado/ficháCrescimento de refund erro para 0. 5%, atrasos de relatórios PSPMTTA ≤ 4 h, MTTR ≤ 2 r.d.
P3Menor/« papel »Drebezg logs, pequena schema driftPlaneado

Triggers: alertas SLA/tesouraria/monitoramento, picos de safort, monitoramento de AR/latency/webhooks.

2) Papéis e canal de comunicação

O Incident Team (IC) é o dono da timeline e das soluções.
Payments Tech Lead - Rotação, Idempotação, Bandeiras de Fiech.
Treasury Lead - liquidez, preferding, estress reserve.
Risk/AML - sanções, regras de bloco, SoF/SoW.
Comms Gerente - modelos de safort/parceiro, status-update.
Recon/Finance - Acerto, registo/revistas, estimativas de perdas.

Sede: # payments-invent-warroom (bate-papo), Zoom-bridge + documento de timeline ao vivo (UTC).

3) Ciclo universal (for any invent)

1. O Detect & Triage → confirmar as métricas/abrangência, atribuir o Sec.
2. Stabilize UX → feedback de routing, degradação de fic, congelamento de carros perigosos.
3. Money Safety → incluir idempotidade/blocos (refund/payout), registrar as revistas.
4. Comunicate → update interno (15/30/60 min), mensagens externas (status/ETA/caminhos de volta).
5. Recover → passo a passo/abertura, verifique SLO.
6. O Recôncile → comparar o candeeiro/PSP/banco, calcular o financial impact.
7. RCA (≤5 r.d.) → raiz, ação, prevenção, tarefas.

4) Cenários típicos e Runbook 'e

4. 1 Auth Drop/Latency Spike (cartões/A2A)

Sintomas: AR↓, soft declines↑, p95 auth> 1-2 s.

Ações:
  • Smart-roting: PSP_A→PSP_B, aumentar 3DS-challenge em BIN vulnerável.
  • Limitar retraí (backoff + jitter), proteger idempotidade 'auth _ key'.
  • Segmento-toggle: high-risk em um cenário «rigoroso»; reduzir os limites de high-card.
  • Comunicação: «nota de degradação», recomendar um método alternativo.
  • Restauração: retoma gradual da proporção de tráfego, controle do AR em corte BIN x GEO.

4. 2 Webhooks Delay / Duplicate

Sintomas: p95> 3-5 c, omissões capture/refund/payout, duplicados.

Ações:
  • Ir para polling; Reforçar a idempotidade TTL.
  • Congelar carros refanda e pagamentos de carros arriscados.
  • Anti-toma: store-once por 'idempotency _ key/provider _ txid'.
  • Fazer catch-up processamento; verificação de registros PSP.
  • Restaurar: habilite webhooks, compare consistência com relatórios.

4. 3 Payout Fail / TtW Degradation

Sintomas: Success%↓, TtW p95↑, devoluções/temporários.

Ações:
  • O feelover para o caminho de reserva (RTP/SEPA/outro PSP).
  • Treasury: prefund top-up payout-pool, ativação StressRes.
  • Payout-lock para high-risk, priorizar VIP.
  • Comunicação: ETA e alternativas, transparência de estatais no gabinete pessoal.

4. 4 Refund Errors / Double Refund Risk

Sintomas: Refund erro rate↑, devoluções controversas/duplicadas.

Ações:
  • Global refund-freeze em rota automática, apenas manual com permissões.
  • Idempotidade severa 'payment _ id + amount + reason'; row-lock para o resto.
  • Recontagem por relatório PSP; É muito estranho a tiragem no candeeiro, as malas no DLQ.
  • Kommunikatsii:模板 para cartões (T + 1-T + 5 b.d.), momento - até 60 s.

4. 5 Settlement Delay / PSP Batch Mismatch

Sintomas de D + N não inscrito, diff em somas/fee.

Ações:
  • Treasury: incluir StressRes, limitar pagamentos instantâneos.
  • Recon: marcar o batch «SUSPENSE», levantar o tíquete PSP, solicitar o status.
  • FX/Fees: aceitar «verdade» temporária (policy) ou esperar por um ajuste.
  • Comunicações: Q&A para safort (segurança de fundos, prazo de resolução).

4. 6 Crypto On/Off-Ramp Degradation

Sintomas: TtH↑, slippage↑, falta de liquidez.

Ações:
  • SOR→alternativnyy CEX/OTC, reduzir o tamanho do lote (TWAP).
  • Traduzir os que entram no stable/fiat, limite de exposição depeg.
  • Kill-switch em caso de discrepância de orador> limite bps.

4. 7 Voucher/Wallet Anomalies

Sintomas: Invalid PIN spike, velocity, geo-tigem.

Ações:
  • Limites/cooldown, referência redeem ao dispositivo, payout-lock + turnover.
  • Consulta cheques/SoF, reposição de folhas de bloco (email/device/ASN/retailer).

5) Folha de cheque de ação

5. 1 Cinco primeiros minutos (P0/P1)

  • Atribuir IC, abrir war-room.
  • Fixar a Sev, abrangência, início da timeline (UTC).
  • Incluir bandeiras de fich seguras (idempotidade, freeze dos processos de automóveis desejados).
  • Iniciar o feelover/degradação de funções.
  • Primeiro update interno (contexto, medidas, cuidado. ETA).

5. 2 Antes do encerramento do incidente

  • O SLO (AR/latency/webhooks/TtW/TtR) foi restaurado.
  • Foi feito o cruzamento (internal↔PSP↔bank) e não há «buracos negros».
  • O impact financeiro foi avaliado e os registros foram feitos.
  • Apdate externo/post no canal de status.
  • O dono do RCA e as tarefas de prevenção foram designadas.

6) Monitoramento, alertas e dashboards

Alertas-chave:
  • 'AR_gross↓> 3 p.p (p7 da mediana)' → P1/P0 por abrangência.
  • `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
  • `Payout TtW p95> SLO` или `Success%<99%` → P1.
  • `Refund Error>0. 3%` или `Double Refund>0` → P0.
  • `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Dashboard incidentes:

1. Fã Attempt→Auth→Capture (comparação com a linha de base).

2. Heatmap AR по BIN×GEO×PSP.

3. Webhook p50/p95, duplicado, drible.

4. Payout/Refund Health (Success%, TtW/TtR).

5. Treasury: equilíbrio L0, prefund, StressRes.

6. Recon: Mismatch Rate, Aging DLQ.

7) Comunicações (modelos)

Interna (15 min):
💡 `P1 Payments | Auth drop on PSP_A GEO-DE, AR −9pp vs baseline. Failover to PSP_B in progress, 3DS policy tightened for BIN 4250. Auto-refunds paused. Next update 30 min.`
Jogadores (página status/FAQ):
💡 "Agora há atrasos na confirmação de pagamentos e conclusões para parte dos usuários. Os pagamentos são salvos. Recomendamos o método X. Atualização alternativa em 30 minutos"
Associados/merchantes (breve):
💡 "Degradação das autorizações do provedor A nas regiões DACH. O feelover para o provedor B foi ativado. O relatório SLA e as medidas de prevenção serão enviadas após a RCA"

8) Confecção e dinheiro (após a estabilização)

Verificar provider _ txid/idem _ key/amount/time-bucket.
Selecionar DLQ: orphan/duplicate/amount mismatch/fee drivt.
Faça a correção em estofado no candeeiro, recalque a Costa/GGR e a Fraud Loss.
Tesouro: fechar medidas provisórias (StressRes, payout-lock), revalidação de pool.

9) Modelo RCA (Root Causa Analisis)

Contexto: data/hora (UTC), Sec, abrangência, métricas.
Sintomas: o que viram (gráficos/screenshots).
Razão: raiz (aqueles/processos/contrapartida).
O que funcionou não funcionou, o feelover, as bandeiras, as comunicações.
Efeito financeiro: cancelamentos/não pagos/comissões/créditos SLA.

Prevention:
  • Os limites, a idempotidade, os retais, os testes.
  • Processos: atualização do playbook, QBR com PSP, SLA alterações.
  • Deadline e donos de tarefas.

10) Automação e integração

Função-flag plataforma: routing instantâneo/degradação por país/BIN/método.
Runbook-bot: comandos de '/failover PSP_A→B ', '/freeze refunds', '/enable polling'.
Detector Anataly: variação estatística AR/latency com conhecimento de sazonalidade.
Post-invident macros: abertura automática do modelo RCA, coleta de logs/gráficos, folha de cheque de compensação.

11) Calendário Drill e UAT

Mensalmente: «Auth drop» drill (15 min de detecção a feelover).
Trimestral: «Webhook outage» + «Refund duplo-strike».
Semestralmente, «Senslement delay + Treasury stress» (StressRes).
Um pacote UAT, uma mala de teste de idempotação, um feelover, um controle, uma comunicação.

12) Métricas de sucesso de playbook (KPI operacional)

MTTA/MTTR: mediana/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (soma de incidentes).

13) Erros frequentes e como evitá-los

Ativação tardia do feelover (sem liminares automáticos).
Falta de «freeze» no refanda automático para o drible webhooks.
Não há row-lock/versioning → partial refund> sobra.
Comunicações sem factos/ETA → escalada para o safort.
Não há ligação com o Tesouro → TtP/TtW saem do SLO.
A omissão do teste → os buracos negros nos lucros.

14) Aplicativos (blocos de referência dentro do seu wiki)

SLA com provedores de pagamentos - liminares de alertas e empréstimos.
Comprimir pagamentos e relatórios PSP - procedimentos de recon/DLQ.
Tesouraria, liquidez e reservas - StressRes/Prefunding.
KPI circuito de pagamento - fórmulas AR/TtW/TtR/Refund Health.
Os refandos parciais e completos são idimpotência e política.

Currículo

Playbook de trabalho é runbook de cenário 'e + automação + disciplina pós-mortem. Ele reduz o MTTR, protege o dinheiro (idempotidade/confecção/tesouraria), minimiza os danos do usuário e melhora o relacionamento com o PSP SLA. Resultado - AR superior, nos corredores, zero dupla, previsível flow de dinheiro.

Contact

Entrar em contacto

Contacte-nos para qualquer questão ou necessidade de apoio.Estamos sempre prontos para ajudar!

Telegram
@Gamble_GC
Iniciar integração

O Email é obrigatório. Telegram ou WhatsApp — opcionais.

O seu nome opcional
Email opcional
Assunto opcional
Mensagem opcional
Telegram opcional
@
Se indicar Telegram — responderemos também por lá.
WhatsApp opcional
Formato: +indicativo e número (ex.: +351XXXXXXXXX).

Ao clicar, concorda com o tratamento dos seus dados.