GH GambleHub

Incidencias en los pagos

TL; DR

Un incidente en los pagos es una operación administrada: clasifica rápidamente → estabiliza UX (Feilover/Degrade) → ahorra dinero (idempotencia/reglas de bloque) → comunica → recupera → bloquea RCA de forma transparente. Los principales SLO son: MTTA, MTTR, TtW/TtR, AR, Webhook p95, tolerancia cero a la doble carga/refundición.

1) Matriz de gravedad (Severity & Impact)

SevDefiniciónEjemplosObjetivos
P0Impacto masivo, pérdidas monetarias/imposibilidad de pagarAuth<−20 p.p., cargos dobles, payout-fail masivo, settlement stopMTTA ≤ 15 min, MTTR ≤ 2 h
P1Degradación sustancial de los segmentosWebhook p95> 30 c, payout TtW p95> SLO, AR por BIN/país −8 p.p. MTTA ≤ 30 min, MTTR ≤ 4 h
P2Segmento limitado/fichaAumento de refund error a 0. 5%, informes PSP retrasadosMTTA ≤ 4 h, MTTR ≤ 2 p.d.
P3Menor/« papel »Drebezg del registro, pequeño schema driftSegún el plan

Disparadores: alertas SLA/tesorería/conciliación, picos de sapport, monitoreo AR/latency/webhooks.

2) Roles y canal de comunicación

Incident Commander (IC) es el propietario de la línea de tiempo y las soluciones.
Payments Tech Lead - enrutamiento, idempotencia, flags.
Treasury Lead - liquidez, prefundación, reservas stress.
Risk/AML - sanciones, reglas de bloque, SoF/SoW.
Comms Manager - Plantillas de partners/sapport, status update.
Recon/Finance - conciliación, storno/registros, estimaciones de pérdidas.

Sede: # payments-incident-warroom (chat), Zoom-bridge + documento en vivo de la línea de tiempo (UTC).

3) Ciclo universal (para cualquier incidente)

1. Nat & Triage → confirmar métricas/cobertura, asignar Sev.
2. Stabilize UX → Feilover Routing, degradación de Fich, congelación de autocaravanas peligrosas.
3. Money Safety → incluir idempotencia/bloques (refund/payout), fijar registros.
4. Comunicación → actualización interna (15/30/60 min), mensajes externos (estado/ETA/solución de problemas).
5. Recover → retroceso paso a paso/apertura, verifique SLO.
6. Reconcile → comparar ledger/PSP/banco, calcular el impacto financiero.
7. RCA (≤5 p. d.) → raíz, acciones, evitadores, tareas.

4) Scripts típicos y Runbook 'y

4. 1 Auto Drop/Latency Spike (tarjetas/A2A)

Síntomas: AR↓, soft declines↑, p95 auth> 1-2 s.

Acciones:
  • Smart-routing: PSP_A→PSP_B, aumentar la 3DS-challenge en los BIN vulnerables.
  • Restringir retraídas (backoff + jitter), proteger la idempotencia 'auth _ key'.
  • Segmento-toggle: alto-riesgo en un escenario «estricto»; reducir los límites de alto ticket.
  • Comunicaciones: «nota sobre la degradación», recomendar un método alternativo.
  • Recuperación: retorno escalonado de la cuota de tráfico, control AR en el corte BIN × GEO.

4. 2 Webhooks Delay / Duplicate

Síntomas: p95> 3-5 c, omisiones capture/refund/payout, duplicados.

Acciones:
  • Cambiar a polling; reforzar la idempotencia TTL.
  • Congelar auto-refundiciones y pagos de automóviles arriesgados.
  • Anti-toma: store-once por 'idempotency _ key/provider _ txid'.
  • Realizar el procesamiento catch-up; conciliación con los registros PSP.
  • Recuperación: habilitar webhooks, comparar consistencia con informes.

4. 3 Payout Fail / TtW Degradation

Síntomas: Success%↓, TtW p95↑, devoluciones/tiempos de espera.

Acciones:
  • Feilover en el carril de respaldo (RTP/SEPA/otro PSP).
  • Treasury: Prefund top-up payout-pool, StressRes activación.
  • Payout-lock para alto riesgo, priorización VIP.
  • Comunicaciones: ETA y alternativas, transparencia de los estados en la cuenta personal.

4. 4 Refund Errors / Double Refund Risk

Síntomas: Refund error rate↑, devoluciones controvertidas/duplicadas.

Acciones:
  • Refund-freeze global en la ruta del coche, sólo manual con derechos.
  • Idempotencia rígida 'payment _ id + amount + reason'; row-lock para el resto.
  • Volver a conciliar el informe PSP; tomas en el guardabosques, casos en el DLQ.
  • Kommunikatsii:模板 para tarjetas (T + 1-T + 5 bd.), instant - hasta 60 p.

4. 5 Settlement Delay / PSP Batch Mismatch

Síntomas: D + N no acreditado, diff en sumas/fee.

Acciones:
  • Treasury: habilitar StressRes, limitar los pagos instantáneos.
  • Recon: marcar batch «SUSPENSE», levantar ticket PSP, solicitar statement.
  • FX/Fees: aceptar la «verdad» temporal (política) o esperar el ajuste.
  • Comunicaciones: Q&A para sapport (seguridad de fondos, plazos de liquidación).

4. 6 Crypto On/Off-Ramp Degradation

Síntomas: TtH↑, slippage↑, escasez de liquidez del sitio.

Acciones:
  • SOR→alternativnyy CEX/OTC, reducir el tamaño del lote (TWAP).
  • Traducción de las entradas a stable/fiat, límite de exposición depeg.
  • Kill-switch cuando hay una discrepancia oráculo> límite bps.

4. 7 Voucher/Wallet Anomalies

Síntomas: Invalid PIN spike, velocity, geo tazón.

Acciones:
  • Límites/couldown, enlace redeem al dispositivo, payout-lock + turnover.
  • Solicitud de cheques/SoF, recarga de hojas de flujo (email/device/ASN/retailer).

5) Chequeos de acciones

5. 1 Cinco primeros minutos (P0/P1)

  • Asignar IC, abrir war-room.
  • Fijar Sev, cobertura, inicio de la línea de tiempo (UTC).
  • Incluir banderas de seguridad (idempotencia, freeze de los procesos automáticos deseados).
  • Ejecute el Failover/Degradación de funciones.
  • Primer apdate interno (contexto, medidas, sigue ETA).

5. 2 Antes de cerrar el incidente

  • SLO restaurado (AR/latency/webhooks/TtW/TtR).
  • Se realizó una conciliación (internal↔PSP↔bank), no hay «agujeros negros».
  • Se evalúa el impacto financiero, se formalizan los registros.
  • Apdate/post externo en el canal de estado.
  • Se ha designado un propietario de RCA y tareas de prevención.

6) Monitoreo, alertas y dashboards

Alertas clave:
  • 'AR_gross↓> 3 p.p. (a p7 mediana)' → P1/P0 de alcance.
  • `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
  • `Payout TtW p95> SLO` или `Success%<99%` → P1.
  • `Refund Error>0. 3%` или `Double Refund>0` → P0.
  • `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Incidentes Dashboard:

1. Fanel Attempt→Auth→Capture (comparación a la línea de base).

2. Heatmap AR по BIN×GEO×PSP.

3. Webhook p50/p95, duplicados, drebezg.

4. Payout/Refund Health (Success%, TtW/TtR).

5. Treasury: balance L0, Prefund, StressRes.

6. Recon: Mismatch Rate, Aging DLQ.

7) Comunicaciones (plantillas)

Interior (15 minutos):
💡 `P1 Payments | Auth drop on PSP_A GEO-DE, AR −9pp vs baseline. Failover to PSP_B in progress, 3DS policy tightened for BIN 4250. Auto-refunds paused. Next update 30 min.`
A los jugadores (página de estado/preguntas frecuentes):
💡 "Ahora hay retrasos en la confirmación de pagos y retiros para una parte de los usuarios. Los pagos se mantienen seguros. Recomendamos el método alternativo X. Actualización en 30 minutos"
Socios/merchantes (corto):
💡 "Degradación de las autorizaciones del proveedor A en las regiones DACH. Feilover en el proveedor B está activado. El informe SLA y las medidas de prevención se enviarán después de la RCA"

8) Conciliación y dinero (después de la estabilización)

Ahuyentar la conciliación automática: provider_txid/idem_key/amount/time-bucket.
Resaltar DLQ: orphan/duplicate/amount mismatch/fee drift.
Formalizar storno/correcciones en el ledger, volver a calcular Costo/GGR y Fraud Loss.
Tesorería: cerrar medidas temporales (StressRes, payout-lock), rebalance de grupos.

9) Plantilla RCA (Root Cause Analysis)

Contexto: fecha/hora (UTC), Sev, cobertura, métricas.
Síntomas: lo que vio (gráficos/capturas de pantalla).
Causa: raíz (esos/procesos/contraparte).
Lo que funcionó/no funcionó: feilover, banderas de fin de semana, comunicaciones.
Efecto financiero: cargos/impagos/comisiones/préstamos de SLA.

Prevention:
  • Los siguientes: límites, idempotencia, retraídas, pruebas.
  • Procesos: actualización de playbook, QBR con PSP, cambios SLA.
  • Dedlines y propietarios de tareas.

10) Automatización e integración

Plataforma Feature-flag: routing instantáneo/degradación por país/BIN/método.
Runbook-bot: comandos '/failover PSP_A→B', '/freeze refunds', '/enable polling '.
Anomaly-detector: desviación estadística de AR/latencia con conocimiento de estacionalidad.
Macros posteriores: apertura automática de la plantilla RCA, recopilación de registros/gráficos, comprobación de lista de verificación.

11) Calendario Drill y UAT

Mensual: «Auth drop» drill (15 min desde el bebé hasta el fake-over).
Trimestralmente: «Webhook outage» + «Refund double-strike» (idempotencia).
Cada seis meses: "Settlement delay + Treasury stress' (StressRes).
Paquete UAT: casos de prueba de idempotencia, feilover, conciliación, comunicaciones.

12) Métricas de éxito de playbook (KPI operativos)

MTTA/MTTR: mediana/p95 por P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (suma por incidente).

13) Errores frecuentes y cómo evitarlos

Activación de failover tardía (no hay umbrales automáticos).
No hay «freeze» en el auto-refando cuando se rebusca webhooks.
No hay row-lock/versioning → refund parcial> residuo.
Comunicaciones sin hechos/AETA → escalada en el sapport.
No hay ligamento con el Tesoro → TtP/TtW sale de SLO.
Omitir la conciliación → «agujeros negros» en los ingresos.

14) Aplicaciones (bloques de referencia dentro de su wiki)

SLA con proveedores de pago - umbrales de alertas y préstamos.
Conciliación de pagos e informes PSP: procedimientos recon/DLQ.
Tesorería: liquidez y reservas - StressRes/Prefunding.
KPI del circuito de pago: fórmulas AR/TtW/TtR/Refund Health.
Refandos parciales y completos - idempotencia y política.

Resumen

Un playbook de trabajo es un script runbook 'y + automatización + disciplina post-mortem. Reduce el MTTR, protege el dinero (idempotencia/conciliación/tesorería), minimiza el daño al usuario y mejora sistémicamente las relaciones con PSP por SLA. El resultado es AR arriba, TtW/TtR en los pasillos, cero tomas, previsible flow de dinero.

Contact

Póngase en contacto

Escríbanos ante cualquier duda o necesidad de soporte.¡Siempre estamos listos para ayudarle!

Telegram
@Gamble_GC
Iniciar integración

El Email es obligatorio. Telegram o WhatsApp — opcionales.

Su nombre opcional
Email opcional
Asunto opcional
Mensaje opcional
Telegram opcional
@
Si indica Telegram, también le responderemos allí además del Email.
WhatsApp opcional
Formato: +código de país y número (por ejemplo, +34XXXXXXXXX).

Al hacer clic en el botón, usted acepta el tratamiento de sus datos.