Evaluación de riesgos
1) Objetivos y principios
Objetivo: detección temprana y priorización de amenazas que afectan a SLO, ingresos, cumplimiento regulatorio y reputación.
Principios: Sistematicidad, Medida, Repetibilidad, Vinculación al Valor Empresarial, SLO-first.
El resultado: un portafolio transparente de riesgos con propietarios comprensibles, medidas y deduplines.
2) Términos
Riesgo: probabilidad × impacto de un evento no deseado.
Riesgo-apetito: nivel de riesgo residual aceptable para la organización.
Vulnerabilidad/impacto/control: debilidad, desencadenante y medidas existentes.
KRI (Key Risk Indicators): indicadores avanzados (p.ej., aumento de la latencia p99, indicador de consumo, rechazo de la conversión de pagos).
3) Clasificación de riesgos para iGaming
Operativo: sobrecarga, fallos de lanzamiento, colas, degradación de la DB/caché, incidentes en centros de datos/AZ/regiones.
Tecnología/seguridad: DDoS, vulnerabilidades, fugas, errores de configuración, dependencia de bibliotecas clave.
Pagos/finanzas: caída de las autorizaciones, aumento del chargeback, inaccesibilidad del proveedor, FX-excitación, frod.
Dependencias/ecosistema: fallas en proveedores de juegos, CDN/WAF, KYC/AML, gateways SMS/e-mail.
Cumplimiento/regulación: infracción de los requisitos de licencia, KYC/AML, juego responsable, almacenamiento de datos.
Producto/marketing: picos de tráfico impredecibles (torneos, partidos, promociones), errores de segmentación de bonos.
Reputacional: negativo en medios/redes sociales debido a incidentes o incumplimiento de requisitos.
4) Proceso de evaluación de riesgos (marco)
1. Establecer el contexto: objetivos, SLO, requisitos regulatorios, límites arquitectónicos, cadena de valor.
2. Identificación: recopilación de eventos candidatos: retrospectivas de incidentes, auditoría de dependencias, lluvia de ideas, hojas de control.
3. Análisis: cualitativo (escenarios, Bow-Tie) y cuantitativo (frecuencias/distribuciones).
4. Evaluación: comparación con el apetito de riesgo, clasificación, aprobación de prioridades.
5. Tratamiento: prevención, reducción, transmisión (seguros/contratos), aceptación (consciente).
6. Monitoreo y revisión: KRI, verificación de la eficacia de los controles, actualización del registro, pruebas de preparación.
5) Técnicas de calidad
Matriz de probabilidad/influencia: escalas 1-5 (Very Low... Very High). Impacto de contar por separado por ejes: SLA/ingresos/regulaciones/reputación.
Análisis de Bow-Tie: causas → eventos → consecuencias; para cada parte - controles preventivos y atenuantes.
FTA (Fault Tree Analysis): árboles de rebote lógicos para servicios críticos (depósito, tasa, retirada).
HAZOP/What-If: encuesta sistemática «¿y si?» por interfaces y procedimientos.
6) Técnicas cuantitativas
ALE (Anualized Loss Expectancy): ALE = SLE × ARO (daños anuales previstos).
VaR/CVaR: capital de riesgo con un nivel de confianza determinado (para saldos de caja/proveedores de pago).
Monte-Carlo: simulación de picos de tráfico/fallas de proveedores/conversiones de pagos a intervalos de confianza.
FMEA: evaluación de gravedad (S), frecuencia (O), detección (D) → RPN = S × O × D, priorización de correcciones.
Reliability math: headroom, MTTF/MTTR, presupuesto de error burn-rate, probabilidad de fallos conjuntos (proveedor de AZ +).
7) Riesgo-apetito y umbrales
Defina las categorías (alto/medio/bajo) para las pérdidas de SLA, multas, pérdidas de ingresos por hora/día.
Establecer umbrales de escalada: cuando el incidente/riesgo pasa entre los niveles, quién está obligado a recoger el var room.
Propague excepciones (aceptación temporal del riesgo) con una fecha de revisión y un plan de cierre.
8) KRI y alerta temprana
Ejemplos de KRI:- Rendimiento: p95/p99 ↑, crecimiento de los tiempos de espera, profundidad de las colas, caída de cache-hit, replication lag.
- Pagos: autorizaciones de ↓ en un GEO/banco específico, crecimiento soft-decline, anomalías de AOV.
- Seguridad: ráfagas de 4xx/5xx en endpoints críticos, crecimiento de WAF, nuevos CVE en dependencias.
- Cumplimiento: exceder los límites de almacenamiento, retrasos de KYC, proporción de autoexclusiones sin procesamiento.
- Para cada KRI - propietario, métrica, umbrales, fuentes, auto-alertas.
9) Evaluación de impacto (multiaxial)
SLA/SLO: min/reloj fuera del objetivo, impacto en los bonos SLA a los socios.
Finanzas: pérdidas directas (transacciones pendientes, chargeback), indirectas (churn, multas).
Regulación: riesgo de sanciones/suspensión de licencias/notificaciones obligatorias.
Reputación: NPS/CSAT, una ola de menciones negativas, impacto en socios y streamers.
10) Tratamiento de riesgos (catálogo de medidas)
Prevención: evitar los patrones/fichas arriesgados, restringir el blast-radius (aislamiento tenant, rate-limit).
Reducción: charding DB, almacenamiento en caché, pool/cuota, multi-proveedor de pagos, lanzamientos canarios.
Transferencia: seguro de riesgo cibernético, compensación SLA en contratos, escrow.
Aceptación: solución documentada con riesgo residual controlado, con KRI y plan de salida.
11) Roles y RACI
Responsable: Propietarios de dominios Risk/Ops/SRE/Payments/SecOps.
Accountable: Head of Ops/CTO/CRO.
Consulted: Product, Data/DS, Legal/Compliance, Finance.
Informed: Support, Marketing, Partner Management.
12) Artefactos y patrones
Risk Register (registro de riesgos): ID, descripción, categoría, razones, probabilidad, impacto por ejes, controles existentes, KRI, plan de procesamiento, propietario, plazo.
Risk Heatmap: mapa agregado por división/servicio.
Dependency Map: dependencias externas e internas críticas, niveles de redundancia, datos de contacto.
Runbooks/Playbooks: pasos específicos cuando se activa el KRI/incidente, kill-switches, degradación.
Quarterly Risk Review: conjunto de cambios, riesgos cerrados/nuevos, tendencias de KRI, eficiencia de control.
13) Integración con SLO/gestión de incidentes
Los riesgos se convierten en objetivos SLO (latency, error-rate, disponibilidad) y presupuesto de errores.
KRI → políticas de alerta (rápida/lenta burn-rate).
En post-mortem, es obligatorio registrar la actualización de la evaluación de riesgo y los ajustes de control.
14) Herramientas y datos
Monitoreo/Observabilidad: métricas, registros, trazados; paneles de especies de riesgo.
Directorios y CMDB: servicios, propietarios, componentes dependientes.
GRC/Task-tracker: almacenamiento del registro de riesgos, estados, auditorías de acciones.
Data/ML: modelos de anomalías, predicción de carga/fallas, simulaciones de Monte-Carlo.
15) Hoja de ruta para la implementación (8-10 semanas)
Ned. 1-2: contexto y marco; una lista de servicios y dependencias críticos; definición de riesgo-apetito.
Ned. 3-4: identificación primaria de riesgos (workshops, retro), relleno del registro, borrador heatmap.
Ned. 5-6: ajuste de KRI y alertas, ajuste a SLO; Lanzamiento de Bow-Tie/TLC para los 5 riesgos principales.
Ned. 7-8: Cuantificación (ALE/VaR/Monte-Carlo) de escenarios financieramente significativos; Aprobación de planes de procesamiento.
Ned. 9-10: pruebas de preparación (game day, failover), corrección de umbrales, lanzamiento de revisiones trimestrales.
16) Ejemplos de riesgos evaluados (iGaming)
1. Fracaso de las autorizaciones de PSP-1 en el prime time
Probabilidad: Promedio; Impacto: Alto (ingresos, SLA).
KRI: conversión de autorizaciones bancarias/GEO, crecimiento de soft-decline.
Medidas: multi-proveedor, routing por health & fee, retrés con jitter, límites de pausas.
2. Sobrecarga de apuestas DB por día partido LF
Probabilidad: Promedio; Impacto: Alto (SLO).
KRI: lag replicación, p99 consultas, crecimiento de lock-wait.
Medidas: caché/CQRS, charding, precarga de líneas, modo read-only de parte de fich.
3. DDoS en API públicas
Probabilidad: Baja-Media; Impacto: Alto (disponibilidad, reputación).
KRI: estallido SYN/HTTP, desencadenantes WAF.
Medidas: CDN/WAF, rate-limit, tokens, capchi, aislamiento de tráfico de bots.
4. Inconsistencia regulatoria en el almacenamiento KYC
Probabilidad: Baja; Impacto: Muy alto (multa/licencia).
KRI: retardo de las inspecciones> SLA, exceso de retention.
Medidas: policy-as-code, TTL automáticas, auditorías y pruebas de datos prod.
17) Antipatternas
Evaluación ocular sin registro y KRI.
Matrices sin conexión con el dinero y SLO → prioridades incorrectas.
Revisiones raras (el registro no se actualiza después de los incidentes).
«Procesamiento» sólo con documentación sin controles/pruebas implementadas.
Ignora las dependencias externas y los SLAs contratados.
18) Informes y comunicación
Exec-resumen: top 10 riesgos, tendencias KRI, riesgo residual vs apetito, plan de cierre.
Aquellos informes: eficacia de los controles, resultados del día del juego, cambios en los umbrales.
Regularidad: revisiones mensuales + revaluación profunda trimestral.
Resultado
La evaluación de riesgos no es un documento estático, sino un ciclo vivo: identificaron → consideraron → acordaron el apetito de riesgo → eligieron e implementaron medidas → validaron con datos y ejercicios → actualizaron el registro. Este circuito vincula las soluciones operativas con el valor empresarial y reduce la frecuencia y la escala de los incidentes, con el cumplimiento constante de los SLO y los requisitos regulatorios.