Avaliação de risco
1) Objetivos e princípios
Objetivo: detecção precoce e priorização de ameaças que afetam SLO, receita, conformidade regulatória e reputação.
Princípios: Sistematicidade, Dimensibilidade, Repetibilidade, Vinculação ao Valor Empresarial, SLO-First.
Resultado: carteira de risco transparente com proprietários, medidas e deadline compreensíveis.
2) Termos
Risco: probabilidade x influência de um evento indesejado.
Risco-apetite, nível de risco residual aceitável para a organização.
Vulnerabilidade/exposição/controle: ponto fraco, desencadeador e medidas existentes.
KRI (Key Risk Indicators): indicadores mais avançados (por exemplo, aumento da latência p99, consumer-lag, desvio da conversão de pagamentos).
3) Classificação de risco para iGaming
Operacionais: sobrecarga, falhas de lançamento, filas, degradação da base de dados/capas, incidentes no centro de dados/AZ/regiões.
Tecnologia/Segurança: DDoS, vulnerabilidades, vazamentos, erros de configuração, dependência de bibliotecas-chave.
Pagamentos/Finanças: queda das autorizações, crescimento do chargeback, indisponibilidade do provedor, tumulto FX, frod.
Dependências/ecossistema: falhas em provedores de jogos, CDN/WAF, KYC/AML, e-mail de passarelas.
Complacência/regulação: violação de licenças, KYC/AML, jogo responsável, armazenamento de dados.
Produto/marketing: picos imprevisíveis de tráfego (torneios, jogos, promoção), falhas de segmentação de bónus.
Reputação: negatividade em mídia/redes sociais por incidentes ou falta de conformidade.
4) Processo de avaliação de risco (moldura)
1. Estabelecer o contexto: metas, SLO, requisitos regulatórios, limites arquitetônicos, cadeia de valor.
2. Identificação de eventos candidatos, retrospectivas de incidentes, auditorias de dependências, ataques cerebrais, folhas de controle.
3. Análise: qualitativa (cenários, Bow-Tie) e quantitativa (frequências/distribuição).
4. Avaliação: comparação com risco-apetite, classificação, aprovação de prioridades.
5. Processamento: prevenção, redução, transferência (seguro/contrato), aceitação (consciente).
6. Monitoramento e revisão: KRI, verificações de eficiência, atualização de registro, testes de preparação.
5) Técnicas de qualidade
Matriz de probabilidade/influência: escalas 1-5 (Very Low... Very High). Impacto de contar separadamente em eixos: SLA/receita/regulação/reputação.
Bow-Tie Analysis: causas → eventos → consequências; para cada lado, controles preventivos e flexibilizadores.
FTA: árvores lógicas de rejeição para serviços críticos (depósito, taxa, conclusão).
HAZOP/What-If: Pesquisa sistemática «e se?» por interfaces e procedimentos.
6) Tecnologia quantitativa
ALE: ALE = SLE x ARO (danos anuais previstos).
VaR/CVaR: capital de risco com o nível de confiança especificado (para quebras de caixa/provedores de pagamento).
Monte-Carlo: Simulação de picos de tráfego/falhas de provedores/conversões de pagamentos com intervalos de confiança.
FMEA: avaliação de gravidade (S), frequência (O), detectividade (D) → RPN = S x O x D, priorização de correções.
Reliability math: headroom, MTTF/MTTR, burn-rate orçamento de erros, probabilidade de rejeição conjunta (AZ + provedor).
7) Risco-apetite e liminares
Defina as categorias (alta/média/baixa) para perdas SLA, multas, perdas de receita por hora/dia.
Estabeleça liminares de escalação, quando o incidente/risco passar entre os níveis, quem é obrigado a recolher o war-rum.
Sugira exceções (aceitação temporária de risco) com data de revisão e plano de encerramento.
8) KRI e aviso precoce
Exemplos do KRI:- Desempenho: p95/p99 ↑, crescimento de temporizações, profundidade das filas, queda de cachê-hit, reprodução de lag.
- Pagamentos: permissões no GEO/banco específico, crescimento soft-decline, anomalias AOV.
- Segurança: Saltos 4xx/5xx em endpoentes críticos, crescimento do trabalho WAF, novos CVE em dependências.
- Complaens: excesso de limites de armazenamento, atrasos de KYC, taxa de auto-exclusão sem processamento.
- Para cada KRI - dono, métrica, liminares, fontes, alertas automóveis.
9) Avaliação do impacto (multi-eixo)
SLA/SLO: min/relógio fora do objetivo, impacto sobre bônus SLA parceiros.
Finanças: perdas diretas (transações não cumpridas, cobreback), indiretas (churn, multas).
Regulação: risco de sanções/suspensão de licença/notificações obrigatórias.
Reputação: NPS/CSAT, uma onda de menções negativas, influência sobre parceiros e strimers.
10) Processamento de risco (catálogo de medidas)
Prevenção: rejeição de fichas de risco/pattern, limitação de blast-radius (isolamento tenante, rate-limit).
Redução: BB, armazenamento em caixa, pool/quotas, pagamento multi-provedor, lançamentos de canário.
Transferência: seguro de risco cibernético, compensação SLA em contratos, escrow.
Aceitação: solução documentada em risco residual controlado, com KRI e plano de saída.
11) Papéis e RACI
Resolvível: Risk/Ops/SRE/Payments/SecOps donos de domínios.
Accountable: Head of Ops/CTO/CRO.
Consulted: Product, Data/DS, Legal/Compliance, Finance.
Informed: Support, Marketing, Partner Management.
12) Artefatos e modelos
Risk Register (registro de risco): ID, descrição, categoria, razões, probabilidade, influência sobre eixos, controladores existentes, KRI, plano de processamento, proprietário, prazo.
Risk Heatmap: mapa agregado por unidade/serviço.
Dependency Map: Dependências externas e internas críticas, níveis de reserva, dados de contato.
Runbooks/Playbooks: medidas específicas para o processo KRI/incidente, kill-switches, degradação.
Quarterly Risk Review: conjunto de alterações, riscos fechados/novos, tendências KRI, eficiência de controle.
13) Integração com o SLO/Incidente Gestão
Os riscos são convertidos em alvos SLO (latency, error-rate, disponibilidade) e orçamento de erros.
KRI → políticas alert (burn-rate rápido/lento).
No post-mortem, é obrigatório registrar atualizações de avaliação de risco e ajustes de controle.
14) Ferramentas e dados
Monitoramento/gravidade: métricas, logs, traçados; painéis de risco-vista.
Diretórios e CMDB: serviços, proprietários, componentes dependentes.
Rastreador GRC/Task: armazenamento de registro de risco, status, auditoria de ações.
Data/ML: modelos de anomalias, previsão de carga/falha, simulações de Monte-Carlo.
15) Mapa de trânsito de implementação (8-10 semanas)
Ned. 1-2: contexto e moldura; uma lista de serviços e dependências críticos; determinação de risco-apetite.
Ned. 3-4: identificação primária de risco (workshop, retrô), preenchimento de registro, heatmap rascunho.
Ned. 5-6: configuração de KRI e alertas, alinhamento a SLO; lançamento de Bow-Tie/FTA para o top 5 de risco.
Ned. 7-8: quantificação (ALE/VaR/Monte-Carlo) para cenários financeiramente significativos; aprovação de planos de processamento.
Ned. 9-10: teste de preparação (game day, failover), correção de liminares, execução de revisões trimestrais.
16) Exemplos de risco avaliado (iGaming)
1. Fracasso de autorizações no PSP-1 no horário nobre
Probabilidade: Médio; Impacto: Alta (receita, SLA).
KRI: Conversão de Autorizações de Banco/GEO, crescimento soft-decline.
Medidas: fornecedor multi, routing health & fee, retrai com jitter, limites de pausas.
2. Sobrecarga de BD de apostas por dia de jogo de RH
Probabilidade: Médio; Influência: Alta (SLO).
KRI: lag replicing, p99 consultas, crescimento lock-wait.
Medidas: dinheiro/CQRS, charding, pré-fixação de linhas, read-only modo de parte de fic.
3. DDoS para APIs públicas
Probabilidade: Baixa-Média; Impacto: Alta disponibilidade, reputação.
KRI: Sobe SYN/HTTP, Triggers WAF.
Medidas CDN/WAF, rate-limit, tokens, capches, isolamento do tráfego de bots.
4. Discrepância regulatória de armazenamento KYC
Probabilidade: Baixa; Impacto: Muito alto (multa/licença).
KRI: atrasos de verificação> SLA, excesso de retenção.
Medidas: policy-as-código, TTL automático, auditoria e testes de dados de prod.
17) Antipattern
Nota de olho sem registro ou KRI.
Matrizes sem conexão com dinheiro e SLO → prioridades erradas.
Revisões raras (registro não atualizado após incidentes).
«Processamento» somente com documentação sem controle/teste implementado.
Ignorar dependências externas e SLA contratadas.
18) Relatórios e comunicações
Resumo exec: top 10 riscos, tendências KRI, risco residual vs apetite, plano de fechamento.
Relatórios: eficiência de controle, resultados de game day, alterações de liminares.
Regularidade: revisões mensais + reavaliação trimestral profunda.
Resultado
A avaliação de risco não é um documento estático, mas um ciclo vivo: identificou → contou → concordou com o apetite → escolheu e implementou medidas → verificou dados e ensinamentos → atualizou o registro. Este circuito liga as soluções operacionais ao valor de negócio e reduz a frequência/escala dos incidentes, com o cumprimento sustentável do SLO e das exigências dos reguladores.