Plano de continuidade de negócios

1) Propósito, área e princípios

O objetivo é garantir a continuidade de serviços críticos (depósitos, apostas/jogos, conclusões, KYC/AML, safort) em casos de falhas e recuperação rápida sem violação de licenças e contratos.
Área: plataforma online, circuito de pagamentos, antifrod/CUS, DWH/BI, safort, funções operacionais e legais, vendedores-chave (PSP/KYC/nuvem/CDN/estúdios/agregadores).
Princípios: safety first, o jogador primeiro, correção regulatória, minimização de RTO/RPO, simples regimes de degradação, comprovação e exercícios regulares.

2) BIA - análise do impacto no negócio

Defina processos críticos, entradas/saídas, dependências, alternativas manuais e RTO/RPO de destino.

Exemplo de fragmento BIA (YAML):

yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]

3) Cenários/ameaças (Risk → Impact → Response)

Aquelas: queda da região da nuvem, falha do banco de dados, perda do cluster, ataques de DDoS, falha do CDN.
Vendedores: PSP/KYC degradação, rompimento com o agregador de jogos, indisponibilidade de antifrod/screening de sanções.
Ciber: comprometimento de cadastro/chaves, ransomware, fuga de PII.
Processos/pessoas: greves/doenças, cuidados de profissionais-chave, erro de lançamento.
Geo/força maior: cortes de comunicação/energia, riscos militares/sanções, bloqueios de domínios/tráfego.

Para cada um: desencadeadores, limite de escalação, medidas de controle, degradação do serviço e modelos de comunicação.

4) Arquitetura de sustentabilidade e estratégia

Ativo-ativo/ativo-padrão por região; infraestrutura as códigos para elevação rápida.
Modos de degradação: vitrines read-only, desativação de provedores de jogos não críticos, limites de pagamento, «apenas depósitos» com cassautas atrasados (se legalmente permitido), redução da frequência de analistas/ETL.
Traffic Management: CDN Anycast, balanceamento geo, health-checks, canary-rotation.
Dados: PITR bacaps, registros de alterações, replicação interregional, integridade criptográfica (hashi/WORM).
Chaves/segredos: independentes KMS per-region, «break-glass».
PSP/KYC multi-homing: feelover automático, roteirizado por SLA/latência.

5) Estrutura de comando (Invident Command System)

O Incident Team (IC) é um único ponto de decisão.
Ops Lead (SRE/Plataforma) - Tecnologia, feedback, métricas.
Business Continuity Lead - coordenação de processos/procedimentos manuais.
Comms Lead - notificações externas/internas (jogadores, parceiros, reguladores).
Segurança/DPO - ciberidentes/privacidade, janelas regulatórias.
Payments/KYC Lids - PSP/KYC Script.
Liaisons: Legal, Support, VIP/CRM, Data/BI.

Regra: um IC para incidente, canais claros e logs de soluções.

6) Plano de comunicação

Canais: war-room (bate-papo/ponte), ligações de reserva (telefone/rádio/alto-serviço de mensagens), contatos pré-verificados PSP/KYC/bancos.
Modelos de mensagens externas: página de status, redes sociais, email/push; o tom são os factos, os prazos, os próximos passos.
Reguladores e parceiros: endereços pré-instalados, SLA notificações; formulações acordadas.
Jogadores: transparente ETA, compensação/bónus (se aplicável), FAQ por período de degradação.

7) Planos operacionais (Runbooks)

Exemplos de fragmentos:

7. 1 Feelover para outra região

yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"

7. 2 PSP degradação

yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter

7. 3 fornecedores KYC não estão disponíveis

yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch

8) Recuperação de TI e dados (DR)

Categorias de sistemas: Tier-1 (plataforma/pagamentos/CUS), Tier-2 (jogos/analistas), Tier-3 (interna).
Ordem de elevação: set→sekrety/KMS→BD→kesh→API→front/CDN→integratsii→analitika.
Verificações de integridade: valores de verificação, verificação de registros/replicação, verificação de transações (recordation).
Testes DR.: anualmente completo (switch-over), trimestralmente parcial; fixação de RTO/RPO real.

9) Pessoas, escritórios e logística

Remote-ready: laptops de reserva/modems, acesso SSO/MFA, acesso «vermelho» para IC.
Locais alternativos, escritórios de reserva/coworkings, listas de passagens, planos de evacuação.
Rotação de turnos: matriz de competência, duplicação de papéis-chave, plano de substituição.
Provedores críticos de comunicação/energia: contatos, SLA, geradores/UPS (se relevante).

10) Vendedores e cadeia de fornecimento

Requisitos BCP/DR. em contratos: RTO/RPO, testes obrigatórios, direito de auditoria e exercícios conjuntos.
Registro de subprocessadores: contatos, planos de outage, confirmação de remoção/exportação de dados no offboarding.
Rábulo trimestral Tier-1, incidentes, protocolos DR, status de certificados, SLA.

11) Treinamento, treinamento e testes

Tabletop uma vez por trimestre: PSP/KYC/nuvem/cenário cibernético.
Os ensinamentos são DR parciais/completos; DDoS/mudança de CDN; «kill-switch» dos provedores SDK.
Exercícios de comunicação: comunicado de imprensa/status de atualização/e-mails regulatórios.
Retrospectivas: timeline, RCA, CAPA, atualização de runbooks e BIA.

12) Métricas (KPI/KRI)

Fato RTO/RPO (Tier-1): correspondem aos objetivos ≥ 95%.
MTTD/MTTR: tendência de redução; MTTR incidentes críticos ≤ alvo.
Sem perda de dados/pedidos/taxas, ≤ X min de degradação.
Exercícios de Coverage: ≥ 2 testes de DR. completos/ano + 4 tabletop.
Comunicações: até o primeiro update ≤ 15 min, frequência de atualização de acordo com a política.
Vendor resilience: proporção de Tier-1 com testes DR confirmados em 12 m - 100%.

13) RASI (acentuado)

Atividade	IC	SRE/Platform	Security/DPO	Payments	Risk/KYC	Product	Support/CRM	Legal/Compliance	Comms/PR	Data/BI
Anúncio de incidente	A/R	R	R	R	R	C	C	C	C	C
Técnica/feelover	C	A/R	C	C	C	C	I	I	I	C
Roteiro PSP/KYC	C	C	I	A/R	A/R	C	I	I	I	I
Comunicações	A	I	C	C	C	C	C	C	R	I
Notificações regulatórias	I	I	A/R	C	C	I	I	R	I	I
Pós-mortem/SARA	A/R	R	R	R	R	R	R	C	C	R

14) Folhas de cheque

14. 1 Ready-to-Failover

Contatos atuais IC/vendedores/reguladores
Saúde de replicação, PITR-Bacap regular
Verificados «kill-switch» para SDK/webhooks
Gerente de tráfego (GSLB/CDN) com health-checks verificados
Modelos de status/cartas e direitos de publicação
Runbooks e acessibilidade (SSO/MFA) verificados mensalmente

14. 2 Durante o incidente

Atribuído IC, war-room aberto, arranque logs de soluções
Classificação (P1/P2), seleção de cenário e degradação
Usabilidade (Fplover/limites/desligamento)
Primeiro update público ≤ 15 minutos
Notificações regulatórias/parcerias SLA
Captura de artefatos para o pós-mortem

14. 3 Após o incidente

Pós-mortem com RCA e CAPA
Atualizados BIA/liminares/procedimentos rotineiros
Treinamento/retoque de fixação, relatório bordão
Acervo financeiro/este (reconciação)

15) Modelos (fatias)

15. 1 Cartão de cenário

yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]

15. 2 Mensagem de Status de Página


[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.

16) Gerenciamento de documentos e versões

Versionagem do BCP/Runbooks no repositório, mudança-jobs, dono do documento.
Prazo de revisão (trimestral para Tier-1), controle de disponibilidade de cópias offline.
Armazenamento de artefatos de exercícios/incidentes e métricas de eficiência.

17) Mapa de trânsito de implementação (6-8 semanas)

Semanas 1-2: BIA e processos críticos, objetivos RTO/RPO, lista de cenários e proprietários.
Semanas 3-4: arquitetura de estabilidade e regimes de degradação, runbooks, modelos de comunicação, contatos.
Semanas 5-6: integração com vendedores (PSP/KYC/nuvem), exercícios-piloto (tabletop + DR parcial), ajustes.
Semanas 7-8: Teste DR. completo (se possível), lançamento do ciclo trimestral de exercícios, relatório do bordão e pacote regulatório (se necessário).

18) Seções wiki associadas

Registro de risco, Incidentes e Fugas, DR/BCP Testes, TPRM e SLA, ISO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privege, Política de Logs/WORM - para um único circuito de estabilidade e provabilidade

TL; DR

Efetivo BCP = BIA→RTO/RPO→stsenarii e degradatsii→multi/região multi + nítido Invident Command, comunicações e ensinamentos. Mantenha o documento vivo, teste regularmente - e mesmo uma grande falha não interromperá o negócio nem afetará as licenças.

Plano de continuidade de negócios

TL; DR

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos