GH GambleHub

Ciclo de vida dos dados

1) Atribuição e princípios

O objetivo é assegurar que os dados se movam de forma previsível, completa e econômica, desde a sua chegada até a sua eliminação final, suportando cenários analíticos, operacionais e regulatórios.

Princípios básicos:
  • Data as a Product: cada conjunto tem dono, contrato, SLO, documentação.
  • Schema-first: esquemas obrigatórios; alterações - através da versionização.
  • Private-by-Design: Minimização do PII, pseudônimo, armazenamento regional.
  • Observabilidade-by-Default: métricas, loging de acesso, lineage.
  • Custo-aware: níveis de armazenamento, TTL, semente, compressão.

2) Fases do ciclo de vida

2. 1 Criação e coleta (Create/Collect)

Fontes: produtos (web/mobile), backends, pagamentos, fornecedores KYC/AML, jogos/estúdios, marketing, logs operacionais.
Identificadores: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Contratos: JSON/Avro esquema, AsyncAPI/OpenAPI.
Qualidade na entrada: validação de esquemas, campos obrigatórios, limites de tamanho, anti-duplicados.
Privacidade: Tocinização de campos sensíveis, geo-roteamento ingest (EEA/UK/BR).

2. 2 Recepção e armazenamento primário (Ingest & Raw)

Transporte: HTTP/gRPC → Edge → pneu (Kafka/Redpanda).
Camada Raw (Bronze): append-only, payload's imutável (forense), partidarização por tempo/mercado/tenante.
Políticas: «(event _ id, fonte)», DLQ para eventos «batidos», marca Legal Hold.

2. 3 Processamento e limpeza (Refine)

Normalização (Silver): tipificação, dedução, guias, FX/temporizações, enriquecimento.
Qualidade (DQ): totalidade/exclusividade/faixa/integridade de referência.
Reprocessing: linhas de montagem idumpotentes, time-travel, backfill's controlado.

2. 4 Consumo e Serving (Serve/Use)

Vitrines gold: BI/relatórios (GGR, RG, AML), modelos de alimentos e risco, vitrines real-time.
Acesso: SQL/Trino, camada semântica de métricas, API/GraphQL, Função Store.
SLA frescura - Por exemplo, as vitrines diárias Gold estão prontas até às 06:00 locais.

2. 5 Compartilhamento e distribuição (Share/Publish)

Consumidores internos: Analista, Produto, Risco, Complaens, Marketing, Finanças.
Descarga externa: reguladores, parceiros/provedores; pacotes imutáveis (PDF/CSV/JSON + hash).
Canais controlados, artefatos assinados, auditoria de carga/exportação.

2. 6 Arquivamento e armazenamento (Archive/Retain)

Políticas de armazenamento por tipos de dados e jurisdições (por exemplo, regulatórias de 5 a 7 anos).
Camadas de armazenamento: hot/warm/cold, WORM/Object Lock para imutabilidade.
Indexação de arquivo: diretórios, rótulos de versão/mercado, busca rápida de metadados.

2. 7 Remoção e final (Dispose)

Remoção normal: TTL/Retensivo; limpeza segura, atualização de índices.
Transações legais: DSAR/PTBF (direito ao esquecimento), exceções por obrigação legal de armazenamento, Legal Hold (congelamento da remoção).
Verificação: relatórios de remoção, registro de auditoria, controle de frases cruzadas.

3) Classificação e diretório

Categorias de sensibilidade: público/internacional/confidential/restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catálogo de dados: descrição, proprietário, SLA recente, esquemas, lineagem, níveis de acesso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Modelo Lakehouse e circuitos

Bronze/Silver/Gold: regras claras de transformação e responsabilidade.
Formatos: Parquet + formato de tabela com ACID (Delta/Iceberg/Hudi).
A evolução dos circuitos: versões semânticas, compatibilidade longa, migração com registro duplo para alterações breaking.
Registry: Schema Registry, Validação de Contratos CI, Consumer-Driven Tests.

5) Qualidade de dados (DQ)

Métricas de qualidade:
  • Completeness: proporção de eventos/linhas realmente recebidos.
  • Validity: proporção de registros que tiveram validação de esquema.
  • Uniqueness: controle de duplicação.
  • Consistency: conformidade com guias e ligações.
  • Freshness: atraso na entrada/materialização.
Práticas:
  • Regras DQ como código (YAML/SQL), dashboard, alertas SLO.
  • Folback automático em degradação (último corte correto).

6) Privacidade e complacência

Minimizar PII: armazenar pseudo-ID, levar muppings para um circuito isolado.
Camuflagem e RLS/CLS: nível de coluna/linha; políticas dinâmicas.
Regionalização: data residency sobre mercados; diretórios separados/chaves de criptografia.
DSAR/PTBF: projeções controladas, edições seletivas, auditorias de emissão.
Legal Hold: marcas de congelamento, arquivos imutáveis, registros de acesso.

7) Acesso e segurança

Autenticação/autorização: SSO, RBAC/ABAC, atributos de jurisdições e papéis.
Criptografia: TLS in-transit; at-rest via KMS/CMK; Rotação de chaves.
Registros de acesso: quem/o/quando/de onde; alertas para exportação em massa/scan.
Separação de responsabilidades: diferentes papéis para prod/analistas/almirantes/revoores.

8) Lineagem (lineage) e observabilidade

Lineage técnico: desde a origem → transformação → vitrine → relatórios.
Lineage operacional: ligações com lançamentos, fichflagelos, modelos, regras AML/RG.
As métricas da plataforma são throughput, lag, failure-rate, cost/query, cost/GB.
Tracing: transferência 'trace _ id' de aplicativos a vitrines/alertas.

9) Modelos de tempo e retroprocessos

Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill e reprocessing: pipeline idimpotente's, time-travel, controle de «dupla contabilidade».
Armazenamento de estados: TTL, snapshots, recuperação de falhas.

10) Economia e controle de custo

Particionamento (data/mercado/tenante), clusterização/Z-ordering.
Semente para analistas de alta frequência (não para transações/complacências).
Armazenamento de camadas múltiplas (hot/warm/cold), TTL automático.
Budget/chargeback por comandos, limites para pedidos pesados e backfill.

11) Processos e RACI

R (Resolvível): Data Plate (ingest/armazenamento/orquestração), Data Engineering (Transformações), Proprietários de Domínios (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Arquitetura, SRE, Security.
I (Informed): BI/Produto/Marketing/Finanças/Operações.

12) SLO/SLI (alvos indicados)

IndicadorAlvo
Freshness Silver p9515 minutos
Vitrines diárias goldaté às 6h00. tempo
Completeness за T≥ 99. 5%
Validity (circuitos)≥ 99. 9%
Disponibilidade de Serving≥ 99. 9%
Tempo de resposta ao DSAR30 dias (mais rigoroso em direito local)

13) Dashboards

Mapa térmico de frescura por domínios/mercados.
Completeness/Validity por fluxo.
Custo de armazenamento e solicitação (camadas e comandos).
Mapa lineage para relatórios críticos (regulador, GGR, RG/AML).
Filas DSAR/PTBF, estatais Legal Hold.

14) Modelos de políticas de armazenamento (exemplo)

Classe de dadosHotWarmArchive (WORM)TTL total
Transações de pagamento7 d60 d7 anos7 anos
Eventos do jogo (analista)3 d30 d1-2 anos1-2 anos
Artefatos Complaens/AML14 d90 d5-7 anos5-7 anos
Logs operacionais3 d30 d1 ano1 ano

O prazo real é definido por Legal/DPO e direito local.

15) Documentação e normas

Data Product page: proprietário, destino, SLA, esquemas, regras DQ, contatos.
Altere-se: versões de padrão/lógica, influência (impact analysis), migração.
Runbooks: reprocessing, backfill, cenários de emergência, botão freezer.

16) Mapa de trânsito de implementação

MVP (4-6 semanas):

1. Catálogo de dados e classificação (domínios top), esquemas básicos e maiúsculas.

2. Lakehouse Bronze/Silver, ingestão com validação e dedução.

3. 1-2 vitrines gold (por exemplo, GGR e conversão).

4. Regras DQ mínimas e dashboard Freshness/Completeness.

5. Políticas de armazenamento e RBAC para acesso.

Fase 2 (6-12 semanas):
  • Linage, camada semântica de métricas, DSAR/PHILBF procedimentos.
  • Regionalização (EEA/UK), WORM para artefatos regulatórios, Legal Hold.
  • Otimização de custos, alertas SLO, relatórios de orçamento.
Fase 3 (12 + semanas):
  • Data Mesh (produtos de domínio), consumer-driven controls e testes.
  • Controle automático do impact quando você altera os circuitos/a lógica, a réplica.
  • Um único painel de conformidade (regulador, acesso, DQ, lineage).

17) Folha de cheque antes de vender

  • Esquemas aprovados, contratos em registro, testes de compatibilidade.
  • As regras DQ estão ativas, as alertas foram configuradas e as SLO foram definidas.
  • RBAC/ABAC: Os papéis foram testados e os registros de acesso incluídos.
  • As políticas de armazenamento/remoção/arquivo estão confirmadas por Legal/DPO.
  • Os procedimentos DSAR/PTBF/Legal Hold foram documentados e testados.
  • Linage/métricas/valor são exibidos em dashboards.
  • Runbooks para backfill/reprocessing/DR. estão prontos.

18) Erros frequentes e como evitá-los

Sem classificação e diretório unificados: insira os cartões Dados Product obrigatórios.
Dados crus sem padrão: schema-first + CI-validação.
Falta de remoção: Projete o TTL e os processos RTBF desde o início.
Mistura PII e analistas: Mantenha os muppings separados, aplique o disfarce.
Gold sem dono e SLO: Atribua owner e alvos de frescura.
Valor descontrolado: partituras, compressão, tiered-armazenamento, quotas.

19) Glossário (breve)

DSAR/PTBF - solicitação de dados do sujeito/direito de remoção.
Legal Hold - congelamento da remoção por razões legais.
Lineage - rastreabilidade de origem e transformação.
O Data Product é uma unidade controlada de dados com SLA.
DQ - regras e métricas de qualidade de dados.
Lakehouse é uma combinação de dados lake e tabelas ACID.

20) Total

O ciclo de vida dos dados é um sistema de acordo controlado, não apenas um armazém de arquivos. Contratos e esquemas claros, classificação e catálogo, qualidade mensurável, privacidade e segurança, arquitetura de armazenamento econômica e lineage transparente tornam os dados um ativo confiável que suporta o produto, a complacência e o analítico sem surpresas ou riscos «ocultos».

Contact

Entrar em contacto

Contacte-nos para qualquer questão ou necessidade de apoio.Estamos sempre prontos para ajudar!

Telegram
@Gamble_GC
Iniciar integração

O Email é obrigatório. Telegram ou WhatsApp — opcionais.

O seu nome opcional
Email opcional
Assunto opcional
Mensagem opcional
Telegram opcional
@
Se indicar Telegram — responderemos também por lá.
WhatsApp opcional
Formato: +indicativo e número (ex.: +351XXXXXXXXX).

Ao clicar, concorda com o tratamento dos seus dados.