Ciclo de vida dos dados
1) Atribuição e princípios
O objetivo é assegurar que os dados se movam de forma previsível, completa e econômica, desde a sua chegada até a sua eliminação final, suportando cenários analíticos, operacionais e regulatórios.
Princípios básicos:- Data as a Product: cada conjunto tem dono, contrato, SLO, documentação.
- Schema-first: esquemas obrigatórios; alterações - através da versionização.
- Private-by-Design: Minimização do PII, pseudônimo, armazenamento regional.
- Observabilidade-by-Default: métricas, loging de acesso, lineage.
- Custo-aware: níveis de armazenamento, TTL, semente, compressão.
2) Fases do ciclo de vida
2. 1 Criação e coleta (Create/Collect)
Fontes: produtos (web/mobile), backends, pagamentos, fornecedores KYC/AML, jogos/estúdios, marketing, logs operacionais.
Identificadores: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Contratos: JSON/Avro esquema, AsyncAPI/OpenAPI.
Qualidade na entrada: validação de esquemas, campos obrigatórios, limites de tamanho, anti-duplicados.
Privacidade: Tocinização de campos sensíveis, geo-roteamento ingest (EEA/UK/BR).
2. 2 Recepção e armazenamento primário (Ingest & Raw)
Transporte: HTTP/gRPC → Edge → pneu (Kafka/Redpanda).
Camada Raw (Bronze): append-only, payload's imutável (forense), partidarização por tempo/mercado/tenante.
Políticas: «(event _ id, fonte)», DLQ para eventos «batidos», marca Legal Hold.
2. 3 Processamento e limpeza (Refine)
Normalização (Silver): tipificação, dedução, guias, FX/temporizações, enriquecimento.
Qualidade (DQ): totalidade/exclusividade/faixa/integridade de referência.
Reprocessing: linhas de montagem idumpotentes, time-travel, backfill's controlado.
2. 4 Consumo e Serving (Serve/Use)
Vitrines gold: BI/relatórios (GGR, RG, AML), modelos de alimentos e risco, vitrines real-time.
Acesso: SQL/Trino, camada semântica de métricas, API/GraphQL, Função Store.
SLA frescura - Por exemplo, as vitrines diárias Gold estão prontas até às 06:00 locais.
2. 5 Compartilhamento e distribuição (Share/Publish)
Consumidores internos: Analista, Produto, Risco, Complaens, Marketing, Finanças.
Descarga externa: reguladores, parceiros/provedores; pacotes imutáveis (PDF/CSV/JSON + hash).
Canais controlados, artefatos assinados, auditoria de carga/exportação.
2. 6 Arquivamento e armazenamento (Archive/Retain)
Políticas de armazenamento por tipos de dados e jurisdições (por exemplo, regulatórias de 5 a 7 anos).
Camadas de armazenamento: hot/warm/cold, WORM/Object Lock para imutabilidade.
Indexação de arquivo: diretórios, rótulos de versão/mercado, busca rápida de metadados.
2. 7 Remoção e final (Dispose)
Remoção normal: TTL/Retensivo; limpeza segura, atualização de índices.
Transações legais: DSAR/PTBF (direito ao esquecimento), exceções por obrigação legal de armazenamento, Legal Hold (congelamento da remoção).
Verificação: relatórios de remoção, registro de auditoria, controle de frases cruzadas.
3) Classificação e diretório
Categorias de sensibilidade: público/internacional/confidential/restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catálogo de dados: descrição, proprietário, SLA recente, esquemas, lineagem, níveis de acesso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Modelo Lakehouse e circuitos
Bronze/Silver/Gold: regras claras de transformação e responsabilidade.
Formatos: Parquet + formato de tabela com ACID (Delta/Iceberg/Hudi).
A evolução dos circuitos: versões semânticas, compatibilidade longa, migração com registro duplo para alterações breaking.
Registry: Schema Registry, Validação de Contratos CI, Consumer-Driven Tests.
5) Qualidade de dados (DQ)
Métricas de qualidade:- Completeness: proporção de eventos/linhas realmente recebidos.
- Validity: proporção de registros que tiveram validação de esquema.
- Uniqueness: controle de duplicação.
- Consistency: conformidade com guias e ligações.
- Freshness: atraso na entrada/materialização.
- Regras DQ como código (YAML/SQL), dashboard, alertas SLO.
- Folback automático em degradação (último corte correto).
6) Privacidade e complacência
Minimizar PII: armazenar pseudo-ID, levar muppings para um circuito isolado.
Camuflagem e RLS/CLS: nível de coluna/linha; políticas dinâmicas.
Regionalização: data residency sobre mercados; diretórios separados/chaves de criptografia.
DSAR/PTBF: projeções controladas, edições seletivas, auditorias de emissão.
Legal Hold: marcas de congelamento, arquivos imutáveis, registros de acesso.
7) Acesso e segurança
Autenticação/autorização: SSO, RBAC/ABAC, atributos de jurisdições e papéis.
Criptografia: TLS in-transit; at-rest via KMS/CMK; Rotação de chaves.
Registros de acesso: quem/o/quando/de onde; alertas para exportação em massa/scan.
Separação de responsabilidades: diferentes papéis para prod/analistas/almirantes/revoores.
8) Lineagem (lineage) e observabilidade
Lineage técnico: desde a origem → transformação → vitrine → relatórios.
Lineage operacional: ligações com lançamentos, fichflagelos, modelos, regras AML/RG.
As métricas da plataforma são throughput, lag, failure-rate, cost/query, cost/GB.
Tracing: transferência 'trace _ id' de aplicativos a vitrines/alertas.
9) Modelos de tempo e retroprocessos
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill e reprocessing: pipeline idimpotente's, time-travel, controle de «dupla contabilidade».
Armazenamento de estados: TTL, snapshots, recuperação de falhas.
10) Economia e controle de custo
Particionamento (data/mercado/tenante), clusterização/Z-ordering.
Semente para analistas de alta frequência (não para transações/complacências).
Armazenamento de camadas múltiplas (hot/warm/cold), TTL automático.
Budget/chargeback por comandos, limites para pedidos pesados e backfill.
11) Processos e RACI
R (Resolvível): Data Plate (ingest/armazenamento/orquestração), Data Engineering (Transformações), Proprietários de Domínios (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Arquitetura, SRE, Security.
I (Informed): BI/Produto/Marketing/Finanças/Operações.
12) SLO/SLI (alvos indicados)
13) Dashboards
Mapa térmico de frescura por domínios/mercados.
Completeness/Validity por fluxo.
Custo de armazenamento e solicitação (camadas e comandos).
Mapa lineage para relatórios críticos (regulador, GGR, RG/AML).
Filas DSAR/PTBF, estatais Legal Hold.
14) Modelos de políticas de armazenamento (exemplo)
O prazo real é definido por Legal/DPO e direito local.
15) Documentação e normas
Data Product page: proprietário, destino, SLA, esquemas, regras DQ, contatos.
Altere-se: versões de padrão/lógica, influência (impact analysis), migração.
Runbooks: reprocessing, backfill, cenários de emergência, botão freezer.
16) Mapa de trânsito de implementação
MVP (4-6 semanas):1. Catálogo de dados e classificação (domínios top), esquemas básicos e maiúsculas.
2. Lakehouse Bronze/Silver, ingestão com validação e dedução.
3. 1-2 vitrines gold (por exemplo, GGR e conversão).
4. Regras DQ mínimas e dashboard Freshness/Completeness.
5. Políticas de armazenamento e RBAC para acesso.
Fase 2 (6-12 semanas):- Linage, camada semântica de métricas, DSAR/PHILBF procedimentos.
- Regionalização (EEA/UK), WORM para artefatos regulatórios, Legal Hold.
- Otimização de custos, alertas SLO, relatórios de orçamento.
- Data Mesh (produtos de domínio), consumer-driven controls e testes.
- Controle automático do impact quando você altera os circuitos/a lógica, a réplica.
- Um único painel de conformidade (regulador, acesso, DQ, lineage).
17) Folha de cheque antes de vender
- Esquemas aprovados, contratos em registro, testes de compatibilidade.
- As regras DQ estão ativas, as alertas foram configuradas e as SLO foram definidas.
- RBAC/ABAC: Os papéis foram testados e os registros de acesso incluídos.
- As políticas de armazenamento/remoção/arquivo estão confirmadas por Legal/DPO.
- Os procedimentos DSAR/PTBF/Legal Hold foram documentados e testados.
- Linage/métricas/valor são exibidos em dashboards.
- Runbooks para backfill/reprocessing/DR. estão prontos.
18) Erros frequentes e como evitá-los
Sem classificação e diretório unificados: insira os cartões Dados Product obrigatórios.
Dados crus sem padrão: schema-first + CI-validação.
Falta de remoção: Projete o TTL e os processos RTBF desde o início.
Mistura PII e analistas: Mantenha os muppings separados, aplique o disfarce.
Gold sem dono e SLO: Atribua owner e alvos de frescura.
Valor descontrolado: partituras, compressão, tiered-armazenamento, quotas.
19) Glossário (breve)
DSAR/PTBF - solicitação de dados do sujeito/direito de remoção.
Legal Hold - congelamento da remoção por razões legais.
Lineage - rastreabilidade de origem e transformação.
O Data Product é uma unidade controlada de dados com SLA.
DQ - regras e métricas de qualidade de dados.
Lakehouse é uma combinação de dados lake e tabelas ACID.
20) Total
O ciclo de vida dos dados é um sistema de acordo controlado, não apenas um armazém de arquivos. Contratos e esquemas claros, classificação e catálogo, qualidade mensurável, privacidade e segurança, arquitetura de armazenamento econômica e lineage transparente tornam os dados um ativo confiável que suporta o produto, a complacência e o analítico sem surpresas ou riscos «ocultos».