Ciclo de vida de los datos
1) Nombramiento y principios
Objetivo: garantizar un movimiento predecible, satisfactorio y rentable de los datos desde el momento de su aparición hasta su eliminación definitiva, manteniendo escenarios analíticos, operativos y regulatorios.
Principios básicos:- Datos como un producto: cada conjunto tiene un propietario, contrato, SLO, documentación.
- Schema-first: los esquemas son obligatorios; cambios - a través de la versificación.
- Privacy-by-Design: minimización de PII, seudonimización, almacenamiento regional.
- Observabilidad por defecto: métricas, lógica de acceso, lineage.
- Costo-aware: niveles de almacenamiento, TTL, sampling, compresión.
2) Fases del ciclo de vida
2. 1 Creación y recopilación (Create/Collect)
Fuentes: productos (web/mobile), backends, pagos, proveedores KYC/AML, juegos/estudios, marketing, registros operativos.
Identificadores: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Contratos: esquemas JSON/Avro, AsyncAPI/OpenAPI.
Calidad en la entrada: validación de esquemas, campos obligatorios, límites de tamaño, anti-duplicados.
Privacidad: tokenización de campos sensibles, geo-routing ingest (EEA/UK/BR).
2. 2 Recepción y almacenamiento primario (Ingest & Raw)
Transporte: HTTP/gRPC → Edge → bus (Kafka/Redpanda).
Raw-capa (Bronze): append-only, payload's inmutable (para forensic), partición por tiempo/mercado/tenant.
Políticas: dedoup por '(event_id, source)', DLQ para eventos «rotos», Etiqueta Legal Hold.
2. 3 Tratamiento y limpieza (Refine)
Normalización (Silver): tipificación, deduplicación, referencias, FX/zonas de tiempo, enriquecimiento.
Calidad (DQ): integridad/singularidad/rangos/integridad referencial.
Reprocessing: transportadores idempotentes, time-travel, controlados backfill's.
2. 4 Consumo y serving (Serve/Use)
Vitrinas de oro: BI/reporting (GGR, RG, AML), modelos de productos y riesgos, vitrinas de tiempo real.
Acceso: SQL/Trino, capa semántica de métricas, API/GraphQL, Feature Store.
Frescura SLA: por ejemplo, los escaparates diarios de oro están listos hasta las 06:00 hora local.
2. 5 Intercambio y distribución (Share/Publish)
Consumidores internos: Análisis, Producto, Riesgo, Cumplimiento, Marketing, Finanzas.
Descargas externas: reguladores, socios/proveedores; paquetes inmutables (PDF/CSV/JSON + hash).
Canales controlados: artefactos firmados, auditoría de descargas/exportaciones.
2. 6 Archiving y almacenamiento (Archivo/Retain)
Políticas de retención: por tipo de datos y jurisdicciones (por ejemplo, regulatorias - 5-7 años).
Capas de almacenamiento: hot/warm/cold, WORM/Object Lock para la inmutabilidad.
Indexación del archivo: catálogos, etiquetas de versión/mercado, búsqueda rápida de metadatos.
2. 7 Eliminación y final (Dispose)
Eliminación normal: TTL/Retén; limpieza segura, actualización de índices.
Operaciones legales: DSAR/RTBF (derecho al olvido), excepciones por obligación legal de almacenamiento, Legal Hold (congelación de eliminación).
Verificación: informes de eliminación, registro de auditoría, control de réplicas cruzadas.
3) Clasificación y catálogo
Categorías de sensibilidad: público/interno/confidencial/restringido.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catálogo de datos: descripción, propietario, frescura SLA, esquemas, lineage, niveles de acceso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Modelo de Lakehouse y circuitos
Bronze/Silver/Gold: reglas claras de transformación y responsabilidad.
Formatos: Parquet + formato de tabla con ACID (Delta/Iceberg/Hudi).
Evolución de los circuitos: versiones semánticas, compatibilidad longitudinal, migraciones con doble registro para cambios de breaking.
Registro: Registro de Schema, CI-validación de contratos, pruebas de consumo-conducción.
5) Calidad de los datos (DQ)
Métricas de calidad:- Completeness (plenitud): proporción de eventos/cadenas realmente recibidos.
- Validity: proporción de registros que han superado la validación del esquema.
- Uniqueness: control de duplicados.
- Consistencia: conformidad con las guías y vínculos.
- Freshness: retraso en el recibo/la materialización.
- Reglas DQ como código (pruebas YAML/SQL), dashboards, alertas SLO.
- Auto-follback en degradación (último corte correcto).
6) Privacidad y cumplimiento
Minimizar PII: almacenar pseudo-ID, sacar los muppings en un circuito aislado.
Enmascaramiento y RLS/CLS: en el nivel de columnas/filas; políticas dinámicas.
Regionalización: residencia de datos por mercados; directorios/claves de cifrado separados.
DSAR/RTBF: proyecciones administradas, edición selectiva, auditoría de entregas.
Legal Hold: etiquetas de congelación, archivos inmutables, protocolo de acceso.
7) Acceso y seguridad
Autenticación/autorización: SSO, RBAC/ABAC, atributos de jurisdicciones y roles.
Cifrado: TLS in-transit; a través de KMS/CMK; rotación de llaves.
Registros de acceso: quién/qué/cuándo/dónde; alertas para exportaciones masivas/escáneres.
Reparto de responsabilidades: diferentes roles para prod/analytics/admins/revewers.
8) Linealidad (lineaje) y observabilidad
Línea técnica: desde la fuente de transformación → → escaparates → informes.
Lineaje operativo: relaciones con lanzamientos, fichas, modelos, reglas AML/RG.
Métricas de plataforma: throughput, lag, failure-rate, costo/query, costo/GB.
Treking: transferencia de 'trace _ id' de aplicaciones a escaparates/alertas.
9) Modelos de tiempo y retroceso
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill y reprocessing: idempotent pipeline's, time-travel, control de «doble contabilidad».
Guardar estados: TTL, snapshots, recuperación de fallas.
10) Economía y control de costos
Partición (fecha/mercado/tenant), agrupamiento/Z-ordering.
Muestreo para análisis de alta frecuencia (no para transacciones/cumplimiento).
Almacenamiento multicapa (hot/warm/cold), TTL automático.
Budget/chargeback por equipos, límites para consultas pesadas y backfill.
11) Procesos y RACI
R (Responsable): Plataforma de datos (ingest/repositorios/orquestación), Ingeniería de datos (transformaciones), Propietarios de dominios (Contrats/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consultado): Cumplimiento/Legal/DPO, Arquitectura, SRE, Seguridad.
I (Informed): BI/Продукт/Маркетинг/Финансы/Операции.
12) SLO/SLI (objetivos aproximados)
13) Dashboards
Mapa térmico de frescura por dominios/mercados.
Completeness/Validity por hilos.
Costo de almacenamiento y consultas (por capas y comandos).
Tarjeta de enlace para informes críticos (regulador, GGR, RG/AML).
Colas DSAR/RTBF, Estados de Hold Legal.
14) Plantillas de políticas de retención (ejemplo)
Los plazos reales son determinados por Legal/DPO y la ley local.
15) Documentación y normas
Página de producto de datos: propietario, asignación, SLA, esquemas, reglas de DQ, contactos.
Cambiar registro: versiones de esquemas/lógica, impacto (impact analysis), migraciones.
Runbooks: reprocessing, backfill, scripts de emergencia, friso-botón.
16) Hoja de ruta para la implementación
MVP (4-6 semanas):1. Directorio de datos y clasificación (dominios principales), esquemas básicos y registro.
2. Lakehouse Bronze/Silver, ingestión con validación y dedoop.
3. 1-2 vitrinas de oro (por ejemplo, GGR y conversión).
4. Reglas mínimas de DQ y dashboard Freshness/Completeness.
5. Políticas de retención y RBAC de acceso.
Fase 2 (6-12 semanas):- Linage, capa semántica de métricas, procedimientos DSAR/RTBF.
- Regionalización (EEA/UK), WORM para artefactos regulatorios, Legal Hold.
- Optimización de costos, alertas de SLO, informes presupuestarios.
- Datos Mesh (productos de dominio), contratos de consumo y pruebas.
- Auto-simulación de impacto cuando se modifica el esquema/lógica, replay.
- Un único panel de conformidad (regulador, acceso, DQ, lineage).
17) Lista de verificación antes de la venta
- Planes aprobados, contratos en el registro, pruebas de compatibilidad.
- Las reglas DQ están activas, las alertas están configuradas, los SLO están configurados.
- RBAC/ABAC: roles verificados, registros de acceso habilitados.
- Las políticas de retención/eliminación/archivo están confirmadas por Legal/DPO.
- Los procedimientos DSAR/RTBF/Legal Hold están documentados y probados.
- El linage/métricas/costo se muestran en los dashboards.
- Runbooks para backfill/reprocessing/DR están listos.
18) Errores frecuentes y cómo evitarlos
No hay clasificación y catálogo unificado: introduzca las tarjetas de producto de datos obligatorias.
Datos crudos sin esquemas: validación schema-first + CI.
Falta de capacidad de eliminación: diseñe TTL y procesos RTBF desde el principio.
Mezcla de PII y análisis: almacene los muppings por separado, aplique el enmascaramiento.
Oro sin propietario y SLO: asigna un owner y objetivos de frescura.
Costo no administrado: lotes, compresión, almacenamiento en tierra, cuotas.
19) Glosario (breve)
DSAR/RTBF - Solicitud del interesado/derecho de eliminación.
Legal Hold - congelar la eliminación por razones legales.
Lineage - trazabilidad de origen y transformaciones.
Data Product es una unidad de datos de producto administrada con SLA.
DQ - Reglas y métricas de calidad de datos.
Lakehouse es la combinación del lago de datos y las tablas ACID.
20) Resultado
El ciclo de vida de los datos es un sistema de arreglos administrados, no sólo un almacén de archivos. Contratos y esquemas claros, clasificación y catálogo, calidad medible, privacidad y seguridad, arquitectura de almacenamiento rentable y lineaje transparente hacen de los datos un activo fiable que soporta productos, cumplimiento y análisis sin sorpresas y riesgos «ocultos».