GH GambleHub

Ciclo de vida de los datos

1) Nombramiento y principios

Objetivo: garantizar un movimiento predecible, satisfactorio y rentable de los datos desde el momento de su aparición hasta su eliminación definitiva, manteniendo escenarios analíticos, operativos y regulatorios.

Principios básicos:
  • Datos como un producto: cada conjunto tiene un propietario, contrato, SLO, documentación.
  • Schema-first: los esquemas son obligatorios; cambios - a través de la versificación.
  • Privacy-by-Design: minimización de PII, seudonimización, almacenamiento regional.
  • Observabilidad por defecto: métricas, lógica de acceso, lineage.
  • Costo-aware: niveles de almacenamiento, TTL, sampling, compresión.

2) Fases del ciclo de vida

2. 1 Creación y recopilación (Create/Collect)

Fuentes: productos (web/mobile), backends, pagos, proveedores KYC/AML, juegos/estudios, marketing, registros operativos.
Identificadores: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Contratos: esquemas JSON/Avro, AsyncAPI/OpenAPI.
Calidad en la entrada: validación de esquemas, campos obligatorios, límites de tamaño, anti-duplicados.
Privacidad: tokenización de campos sensibles, geo-routing ingest (EEA/UK/BR).

2. 2 Recepción y almacenamiento primario (Ingest & Raw)

Transporte: HTTP/gRPC → Edge → bus (Kafka/Redpanda).
Raw-capa (Bronze): append-only, payload's inmutable (para forensic), partición por tiempo/mercado/tenant.
Políticas: dedoup por '(event_id, source)', DLQ para eventos «rotos», Etiqueta Legal Hold.

2. 3 Tratamiento y limpieza (Refine)

Normalización (Silver): tipificación, deduplicación, referencias, FX/zonas de tiempo, enriquecimiento.
Calidad (DQ): integridad/singularidad/rangos/integridad referencial.
Reprocessing: transportadores idempotentes, time-travel, controlados backfill's.

2. 4 Consumo y serving (Serve/Use)

Vitrinas de oro: BI/reporting (GGR, RG, AML), modelos de productos y riesgos, vitrinas de tiempo real.
Acceso: SQL/Trino, capa semántica de métricas, API/GraphQL, Feature Store.
Frescura SLA: por ejemplo, los escaparates diarios de oro están listos hasta las 06:00 hora local.

2. 5 Intercambio y distribución (Share/Publish)

Consumidores internos: Análisis, Producto, Riesgo, Cumplimiento, Marketing, Finanzas.
Descargas externas: reguladores, socios/proveedores; paquetes inmutables (PDF/CSV/JSON + hash).
Canales controlados: artefactos firmados, auditoría de descargas/exportaciones.

2. 6 Archiving y almacenamiento (Archivo/Retain)

Políticas de retención: por tipo de datos y jurisdicciones (por ejemplo, regulatorias - 5-7 años).
Capas de almacenamiento: hot/warm/cold, WORM/Object Lock para la inmutabilidad.
Indexación del archivo: catálogos, etiquetas de versión/mercado, búsqueda rápida de metadatos.

2. 7 Eliminación y final (Dispose)

Eliminación normal: TTL/Retén; limpieza segura, actualización de índices.
Operaciones legales: DSAR/RTBF (derecho al olvido), excepciones por obligación legal de almacenamiento, Legal Hold (congelación de eliminación).
Verificación: informes de eliminación, registro de auditoría, control de réplicas cruzadas.

3) Clasificación y catálogo

Categorías de sensibilidad: público/interno/confidencial/restringido.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catálogo de datos: descripción, propietario, frescura SLA, esquemas, lineage, niveles de acceso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Modelo de Lakehouse y circuitos

Bronze/Silver/Gold: reglas claras de transformación y responsabilidad.
Formatos: Parquet + formato de tabla con ACID (Delta/Iceberg/Hudi).
Evolución de los circuitos: versiones semánticas, compatibilidad longitudinal, migraciones con doble registro para cambios de breaking.
Registro: Registro de Schema, CI-validación de contratos, pruebas de consumo-conducción.

5) Calidad de los datos (DQ)

Métricas de calidad:
  • Completeness (plenitud): proporción de eventos/cadenas realmente recibidos.
  • Validity: proporción de registros que han superado la validación del esquema.
  • Uniqueness: control de duplicados.
  • Consistencia: conformidad con las guías y vínculos.
  • Freshness: retraso en el recibo/la materialización.
Prácticas:
  • Reglas DQ como código (pruebas YAML/SQL), dashboards, alertas SLO.
  • Auto-follback en degradación (último corte correcto).

6) Privacidad y cumplimiento

Minimizar PII: almacenar pseudo-ID, sacar los muppings en un circuito aislado.
Enmascaramiento y RLS/CLS: en el nivel de columnas/filas; políticas dinámicas.
Regionalización: residencia de datos por mercados; directorios/claves de cifrado separados.
DSAR/RTBF: proyecciones administradas, edición selectiva, auditoría de entregas.
Legal Hold: etiquetas de congelación, archivos inmutables, protocolo de acceso.

7) Acceso y seguridad

Autenticación/autorización: SSO, RBAC/ABAC, atributos de jurisdicciones y roles.
Cifrado: TLS in-transit; a través de KMS/CMK; rotación de llaves.
Registros de acceso: quién/qué/cuándo/dónde; alertas para exportaciones masivas/escáneres.
Reparto de responsabilidades: diferentes roles para prod/analytics/admins/revewers.

8) Linealidad (lineaje) y observabilidad

Línea técnica: desde la fuente de transformación → → escaparates → informes.
Lineaje operativo: relaciones con lanzamientos, fichas, modelos, reglas AML/RG.
Métricas de plataforma: throughput, lag, failure-rate, costo/query, costo/GB.
Treking: transferencia de 'trace _ id' de aplicaciones a escaparates/alertas.

9) Modelos de tiempo y retroceso

Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill y reprocessing: idempotent pipeline's, time-travel, control de «doble contabilidad».
Guardar estados: TTL, snapshots, recuperación de fallas.

10) Economía y control de costos

Partición (fecha/mercado/tenant), agrupamiento/Z-ordering.
Muestreo para análisis de alta frecuencia (no para transacciones/cumplimiento).
Almacenamiento multicapa (hot/warm/cold), TTL automático.
Budget/chargeback por equipos, límites para consultas pesadas y backfill.

11) Procesos y RACI

R (Responsable): Plataforma de datos (ingest/repositorios/orquestación), Ingeniería de datos (transformaciones), Propietarios de dominios (Contrats/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consultado): Cumplimiento/Legal/DPO, Arquitectura, SRE, Seguridad.
I (Informed): BI/Продукт/Маркетинг/Финансы/Операции.

12) SLO/SLI (objetivos aproximados)

IndicadorObjetivo
Freshness Silver p95≤ 15 minutos
Vitrinas diarias de orohasta las 06:00. Tiempo
Completeness за T≥ 99. 5%
Validity (esquemas)≥ 99. 9%
Disponibilidad de serving≥ 99. 9%
Tiempo de respuesta a DSAR≤ 30 días (más estricto según la ley local)

13) Dashboards

Mapa térmico de frescura por dominios/mercados.
Completeness/Validity por hilos.
Costo de almacenamiento y consultas (por capas y comandos).
Tarjeta de enlace para informes críticos (regulador, GGR, RG/AML).
Colas DSAR/RTBF, Estados de Hold Legal.

14) Plantillas de políticas de retención (ejemplo)

Clase de datosHotWarmArchive (WORM)TTL total
Transacciones de pago7 d60 d7 años7 años
Eventos del juego (análisis)3 d30 d1-2 años1-2 años
Compliance/artefactos AML14 d90 d5-7 años5-7 años
Registros operativos3 d30 d1 año1 año

Los plazos reales son determinados por Legal/DPO y la ley local.

15) Documentación y normas

Página de producto de datos: propietario, asignación, SLA, esquemas, reglas de DQ, contactos.
Cambiar registro: versiones de esquemas/lógica, impacto (impact analysis), migraciones.
Runbooks: reprocessing, backfill, scripts de emergencia, friso-botón.

16) Hoja de ruta para la implementación

MVP (4-6 semanas):

1. Directorio de datos y clasificación (dominios principales), esquemas básicos y registro.

2. Lakehouse Bronze/Silver, ingestión con validación y dedoop.

3. 1-2 vitrinas de oro (por ejemplo, GGR y conversión).

4. Reglas mínimas de DQ y dashboard Freshness/Completeness.

5. Políticas de retención y RBAC de acceso.

Fase 2 (6-12 semanas):
  • Linage, capa semántica de métricas, procedimientos DSAR/RTBF.
  • Regionalización (EEA/UK), WORM para artefactos regulatorios, Legal Hold.
  • Optimización de costos, alertas de SLO, informes presupuestarios.
Fase 3 (12 + semanas):
  • Datos Mesh (productos de dominio), contratos de consumo y pruebas.
  • Auto-simulación de impacto cuando se modifica el esquema/lógica, replay.
  • Un único panel de conformidad (regulador, acceso, DQ, lineage).

17) Lista de verificación antes de la venta

  • Planes aprobados, contratos en el registro, pruebas de compatibilidad.
  • Las reglas DQ están activas, las alertas están configuradas, los SLO están configurados.
  • RBAC/ABAC: roles verificados, registros de acceso habilitados.
  • Las políticas de retención/eliminación/archivo están confirmadas por Legal/DPO.
  • Los procedimientos DSAR/RTBF/Legal Hold están documentados y probados.
  • El linage/métricas/costo se muestran en los dashboards.
  • Runbooks para backfill/reprocessing/DR están listos.

18) Errores frecuentes y cómo evitarlos

No hay clasificación y catálogo unificado: introduzca las tarjetas de producto de datos obligatorias.
Datos crudos sin esquemas: validación schema-first + CI.
Falta de capacidad de eliminación: diseñe TTL y procesos RTBF desde el principio.
Mezcla de PII y análisis: almacene los muppings por separado, aplique el enmascaramiento.
Oro sin propietario y SLO: asigna un owner y objetivos de frescura.
Costo no administrado: lotes, compresión, almacenamiento en tierra, cuotas.

19) Glosario (breve)

DSAR/RTBF - Solicitud del interesado/derecho de eliminación.
Legal Hold - congelar la eliminación por razones legales.
Lineage - trazabilidad de origen y transformaciones.
Data Product es una unidad de datos de producto administrada con SLA.
DQ - Reglas y métricas de calidad de datos.
Lakehouse es la combinación del lago de datos y las tablas ACID.

20) Resultado

El ciclo de vida de los datos es un sistema de arreglos administrados, no sólo un almacén de archivos. Contratos y esquemas claros, clasificación y catálogo, calidad medible, privacidad y seguridad, arquitectura de almacenamiento rentable y lineaje transparente hacen de los datos un activo fiable que soporta productos, cumplimiento y análisis sin sorpresas y riesgos «ocultos».

Contact

Póngase en contacto

Escríbanos ante cualquier duda o necesidad de soporte.¡Siempre estamos listos para ayudarle!

Telegram
@Gamble_GC
Iniciar integración

El Email es obligatorio. Telegram o WhatsApp — opcionales.

Su nombre opcional
Email opcional
Asunto opcional
Mensaje opcional
Telegram opcional
@
Si indica Telegram, también le responderemos allí además del Email.
WhatsApp opcional
Formato: +código de país y número (por ejemplo, +34XXXXXXXXX).

Al hacer clic en el botón, usted acepta el tratamiento de sus datos.