Sincronización de datos analíticos
1) ¿Por qué un ecosistema de análisis de sincronización
La red reúne operadores, estudios/RGS, afiliados, PSP/APM, proveedores KYC/AML y medios de comunicación. Para ver una imagen unificada (embudos CR→FTD→ARPU/LTV, RG/cumplimiento, transporte SLO, finanzas/RevShare), el ecosistema necesita una sincronización canónica, oportuna y demostrable de los datos entre circuitos y vitrinas - sin «dos verdades», con una historia clara de cambios y control de costos.
2) Ontología y contratos de datos
Сущности: `eventId`, `traceId`, `participantId`, `role` (operator/studio/affiliate/psp/kyc/stream), `jurisdiction`, `brandId`, `campaignId`, `apmRouteId`, `gameId`, `tableId`, `currency`, `schemaVersion`, `formulaVersion`.
Eventos canónicos (mínimo):- `click`, `session_start`, `registration`, `kyc_status`, `deposit`, `ftd`, `bet/spin`, `reward_granted`, `withdrawal`, `postback_sent/received`, `rg_guardrail_hit`, `stream_sli`.
- esquemas en el registro de Schema (semver, compatibilidad de campo);
- propietarios, ventanas de agregación, SLA de frescura y plenitud;
- directiva de error (nullable/stub), directorios (monedas, locals, perfiles RTP).
Metric Store: versiones de fórmulas (GGR/NetRev/CR/ARPU/LTV, factores K), sus propietarios y la fecha de entrada - la fórmula siempre golpea en el informe.
3) Semánticas y ventanas temporales
Event Time vs Processing Time: las agregaciones deben basarse en el tiempo del evento y no en el procesamiento.
Watermarks: para controlar eventos «tardíos»; política de prepriem (por ejemplo, T + 24h).
Ventanas: deslizante/calendario, con recuento al cargar.
Latencia como métrica: se publica 'ingest _ lag' y 'publish _ lag' para cada escaparate.
4) Modos de transporte y sincronización
1. CDC/streaming (tiempo real):
bus de eventos (EDA), partición por 'traceId/participantId';
«exactamente una vez en el sentido» a través de la idempotencia de los consumidores y hashi de los cuerpos;
topics supervisados: eventos crudos, normalizados, agregados/oráculos.
2. Batch/microbatch:
descargas incrementales con paginación de cursor (cursores temporales/logs);
formatos: Parquet/Avro con esquema; manifiestos de partidos.
3. API/webhooks:
'/vN/eventos 'con cursores y' Idempotency-Key ';
webhooks firmados (JWS/HMAC), registro de rejugación, backoff + jitter.
4. Asset-xink:
directorios/localies/catálogos de juegos como bandles versionados (hashes, TTL).
5) Idempotencia, dedoup y eventos posteriores
Idempotency-Key y hash del cuerpo en las rutas críticas (pagos/postbeki).
Desduplicación: ventana ± 5 minutos/por watermark; almacenar hashes «visibles».
Eventos posteriores: política de revalorización/reversa; changelog escaparates.
Exactly-once por sentido empresarial: no exigimos la «magia del corredor», exigimos la idempotencia de los consumidores y el determinismo de los esquemas.
6) Negociación de atribución y fórmulas
Atribución: regla last elegible touch con ventanas a través de canales/jurisdicciones, el dispositivo cruzado es sólo a través de tokens (sin PDn crudo).
Fórmulas métricas: cada entrada hace referencia a 'formulaVersion'; Los cambios MAJOR se publican como eventos 'data _ formula _ change'.
Backfill según las reglas: cuando se cambia una fórmula, se permite la publicación doble (viejo/nuevo) durante el período de transición (frozen-period).
7) Calidad de datos: SLI/SLO y pruebas de conformación
SLI calidad de datos:- Frescura (publish_lag p95),
- Exhaustividad (porcentaje de eventos vs referencia),
- Singularidad (porcentaje de duplicados),
- Coherencia (moneda/local/ID),
- Precisión (sumas de comprobación/oráculos),
- Linealidad del tiempo (eventos tardíos en el pasillo).
- publish_lag p95 ≤ 1-5 s (paneles operativos), ≤ 15 min (fin. agregados);
- plenitud ≥ 99. 5% en T + 15 min, ≥ 99. 9% en T + 24h;
- duplicados ≤ 0. 1‰; discrepancia con el oráculo ≤ 0. 1–0. 3%.
Pruebas de conformación: diagramas, campos obligatorios, guías, firmas de webhooks, descargas de cursores sin pases.
8) Lineaje, auditoría y oráculos
Lineage: desde el escaparate/dashboard hasta los conjuntos primarios (diagramas/versiones/propietarios).
Auditoría WORM: registros de esquemas/fórmulas/claves/excepciones inmutables.
Oráculos (resúmenes firmados): GGR/NetRev/SLO/RG con 'formulaVersion', 'hash (inputs)', 'kid', 'traceId' es la fuente de la verdad para las facturas y apelaciones.
«Trace Packs» de prueba: SLA 60-90 s para P1/P2 incidentes.
9) Privacidad, localización y seguridad
Minimización PII: tokenización 'playerId', prohibición de PDn en logias/vitrinas, desintoxicación sólo en zonas de seguridad.
Localización: mapas de jurisdicciones (donde almacenamos/procesamos clases de datos).
Zero Trust: mTLS, tokens de vida corta, egress-allow-list, rotación de claves/JWKS.
ABAC/ReBAC/SoD: acceso «veo propio y coherente»; «mido ≠ influyo ≠ cambio».
10) Reconciliación financiera y cálculos
Canónica Net Revenue (simplificada):[
NetRev = GGR - BonusCost - Jackpot/PoolShare - PaymentFees - Chargebacks - Tax/Levy - FraudLosses
]
Conciliación:
- descargas por cursor, «oras» (unidades firmadas), sumas de comprobación;
- estados de las facturas, actos de discrepancia y SLA del examen;
- Reglas FX, NET7/14/30, colinas y clau-backs.
11) Administración de costos de sincronización
Políticas de cardinalidad: prohibición de 'userId '/URL en bruto en etiquetas; 'routeId/campaignId' está permitido.
Downsampling/roll-ups: 1с→1м→5м; Los datos RAW viven brevemente, los agregados son más largos.
Seguimiento adaptativo: porcentaje básico + prioridad para errores/rutas lentas/nuevas versiones.
SLO-first: solo recopilamos lo que soporta las soluciones (SLO/finanzas/RG).
12) Dashboards de sincronización
Resumen de la sincronización de datos: publish_lag, completeness, duplicates, ratio late, drift schema, errores de conformación.
Attribution Health: la puntualidad de los postbacks, ventanas de dedoop, casos controvertidos.
Finance/Oracle: discrepancia de agregados con oráculos, estados de facturas.
Mapa de la ley: localización/flujos de PDn, cumplimiento de DPA/DPIA.
13) Operaciones, incidentes, RCA
Alertas: burn-rate en frescura/plenitud, diagramas de deriva, ráfagas de duplicados.
War-room: listas de reproducción para bus/webhooks/CDC/escaparates; botones stop para agregaciones/fórmulas.
RCA "sin búsqueda culpable": faktgipotezaeksperimentvyvoddeystvie; post-mortem SLO.
14) Anti-patrones
«Dos verdades» por métricas/fórmulas y fechas de entrada.
Offset-paginación del historial bajo carga (sólo cursores).
PDn crudo en logotipos/vitrinas; sin tokenización.
Zoológico postbeque sin firmas e idempotencia → tomas/hoyos.
Mezcla de Event/Processing Time en agregaciones.
No hay watermarks y políticas de eventos posteriores.
Negociación manual (Excel/descargas manuales) en lugar de oráculos.
Tablas grandes únicas con una cardinalidad ilimitada de etiquetas.
15) Hojas de cheques
Diseño
- Ontología, Registro de Schema, propietarios, guías.
- Metric Store с `formulaVersion` и frozen-period для MAJOR.
- Semánticas temporales (event time, watermarks), política de eventos tardíos.
- Transporte: EDA/CDC, API/webhooks con firmas, cursores, idempotencia.
- Data Quality SLI/SLO, pruebas de configuración, alertas.
- Privacy/Localization (DPIA/DPA), Zero Trust, ABAC/ReBAC/SoD.
- Oráculos y reglas de reconciliación.
Inicio
- Sandbox y cargas/estribos de neumáticos/escaparates.
- Sincronización canaria 1%→5%→25%→50%→100% con guardrails.
- Dashboards publish_lag/completeness/duplicates/drift.
- Documentación de fórmulas y fechas de entrada; release-notes `data_formula_change`.
Explotación
- Informe semanal del DQ; revisión de SLO/guardrails.
- Chenjlogs de esquemas/fórmulas/accesos mensuales.
- DR/xaoc regular para bróker/ingredientes/escaparates.
16) Hoja de ruta de la madurez
v1 (Fundación): circuitos únicos, CDC/batch básico, cursores, DQ-SLI, reconciliación manual.
v2 (Integración): watermarks y política de eventos tardíos, oráculos, dashboards de sincronización, auto-retrés con jitter.
v3 (Automatización): monitoreo predictivo de frescura/plenitud, reconciliación inteligente, auto-re-indexación, sampling adaptativo.
v4 (Gobierno conectado): intercambio de oráculos/señales de calidad entre cadenas, reglas de fórmula DAO y tesorerías transparentes.
17) Métricas de éxito
Calidad de datos: publish_lag p95, completeness%, duplicate ‰, late%, schema drift rate.
Uniformidad: proporción de informes con 'formulaVersion' registrado, número MAJOR sin incidentes.
Finanzas: divergencia con oráculos, auto-reconciliation share, controversia <X%.
Operaciones: MTTD/MTTR incidentes de sincronización, proporción de auto-stop/rollback.
Cumplimiento: 0 fugas PDn, comprobaciones DPIA/DPA exitosas, disponibilidad de registros WORM 100%.
Economía de la observación: Costo-a-Sync en rps/event, observancia de la cardinalidad.
Resumen breve
La sincronización de datos analíticos no es copiar tablas, sino un protocolo de confianza y tiempo: canónica de esquemas y fórmulas, event-time con watermarks, cursores e idempotencia, dedoup y eventos posteriores, DQ-SLO y oráculos, privacidad y localización. Siguiendo este marco, el ecosistema obtiene una analítica única, fresca y probada, la base para soluciones rápidas, cálculos honestos y crecimiento escalable de la red.