Flujos de telemetría
1) Asignación y contexto
Los flujos de telemetría proporcionan un flujo continuo de datos de observación sobre el funcionamiento de la plataforma: qué sucede, por qué y cuánto cuesta. En iGaming, esta es la clave para la detección temprana de la degradación de depósitos/apuestas, la visibilidad de proveedores externos (PSP/KYC/gaming studios) y el cumplimiento probado de SLO/cumplimiento.
2) Mapa de fuentes de telemetría
Métricas (TSDB): RED/USE, SLI de negocios (éxito de autorizaciones,% de apuestas exitosas).
Tracks (OTel): cadenas de consultas a través del frente → API → corredores → DB/PSP.
Registros (estructurados): eventos, auditoría de operaciones, errores.
RUM: TTFB/LCP, errores JS, geo/dispositivo.
Sintética: transacciones de prueba externas (inicio de sesión/depósito/apuesta de» arena») de diferentes GEO.
Telemetría de bajo nivel: eBPF/profiling CPU/IO/alloc, red p95/p99.
Estados externos: webhooks/pools PSP/KYC/CDN/WAF.
3) Normas y esquemas
OpenTelemetry como lingua franca: unificación de la semántica de atributos (service. name, deployment. environment, enduser. id - enmascarado, trace/SpanID, códigos PSP).
Acuerdos de esquema: versionamiento, registro de schema para logs/tracks, «breaking-changes» sólo a través de una bandera binaria y un período grace.
Correlation-ID: un solo 'correlation _ id' para pagar/apostar a través de todas las capas + exemplars en los percentiles de las métricas.
4) Transportador de higos (de alto nivel)
1. Productores: SDK/agentes/colectores (OTel Collector en nodos).
2. Buffering edge: colas locales (memory/disk) con límites.
3. Transporte: gRPC/HTTP OTLP → un corredor de mensajes (Kafka/Pulsar) con claves idempotency.
4. Processors: normalización, enriquecimiento (GEO/tenant/canal), filtros PII, muestreo fino.
5. Fan-out: en TSDB (métricas), en almacenamiento de pistas, en sistema de registro, en lake/DWH, en alerting/reglas.
6. Consumers: dashboards, SLO-alertas (burn-rate), investigaciones, status page, autogates de lanzamientos.
5) Clases de flujo y QoS
Clase A (tiempo real, P1): SLI/SLO, sintética, proveedores clave (PSP/KYC). SLA de entrega: <5-10 c, ≥99. 9%.
Clase B (operativos): tracks/logs para RCA, SLA: <1-2 min.
Clase C (analítica): unidades y batches en lake/DWH, SLA: hora/día.
Enrutamiento por clase → priorización, retenciones diferentes, colas/topics individuales.
6) Sempling, agregación, retiro
Métricas: descarga de series históricas (1s→10s→1m), agregados percentiles, exemplares.
Tracks: sampling tail-based (aumentar la participación en anomalías, errores PSP, p99- «ráfagas»).
Registros: nivel de perfil, compresión, eliminación de ruido (pings de salud, DEBUG en venta - prohibido).
Retiro: «caliente» (7-14 días detalle), «frío» (unidades/archivo). Políticas por clase de datos y costo.
7) Privacidad y cumplimiento
Higiene PII: enmascaramiento/tokenización de identificadores; prohibición de los documentos CUS/fichas de tarjeta en telemetría.
Geolocalización: almacenamiento por jurisdicciones; exportación: sólo a través de flujos de trabajo aprobados (cifrado, TTL, auditoría).
Control de acceso: RBAC/ABAC a almacenes de telemetría, SoD para descargas.
8) Fiabilidad de los flujos
Idempotencia: claves para eventos, dedoup en procesadores.
Backpressure: límites de Engest per-tenant/servicio; políticas de drop para campos de baja prioridad en caso de sobrecarga.
Respuestas: almacenamiento en el bróker ≥72 h para volver a procesar.
Dead-letter: enrutamiento de errores (esquema, tamaño, infracción PII) a un DLQ seguro con alertas.
Versificación: «doble precisión» en el cambio de circuitos (v1 + v2) y migración de consumidores.
9) Multi-tenant y aislamiento
Etiquetas 'tenant _ id/brand/region' en cada evento; cuotas y presupuestos per-tenantes.
Aislamiento de flujos A/B por corrientes; showback/chargeback de ingeniería y almacenamiento.
Enmascaramiento/agregación hasta el límite del tenante durante la exportación.
10) Directorio de subprocesos (campos de ejemplo)
ID: 'telemetría. payments. auth. success. rate. eu`
Clase: A (tiempo real)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
Fuente: OTel Collector + PSP-router metrics
Consumidores: SLO-alertas, Exec-dashboard, status page
Retén: caliente 30 días, agregados 12 meses
Propietario: Pagos SRE, dpo-owner (privacidad)
Flujo SLO: latencia <10 c p95, pérdida <0. 1 %/día
11) Integración con alerting y lanzamientos
SLO-alertas por burn-rate (ventana rápida/lenta) para depósitos/apuestas.
Release-gates: análisis canario del SLI; auto-stop/rollback en degradación.
Status Page: feed de actualizaciones de la tarjeta incidente + SLI agregados.
12) Juego de dashboards clave
Exec: aptime, burn-rate, éxito de las autorizaciones/apuestas (por GEO/PSP), estado de los proveedores, $/RPS telemetría.
SRE/Plataforma: RED/USE por servicios, ráfagas, detección de outlier, perfiles eBPF.
Payments/Risk: conversión por banco/PSP, soft/hard declines, KYC SLA, señales tempranas de chargeback.
Costo-obs: volumen de engesto según las fuentes, principales etiquetas de cardinalidad, costo por flujo.
13) Finanzas de la observabilidad (FinOps)
KPI de valor: $/GB ingest, $/trace, $/SLI-dashboard; informe sobre métricas y etiquetas «pesadas».
Optimizaciones: agregación y descarga, muestreo dinámico, limpieza de registros de chatti, clase de almacenamiento en importancia.
Políticas: cuotas de alta cardinalidad, límites de frecuencia de emisión, review de esquemas una vez al trimestre.
14) Procesos y roles
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
Change-Control para circuitos: rugido de PR, stands de prueba, compatibilidad en los consumidores.
Tabletop/Chaos-days: interrupciones de proveedores, sobrecorriente del bróker, verificación de backpressure/idempotencia.
Post-mortem: incluye análisis de telemetría (suficiencia de señales, falsos positivos, costo).
15) Hoja de ruta para la implementación (8-12 semanas)
Ned. 1-2: auditoría de flujos actuales, mapa de fuentes, objetivos de telemetría SLO, selección de estándares (OTel, TSDB, tracks, logs).
Ned. 3-4: OTEL-colectores, una sola correlación-ID, base RED/USE + negocio SLI en depósito/tasa, directorio de flujos v0.
Ned. 5-6: sampling tail-based, sintético por GEO, DLQ/idempotencia, filtros de privacidad.
Ned. 7-8: Panel FinOps (ingest/retention), downsampling, cupos de cardinalidad, alertas SLO (burn-rate).
Ned. 9-10: eBPF/señales de bajo nivel, feed status page, release-gates.
Ned. 11-12: pruebas de chaos, optimización de costes, hilos SLA formales, lanzamiento de esquemas de revisión trimestral.
16) Patrones de artefactos
Telemetría Stream Spec: id, propietario, esquema, clase QoS, fuentes, consumidores, retén, SLO/alertas, política de privacidad.
Schema PR Template: cambio/migración, compatibilidad, pruebas, plan de reversión.
Sampling Policy: reglas para levantar una muestra en caso de anomalías; Presupuestos específicos.
Paquete de revisión de costo: las principales fuentes de $/valor, ofertas de TTL/agregaciones.
Detectent Telemetry Checklist: una lista de gráficos/tracks/logs que están obligados a ser para RCA.
17) KPI/KRI flujos de telemetría
Entrega: p95 retrasos por clase,% de mensajes perdidos/día.
Cobertura: proporción de rutas críticas con trazados> 90%, fracción de SLI cerradas con métricas.
Calidad de las señales:% de los incidentes capturados por SLI antes de las quejas, alertas falsas/omitidas.
Costo: $/RPS por telemetría, $/trace, proporción de «ruido» en el engesto.
Fiabilidad: tiempo de recuperación después de la degradación del corredor, volumen de réplicas.
18) Antipattern
métricas de alta cardinalidad (userId, sessionId) en TSDB.
Una sola «caja negra» de registros sin estructuración y esquemas.
Falta de DLQ/idempotencia → tomas y pérdidas en picos.
Las retenciones «infinitas» sin FinOps → un crecimiento exponencial de las cuentas.
Los tracks sin contexto empresarial (PSP/banco/GEO) → un diagnóstico débil.
Los esquemas no coordinados entre los equipos → se rompen los consumidores.
Resultado
Los flujos de telemetría son un sistema controlado y multicapa: estándares y esquemas OTel → higos confiables con QoS y backpressure → muestreo/agregación y retenciones bajo costo → privacidad y aislamiento multi-tenant → alertas SLO, dashboards y gates de lanzamientos. Este circuito proporciona señales tempranas, RCA rápido, costos predecibles y estabilidad de la plataforma iGaming en los modos pico.