Previsibilidad de cadenas y nodos
1) Tarea y objeto de observación
La previsibilidad de los circuitos y nodos es la capacidad del ecosistema para ver, medir y explicar el comportamiento de los flujos entre cadenas (tráfico/eventos/pagos/CUS/contenidos) y los nodos (operadores, estudios/RGS, PSP/APM, proveedores KYC/AML, afiliados, agregadores, nodos de flujo). Objetivos:- causalidad transversal (de clic a factura);
- SLO predecibles y riesgo manejable;
- RCA rápidos y MTTR bajos;
- Probabilidad (resúmenes firmados, auditoría WORM) a un costo mínimo de telemetría.
2) Ontología de la observabilidad
Entidades:- `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
- `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
- Metrics (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (estructural), Events (Business), RUM/Synthetic (cliente/canales), Audit/WORM (inmutable).
Todos los esquemas se versionan en el Registro de Schema; los tiempos son UTC/ISO-8601.
3) Transporte y correlación
OpenTelemetry: formato único de métricas/logs/spans; exportadores a TSDB/procesadores.
W3C Trace Context: 'traceparent '/' tracestate' son guiados a través de redirecciones, API, webhooks, bus.
Idempotencia: 'Idempotency-Key' en vías críticas (pagos/postbeki).
Exactly-once por el significado: dedoop por hashes/historial del cursor, registro de re-juego de webhooks.
Exemplars: Asociamos histogramas latency a 'traceId' específicos para RCAs rápidos.
4) Modelo SLI/SLO y presupuestos de errores
Golden Signals: latency, traffic, errors, saturation.
RED (NTTR/gateways): Rate, Errors, Duration.
USE (infraestructura): Utilización, Saturación, Errores.
- Webhooks: entrega ≥ 99. 9%, p95 ≤ 1-2 con.
- API de socios: p95 ≤ 150-300 ms, error rate ≤ 0. 3–0. 5%.
- Bus de eventos: lag p95 ≤ 200-500 ms; entrega ≥ 99. 9%.
- Pagos/ARM: CR en el pasillo del perfil; e2e autorización ≤ X con.
- KYC: pass-rate y SLA de las etapas según los perfiles de las jurisdicciones.
- Live/SFU/CDN: e2e 2-3 s, packet loss ≤ 1%, aptime ≥ 99. 9%.
- Dashboards: frescura ≤ 1-5 s; 95 pender ≤ 1. 5–2. 0 con.
Presupuesto de errores: Registramos períodos (por ejemplo, 30 días), tipos de errores (5xx, temporizadores, violaciones de SLO), reglas auto bonus/malus y botones de parada.
5) Dashboards: capas y artefactos
1. Servicio Gráfico (tsepi↔uzly): topología, flujos rps/eps, p95/p99, error-rate, saturation, heatmap por jurisdicciones.
2. Business Flow: klik→registratsiya→KYC→depozit→FTD→stavka/raund→vyplata; embudos de conversión y ventanas de atribución.
3. Payments/KYC: CR × dispositivo geo ×, código de mapeo de fallas, etapas latency, auto cut-over con anotaciones.
4. Content/RGS/Live: round-trip, error-rate, SFU/CDN SLI, tablas de clasificación y jackpots.
5. Postbacks/Attribution: puntualidad, polémica, dedoup, lages del cursor.
6. Trust & Risk: scorecards de nodos (SLO/ATTR/RG/SEC), «time to trais pack», pronóstico Tier.
Cada panel es con versiones de fórmulas y referencias a changelog.
6) Alerta y escalamiento
Alertas SLO en niveles: advertencia (burn-rate 2 ×), crítica (burn-rate 10 ×), seguimiento (enfriamiento de rutas/límites).
Desencadenantes compositivos: «latency↑ + CR↓ + postback lag↑» → sospecha de degradación PSP.
Canales de rol: SRE/Pagos/KYC/RGS/Marketing/Finanzas/Legal/RG; el contexto incluye inmediatamente el 'traceId '/' runbook '/el botón stop.
Política Snooze/Muting para métricas ruidosas, pero sin silenciar P1.
7) RCA и war-room
SLA en el paquete de trais: 60-90 s (P1/P2).
Plantilla RCA «sin buscar culpables»: el hecho de → una hipótesis → un experimento → una conclusión → acción → seguir.
Diff releases (eventos § 2): comprobación automática de conflictos/fórmulas/confecciones en la ventana de incidentes.
SLO post-mortem: tiempo antes del bebé, antes de la pausa, antes de la reversión, antes de la estabilización, antes de la publicación de las notas.
8) Calidad de los datos y líneas de origen
Data Quality SLI: plenitud, frescura, singularidad ('eventId'), consistencia de monedas/locales.
Lineage: de escaparates/paneles a fuentes (diagramas/versiones/propietarios).
Oráculos: agregados firmados (GGR/NetRev/SLO/RG), 'formulaVersion', 'hash (inputs)', 'kid', período.
Auditoría WORM: registros inmutables de fórmulas/claves/exclusiones/facturas.
9) Privacidad, jurisdicción y seguridad
Zero Trust: mTLS, tokens de vida corta, egress-allow-list, rotación de claves/JWKS.
PII-minimización: tokenización 'playerId', desintoxicación sólo en zonas de seguridad; prohibición de los PDn en los logotipos/métricas.
ABAC/ReBAC/SoD: acceso «veo propio y coherente»; «mido ≠ influyo ≠ cambio».
Localización de datos y DPIA/DPA para los mercados; pólizas de purgas y TTL.
10) Costo de telemetría y gestión de cardinalidad
Cardinality Budget: se prohíben los límites de etiquetas (userId/URL/UA -; routeId/campaignId - permitido).
Histogramas en lugar de percentiles «al vuelo»; exemplars para el detalle selectivo.
Seguimiento adaptativo: porcentaje básico + prioridad para errores/rutas lentas/nuevas versiones.
Downsampling/roll-ups de hace (1s→1m→5m); almacenamiento de RAW-trays brevemente, agregados - más tiempo.
SLO-first: solo recopilamos lo que soporta las soluciones (SLO/finanzas/cumplimiento).
11) Integración con la administración (SRE ↔ negocio)
Los Guardrails de lanzamientos y campañas están vinculados a los presupuestos de SLO/error.
Auto cut-over rutas APM/KYC cuando las métricas salen detrás de los corredores.
RevShare/Limits: el multiplicador de calidad 'Q' (de SLO/ATTR/RG/SEC) afecta a las tasas y cuotas.
Los scorecards de los nodos → priorizar el tráfico y acceder a los pilotos.
12) Anti-patrones
«Muchas verdades» por métricas de fórmula y ventanas diferentes.
La paginación offset del historial bajo carga (utilice los cursores).
PII en logs/paneles; Exportación de PDn a BI.
Zoológico postback y webhooks sin firmar → tomas/agujeros/esporas.
Grafo sin 'traceId': el panel es hermoso, no hay causalidad.
Una tormenta de alerta sin rutas burn-rate y roles.
Agregador SPOF de telemetría sin N + 1/DR.
Las excepciones sin TTL/auditoría son «pegajosos» override-s.
13) Hojas de cheques
Diseño
- Ontología de señales y circuitos; versiones y propietarios.
- W3C traceparent en todas partes; Idempotency-Key en los caminos críticos.
- SLI/SLO y presupuestos de errores; botones de parada; guardrails.
- Políticas de cardinalidad, sampling, retention/roll-ups.
- Privacidad/PII: tokenización, DPA/DPIA, localización.
- Alertas basadas en roles y runbooks.
Inicio
- Conformance para pistas/métricas/registros; corridos synthetic.
- Telemetría canaria en lanzamientos; paneles comparativos antes/después.
- Listas de reproducción de War-room; SLA en el paquete de trais.
Explotación
- Scorecards semanales de nodos; informes burn-rate.
- Chenjlogs mensuales de fórmulas y revisión de SLO/límites.
- Ejercicios DR/xaoc de agregadores/neumáticos/escaparates.
14) Hoja de ruta de la madurez
v1 (Fundación): métricas básicas + registros, traceId único, RCA manuales, SLO primarios.
v2 (Integración): OpenTelemetry en todas partes, servicio graph, guardrails, transportador de oráculos, alertas de rol.
v3 (Automatización): degradación predictiva, auto cut-over APM/KYC/RGS, reconciliación inteligente, dinámica de límites por 'Q'.
v4 (Gobierno conectado): intercambio de señales y oráculos entre cadenas, reglas DAO de fórmulas/SLO, tesorerías transparentes.
15) Métricas de éxito
Calidad/riesgo: MTTR↓, MTTD↓, controversia <X%, proporción auto-pausa/retroceso, cobertura de pistas ≥ 95%.
Negocio: uplift previsibilidad CR/FTD/ARPU/LTV, precisión y puntualidad postback, estabilidad NetRev.
Técnica: p95 API/webhooks/neumáticos/escaparates en los pasillos; aptime de nodos/CDN/SFU ≥ 99. 9%.
Economía: Costo-a-Observar (CTO) en rps/event,% de unidades con exemplares, almacenamiento RAW en límites.
Cumplimiento: 0 fugas PDn, auditorías DPIA/DPA exitosas, disponibilidad de registros WORM 100%.
Resumen breve
La previsibilidad es un circuito de producción de confianza: una ontología, trazados de extremo a extremo, canónica de métricas y eventos, SLO-gardrailes y oráculos de datos, privacidad por defecto y disciplina de coste de telemetría. Tal marco hace que los circuitos y nodos sean transparentes, predecibles y probables, y que el ecosistema sea rápido en respuesta y resistente a riesgos.