Visibilità di catene e nodi
1) Attività e oggetto di sorveglianza
La visibilità di catene e nodi è la capacità dell'ecosistema di vedere, misurare e spiegare il comportamento dei flussi intercorrenti (traffico/eventi/pagamenti/CUS/contenuti) e dei siti (operatori, studi/RGS, PSP/APM, KYC/AML provider, affiliati, aggregatori, strim-nodi). Obiettivi:- causalità completa (dal click alla fattura)
- SLO prevedibile e rischio gestito
- RCA veloce e MTTR basso;
- dimostrabile (riepilogo firmato, controllo WORM) al costo minimo della telemetria.
2) Ontologia dell'osservabilità
Entità:- `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
- `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
- Metrics (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (strutturali), Events (business), RUM/Synthetic (client/canali), Audit/WORM (invariabili).
Tutti gli schemi sono versionati in Schema Registry; i tempi sono UTC/ISO-8601.
3) Trasporti e correlazione
OpenTelemetry è un unico formato di metriche/fogli/span; esportatori in TSDB/processori.
W3C Trace Text: 'traceparente'/' tracestate'attraversano ready, API, webhookie, pneumatici.
Idempotence: «Idempotency-Key» su percorsi critici (pagamenti/postback).
Exactly-once in termini di abbreviazione hash/cronologia cursore, registro di ricollocamento webhoop.
Explars: Colleghiamo istogrammi latency a specifici «traceId» per RCA veloci.
4) Modello SLI/SLO e budget degli errori
Golden Signals: latency, traffic, errors, saturation.
RED (NTTR/gateway): Rate, Errors, Duration.
USA (infrastruttura): Utilization, Saturation, Errors.
- Webhook, consegna ≥ 99. 9%, p95 ≤ 1-2 secondi.
- API partner p95, 150-300 ms, errore rate 0. 3–0. 5%.
- Bus degli eventi: lag p95, 200-500 ms; Consegna del ≥ 99. 9%.
- Pagamenti/ARM: CR nel corridoio del profilo; e2e autorizzazione ≤ X c.
- KYC: passs-rate e SLA fasi per profili di giurisdizione.
- Live/SFU/CDN: e2e 2-3 c, packet loss 1%, farmacia 99. 9%.
- Dashboard: freschezza 1-5 c; p95 ≤ 1. 5–2. 0 c.
Bilancio degli errori: registriamo periodi (ad esempio 30 giorni), tipi di errori (5xx, timeout, violazioni SLO), regole auto bonus/malus e pulsanti di arresto.
5) Dashboard - strati e manufatti
1. Servizio Graph (tsepi↔uzly): topologia, rps/eps, p95/p99, error-rate, saturation, heatmap per giurisdizione.
2. Business Flow: klik→registratsiya→KYC→depozit→FTD→stavka/raund→vyplata; vortici di conversione e finestre di attribuzione.
3. Payments/KYC: CR x geo x dispositivo, codice di errore, latency step, auto cut-over con annotazioni.
4. Content/RGS/Live: round-trip, errato-rate, SFU/CDN SLI, tabelle leader e jackpot.
5. Postbacks/Attraction: tempestività, litigiosità, deadup, radici di cursore.
6. Trust & Risk: scorecards nodi (SLO/ATTR/RG/SEC), «tempo per il pacchetto trace», previsione Tier.
Ogni pannello contiene le versioni delle formule e i collegamenti a changelog.
6) Alerting e escalation
Alert SLO su più livelli: avvertenza (burn-rate 2 x), criticità (burn-rate 10 x), operazioni successive (raffreddamento delle rotte/limiti).
I trigger compositivi sono « + + postback».
Canali di ruolo: SRE/Payments/KYC/RGS/Marketing/Finanza/Legale/RG; il contesto include immediatamente «traceId »/« runbook »/pulsante fermo.
Regole Snoose/Muting per le metriche rumorose, ma senza silenziare P1.
7) RCA и war-room
SLA sul pacchetto trace: 60-90 s (P1/P2).
Modello RCA «Senza trovare i colpevoli»: l'ipotesi è che l'esperimento sia un risultato finale dell'azione «follow-up».
Diff di rilascio (eventi © 2) - Verifica automatica dei conflitti/formule/configure nella finestra dell'incidente.
Post-mortem SLO: tempo fino al dettaglio, fino alla pausa, fino al ripristino, fino alla stabilizzazione, fino alla pubblicazione delle note.
8) Qualità dei dati e delle linee di origine
Data Quality SLI: completezza, freschezza, unicità, coerenza valuta/locale.
Lineage: dalle vetrine/pannelli alle sorgenti (schemi/versioni/proprietari).
Oracoli: unità firmate (GGR/NetRev/SLO/RG), «formulaVersion», «hash», «kid», periodo.
Controllo WORM: fogli di formula/chiave/eccezioni/fatture invariati.
9) Privacy, giurisdizione e sicurezza
Zero Trust: mTLS, token a vita corta, egress-allow-list, rotazione chiavi/JWKS.
Riduzioni PII: torninizzazione «playerId», disintossicazione solo nelle aree di cassaforte; La proibizione del PDN nei fogli/metriche.
ABAC/ReBAC/SoD L'accesso «vedo il mio e quello concordato»; «Sto misurando la mia influenza».
Localizzazione dei dati e DPIA/DPA per i mercati; purge-regole e TTL.
10) Costo della telemetria e gestione della cardinalità
Cardinality Budget: limiti per etichette (userId/URL/UA) non consentiti; routeId/campaignId - autorizzati).
Istogrammi al posto dei percentili al volo; explars per dettagli selettivi.
Adattativo sampling traccia: percentuale base + priorità per errori/lenti/nuove versioni.
Downsampling/roll-ups prescritto (1s→1m→5m); Conservare le roulotte RAW brevemente, le unità sono più lunghe.
SLO-first: raccogliamo solo ciò che supporta le soluzioni (SLO/finanza/compilation).
11) Integrazione con gestione (SRE)
Garrails release e campagne sono collegati a SLO/budget degli errori.
Auto cut-over le rotte APM/KYC all'uscita delle metriche dai corridoi.
RevShare/limiti - Il moltiplicatore di qualità'Q '(da SLO/ATTR/RG/SEC) influisce sulle scommesse e sulle quote.
Scorecards nodi per la priorità del traffico e l'accesso ai piloti.
12) Anti-pattern
«Molte verità» su metriche di formula e finestre diverse.
Paginazione offset della cronologia sotto carico (utilizzare i cursori).
PII in cassetti/pannelli; esportazione di PDN in BI.
Lo zoo postbeek e le webhoot non firmate, le riprese/buchi/discussioni.
Conte senza «traceId», il pannello è bello, non c'è causalità.
Alert-tempesta senza burn-rate e rotte di ruolo.
Aggregatore SPOF di telemetria senza N + 1/DR.
Le eccezioni senza TTL/controllo sono override-a.
13) Assegno fogli
Progettazione
- Ontologia dei segnali e degli schemi; versioni e proprietari.
- W3C traceparent ovunque; Idempotency-Key su percorsi critici.
- SLI/SLO e budget degli errori; Pulsanti di arresto guardrails.
- Politiche di cardinalità, sampling, retention/roll-ups.
- Privacy/PII: tokenizzazione, DPA/DPIA, localizzazione.
- Rolle-based alert e runbooks.
Avvio
- Conformance per tracciati/metriche/fogli; sintetic-provons.
- Telemetria canaria per i rilasci; pannelli comparativi prima/dopo.
- playbook war-room SLA sul pacchetto trace.
Utilizzo
- Scorecards settimanali Report burn-rate.
- Moduli mensili di formula e revisione SLO/limiti.
- DR./xaoc-esercitazione aggregatori/pneumatici/vetrine.
14) Road map della maturità
v1 (Foundation): metriche di base + logi, un unico traceId, RCA manuali, SLO primario.
v2 (Integration): OpenTelemetry ovunque, servizio graph, guardrail, catena di montaggio degli oracoli, alert di ruolo.
v3 (Automation): degrado predittivo, auto cut-over APM/KYC/RGS, smart-recordation, altoparlante dei limiti di «Q».
v4 (Networked Governance) - Scambio intercorrenti di segnali e oracoli, regole DAO di formula/SLO trasparenti del Tesoro.
15) Metriche di successo
Qualità/rischio: , , controvalore <X%, quota di auto-pausa/reimpostazione, copertura del 95%.
Business: uplift di prevedibilità CR/FTD/ARPU/LTV, accuratezza e tempestività dei postbeek, stabilità del NetRev.
Tecnica: p95 API/webhook/pneumatici/vetrine nei corridoi; farmacia di nodi/CDN/SFU ≥ 99. 9%.
Economia: Cost-to-Osserva (CTO) su rps/event,% degli aggregati con exemprars, storage RAW nei limiti.
Compilazione: 0 fuoriuscite di PDN, verifiche DPIA/DPA di successo, disponibilità di logi WORM al 100%.
Breve riepilogo
Prevedibile è il circuito di produzione della fiducia: una ontologia, tracciati completi, una canonica di metriche ed eventi, SLO gardreil e oracoli di dati, la privacy predefinita e la disciplina dei costi di telemetria. Questa struttura rende le catene e i nodi trasparenti, prevedibili e provabili, mentre l'ecosistema è veloce nella risposta e resistente ai rischi.