Auditarea și versionarea datelor
1) De ce aveți nevoie de ea
Auditarea și versionarea creează reproductibilitate: puteți explica orice figură, puteți repeta calculul și puteți dezvolta în siguranță modele/vitrine. În iGaming, acest lucru este esențial pentru finanțe (GGR/NET), plăți, KYC/AML, joc responsabil și raportarea de reglementare.
Obiective:- Urmărirea: cine a schimbat datele/schema/logica și de ce.
- Reproductibilitate: Ce versiune a datelor/codului/modelului a generat raportul.
- Release security: rollback și predictibilitatea schimbărilor.
- Conformitate: jurnale dovedibile pentru autoritățile de reglementare și audituri interne.
2) Concepte și niveluri de versiune
1. Versiunea schemei - câmp/tip/evoluție semantică (SEMVER).
2. Dataset Version-instantaneu/felie la un moment „adevărat” pentru raport/formare.
3. Versiunea produsului de date: formule, filtre, agregări.
4. Caracteristica ML/versiunea modelului: data/codul/hiperparametrele/caracteristica/datele (end-to-end).
5. Versiunea conductei: cod de transformare, configurații, dependențe.
6. Versiunea contractului de date: cerințele producătorului/consumatorului (sistem, SLA, calitate).
3) Audit: ce să vă conectați
Cine: subiect (utilizator/serviciu), rol/atribute (RBAC/ABAC).
Ce: Tabel/Vitrina/Model/Schema/Contract.
Când: ora exactă, tz, id-ul de corelare.
De ce: link către task/ticket/release note, motiv.
Decât: codul/versiunea modelului, comite hash, imaginea containerului.
Cum s-a schimbat: înainte/după (diff), volumul rândului (rândurile afectate), controlul integrității (hash/semnătură).
Context: mediu (prod/stage), domeniu, sensibilitate la date (clasă).
Jurnalele de audit sunt aplicate numai/WORM, semnate și disponibile în SIEM.
4) Politica de versioning (recomandări)
SEMVER: "MAJOR. MINOR. PATCH "APOS
MAJOR - modificări incompatibile schemă/semantică.
MINOR - adaosuri reversibil compatibile (noi câmpuri/coloane cu nullable, noi vNext vitrine).
PATCH - fixează fără a schimba contractul (calitate-fix, rambursare).
Deviație-procedură: fereastră de obsolescență, avertismente în directorul/CI, data deconectării.
Note de lansare: o pagină pe versiune: ce, de ce, riscuri, plan rollback.
5) Tehnici de stocare și fluxuri
Călătorie în timp/instantanee: stocarea versiunilor de masă; abilitatea de a executa interogarea „așa cum a fost pe” T-0.
SCD (Lently Changing Dimensions): tipuri 1/2/3 pentru dimensiuni (jocuri, furnizori, jucători).
CDC/CDF (Change Data/Capture & Feed): modificări incrementale pentru fapte (rate, plăți, KYC).
Audit Fact-Un tabel de fapt separat cu editarea/adăugarea/ștergerea evenimentelor.
Controlul integrității: hash-uri de lot/fișier, semnături de pachet, reconcilieri agregate.
6) Evoluția circuitelor și contractelor de date
Contract ca cod: schema, tipuri, câmpuri obligatorii, valori permise, prospețime SLA, reguli DQ.
Compatibilitate: adăugat → câmp MINOR; a schimbat tipul/semantica → MAJOR cu migrarea și dual-write.
Poarta CI: Schema de schimbare a PR este blocată dacă compatibilitatea este ruptă sau nu există note de lansare.
Directory/Registry: stochează versiunile active/învechite și proprietarii.
7) Versioning în BI și metrici
Vitrine certificate „aur”: semantică KPI fixă (GGR, ARPPU, retenție).
Dual-run: o nouă versiune a vitrinei este construită în paralel (v2), compararea metricii (benzi de toleranță).
Commit Reports - Fiecare export/tablou de bord referințe a 'dataset _ version' și a 'definition _ version'.
Secțiunile calendaristice: „dey-kat”, „month-to-date” - sunt fixate pe versiunea de date.
8) Versioning în ML/MLOps
Model Registry: model, dată, valori de calitate, date de instruire (dataset_version), versiuni de caracteristici (feature_set_version).
Feature Store: grupuri de caracteristici versionate; interzicerea câmpurilor „fierbinți” fără o versiune explicită.
Set repro: cod de antrenament (commit), mediu (Docker/conda lock), sid.
Champion-Challenger: versiuni paralele în vânzări, rapoarte privind calitatea, corectitudinea și confidențialitatea.
Rollback: revenire rapidă la modelul stabil anterior și setul de caracteristici.
9) Rollback, rambursare și remedieri
Plan de rollback: pentru fiecare versiune MAJOR/MINOR - pași clari de returnare.
Backfill playbook: sursa adevărului, intervalul de date, ordinea recalculării, sumele de control, etichetele „recomputed = true”.
Editare vizibilitate: v2 înlocuiește v1 numai după comparație; toate rapoartele „istorice” continuă să se refere la versiunile lor.
10) Siguranța și conformitatea în audit
Semnarea evenimentului/pachetului: semnele producătorului, verificările consumatorilor.
Salubritate PII: magazinele de audit care nu sunt PII brute.
Legal Hold: Nu se șterge versiunea/jurnalele pe durata investigației.
DSAR: versiunile găsesc și încarcă înregistrările subiectului după token; se iau în considerare instantaneele istorice.
11) Metrics și SLO
Rata repro este procentul de rapoarte redate din versiunea de date/codul ≥ pragul țintă.
Acoperire:% din tabele cu jurnal de călătorie în timp/audit activat.
Schema Compatibility Pass: rata controalelor de compatibilitate de succes în CI.
Delta duală: varianța v1/v2 în toleranță.
Rollback MTTR: versiunea medie a timpului de întoarcere.
Integritatea auditului - procentul evenimentelor semnate și verificate.
Backfill Success - procentul de recalculări completate corect.
12) iGaming Modele (Cazuri)
Corecția GGR retroactiv: furnizorul a recalculat RTP - facem rambursarea faptelor pentru perioada, fixăm 'recomputed _ at', publicăm Release Notes, comparăm v1/v2; nu rescriem rapoartele din ultimele luni, dar marcăm „versiunea corectată este disponibilă”.
Reguli antifraudă: schimbăm semantica caracteristicilor - MAJOR, modele și vitrine duale, revenire la campion atunci când regresăm.
KYC/AML: a adăugat noi statusuri furnizor - MINOR cu nullable; include teste de compatibilitate în contracte.
Semnale RG: a clarificat logica „seriei de pierderi” - MINOR + Release Notes și monitorizarea impactului.
13) Instrumente și artefacte (categorii)
Catalog/Lineage/Registry: set/schematic/storefront versiuni, proprietari, conexiuni, contracte.
Orchestrator & CI/CD: porți de compatibilitate, dual-run, publicarea notelor de lansare.
Depozitare cu călătorie în timp: stocarea instantaneelor/jurnalelor.
Semnarea și sumele de control: semnătura lotului, sumele de verificare a lotului.
Model/Feature Registry: caracteristică/model versiuni, champion-challenger rapoarte.
14) Șabloane (gata de utilizare)
14. 1 Note de lansare
Versiune: 'payments _ gold v2. 1. 0`
Tip: MINOR (câmpuri noi 'psp _ country', 'method _ group')
Motivul: unificarea PSP/țară de raportare
Riscuri: Impact pe display case 'risk _ signals'
Validare: dual-run 14 zile, delta ≤ 0. 2% RGG
Rollback: treceți la 'v2. 0. 3 'prin intermediul steagului orchestrator
Implementați data/proprietarul/biletul
14. 2 Kit versiunea pașaport
Set de date: 'game _ rounds _ silver'
Versiune: '2025-11-01T00: 00: 00Z' (instantaneu id)
Schema: "schema @ 1. 7. 0 "(referinţă contract)
Sursa: Furnizor Feed-uri A/B (comite...)
Suma de control a integrității semnat manifest
DQ: Integralitatea 99. 9%, prospeţime ≤ 15 min
Utilizări: 'games _ perf _ gold v3. x ',' rg _ signals v1. x '
14. 3 Modificarea raportului de audit
Eveniment: actualizare schema 'kyc _ status' → 'kyc _ status, v2'
utilizator/serviciu, „Data-Engineer” rol
Când: '2025-11-01 09:32:10 + 02'
De ce: Ticket # 3421 (statusuri noi ale furnizorului)
Diff: + 'status _ reason' (nullable), enum extended
Controale: CI semver pass, contract MINOR
Legendă: 'reg =...', hash diff: 'sha256 ='...
14. 4 Politica de versionare (fragment)
MAJOR: rupe compatibilitatea; scriere dublă ≥ 30 de zile; planul de revenire obligatorie.
MINOR: reversibil compatibil; Avertismente în directorul A/B storefronts 7-14 zile.
PATCH: remedieri/recalculări de calitate; Note de eliberare necesare.
Arhivare: stocăm instantanee pentru reglementarea ≥ N luni; WORM pentru audit.
15) Procese (end-to-end)
1. Inițiativă: schimbați biletul + scorul impactului linedge.
2. Contract de inginerie/Schema Update + Note de lansare.
3. Validare: controale de compatibilitate CI, teste DQ, dual-run.
4. Implementare: prin pavilion, canar; Publicați versiunea în catalog.
5. Monitorizare: delta v1/v2, KPI, reclamaţii.
6. Backfill: Prin regresie playbook.
7. Post-mortem: dacă este incident, actualizați politica/testele.
16) RACI (exemplu)
Politici și standarde: CDO (A), Consiliul pentru guvernanța datelor (R/A), DPO/Sec (C).
Contracte/scheme: Proprietari de domenii (A), Administratori de date (R), Platformă/Eng (C).
Orchestrație/Depozitare: Platformă/Eng (R), SRE (C).
BI/metrics: Analytics Lead (R), Product/Finance (C).
Versiuni ML: ML Lead (A), DS (R), Platform (C).
Audit/Jurnale: SecOps (R), Audit intern (C).
17) Foaia de parcurs privind implementarea
0-30 zile (MVP)
Activați călătoria în timp/instantanee pentru tabele critice (plăți, game_rounds, kyc).
Rulați jurnalele de audit imuabile și semnătura pachetelor de ingestie.
Acceptați politica SEMVER și șablonul Note de lansare.
Catalog: adăugați 'owner', 'schema _ version', 'dataset _ version' la vitrinele de top.
30-90 zile
Introduceți dual-run pentru toate MINOR/MAJOR; comparație automată v1/v2.
Asociați contractele cu compatibilitatea și porțile CI DQ.
Reglarea backfill/rollback; echipele de tren.
Model/Feature Registry cu un set complet de link-uri dannyye→fichi→model→inferens.
3-6 luni
Acoperire completă a jurnalului de audit, stocare WORM, rapoarte pentru autoritățile de reglementare.
Note automate de lansare din diferite + descendență.
Repro Rate/Schema Compatibilitate/Rollback MTTR rapoarte în tablouri de bord.
Recenzii trimestriale ale versiunilor KPI și „înghețarea” definițiilor.
18) Anti-modele
Schimbarea semanticii KPI fără o nouă versiune/notă de lansare.
Recalculări „în liniște” fără un plan de rambursare și semne „recomputate”.
Stocarea PII brute în jurnalele de audit.
Lipsa înlocuirii ferestrelor duale și instantanee.
Modele/vitrine „eterne” fără a specifica versiunea și sursele.
19) Secțiuni conexe
Gestionarea datelor, originea și calea datelor, controlul accesului, tokenizarea, securitatea și criptarea, monitorizarea modelelor, etica și DSAR, învățarea federată, ML confidențial.
Rezultat
Auditarea și versionarea transformă datele și modelele într-un produs fiabil: fiecare modificare este transparentă, reproductibilă și reversibilă. Pentru iGaming, aceasta este baza încrederii în KPI-uri, sustenabilitatea conformității și viteza lansărilor sigure.