GH GambleHub

Ciclul de viață al datelor

1) Scop și principii

Scopul este de a permite circulația previzibilă, conformă și rentabilă a datelor de la început la dispoziția finală, sprijinind scenariile analitice, operaționale și de reglementare.

Principii de bază:
  • Date ca produs: fiecare set are un proprietar, contract, SLO, documentație.
  • Schema-first: sunt necesare sisteme; modificări - prin versionare.
  • Privacy-by-Design: minimizare PII, pseudonimizare, stocare regională.
  • Observație în mod implicit: valori, logare de acces, descendență.
  • Cost-conștient: niveluri de stocare, TTL, eșantionare, compresie.

2) Fazele ciclului de viață

2. 1 Creare/Colectare

Surse: produse (web/mobile), backend, plăți, furnizori KYC/AML, jocuri/studiouri, marketing, jurnale de operare.
Identificatori: 'event _ id',' user. pseudo_id', 'session _ id',' trace _ id'.
Contracte: scheme JSON/Avro, AsyncAPI/OpenAPI.
Calitate intrare: validarea schemelor, câmpuri obligatorii, limite de dimensiune, anti-duplicate.
Confidențialitate: tokenizarea câmpurilor sensibile, ingerarea geo-rutării (SEE/UK/BR).

2. 2 Ingera & Raw

Transport: HTTP/gRPC → Edge → autobuz (Kafka/Redpanda).
Strat brut (bronz): sarcini utile imuabile (pentru criminalistică), partiționarea în funcție de timp/piață/chiriaș.
Politicieni: dedup by '(event_id, sursa)', DLQ pentru evenimente „rupte”, etichete Legal Hold.

2. 3 Prelucrare și curățare (Rafinare)

Normalizare (argint): tastare, deduplicare, directoare, FX/fus orar, îmbogățire.
Calitate (DQ): integritate/unicitate/intervale/integritate de referință.
Reprocesare: transportoare idempotente, călătorii în timp, rambursări controlate.

2. 4 Service/Utilizare

Vitrine de aur: BI/raportare (GGR, RG, AML), modele de produse și riscuri, vitrine în timp real.
Acces: SQL/Trino, strat metric semantic, API/GraphQL, Feature Store.
Prospețimea SLA: de exemplu, vitrinele zilnice de aur sunt gata până la ora locală 06:00.

2. 5 Partajați și publicați

Consumatori interni: Analytics, Product, Risk, Compliance, Marketing, Finance.
Descărcări externe: autorități de reglementare, parteneri/furnizori; pachete imuabile (PDF/CSV/JSON + hash).
Canale monitorizate: artefacte semnate, descărcări/exporturi de audit.

2. 6 Arhivă/Reține

Politici de păstrare: în funcție de tipul și jurisdicția datelor (de ex. reglementare - 5-7 ani).
Straturi de depozitare: cald/cald/rece, WORM/Object Lock pentru imutabilitate.
Indexarea arhivelor: directoare, etichete versiune/piață, căutare rapidă a metadatelor.

2. 7 Scoateți și terminați (Eliminați)

Îndepărtarea frecventă: TTL/retenție; curățare în condiții de siguranță, actualizarea indici.
Tranzacții juridice: DSAR/RTBF (dreptul de a fi uitat), excepții pentru obligațiile legale de stocare, Legal Hold (eliminarea prin îngheț).
Verificare: rapoarte de ștergere, jurnal de audit, cross-replica de control.

3) Clasificare și catalog

Categorii de sensibilitate: public/intern/confidențial/restricționat.
Домены: Plăți, Gameplay, Conformitate/AML, RG, Marketing, Ops, Finanțe.
Catalog de date: descriere, proprietar, prospețime SLA, scheme, descendență, niveluri de acces.
Теги: 'jurisdicţie', 'chiriaş', 'pii _ class',' retenţie _ clasă ',' legal _ hold'.

4) Modelul și schemele Lakehouse

Bronz/Argint/Aur: reguli clare pentru transformare și responsabilitate.
Formate: Parchet + format de masă cu ACID (Delta/Iceberg/Hudi).
Evoluția schemelor: versiuni semantice, compatibilitate longitudinală, migrații cu intrare dublă pentru schimbări de rupere.
Registru: Schema Registry, CI-validarea contractelor, teste bazate pe consumatori.

5) Calitatea datelor (DQ)

Valori de calitate:
  • Completitudine - Procentul de evenimente/rânduri primite efectiv.
  • Valabilitate: proporția înregistrărilor care au trecut de validarea schemei.
  • Unicitate: control duplicat.
  • Coerență: respectarea cărților de referință și a link-urilor.
  • Prospețime: sosire/materializare întârziată.
Practici:
  • Reguli DQ ca cod (teste YAML/SQL), tablouri de bord, alerte SLO.
  • Auto-rezervă în timpul degradării (ultima tăiere corectă).

6) Confidențialitate și conformitate

Minimizarea PII: stocați pseudo-ID, luați mapări într-o buclă izolată.
Mascare și RLS/CLS: la nivelul coloanei/rândului; politici dinamice.
Regionalizare: rezidență de date pe piață; directoare separate/chei de criptare.
DSAR/RTBF: proiecții controlate, editări selective, probleme de audit.
Legal Hold: mărci de congelare, arhive neschimbate, logare acces.

7) Acces și securitate

Autentificare/autorizare: SSO, RBAC/ABAC, atribute ale jurisdicțiilor și roluri.
Criptare: TLS în tranzit; în repaus prin KMS/CMK; rotație cheie.
Jurnalele de acces: cine/ce/când/unde; alerte pentru export/scanare în masă.
Separarea sarcinilor: roluri diferite pentru prod/analytics/admins/reviewers.

8) Lineage și observabilitate

Descendență tehnică: de la sursă → transformare → vitrine → rapoarte.
Descendență operațională: legături cu versiuni, steaguri de caracteristici, modele, reguli AML/RG.
Valorile platformei: debit, decalaj, rata de eșec, cost/interogare, cost/GB.
Urmărire: transferul "trace _ id' de la aplicații la storefronturi/alerte.

9) Modelele de timp și retroprocesele

Event-time vs Processing-time: приоритет eveniment-time, filigrane/lateness permise.
Rambursare și reprocesare: conducte idempotente, călătorie în timp, controlul „dublei numărători”.
State de salvare: TTL, instantanee, recuperare în caz de dezastru.

10) Economie și controlul costurilor

Partiționare (dată/piață/chiriaș), clustering/Z-ordering.
Eșantionare pentru analize de înaltă frecvență (nu pentru tranzacții/conformitate).
Depozitare multi-strat (cald/cald/rece), TTL automat.
Buget/chargeback pe echipe, limite pe cereri grele și rambursare.

11) Procese și RACI

R (Responsabil): Platforma de date (ingerare/stocare/orchestrare), Ingineria datelor (transformare), Proprietarii de domenii (Contracte/DQ/SLO).
A (Responsabil): șef de date/responsabil cu datele.
C (Consultat): Conformitate/Legal/DPO, Arhitectură, SRE, Securitate.
I (Informat): BI/Продукт/Маркетинг/Финансы/Операции.

12) SLO/SLI (obiective de probă)

IndicatorScop
Prospețime Argint p95≤ 15 minute
Vitrine de zi cu zipână la 06:00 de blocare. timp
Integralitatea за T≥ 99. 5%
Valabilitate (scheme)≥ 99. 9%
Disponibilitate navigare≥ 99. 9%
Timpul de răspuns DSAR≤ 30 de zile (mai stricte prin legea locală)

13) Tablouri de bord

Prospețime hartă de căldură de domeniu/piață.
Completitudine/Valabilitate prin fir.
Costul de stocare și interogări (prin strat și comandă).
Harta liniei pentru rapoartele critice (reglementare, GGR, RG/AML).
Cozi DSAR/RTBF, statusuri legale Hold.

14) Șabloane de politică de păstrare (exemplu)

Clasa de dateFierbinteCaldArhivă (WORM)TTL total
Operațiuni de plată7 d60 d7 ani7 ani
Evenimente de joc (Analytics)3 d30 d1-2 ani1-2 ani
Conformitate/Artefacte AML14 d90 d5-7 ani5-7 ani
Jurnale de operare3 d30 d1 an1 an

Datele reale sunt determinate de legislația juridică/DPO și locală.

15) Documentație și standarde

Data Pagina produsului: proprietar, destinație, SLA, scheme, reguli DQ, contacte.
Schimbare jurnal: versiuni schemă/logică, analiza impactului, migrații.
Runbooks: reprelucrare, backfill, scenarii de urgență, buton friza.

16) Foaia de parcurs privind implementarea

MVP (4-6 săptămâni):

1. Catalog de date și clasificare (domenii de top), scheme de bază și registru.

2. Lakehouse Bronze/Silver, ingestie cu validare și eliminare a duplicatelor.

3. 1-2 Cazuri de aur (ex. RGG și conversie).

4. Reguli DQ minime și tabloul de bord Prospețime/Completitudine.

5. Politici de retenție și acces la RBAC.

Faza 2 (6-12 săptămâni):
  • Linage, strat semantic de metrică, proceduri DSAR/RTBF.
  • Regionalizarea (SEE/UK), WORM pentru artefacte de reglementare, Legal Hold.
  • Optimizarea costurilor, alerte SLO, raportarea bugetului.
Faza 3 (12 + săptămâni):
  • Date Mesh (produse de domeniu), contracte și teste conduse de consumatori.
  • Simularea automată a impactului la schimbarea schemelor/logicii, reluări.
  • Panou unic de conformitate (reglementare, acces, DQ, descendență).

17) Lista de verificare pre-vânzare

  • Scheme aprobate, contracte în registru, teste de compatibilitate.
  • Regulile DQ sunt active, alertele sunt configurate, SLO-urile sunt setate.
  • Roluri RBAC/ABAC verificate, busteni de acces activat.
  • Politicile de păstrare/ștergere/arhivare au fost validate de Legal/DPO.
  • Procedurile DSAR/RTBF/Legal Hold sunt documentate și testate.
  • Lineage/metrics/cost sunt afișate în tablouri de bord.
  • Runbooks pentru backfill/reprocesare/DR sunt gata.

18) Greșeli frecvente și cum să le evitați

Nu există o singură clasificare și un singur director: introduceți cardurile de date obligatorii.
Date brute fără scheme: validare schema-first + CI.
Fără detașabilitate: TTL-uri de proiectare și procese RTBF de la început.
PII și mixul de analiză: stocați mapări separat, aplicați mascarea.
Aur fără proprietar și SLO: Atribuiți proprietarului și obiectivele de prospețime.
Cost fără administrare: loturi, compresie, stocare pe niveluri, cote.

19) Glosar (scurt)

DSAR/RTBF - solicitarea/ștergerea dreptului persoanei vizate.
Legal Hold - eliminarea înghețării din motive legale.
Descendență - trasabilitatea originii și a transformărilor.
Data Product este o unitate de date gestionată cu SLA.
DQ - reguli și valori ale calității datelor.
Lakehouse - combinarea lac de date și tabele ACID.

20) Linia de jos

Ciclul de viață al datelor este un sistem de aranjament gestionat, nu doar un depozit de fișiere. Contractele și schemele clare, clasificarea și catalogul, calitatea măsurabilă, confidențialitatea și securitatea, arhitectura de stocare rentabilă și descendența transparentă fac din date un activ fiabil care susține produsul, conformitatea și analiza fără surprize și riscuri ascunse.

Contact

Contactați-ne

Scrieți-ne pentru orice întrebare sau solicitare de suport.Suntem mereu gata să ajutăm!

Telegram
@Gamble_GC
Pornește integrarea

Email-ul este obligatoriu. Telegram sau WhatsApp sunt opționale.

Numele dumneavoastră opțional
Email opțional
Subiect opțional
Mesaj opțional
Telegram opțional
@
Dacă indicați Telegram — vă vom răspunde și acolo, pe lângă Email.
WhatsApp opțional
Format: cod de țară și număr (de exemplu, +40XXXXXXXXX).

Apăsând butonul, sunteți de acord cu prelucrarea datelor dumneavoastră.