GH GambleHub

Cykl życia danych

1) Cel i zasady

Celem jest umożliwienie przewidywalnego, zgodnego z wymogami i efektywnego pod względem kosztów przepływu danych od początku do ostatecznego rozmieszczenia, wspieranie scenariuszy analitycznych, operacyjnych i regulacyjnych.

Podstawowe zasady:
  • Dane jako Produkt: każdy zestaw posiada właściciela, kontrakt, SLO, dokumentację.
  • Schemat pierwszy: wymagane są programy; zmiany - poprzez wersioning.
  • Privacy-by-Design: minimalizacja PII, pseudonimizacja, przechowywanie regionalne.
  • Obserwacja domyślnie: metryki, rejestrowanie dostępu, rodowód.
  • Świadomość kosztów: poziomy przechowywania, TTL, pobieranie próbek, kompresja.

2) Fazy cyklu życia

2. 1 Utwórz/zbierz

Źródła: produkty (web/mobile), backendy, płatności, dostawcy KYC/AML, gry/studia, marketing, dzienniki operacyjne.
Identyfikatory: 'event _ id',' user. pseudo_id', 'session _ id',' trace _ id'.
Kontrakty: systemy JSON/Avro, AsyncAPI/OpenAPI.
Jakość wejściowa: walidacja schematów, obowiązkowe pola, limity wielkości, antydublikaty.
Prywatność: tokenizacja pól wrażliwych, spożycie geodezyjne (EEA/UK/BR).

2. 2 Ingest & Raw

Transport: HTTP/gRPC → Krawędź → autobus (Kafka/Redpanda).
Warstwa surowa (brąz): tylko dodatek, niezmienne ładunki użytkowe (do kryminalistyki), podział według czasu/rynku/najemcy.
Politycy: dedup by '(event_id, source)', DLQ dla „złamanych” wydarzeń, Legal Hold tagi.

2. 3 Przetwarzanie i czyszczenie (rafinacja)

Normalizacja (Silver): wpisywanie, deduplikacja, katalogi, FX/timezony, wzbogacanie.
Jakość (DQ): kompletność/wyjątkowość/zakresy/integralność odniesienia.
Ponowne przetwarzanie: przenośniki idempotentne, podróże w czasie, kontrolowane zasypki.

2. 4 Usługa/Korzystanie

Prezentacje złota: BI/reporting (GGR, RG, AML), modele produktu i ryzyka, prezentacje w czasie rzeczywistym.
Dostęp: SQL/Trino, warstwa metryk semantycznych, API/GraphQL, sklep funkcyjny.
Świeżość SLA: na przykład prezentacje Gold-daily są gotowe do godziny 06:00 czasu lokalnego.

2. 5 Udostępnianie i publikowanie

Konsumenci wewnętrzni: analityka, produkt, ryzyko, zgodność, marketing, finanse.
Zewnętrzne obciążenia: organy regulacyjne, partnerzy/dostawcy; niezmienne pakiety (PDF/CSV/JSON + hash).
Monitorowane kanały: podpisane artefakty, pliki do pobrania/eksport audytu.

2. 6 Archiwum/przechowywanie

Polityka zatrzymywania danych: według rodzaju i jurysdykcji danych (np. regulacyjne - 5-7 lat).
Warstwa pamięci: gorąca/ciepła/zimna, blokada WORM/obiektu dla niezmienności.
Indeksowanie archiwów: katalogi, etykiety wersji/rynku, szybkie wyszukiwanie metadanych.

2. 7 Usuń i zakończ (Dispose)

Wspólne usuwanie: TTL/zatrzymanie; bezpieczne czyszczenie, aktualizowanie indeksów.
Transakcje prawne: DSAR/RTBF (prawo do bycia zapomnianym), wyjątki od prawnych obowiązków przechowywania, Legal Hold (zamrożenie usuwania).
Weryfikacja: raporty usunięcia, dziennik audytu, kontrola repliki krzyżowej.

3) Klasyfikacja i katalog

Kategorie wrażliwości: publiczne/wewnętrzne/poufne/ograniczone.
Мовена: Płatności, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Katalog danych: opis, właściciel, świeżość SLA, schematy, rodowód, poziomy dostępu.
Тева: „jurysdykcja”, „tenant”, „pii _ class”, „retention _ class”, „legal _ hold”.

4) Model Lakehouse i schematy

Brąz/srebro/złoto: jasne zasady transformacji i odpowiedzialności.
Formaty: Parkiet + format stołu z ACID (Delta/Iceberg/Hudi).
Ewolucja programów: wersje semantyczne, kompatybilność wzdłużna, migracje podwójnego wejścia w celu złamania zmian.
Rejestr: Schema Registry, CI-validacja umów, testy konsumenckie.

5) Jakość danych (DQ)

Wskaźniki jakości:
  • Kompletność - odsetek faktycznie otrzymanych zdarzeń/wierszy.
  • Ważność: odsetek rekordów, które przeszły walidację schematu.
  • Wyjątkowość: duplikat kontroli.
  • Spójność: zgodność z księgami referencyjnymi i linkami.
  • Świeżość: opóźniony przyjazd/materializacja.
Praktyki:
  • Zasady DQ jako kod (testy YAML/SQL), deski rozdzielcze, wpisy SLO.
  • Auto-fallback podczas degradacji (ostatnie poprawne cięcie).

6) Prywatność i zgodność

Minimalizacja PII: przechowywać pseudo-ID, brać mapy do izolowanej pętli.
Maskowanie i RLS/CLS: na poziomie kolumny/wiersza; dynamiczna polityka.
Regionalizacja: rezydencja danych według rynku; oddzielne katalogi/klucze szyfrowania.
DSAR/RTBF: kontrolowane projekcje, selektywne edycje, kwestie audytu.
Legal Hold: zamrażanie znaków, niezmienne archiwa, rejestrowanie dostępu.

7) Dostęp i bezpieczeństwo

Uwierzytelnianie/autoryzacja: SSO, RBAC/ABAC, atrybuty jurysdykcji i ról.
Szyfrowanie: TLS w tranzycie; odpoczynku przez KMS/CMK; rotacja klucza.
Dzienniki dostępu: kto/co/kiedy/gdzie; wpisy dotyczące masowego wywozu/skanów.
Rozdzielenie obowiązków: różne role dla prod/analytics/admins/reviewers.

8) Rodowód i obserwowalność

Rodowód techniczny: od źródła → transformacja → prezentuje → raporty.
Lineage operacyjny: linki z wersjami, flagi funkcji, modele, zasady AML/RG.
Metryka platformy: przepustowość, opóźnienie, wskaźnik awarii, koszt/zapytanie, koszt/GB.
Śledzenie: przeniesienie 'trace _ id' z aplikacji do sklepów/wpisów.

9) Modele czasu i retroprocesy

Event-time vs Processing-time: мриоритей event-time, znaków wodnych/dozwolona latalność.
Zasypka i regeneracja: rurociągi idempotentne, podróże w czasie, kontrola „podwójnego liczenia”.
Zapisywanie stanów: TTL, migawki, odzyskiwanie katastrof.

10) Ekonomia i kontrola kosztów

Podział (data/rynek/najemca), klastrowanie/zamawianie Z.
Pobieranie próbek dla analiz wysokiej częstotliwości (nie dla transakcji/zgodności).
Przechowywanie wielowarstwowe (ciepłe/ciepłe/zimne), automatyczne TTL.
Budżet/obciążenie zwrotne przez zespół, limity ciężkich wniosków i zasilanie.

11) Procesy i RACI

R (odpowiedzialny): Platforma danych (ingest/storage/orchestration), Data Engineering (transformacja), Właściciele domen (Contracts/DQ/SLO).
A (Odpowiedzialny): Szef Danych/Główny Inspektor Danych.
C (Konsultacja): Zgodność/Prawna/Inspektor Ochrony Danych, Architektura, SRE, Bezpieczeństwo.
I (Poinformowany): BI/Бровика/Маркетин,/Кинанса/Оверавий.

12) SLO/SLI (przykładowe cele)

WskaźnikCel
Świeżość srebrny p95≤ 15 minut
Sklepy ze złotem dzienniedo 06:00 zamek. czas
Kompletność ка T≥ 99. 5%
Ważność (systemy)≥ 99. 9%
Dostępność surfingu≥ 99. 9%
Czas odpowiedzi DSAR≤ 30 dni (bardziej rygorystyczne według prawa lokalnego)

13) Deski rozdzielcze

Mapa ciepła świeżości według domeny/rynku.
Kompletność/Ważność według wątku.
Koszt przechowywania i zapytań (według warstwy i polecenia).
Mapa linii dla sprawozdań krytycznych (regulacja, GGR, RG/AML).
Kolejki DSAR/RTBF, statusy Legal Hold.

14) Szablony zasad zachowania (przykład)

Klasa danychGorąceCiepłoArchiwum (WORM)TTL ogółem
Transakcje płatnicze7 d60 d7 lat7 lat
Wydarzenia gry (analityka)3 d30 d1-2 lata1-2 lata
Zgodność/artefakty AML14 d90 d5-7 lat5-7 lat
Dzienniki operacyjne3 d30 d1 rok1 rok

Aktualne terminy są określane przez Prawo Prawne/Inspektorat Ochrony Danych i prawo lokalne.

15) Dokumentacja i normy

Data Strona produktu: właściciel, cel, SLA, schematy, zasady DQ, kontakty.
Dziennik zmian: schemat/wersje logiczne, analiza wpływu, migracje.
Książki startowe: regeneracja, zasypka, scenariusze awaryjne, przycisk frieze.

16) Plan działania w zakresie wdrażania

MVP (4-6 tygodni):

1. Katalog danych i klasyfikacja (górne domeny), podstawowe schematy i rejestracja.

2. Lakehouse Bronze/Silver, spożycie z walidacją i deduplikacją.

3. 1-2 Złote skrzynki (np. GGR i konwersja).

4. Minimalne zasady DQ i świeżość/kompletność deski rozdzielczej.

5. Polityka zatrzymywania i dostęp do RBAC.

Faza 2 (6-12 tygodni):
  • Linage, warstwa semantyczna mierników, procedury DSAR/RTBF.
  • Regionalizacja (EOG/UK), WORM dla artefaktów regulacyjnych, Legal Hold.
  • Optymalizacja kosztów, wpisy SLO, sprawozdawczość budżetowa.
Faza 3 (12 + tygodnie):
  • Siatka danych (produkty domeny), umowy i testy konsumenckie.
  • Automatyczna symulacja wpływu podczas zmiany schematów/logiki, repliki.
  • Pojedynczy panel zgodności (regulacja, dostęp, DQ, rodowód).

17) Lista kontrolna przedsprzedaży

  • Zatwierdzone systemy, umowy w rejestrze, testy zgodności.
  • Zasady DQ są aktywne, alerty są konfigurowane, SLO są ustawione.
  • Sprawdzone role RBAC/ABAC, włączone rejestry dostępu.
  • Zasady przechowywania/usuwania/archiwów zostały zatwierdzone przez Legal/DPO.
  • Procedury DSAR/RTBF/Legal Hold są udokumentowane i testowane.
  • Lineage/metrics/cost są wyświetlane w deskach rozdzielczych.
  • Książki startowe do zasypki/przerobu/DR są gotowe.

18) Częste błędy i jak ich uniknąć

Nie ma pojedynczej klasyfikacji i katalogu: wprowadź obowiązkowe karty Data Product.
Dane surowe bez schematów: schemat-pierwszy + walidacja CI.
Brak możliwości usunięcia: Projektowanie TTL i procesów RTBF od początku.
Mix PII i analytics: przechowywać mapowania oddzielnie, stosować maskowanie.
Złoto bez właściciela i SLO: Przypisz właściciela i cele świeżości.
Koszty niezagospodarowane: partie, kompresja, składowanie wielopoziomowe, kwoty.

19) Słownik (krótki)

DSAR/RTBF - żądanie/usunięcie prawa osoby, której dane dotyczą.
Legal Hold - usuwanie zamrażać ze względów prawnych.
Rodowód - identyfikowalność pochodzenia i transformacji.
Data Product jest zarządzaną jednostką produktową danych z SLA.
DQ - zasady i mierniki jakości danych.
Lakehouse - połączenie jeziora danych i tabel ACID.

20) Sedno sprawy

Cykl życia danych to zarządzany system aranżacji, a nie tylko magazyn plików. Jasne kontrakty i schematy, klasyfikacja i katalog, wymierna jakość, prywatność i bezpieczeństwo, opłacalna architektura przechowywania i przejrzysty rodowód sprawiają, że dane są wiarygodnym atutem, który wspiera produkty, zgodność i analitykę bez niespodzianek i ukrytych zagrożeń.

Contact

Skontaktuj się z nami

Napisz do nas w każdej sprawie — pytania, wsparcie, konsultacje.Zawsze jesteśmy gotowi pomóc!

Telegram
@Gamble_GC
Rozpocznij integrację

Email jest wymagany. Telegram lub WhatsApp są opcjonalne.

Twoje imię opcjonalne
Email opcjonalne
Temat opcjonalne
Wiadomość opcjonalne
Telegram opcjonalne
@
Jeśli podasz Telegram — odpowiemy także tam, oprócz emaila.
WhatsApp opcjonalne
Format: kod kraju i numer (np. +48XXXXXXXXX).

Klikając przycisk, wyrażasz zgodę na przetwarzanie swoich danych.