Cykl życia danych
1) Cel i zasady
Celem jest umożliwienie przewidywalnego, zgodnego z wymogami i efektywnego pod względem kosztów przepływu danych od początku do ostatecznego rozmieszczenia, wspieranie scenariuszy analitycznych, operacyjnych i regulacyjnych.
Podstawowe zasady:- Dane jako Produkt: każdy zestaw posiada właściciela, kontrakt, SLO, dokumentację.
- Schemat pierwszy: wymagane są programy; zmiany - poprzez wersioning.
- Privacy-by-Design: minimalizacja PII, pseudonimizacja, przechowywanie regionalne.
- Obserwacja domyślnie: metryki, rejestrowanie dostępu, rodowód.
- Świadomość kosztów: poziomy przechowywania, TTL, pobieranie próbek, kompresja.
2) Fazy cyklu życia
2. 1 Utwórz/zbierz
Źródła: produkty (web/mobile), backendy, płatności, dostawcy KYC/AML, gry/studia, marketing, dzienniki operacyjne.
Identyfikatory: 'event _ id',' user. pseudo_id', 'session _ id',' trace _ id'.
Kontrakty: systemy JSON/Avro, AsyncAPI/OpenAPI.
Jakość wejściowa: walidacja schematów, obowiązkowe pola, limity wielkości, antydublikaty.
Prywatność: tokenizacja pól wrażliwych, spożycie geodezyjne (EEA/UK/BR).
2. 2 Ingest & Raw
Transport: HTTP/gRPC → Krawędź → autobus (Kafka/Redpanda).
Warstwa surowa (brąz): tylko dodatek, niezmienne ładunki użytkowe (do kryminalistyki), podział według czasu/rynku/najemcy.
Politycy: dedup by '(event_id, source)', DLQ dla „złamanych” wydarzeń, Legal Hold tagi.
2. 3 Przetwarzanie i czyszczenie (rafinacja)
Normalizacja (Silver): wpisywanie, deduplikacja, katalogi, FX/timezony, wzbogacanie.
Jakość (DQ): kompletność/wyjątkowość/zakresy/integralność odniesienia.
Ponowne przetwarzanie: przenośniki idempotentne, podróże w czasie, kontrolowane zasypki.
2. 4 Usługa/Korzystanie
Prezentacje złota: BI/reporting (GGR, RG, AML), modele produktu i ryzyka, prezentacje w czasie rzeczywistym.
Dostęp: SQL/Trino, warstwa metryk semantycznych, API/GraphQL, sklep funkcyjny.
Świeżość SLA: na przykład prezentacje Gold-daily są gotowe do godziny 06:00 czasu lokalnego.
2. 5 Udostępnianie i publikowanie
Konsumenci wewnętrzni: analityka, produkt, ryzyko, zgodność, marketing, finanse.
Zewnętrzne obciążenia: organy regulacyjne, partnerzy/dostawcy; niezmienne pakiety (PDF/CSV/JSON + hash).
Monitorowane kanały: podpisane artefakty, pliki do pobrania/eksport audytu.
2. 6 Archiwum/przechowywanie
Polityka zatrzymywania danych: według rodzaju i jurysdykcji danych (np. regulacyjne - 5-7 lat).
Warstwa pamięci: gorąca/ciepła/zimna, blokada WORM/obiektu dla niezmienności.
Indeksowanie archiwów: katalogi, etykiety wersji/rynku, szybkie wyszukiwanie metadanych.
2. 7 Usuń i zakończ (Dispose)
Wspólne usuwanie: TTL/zatrzymanie; bezpieczne czyszczenie, aktualizowanie indeksów.
Transakcje prawne: DSAR/RTBF (prawo do bycia zapomnianym), wyjątki od prawnych obowiązków przechowywania, Legal Hold (zamrożenie usuwania).
Weryfikacja: raporty usunięcia, dziennik audytu, kontrola repliki krzyżowej.
3) Klasyfikacja i katalog
Kategorie wrażliwości: publiczne/wewnętrzne/poufne/ograniczone.
Мовена: Płatności, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Katalog danych: opis, właściciel, świeżość SLA, schematy, rodowód, poziomy dostępu.
Тева: „jurysdykcja”, „tenant”, „pii _ class”, „retention _ class”, „legal _ hold”.
4) Model Lakehouse i schematy
Brąz/srebro/złoto: jasne zasady transformacji i odpowiedzialności.
Formaty: Parkiet + format stołu z ACID (Delta/Iceberg/Hudi).
Ewolucja programów: wersje semantyczne, kompatybilność wzdłużna, migracje podwójnego wejścia w celu złamania zmian.
Rejestr: Schema Registry, CI-validacja umów, testy konsumenckie.
5) Jakość danych (DQ)
Wskaźniki jakości:- Kompletność - odsetek faktycznie otrzymanych zdarzeń/wierszy.
- Ważność: odsetek rekordów, które przeszły walidację schematu.
- Wyjątkowość: duplikat kontroli.
- Spójność: zgodność z księgami referencyjnymi i linkami.
- Świeżość: opóźniony przyjazd/materializacja.
- Zasady DQ jako kod (testy YAML/SQL), deski rozdzielcze, wpisy SLO.
- Auto-fallback podczas degradacji (ostatnie poprawne cięcie).
6) Prywatność i zgodność
Minimalizacja PII: przechowywać pseudo-ID, brać mapy do izolowanej pętli.
Maskowanie i RLS/CLS: na poziomie kolumny/wiersza; dynamiczna polityka.
Regionalizacja: rezydencja danych według rynku; oddzielne katalogi/klucze szyfrowania.
DSAR/RTBF: kontrolowane projekcje, selektywne edycje, kwestie audytu.
Legal Hold: zamrażanie znaków, niezmienne archiwa, rejestrowanie dostępu.
7) Dostęp i bezpieczeństwo
Uwierzytelnianie/autoryzacja: SSO, RBAC/ABAC, atrybuty jurysdykcji i ról.
Szyfrowanie: TLS w tranzycie; odpoczynku przez KMS/CMK; rotacja klucza.
Dzienniki dostępu: kto/co/kiedy/gdzie; wpisy dotyczące masowego wywozu/skanów.
Rozdzielenie obowiązków: różne role dla prod/analytics/admins/reviewers.
8) Rodowód i obserwowalność
Rodowód techniczny: od źródła → transformacja → prezentuje → raporty.
Lineage operacyjny: linki z wersjami, flagi funkcji, modele, zasady AML/RG.
Metryka platformy: przepustowość, opóźnienie, wskaźnik awarii, koszt/zapytanie, koszt/GB.
Śledzenie: przeniesienie 'trace _ id' z aplikacji do sklepów/wpisów.
9) Modele czasu i retroprocesy
Event-time vs Processing-time: мриоритей event-time, znaków wodnych/dozwolona latalność.
Zasypka i regeneracja: rurociągi idempotentne, podróże w czasie, kontrola „podwójnego liczenia”.
Zapisywanie stanów: TTL, migawki, odzyskiwanie katastrof.
10) Ekonomia i kontrola kosztów
Podział (data/rynek/najemca), klastrowanie/zamawianie Z.
Pobieranie próbek dla analiz wysokiej częstotliwości (nie dla transakcji/zgodności).
Przechowywanie wielowarstwowe (ciepłe/ciepłe/zimne), automatyczne TTL.
Budżet/obciążenie zwrotne przez zespół, limity ciężkich wniosków i zasilanie.
11) Procesy i RACI
R (odpowiedzialny): Platforma danych (ingest/storage/orchestration), Data Engineering (transformacja), Właściciele domen (Contracts/DQ/SLO).
A (Odpowiedzialny): Szef Danych/Główny Inspektor Danych.
C (Konsultacja): Zgodność/Prawna/Inspektor Ochrony Danych, Architektura, SRE, Bezpieczeństwo.
I (Poinformowany): BI/Бровика/Маркетин,/Кинанса/Оверавий.
12) SLO/SLI (przykładowe cele)
13) Deski rozdzielcze
Mapa ciepła świeżości według domeny/rynku.
Kompletność/Ważność według wątku.
Koszt przechowywania i zapytań (według warstwy i polecenia).
Mapa linii dla sprawozdań krytycznych (regulacja, GGR, RG/AML).
Kolejki DSAR/RTBF, statusy Legal Hold.
14) Szablony zasad zachowania (przykład)
Aktualne terminy są określane przez Prawo Prawne/Inspektorat Ochrony Danych i prawo lokalne.
15) Dokumentacja i normy
Data Strona produktu: właściciel, cel, SLA, schematy, zasady DQ, kontakty.
Dziennik zmian: schemat/wersje logiczne, analiza wpływu, migracje.
Książki startowe: regeneracja, zasypka, scenariusze awaryjne, przycisk frieze.
16) Plan działania w zakresie wdrażania
MVP (4-6 tygodni):1. Katalog danych i klasyfikacja (górne domeny), podstawowe schematy i rejestracja.
2. Lakehouse Bronze/Silver, spożycie z walidacją i deduplikacją.
3. 1-2 Złote skrzynki (np. GGR i konwersja).
4. Minimalne zasady DQ i świeżość/kompletność deski rozdzielczej.
5. Polityka zatrzymywania i dostęp do RBAC.
Faza 2 (6-12 tygodni):- Linage, warstwa semantyczna mierników, procedury DSAR/RTBF.
- Regionalizacja (EOG/UK), WORM dla artefaktów regulacyjnych, Legal Hold.
- Optymalizacja kosztów, wpisy SLO, sprawozdawczość budżetowa.
- Siatka danych (produkty domeny), umowy i testy konsumenckie.
- Automatyczna symulacja wpływu podczas zmiany schematów/logiki, repliki.
- Pojedynczy panel zgodności (regulacja, dostęp, DQ, rodowód).
17) Lista kontrolna przedsprzedaży
- Zatwierdzone systemy, umowy w rejestrze, testy zgodności.
- Zasady DQ są aktywne, alerty są konfigurowane, SLO są ustawione.
- Sprawdzone role RBAC/ABAC, włączone rejestry dostępu.
- Zasady przechowywania/usuwania/archiwów zostały zatwierdzone przez Legal/DPO.
- Procedury DSAR/RTBF/Legal Hold są udokumentowane i testowane.
- Lineage/metrics/cost są wyświetlane w deskach rozdzielczych.
- Książki startowe do zasypki/przerobu/DR są gotowe.
18) Częste błędy i jak ich uniknąć
Nie ma pojedynczej klasyfikacji i katalogu: wprowadź obowiązkowe karty Data Product.
Dane surowe bez schematów: schemat-pierwszy + walidacja CI.
Brak możliwości usunięcia: Projektowanie TTL i procesów RTBF od początku.
Mix PII i analytics: przechowywać mapowania oddzielnie, stosować maskowanie.
Złoto bez właściciela i SLO: Przypisz właściciela i cele świeżości.
Koszty niezagospodarowane: partie, kompresja, składowanie wielopoziomowe, kwoty.
19) Słownik (krótki)
DSAR/RTBF - żądanie/usunięcie prawa osoby, której dane dotyczą.
Legal Hold - usuwanie zamrażać ze względów prawnych.
Rodowód - identyfikowalność pochodzenia i transformacji.
Data Product jest zarządzaną jednostką produktową danych z SLA.
DQ - zasady i mierniki jakości danych.
Lakehouse - połączenie jeziora danych i tabel ACID.
20) Sedno sprawy
Cykl życia danych to zarządzany system aranżacji, a nie tylko magazyn plików. Jasne kontrakty i schematy, klasyfikacja i katalog, wymierna jakość, prywatność i bezpieczeństwo, opłacalna architektura przechowywania i przejrzysty rodowód sprawiają, że dane są wiarygodnym atutem, który wspiera produkty, zgodność i analitykę bez niespodzianek i ukrytych zagrożeń.