GH GambleHub

Λίμνες δεδομένων και συγκέντρωση ροής

1) Σκοπός και αξία

Λίμνη δεδομένων/Λίμνη - στρώμα αναφοράς μακροπρόθεσμης αποθήκευσης και μεγάλης κλίμακας ανάγνωση, όπου:
  • Ρεύματα από προϊόντα/παιχνίδια/πληρωμές γης στο χάλκινο «όπως είναι».
  • Ο άργυρος ομαλοποιεί και εμπλουτίζει, παρέχοντας σταθερά κλειδιά και ποιότητα.
  • Χρυσός - συγκεντρωτικές εκθέσεις (περιλαμβανομένου του πραγματικού/σχεδόν πραγματικού χρόνου) για BI, ρυθμιστική αρχή, καταπολέμηση της απάτης/RG.

Ομαδοποίηση των ροών στις αποδόσεις του Λέικχαουζ: χαμηλή καθυστέρηση αναφοράς, προβλέψιμο κόστος, αναπαραγωγιμότητα και εγκληματολογία.

2) Αρχιτεκτονική αναφοράς

1. Δεν υπάρχουν διαθέσιμα δεδομένα σχετικά με τη χρήση του tenofovir disoproxil σε έγκυες γυναίκες.
2. χάλκινο (μόνο προσθήκη): αποθήκευση αντικειμένων + πίνακες ACID (Delta/Iceberg/Hudi), χωρίσματα ανά ημερομηνία/αγορά/ενοικιαστή· αποθήκευση του αρχικού ωφέλιμου φορτίου.
3. Υπολογισμός ροής: Flink/Spark/Beam - μονάδες παραθύρων, CEP, deadup, online-lookups.
4. Ασήμι (καθαρό/σύμφωνο): ομαλοποίηση νομίσματος/χρονική ζώνη, FK/καταλόγους, SCD για μετρήσεις.
5. Serving/OLAP: ClickHouse/Pinot/Druid - υλοποιημένο λεπτό/δεύτερο συγκεντρωτικό υλικό για πάνελ.
6. Χρυσός (σερβίρισμα): ημερήσιες/ωριαίες θήκες απεικόνισης, φέτες ρύθμισης, αμετάβλητα πακέτα εξαγωγής (WORM).
7. Βρόχοι ελέγχου: Schema Registry, DQ-as-code, lineage, directories, secrets/KMS, RBAC/ABAC.

3) Συμβάσεις και συστήματα

Σχήμα-πρώτο: JSON/Avro/Protobuf; τα απαιτούμενα πεδία είναι 'event _ time (UTC)', 'event _ i ,' trace _ id ',' user _ pseudo _ id ',' market ',' schema _ version '.
Εξέλιξη: συμβατή με την πλάτη → την προσθήκη εκμηδενίσιμων. σπάσιμο → '/v2 '+ διπλή εγγραφή.
Κατάλογος: περιγραφή τομέα, ιδιοκτήτης, φρέσκοι κανόνες SLA, DQ, γενεαλογία.

4) Ρεύματα εκφόρτωσης στη λίμνη

Ακριβώς μία φορά στο κάτω μέρος: τουλάχιστον μία δημοσίευση + idempotent sink (MERGE/upsert by 'event _ id').
Dedup: stateful in stream + μοναδικότητα in Silver.
Συμπίεση αρχείων: μικρά αρχεία → κανονική ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ/ΚΕΝΟ για ανάγνωση και κόστος.
Time-travel: περιλαμβάνει αποσφαλμάτωση, επανάληψη και έλεγχο.

Παράδειγμα κατάτμησης Iceberg (ιδέα DDL):
sql
CREATE TABLE bronze. payment_events (
event_id STRING, user_pseudo_id STRING, currency STRING,
amount DECIMAL(18,2), market STRING, event_time TIMESTAMP, payload STRING
)
PARTITIONED BY (days(event_time), market);

5) Συγκέντρωση ρεύματος: παράθυρα και υδατογραφήματα

Παράθυρα:
  • Πρόσκρουση - σταθερή (π.χ. 1 λεπτό/5 λεπτά) για σταθερά πάνελ.
  • Hopping - επικάλυψη (βήμα <παράθυρο) για «ομαλές» μετρήσεις.
  • Συνεδρία - διαφορές συμπεριφοράς στην αδράνεια.
  • Υδατογραφήματα: καθυστερημένος έλεγχος δεδομένων (συνήθως 2-5 λεπτά), κανόνες προ-έκδοσης/διόρθωσης.
Flink SQL - καταθέσεις 1 λεπτού ανά αγορά:
sql
SELECT market,
TUMBLE_START(event_time, INTERVAL '1' MINUTE) AS ts_min,
COUNT() AS deposits_1m,
SUM(amount_base) AS sum_1m
FROM silver. payments
GROUP BY market, TUMBLE(event_time, INTERVAL '1' MINUTE);

6) Υλοποίηση συγκεντρωτικών μεγεθών

Κινητήρας OLAP (ClickHouse/Pinot/Druid): αποθηκεύει λεπτά/δευτερόλεπτα μεγέθη για ταμπλό και επιχειρησιακή ανάλυση.
Lakehouse Gold: διατηρεί ημερήσιες/ωριαίες φέτες για την αναφορά και τη συμφιλίωση (αναπαραγωγιμότητα).

ClickHouse - υλοποιημένη άποψη (κάθε λεπτό GGR):
sql
CREATE MATERIALIZED VIEW mv_ggr_1m
ENGINE = AggregatingMergeTree()
PARTITION BY toDate(event_time)
ORDER BY (toStartOfMinute(event_time), market, provider_id) AS
SELECT toStartOfMinute(event_time) AS ts_min,
market,
provider_id,
sumState(stake_base) AS s_stake,
sumState(payout_base) AS s_payout
FROM stream. game_events
GROUP BY ts_min, market, provider_id;
Χρυσός - φέτες ημέρας (Lakehouse):
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(event_time) AS event_date,
market, provider_id,
SUM(stake_base) AS stakes_eur,
SUM(payout_base) AS payouts_eur,
SUM(stake_base) - SUM(payout_base) AS ggr_eur
FROM silver. fact_game_financials
GROUP BY 1,2,3;

7) Άργυρος: ομαλοποίηση και συμφιλίωση

Χρόνος και νόμισμα: 'event _ time (UTC)', 'ποσό _ βάση', 'fx _ rate _ used', 'fx _ source'.
Κλειδιά/κατάλογοι: 'χρήστης _ pseudo _ i ,' παιχνίδι _ id ',' πάροχος _ id ',' αγορά '.
SCD II: ιστορική διάσταση (χρήστες/παιχνίδια/πάροχοι/RG/KYC).
Κανόνες DQ: βασική μοναδικότητα, κατάλογοι, εύρος ποσών, χρονική ισχύς.

8) Μητρώο μονάδων και «ορθοί» ορισμοί

Semantic Layer: ομοιόμορφοι τύποι GGR/NGR, στοιχήματα/νίκες, μετατροπή, ARPPU, καθυστέρηση p95.
Μετρήσεις έκδοσης: 'metric _ version' και 'as-of' υπολογισμούς.
Κάρτες αποβάθρας: ιδιοκτήτης, τύπος, πηγές, ετοιμότητα SLA.

9) Ακριβώς μία φορά/Ιδιαιτερότητα και τάξη

Λεωφορείο: τουλάχιστον μία φορά + κατάτμηση (τοπική τάξη).
Επεξεργασία: dedup by 'event _ id' (TTL 24-72h), χειριστές CEP/παραθύρων με ρυθμίσεις.
Νεροχύτης: συναλλακτικές δεσμεύσεις ή idempotent upsert/συγχώνευση.
Outbox/Inbox: δημοσίευση εκδηλώσεων τομέα από το OLTP με εγγύηση.

10) Καθυστερημένα στοιχεία και προσαρμογές

Επιτρεπόμενη καθυστέρηση: 2-5 λεπτά για λειτουργικές οθόνες. ημερήσια επανασυναρμολόγηση για το χρυσό.
Διορθώσεις: πρόσθετες εκπομπές στο OLAP και επανάληψη της δειγματοληψίας χρυσού (idempotent).
Σημαίες: 'late = true', 'distribution _ of = <event _ id>' for audit.

11) Παρατηρησιμότητα και DQ

SLI/SLO (ορόσημα):
  • p95 ingest→1 -min showcase ≤ 2-5 s; Ο χρυσός καθημερινά είναι έτοιμος μέχρι τις 06:00.
  • Πληρότητα ≥ 99. 5%; Ισχύς σχήματος ≥ 99. 9%; Κάλυψη ιχνών ≥ 98%.
  • Μετρήσεις αγωγών: lag/throughput/busy time/state size, late-ratio, dup-rate.
  • DQ-ταμπλό: φρεσκάδα/πληρότητα/ισχύς, χοάνη απώλειας, κάρτα θερμού κλειδιού.
  • γενεαλογία: ο δρόμος από το χάλκινο έως το χρυσό/εξαγωγές· ανάλυση επιπτώσεων στις αλλαγές.

12) Προστασία της ιδιωτικής ζωής, διαμονή, ασφάλεια

ελαχιστοποίηση PII: ψευδωνυμοποίηση, χωριστή προστατευόμενη χαρτογράφηση.
Κατοικία: EEA/UK/BR - χωριστοί κατάλογοι και κλειδιά κρυπτογράφησης· η απαγόρευση των διαπεριφερειακών ενώσεων χωρίς λόγο.
Κρυπτογράφηση: TLS κατά τη διαμετακόμιση. KMS/CMK σε ηρεμία· υπογραφές εξαγωγής + WORM κατά την ανατροπή.
DSAR/RTBF/Legal Hold: επιλεκτικές επεξεργασίες, πάγωμα διαγραφής, ελεγμένες προσβάσεις.

13) Επιδόσεις και κόστος

Κατάτμηση: ανά ημερομηνία/αγορά/ενοικιαστή· ομαδοποίηση/σειρά Z με συχνά φιλτραρισμένα χαρακτηριστικά.
Συμπίεση: εξάλειψη μικρών αρχείων, κανονική ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ/ΚΕΝΟ.
Υλοποίηση: λεπτά/δευτερόλεπτα - σε OLAP. ημέρα/ώρες - σε χρυσό.
Κλιμακωτή αποθήκευση: ζεστό/ζεστό/κρύο, ανάκτηση SLA, φόρτιση με εντολή (κόστος/GB, κόστος/ερώτημα).
Προκατασκευή/σκίτσα: HyperLogLog/περίπου διακριτή όπου είναι αποδεκτή.

14) Παραδείγματα (θραύσματα)

Flink CEP - διάρθρωση καταθέσεων (10 λεπτά):
python if count_deposits(window=10MIN) >= 3 \
and sum_deposits(window=10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window_events):
emit_alert("AML_STRUCTURING", user_id, snapshot())
SQL - αποσύνθεση όταν φορτώνεται στο ασήμι:
sql
CREATE TABLE silver. payments AS
SELECT EXCEPT(rn) FROM (
SELECT p., ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY event_time) rn
FROM bronze. payment_events p
) WHERE rn = 1;
Παγόβουνο/Δέλτα - MERGE idempotent:
sql
MERGE INTO silver. fact_bets s
USING stage. fact_bets_delta d
ON s. bet_id = d. bet_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

15) Διαδικασίες και ΠΓΣ

R (Υπεύθυνος):
  • πλατφόρμα δεδομένων (Lakehouse/κατάλογος/ACID, συμπίεση),
  • Ροή (μονάδες/CEP/dedup),
  • Domain Analytics (Μετρήσεις/Χρυσός).
  • A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
  • C (Ζητήθηκε η γνώμη): Συμμόρφωση/Νομικός/ΥΠΔ (PII/κάτοικος/Νομικός περιορισμός), Finance (FX/GGR), SRE (SLO/стоимость), Security.
  • I (Ενημερωμένο): BI/Προϊόν/Μάρκετινγκ/Δραστηριότητες.

16) Χάρτης πορείας για την εφαρμογή

MVP (3- 5 εβδομάδες):

1. Lakehouse Bronze/Silver (πίνακες ACID), κατάποση από την Κάφκα, συστήματα μητρώων.

2. βασικές μονάδες ροής (1-5 λεπτά) σε OLAP· βιτρίνα Gold. (D + 1 έως 06:00).

3. DQ-as-code for Payments/Gameplay, Freshness/Completeness dashboards.

4. Συμπίεση/ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ, ελάχιστες μετρήσεις κόστους και καθυστερημένες/καθυστερημένες ειδοποιήσεις.

Φάση 2 (5- 10 εβδομάδες):
  • Επέκταση αργύρου (SCD II για χρήστες/παρόχους παιχνιδιών/παρόχων), ανάλυση γενεαλογίας και επιπτώσεων.
  • Ασύγχρονες αναζητήσεις (RG/KYC/ASN/BIN), έλεγχος καθυστερημένης διόρθωσης.
  • Σημασιολογικό στρώμα μετρήσεων, κανονισμοί εξαγωγών (WORM/υπογραφές).
Φάση 3 (10- 16 εβδομάδες):
  • Πολυπεριφέρεια, προσομοιωτής DR/replay, παράθυρα αυτόματης ρύθμισης και υδατογραφήματα.
  • Ταμπλό κόστους, χρέωση/ποσοστώσεις, κλιμακωτή αποθήκευση και αρχειοθέτηση.
  • Αυτόματη δημιουργία καρτών τεκμηρίωσης και μετρήσεων.

17) Κατάλογος επιλογών πριν από την πώληση

  • Συστήματα και συμβάσεις στο μητρώο. οι δοκιμές back-compat είναι πράσινες.
  • Dedup, υδατογράφημα/επιτρεπόμενη καθυστέρηση, συμπεριλαμβανομένου του DLQ.
  • /ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ/ΚΕΝΟ ρυθμίζεται σύμφωνα με το πρόγραμμα.
  • SLO: p95 ingest→minute -view, Gold до 06:00; οι καταχωρίσεις lag/late/dup/state size.
  • Οι κανόνες DQ είναι ενεργοί. η γενεαλογία είναι ορατή από το χάλκινο έως τις εξαγωγές.
  • RBAC/ABAC и KMS· μόνιμη κατοικία και δοκιμή DSAR/RTBF/νομικής κατοχής.
  • Κόστος υπό έλεγχο (κόστος/GB, κόστος/ερώτηση, μερίδιο ψύχους), όρια στις επαναλήψεις.

18) Αντισυμβαλλόμενοι και κίνδυνοι

Ανάμειξη ανεπεξέργαστων και αναφερόμενων δεδομένων στον ίδιο πίνακα: παραβιάζει την αναπαραγωγιμότητα.
Έλλειψη συμπίεσης: έκρηξη μικρών αρχείων → ακριβά αιτήματα.
Υπολογισμός FX «αναδρομικά»: Σπάει το ιστορικό και τις αναφορές.
Χωρίς υδατογραφήματα/καθυστερημένες πολιτικές: αποθήκες και προειδοποιήσεις «επιπλέουν».
Πλήρης επαναφόρτωση χωρίς λόγο: προσαυξήσεις και προσαρμογές χρήσης/MERGE.
PII in Analytics: Κρατήστε τις χαρτογραφήσεις ξεχωριστές, ενεργοποιήστε CLS/RLS.

19) Γλωσσάριο (συνοπτικά)

Lakehouse - data lake + ACID tables and SQL engine.
Χάλκινο/Άργυρος/Χρυσός - ακατέργαστα/ομαλοποιημένα/σερβιρισμένα στρώματα.
Υδατογράφημα - όριο ετοιμότητας παραθύρου ανά εκδήλωση.
Η υλοποιημένη προβολή είναι μια προ-υπολογισμένη βιτρίνα για γρήγορη ανάγνωση.
Time-travel - ανάγνωση ιστορικών εκδόσεων πινάκων.
WORM - αμετάβλητη αποθήκευση τεχνουργημάτων εξαγωγής.

20) Η τελική γραμμή

Μια λίμνη δεδομένων με σωστή συσσώρευση ρεύματος είναι μια πειθαρχία από στρώματα και συμβάσεις: χάλκινο «όπως είναι», ασήμι για ομαλοποίηση και ποιότητα, OLAP για λεπτά πάνελ, χρυσό για αναπαραγώγιμες αναφορές. Διαχείριση παραθύρων και υδατογραφημάτων, απεμπλοκή και συμπίεση, ιδιωτικότητα και κόστος, παίρνετε γρήγορα, επαληθεύσιμα και συμμορφούμενα καταστήματα για το προϊόν, τη συμμόρφωση και τη λειτουργική διαχείριση.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Telegram
@Gamble_GC
Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.