GH GambleHub

Διδασκαλία με και χωρίς δάσκαλο

1) Γιατί και πότε

Εποπτευόμενη: υπάρχει μια ετικέτα → προβλέπουμε την πιθανότητα/κατηγορία/τιμή. Το χρησιμοποιούμε όταν η «σωστή απάντηση» είναι σαφής και υπάρχει μια ιστορία: churn, κατάθεση 7 ημερών, RG/AML κίνδυνο, πιθανότητα απόκρισης σε μια προσφορά, LTV πρόβλεψη.
Χωρίς επίβλεψη: δεν υπάρχουν σημάδια → να βρούμε δομές/ομάδες/ανωμαλίες/λανθάνοντες παράγοντες: κατάτμηση παικτών, δακτυλίους απάτης, θεματικά προφίλ παιχνιδιών, ανίχνευση αποτυχιών παρόχου, συμπίεση σημάτων.

Κανόνας επιλογής: εάν η επιχειρηματική απόφαση εξαρτάται από συγκεκριμένη πιθανολογική πρόβλεψη → εποπτεύεται· εάν ο στόχος είναι το άνοιγμα άγνωστων προτύπων/σημάτων ή η μείωση της διάστασης των δεδομένων χωρίς επίβλεψη. Στην πράξη, συνδυάζονται.

2) Τυπικές περιπτώσεις iGaming

Εποπτευόμενη

Churn/επανενεργοποίηση: δυαδική ταξινόμηση (go/not go), uplift μοντέλα για την πρόσκρουση.
Τάση κατάθεσης/αγοράς: πιθανότητα γεγονότος στον ορίζοντα T.
RG/AML: ποσοστό κινδύνου, πιθανότητα διάρθρωσης, ύποπτη συνεδρία.
Μπόνους κατά της κατάχρησης: η πιθανότητα δόλιας χρήσης promo.
Συστάσεις (κατάταξη): πιθανότητα κλικ/στοίχημα στο παιχνίδι (listwise/pointwise).

Χωρίς επίβλεψη

Διαχωρισμός παίκτη: k-means, GMM, HDBSCAN από RFM/συμπεριφορά/είδος.
Ανωμαλίες: Isolation Forest, LOF, AutoEncoder για πληρωμές/μοτίβα παιχνιδιών.
Ανάλυση γραφήματος: ομαδοποίηση στη στήλη «player-device-card-IP».
Μείωση μεγέθους: PCA/UMAP για οπτικοποίηση και μηχανική χαρακτηριστικών.
Θεματικά μοντέλα: NMF/LDL για περιγραφές παιχνιδιών/συνομιλίες υποστήριξης.

3) Δεδομένα και χαρακτηριστικά

Συνδέσεις point-in-time για την εξαίρεση της διαρροής δεδομένων.
Χαρακτηριστικά παράθυρα: 10 λεπτά/1 ώρα/1 ημέρα/7 ημέρες/30 ημέρες (αντοχή, συχνότητα, χρηματικό).
Πλαίσιο: αγορά/δικαιοδοσία/θερινή ώρα/διακοπές, πάροχος/είδος, συσκευή/ASN.
Χαρακτηριστικά γραφήματος: αριθμός αποκλειστικών καρτών/IP/συσκευών, κεντρικός χαρακτήρας.
Κανονικοποίηση ζώνης νομίσματος/ώρας, SCD II για χρήστες/παιχνίδια/παρόχους.

4) Αλγόριθμοι και μετρήσεις

Με τον δάσκαλο

Αλγόριθμοι: LogReg, XGBoost/LightGBM/CatBoost, TabNet; για κατάταξη - LambdaMART/GBDT· χρονοσειρά - Προφήτης/ETS/Gradient Boosted TS.
Μετρήσεις: ROC- AUC/PR- AUC, F1 @ λειτουργικό όριο, KS (κίνδυνος), NDCG/MAP @ K (συστάσεις), MAPE/WAPE (προβολές), αναμενόμενο κόστος με βάρη FP/FN.

Χωρίς δάσκαλο

Ομαδοποίηση: k-μέσα/ΓΤΜ (αριθμός συστάδων - αγκώνας/σιλουέτα), HDBSCAN (πυκνότητα).
Ανωμαλίες: Δάσος απομόνωσης/LOF/AutoEncoder. μετρήσεις - ακρίβεια @ k στη σήμανση εμπειρογνωμόνων, AUCPR για τις συνθετικές ανωμαλίες.
Διάσταση: PCA/UMAP για σχεδιασμό χαρακτηριστικών και απεικονίσεις.

5) Συνδυασμένες προσεγγίσεις

Ημιεπιθεωρημένες: ψευδο-φυσαλίδες για το μέρος των μη κατανεμημένων δεδομένων (αυτοεκπαίδευση), ρύθμιση συνέπειας.
Αυτοεπαγρύπνηση: αντιπαραβολή/μασκοφόρες εργασίες (ενσωμάτωση συνεδρίας/παιχνιδιού) → χρήση σε μεταγενέστερο στάδιο στην εποπτεία.
Ενεργός μάθηση: το σύστημα προσφέρει τη σήμανση των υποψηφίων (μέγιστη αβεβαιότητα/ποικιλομορφία) → σώζει το έργο των εμπειρογνωμόνων της AML/της RG.
Αδύνατη εποπτεία: heuristics/κανόνες/μακρινή μορφή σήμανσης «αδύναμη» και στη συνέχεια βαθμονομούνται.

6) Διαδικασία: από το offline στο online surfing

1. Offline: συλλογή/προετοιμασία → διαίρεση ανά χρόνο/αγορές → κατάρτιση/επικύρωση → backtest.
2. Σημασιολογία μέτρησης: ομοιόμορφοι τύποι (για παράδειγμα, churn_30d) και σταθερά χρονικά παράθυρα.
3. Feature Store: ενιαίοι τύποι χαρακτηριστικών online/offline δοκιμές συμμόρφωσης.
4. Online surfing: gRPC/REST τελικά σημεία, SLA κατά καθυστέρηση, AB routing/canary releases.
5. Παρακολούθηση: μετατόπιση δεδομένων/πρόβλεψης (PSI/KL), καθυστέρηση p95, σφάλμα μέτρησης επιχειρήσεων, προειδοποιήσεις.

7) Προστασία της ιδιωτικής ζωής και συμμόρφωση

ελαχιστοποίηση PII: ψευδωνυμοποίηση, απομόνωση χαρτογράφησης, CLS/RLS.
Κατοικία: μεμονωμένοι αγωγοί/κλειδιά κρυπτογράφησης ανά περιφέρεια (ΕΟΧ/ΗΒ/BR).
DSAR/RTBF: διαγραφή/επεξεργασία χαρακτηριστικών και αρχείων καταγραφής· διατηρεί τους νομικούς λόγους για τις εξαιρέσεις.
Νομικό υπόστεγο: Έρευνα παγώματος/αναφορά αντικειμένων.
Δίκαιη μεταχείριση: Χαρακτηριστικό πληρεξουσίου ελέγχου, εκθέσεις επιπτώσεων (SHAP), πολιτική παρέμβασης της RG.

8) Οικονομικά και παραγωγικότητα

Το κόστος υπολογισμού του χαρακτηριστικού (κόστος/χαρακτηριστικό) και των συμπερασμάτων (κόστος/αίτημα).
Υλοποίηση μη γραμμικών συγκεντρωτικών στοιχείων. σε απευθείας σύνδεση - μόνο κρίσιμα παράθυρα.
Αποθήκευση των αποτελεσμάτων αδειών/βαθμολόγησης για σύντομο TTL, ασύγχρονες αναζητήσεις με χρονοδιαγράμματα.
Ποσοστώσεις και προϋπολογισμοί για επαναλήψεις/backtests φόρτιση με εντολή/μοντέλο.

9) Παραδείγματα (θραύσματα)

9. 1 Χρονική επιλογή για churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Ανωμαλίες πληρωμών (ψευδοκώδικας, δάσος απομόνωσης)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 Κατάτμηση k-μέσων (RFM + είδη)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Όριο κόστους για δυαδικό μοντέλο

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Αξιολόγηση, επικύρωση και πειράματα

Offline: χρονική διάσπαση (αμαξοστοιχία/val/δοκιμή ανά χρόνο/αγορές), αναδρομική δοκιμή, εμπιστοσύνη bootstrap.
Online: A/B/n, διαδοχικές δοκιμές, CUPED/diff-in-diff.
Εκτός πολιτικής: IPS/DR για τις πολιτικές εξατομίκευσης.
Βαθμονόμηση: Platt/Isotonic για σωστές πιθανότητες.
Έλεγχος αποικοδόμησης: ειδοποιήσεις από επιχειρηματικές μετρήσεις και PR- AUC/KS.

11) RACI

R (Υπεύθυνη): Επιστήμη δεδομένων (μοντέλα/πειράματα), MLOp (πλατφόρμα/σερβίρισμα), Eng δεδομένων (χαρακτηριστικά/αγωγοί).
A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
C (Ζητήθηκε η γνώμη): Συμμόρφωση/ΥΠΔ (PII/RG/AML), Ασφάλεια (KMS/μυστικά), SRE (SLO/αξία), Χρηματοδότηση (ROI).
I (Ενημερωμένο): Προϊόν/Εμπορία/Δραστηριότητες/Υποστήριξη.

12) Χάρτης πορείας για την εφαρμογή

MVP (4- 6 εβδομάδες):

1. Κατάλογος στόχων/σημάτων και σημάτων (churn_30d, propensity_7d, risk_rg).

2. Feature Store v1 (χαρακτηριστικά 5-10), βασικά μοντέλα XGBoost, offline metrics dashboards.

3. Κατάτμηση k-μέσων (8 συστάδων) + περιγραφή τμημάτων· Απομόνωση Δάσος για πληρωμές.

4. Επιγραμμικό σερφάρισμα με κρύπτη, p95 <150 ms. A/B για το 10-20% της κυκλοφορίας.

Φάση 2 (6- 12 εβδομάδες):
  • Ενεργό/ημιεπιθεωρημένο για την επισήμανση της σπανιότητας (AML/RG), αυτοεπιθεωρημένα ενσωματώματα παιχνιδιών/συνεδριών.
  • Εκπομπές καναρινιών, παρασυρόμενη παρακολούθηση, αυτόματη επανεκπαίδευση.
  • Ένα μόνο σημασιολογικό στρώμα μετρήσεων και επιγραμμικό/offline χαρακτηριστικό αντιστοίχισης.
Φάση 3 (12- 20 εβδομάδες):
  • πινακίδες γραφήματος και δακτύλιοι απάτης· μοντέλα πριμοδότησης ανύψωσης.
  • Πολυπεριφερειακές υπηρεσίες, ποσοστώσεις/χρέωση· Αρχείο εκδόσεων του WORM.
  • Έλεγχος της αμεροληψίας, προσομοιώσεις ακραίων καταστάσεων, συμβάντα με τρέχοντα βιβλία.

13) Κατάλογος ελέγχου πριν από την πώληση

  • Δοκιμές δειγματοληψίας και αντι-διαρροής από σημείο σε χρόνο.
  • Βαθμονόμηση πιθανότητας· Επιλέξτε το αναμενόμενο όριο κόστους.
  • Υποδείγματα καρτών (ιδιοκτήτης, δεδομένα, μετρήσεις, κίνδυνοι, δικαιοσύνη).
  • Feature Store Online/Offline Compliance Test.
  • Παρακολούθηση μετατόπισης/καθυστέρησης/σφάλματος, προειδοποιήσεις και αυτόματη ανατροπή.
  • πολιτικές PII/DSAR/RTBF/Legal Hold· η καταγραφή είναι απρόσωπη.
  • Υπολογισμός του σχεδίου Α/Β και της στατιστικής ισχύος. Το rollback runbook είναι έτοιμο.

14) Αντι-μοτίβα

Ανάμειξη νέων συμβάντων σε ετικέτες (διαρροή) και απουσία σημείου σε χρόνο.
«Ένα μοντέλο για όλους» αντί για αποσύνθεση τομέα.
Ορισμένες συγκεντρωμένες πιθανότητες → εσφαλμένα επιχειρηματικά όρια.
Τυφλή πτήση: καμία επιγραμμική παρασυρόμενη/ποιοτική παρακολούθηση.
Υπεραντιστάθμιση σε απευθείας σύνδεση (βαρείς εξωτερικές συνδέσεις χωρίς κρύπτη και χρονοδιαγράμματα).
Τμήματα χωρίς επιχειρηματική διερμηνεία και ιδιοκτήτη.

15) Η τελική γραμμή

Η εποπτευόμενη μάθηση παρέχει μετρήσιμη πρόγνωση και διαχείριση κινδύνου/εισοδήματος. χωρίς δάσκαλο - δομή και σήματα όπου δεν υπάρχουν σημάδια. Ο συνδυασμός τους (ημι/αυτοεπιθεωρείται, ενεργός μάθηση) στον τομέα της πειθαρχίας των δεδομένων (point-in-time, feature store), της συμμόρφωσης και των MLOp δίνει στην πλατφόρμα iGaming σταθερή αύξηση των καθαρών εσόδων, μείωση της απάτης και έγκαιρες παρεμβάσεις των RG - με δυνατότητα αναπαραγωγής, έλεγχο του κόστους και ετοιμότητα για έλεγχο.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.