Διδασκαλία με και χωρίς δάσκαλο

1) Γιατί και πότε

Εποπτευόμενη: υπάρχει μια ετικέτα → προβλέπουμε την πιθανότητα/κατηγορία/τιμή. Το χρησιμοποιούμε όταν η «σωστή απάντηση» είναι σαφής και υπάρχει μια ιστορία: churn, κατάθεση 7 ημερών, RG/AML κίνδυνο, πιθανότητα απόκρισης σε μια προσφορά, LTV πρόβλεψη.
Χωρίς επίβλεψη: δεν υπάρχουν σημάδια → να βρούμε δομές/ομάδες/ανωμαλίες/λανθάνοντες παράγοντες: κατάτμηση παικτών, δακτυλίους απάτης, θεματικά προφίλ παιχνιδιών, ανίχνευση αποτυχιών παρόχου, συμπίεση σημάτων.

Κανόνας επιλογής: εάν η επιχειρηματική απόφαση εξαρτάται από συγκεκριμένη πιθανολογική πρόβλεψη → εποπτεύεται· εάν ο στόχος είναι το άνοιγμα άγνωστων προτύπων/σημάτων ή η μείωση της διάστασης των δεδομένων χωρίς επίβλεψη. Στην πράξη, συνδυάζονται.

2) Τυπικές περιπτώσεις iGaming

Εποπτευόμενη

Churn/επανενεργοποίηση: δυαδική ταξινόμηση (go/not go), uplift μοντέλα για την πρόσκρουση.
Τάση κατάθεσης/αγοράς: πιθανότητα γεγονότος στον ορίζοντα T.
RG/AML: ποσοστό κινδύνου, πιθανότητα διάρθρωσης, ύποπτη συνεδρία.
Μπόνους κατά της κατάχρησης: η πιθανότητα δόλιας χρήσης promo.
Συστάσεις (κατάταξη): πιθανότητα κλικ/στοίχημα στο παιχνίδι (listwise/pointwise).

Χωρίς επίβλεψη

Διαχωρισμός παίκτη: k-means, GMM, HDBSCAN από RFM/συμπεριφορά/είδος.
Ανωμαλίες: Isolation Forest, LOF, AutoEncoder για πληρωμές/μοτίβα παιχνιδιών.
Ανάλυση γραφήματος: ομαδοποίηση στη στήλη «player-device-card-IP».
Μείωση μεγέθους: PCA/UMAP για οπτικοποίηση και μηχανική χαρακτηριστικών.
Θεματικά μοντέλα: NMF/LDL για περιγραφές παιχνιδιών/συνομιλίες υποστήριξης.

3) Δεδομένα και χαρακτηριστικά

Συνδέσεις point-in-time για την εξαίρεση της διαρροής δεδομένων.
Χαρακτηριστικά παράθυρα: 10 λεπτά/1 ώρα/1 ημέρα/7 ημέρες/30 ημέρες (αντοχή, συχνότητα, χρηματικό).
Πλαίσιο: αγορά/δικαιοδοσία/θερινή ώρα/διακοπές, πάροχος/είδος, συσκευή/ASN.
Χαρακτηριστικά γραφήματος: αριθμός αποκλειστικών καρτών/IP/συσκευών, κεντρικός χαρακτήρας.
Κανονικοποίηση ζώνης νομίσματος/ώρας, SCD II για χρήστες/παιχνίδια/παρόχους.

4) Αλγόριθμοι και μετρήσεις

Με τον δάσκαλο

Αλγόριθμοι: LogReg, XGBoost/LightGBM/CatBoost, TabNet; για κατάταξη - LambdaMART/GBDT· χρονοσειρά - Προφήτης/ETS/Gradient Boosted TS.
Μετρήσεις: ROC- AUC/PR- AUC, F1 @ λειτουργικό όριο, KS (κίνδυνος), NDCG/MAP @ K (συστάσεις), MAPE/WAPE (προβολές), αναμενόμενο κόστος με βάρη FP/FN.

Χωρίς δάσκαλο

Ομαδοποίηση: k-μέσα/ΓΤΜ (αριθμός συστάδων - αγκώνας/σιλουέτα), HDBSCAN (πυκνότητα).
Ανωμαλίες: Δάσος απομόνωσης/LOF/AutoEncoder. μετρήσεις - ακρίβεια @ k στη σήμανση εμπειρογνωμόνων, AUCPR για τις συνθετικές ανωμαλίες.
Διάσταση: PCA/UMAP για σχεδιασμό χαρακτηριστικών και απεικονίσεις.

5) Συνδυασμένες προσεγγίσεις

Ημιεπιθεωρημένες: ψευδο-φυσαλίδες για το μέρος των μη κατανεμημένων δεδομένων (αυτοεκπαίδευση), ρύθμιση συνέπειας.
Αυτοεπαγρύπνηση: αντιπαραβολή/μασκοφόρες εργασίες (ενσωμάτωση συνεδρίας/παιχνιδιού) → χρήση σε μεταγενέστερο στάδιο στην εποπτεία.
Ενεργός μάθηση: το σύστημα προσφέρει τη σήμανση των υποψηφίων (μέγιστη αβεβαιότητα/ποικιλομορφία) → σώζει το έργο των εμπειρογνωμόνων της AML/της RG.
Αδύνατη εποπτεία: heuristics/κανόνες/μακρινή μορφή σήμανσης «αδύναμη» και στη συνέχεια βαθμονομούνται.

6) Διαδικασία: από το offline στο online surfing

1. Offline: συλλογή/προετοιμασία → διαίρεση ανά χρόνο/αγορές → κατάρτιση/επικύρωση → backtest.
2. Σημασιολογία μέτρησης: ομοιόμορφοι τύποι (για παράδειγμα, churn_30d) και σταθερά χρονικά παράθυρα.
3. Feature Store: ενιαίοι τύποι χαρακτηριστικών online/offline δοκιμές συμμόρφωσης.
4. Online surfing: gRPC/REST τελικά σημεία, SLA κατά καθυστέρηση, AB routing/canary releases.
5. Παρακολούθηση: μετατόπιση δεδομένων/πρόβλεψης (PSI/KL), καθυστέρηση p95, σφάλμα μέτρησης επιχειρήσεων, προειδοποιήσεις.

7) Προστασία της ιδιωτικής ζωής και συμμόρφωση

ελαχιστοποίηση PII: ψευδωνυμοποίηση, απομόνωση χαρτογράφησης, CLS/RLS.
Κατοικία: μεμονωμένοι αγωγοί/κλειδιά κρυπτογράφησης ανά περιφέρεια (ΕΟΧ/ΗΒ/BR).
DSAR/RTBF: διαγραφή/επεξεργασία χαρακτηριστικών και αρχείων καταγραφής· διατηρεί τους νομικούς λόγους για τις εξαιρέσεις.
Νομικό υπόστεγο: Έρευνα παγώματος/αναφορά αντικειμένων.
Δίκαιη μεταχείριση: Χαρακτηριστικό πληρεξουσίου ελέγχου, εκθέσεις επιπτώσεων (SHAP), πολιτική παρέμβασης της RG.

8) Οικονομικά και παραγωγικότητα

Το κόστος υπολογισμού του χαρακτηριστικού (κόστος/χαρακτηριστικό) και των συμπερασμάτων (κόστος/αίτημα).
Υλοποίηση μη γραμμικών συγκεντρωτικών στοιχείων. σε απευθείας σύνδεση - μόνο κρίσιμα παράθυρα.
Αποθήκευση των αποτελεσμάτων αδειών/βαθμολόγησης για σύντομο TTL, ασύγχρονες αναζητήσεις με χρονοδιαγράμματα.
Ποσοστώσεις και προϋπολογισμοί για επαναλήψεις/backtests φόρτιση με εντολή/μοντέλο.

9) Παραδείγματα (θραύσματα)

9. 1 Χρονική επιλογή για churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Ανωμαλίες πληρωμών (ψευδοκώδικας, δάσος απομόνωσης)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 Κατάτμηση k-μέσων (RFM + είδη)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Όριο κόστους για δυαδικό μοντέλο

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Αξιολόγηση, επικύρωση και πειράματα

Offline: χρονική διάσπαση (αμαξοστοιχία/val/δοκιμή ανά χρόνο/αγορές), αναδρομική δοκιμή, εμπιστοσύνη bootstrap.
Online: A/B/n, διαδοχικές δοκιμές, CUPED/diff-in-diff.
Εκτός πολιτικής: IPS/DR για τις πολιτικές εξατομίκευσης.
Βαθμονόμηση: Platt/Isotonic για σωστές πιθανότητες.
Έλεγχος αποικοδόμησης: ειδοποιήσεις από επιχειρηματικές μετρήσεις και PR- AUC/KS.

11) RACI

R (Υπεύθυνη): Επιστήμη δεδομένων (μοντέλα/πειράματα), MLOp (πλατφόρμα/σερβίρισμα), Eng δεδομένων (χαρακτηριστικά/αγωγοί).
A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
C (Ζητήθηκε η γνώμη): Συμμόρφωση/ΥΠΔ (PII/RG/AML), Ασφάλεια (KMS/μυστικά), SRE (SLO/αξία), Χρηματοδότηση (ROI).
I (Ενημερωμένο): Προϊόν/Εμπορία/Δραστηριότητες/Υποστήριξη.

12) Χάρτης πορείας για την εφαρμογή

MVP (4- 6 εβδομάδες):

1. Κατάλογος στόχων/σημάτων και σημάτων (churn_30d, propensity_7d, risk_rg).

2. Feature Store v1 (χαρακτηριστικά 5-10), βασικά μοντέλα XGBoost, offline metrics dashboards.

3. Κατάτμηση k-μέσων (8 συστάδων) + περιγραφή τμημάτων· Απομόνωση Δάσος για πληρωμές.

4. Επιγραμμικό σερφάρισμα με κρύπτη, p95 <150 ms. A/B για το 10-20% της κυκλοφορίας.

Φάση 2 (6- 12 εβδομάδες):

Ενεργό/ημιεπιθεωρημένο για την επισήμανση της σπανιότητας (AML/RG), αυτοεπιθεωρημένα ενσωματώματα παιχνιδιών/συνεδριών.
Εκπομπές καναρινιών, παρασυρόμενη παρακολούθηση, αυτόματη επανεκπαίδευση.
Ένα μόνο σημασιολογικό στρώμα μετρήσεων και επιγραμμικό/offline χαρακτηριστικό αντιστοίχισης.

Φάση 3 (12- 20 εβδομάδες):

πινακίδες γραφήματος και δακτύλιοι απάτης· μοντέλα πριμοδότησης ανύψωσης.
Πολυπεριφερειακές υπηρεσίες, ποσοστώσεις/χρέωση· Αρχείο εκδόσεων του WORM.
Έλεγχος της αμεροληψίας, προσομοιώσεις ακραίων καταστάσεων, συμβάντα με τρέχοντα βιβλία.

13) Κατάλογος ελέγχου πριν από την πώληση

Δοκιμές δειγματοληψίας και αντι-διαρροής από σημείο σε χρόνο.
Βαθμονόμηση πιθανότητας· Επιλέξτε το αναμενόμενο όριο κόστους.
Υποδείγματα καρτών (ιδιοκτήτης, δεδομένα, μετρήσεις, κίνδυνοι, δικαιοσύνη).
Feature Store Online/Offline Compliance Test.
Παρακολούθηση μετατόπισης/καθυστέρησης/σφάλματος, προειδοποιήσεις και αυτόματη ανατροπή.
πολιτικές PII/DSAR/RTBF/Legal Hold· η καταγραφή είναι απρόσωπη.
Υπολογισμός του σχεδίου Α/Β και της στατιστικής ισχύος. Το rollback runbook είναι έτοιμο.

14) Αντι-μοτίβα

Ανάμειξη νέων συμβάντων σε ετικέτες (διαρροή) και απουσία σημείου σε χρόνο.
«Ένα μοντέλο για όλους» αντί για αποσύνθεση τομέα.
Ορισμένες συγκεντρωμένες πιθανότητες → εσφαλμένα επιχειρηματικά όρια.
Τυφλή πτήση: καμία επιγραμμική παρασυρόμενη/ποιοτική παρακολούθηση.
Υπεραντιστάθμιση σε απευθείας σύνδεση (βαρείς εξωτερικές συνδέσεις χωρίς κρύπτη και χρονοδιαγράμματα).
Τμήματα χωρίς επιχειρηματική διερμηνεία και ιδιοκτήτη.

15) Η τελική γραμμή

Η εποπτευόμενη μάθηση παρέχει μετρήσιμη πρόγνωση και διαχείριση κινδύνου/εισοδήματος. χωρίς δάσκαλο - δομή και σήματα όπου δεν υπάρχουν σημάδια. Ο συνδυασμός τους (ημι/αυτοεπιθεωρείται, ενεργός μάθηση) στον τομέα της πειθαρχίας των δεδομένων (point-in-time, feature store), της συμμόρφωσης και των MLOp δίνει στην πλατφόρμα iGaming σταθερή αύξηση των καθαρών εσόδων, μείωση της απάτης και έγκαιρες παρεμβάσεις των RG - με δυνατότητα αναπαραγωγής, έλεγχο του κόστους και ετοιμότητα για έλεγχο.

Διδασκαλία με και χωρίς δάσκαλο

Χωρίς επίβλεψη

Χωρίς δάσκαλο

Επικοινωνήστε μαζί μας

Γρήγορη επικοινωνία

Το βίντεο θα ενημερωθεί σύντομα

Αυτή τη στιγμή είμαστε πολύ απασχολημένοι με έργα