Κατάρτιση υποδείγματος
1) Σκοπός και αρχές
Στόχος της κατάρτισης είναι η απόκτηση ενός βιώσιμου, αναπαραγώγιμου και οικονομικά αποδοτικού μοντέλου που βελτιώνει τις επιχειρηματικές μετρήσεις (καθαρά έσοδα, churn↓, fraud↓), ενώ παράλληλα συμμορφώνεται με την RG/AML/Legal.
Αρχές:- : πρώτη εργασία και λειτουργικό κόστος μέτρησης/σφάλματος, στη συνέχεια σύνολο δεδομένων.
- Σημείο σε χρόνο: Κανένα χαρακτηριστικό/ετικέτα δεν χρησιμοποιεί το μέλλον.
- Αναπαραγωγιμότητα: σταθεροί σπόροι/εκδόσεις, έλεγχος τεχνουργημάτων.
- Απλότητα: ξεκινήστε με βασικά μοντέλα/χαρακτηριστικά. περιπλέκει μόνο με αποδεδειγμένο όφελος.
- Ιδιωτική ζωή εκ σχεδιασμού: ελαχιστοποίηση PII, κατοικία, έλεγχος.
2) Τυποποίηση των εργασιών και των μετρήσεων
Ταξινόμηση: churn/κατάθεση/απάτη/RG → PR- AUC, F1 @ operas. κατώτατο όριο, KS, αναμενόμενο κόστος.
Παλινδρόμηση/πρόβλεψη: LTV/GGR → WAPE/SMAPE, σφάλμα P50/P90, κάλυψη PI.
Ranking/συστάσεις: NDCG @ K, MAP @ K, κάλυψη/ποικιλομορφία.
Επιγραμμικές μετρήσεις: uplift Net Revenue, CTR/CVR, time-to-interview (RG), ποσοστό κατάχρησης.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Σύνολα δεδομένων και κατατμήσεις
Ενώνονται από σημείο σε χρόνο και μετρήσεις συμβατές με την SCD.
Ανισορροπία κλάσης: διαστρωματοποιημένη δειγματοληψία, class_weight, εστιακή απώλεια, υπερδειγματοληψία σπάνιων συμβάντων.
Χρόνος/Αγορά/Διαχωρισμοί Ενοικιαστών: Διαφορά train↔val↔test για διαρροές.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Προετοιμασία χαρακτηριστικών
Παράθυρα και μονάδες: 10m/1h/1d/7d/30d, R/F/M, ταχύτητες/κλάσματα.
Κατηγορίες: hashing/one-hot· κωδικοποίηση στόχου (γνώση χρόνου).
Κανονικοποίηση/κλιμάκωση: παράμετροι από την αμαξοστοιχία, εκτός από τα τεχνουργήματα.
Γράφημα/NLP/geo: κατασκευή παρτίδας, δημοσίευση στο Feature Store (online/offline).
5) Βασικοί αλγόριθμοι
GBDT: Το XGBoost/LightGBM/CatBoost είναι μια ισχυρή βάση δεδομένων για τα δεδομένα πίνακα.
Λογιστική παλινδρόμηση/El Net: διερμηνεία/φθηνή.
Συμβουλευτική: LambdaMART, παραγοντοποίηση, seq2rec.
Ανωμαλίες: Δάσος απομόνωσης, AutoEncoder.
Χρονολογικές σειρές: Χαρακτηριστικά του προφήτη/ETS/GBDT ανά ημερολόγιο.
6) Νομιμοποίηση και πρόληψη της επανεκπαίδευσης
GBDT: 'max _ depth', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: εγκατάλειψη/αποσύνθεση βάρους/πρόωρη διακοπή.
Πρώιμη διακοπή: με μέτρηση της φύσιγγας με υπομονή και ελάχιστη βελτίωση.
7) Επιλογή υπερπαραμέτρων
πλέγμα/τυχαίο για σχέδιο αναζήτησης· Bayesian/Υπερζώνη για λεπτή ρύθμιση.
Περιορισμοί: επαναληπτικός προϋπολογισμός/χρόνος/κόστος, «μη υπερπροσφορά» στο val (διασταύρωση με πολλαπλές διαιρέσεις χρόνου).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Βαθμονόμηση πιθανότητας
Platt/Isotonic на standout, αποθηκεύει τη λειτουργία βαθμονόμησης ως τεχνούργημα.
Ελέγξτε την ΟΕΕ/Δυνατότητα επαναπροώθησης. επαναδιαπραγμάτευση των κατώτατων ορίων με βάση το αναμενόμενο κόστος.
9) Ερμηνευτικότητα και εξηγήσεις
Παγκόσμια: σημασία χαρακτηριστικών/SHAP, συνεισφορά μεταστοιχείωσης.
Τοπικά: SHAP για μοναδιαία διαλύματα (περιπτώσεις RG/AML).
Τεκμηρίωση των κινδύνων και της δυνατότητας αποδοχής της χρήσης εξηγήσεων στο διαδίκτυο.
10) Αναπαραγωγιμότητα και τεχνουργήματα
Σπόροι παντού: δεδομένα/μοντέλο/εφαρμογή/διαίρεση.
Τεχνουργήματα: έκδοση δεδομένων, αγωγός χαρακτηριστικών, βάρη, βαθμονόμηση, κατώφλια, ρυθμίσεις.
Προσδιοριστικές κατασκευές: σταθερά δοχεία/εξαρτήσεις.
11) Πειράματα παρακολούθησης
Καταχωρούμε: git-commit, dataset/feature versions, model config, metrics (off/online), articacts and comments.
Κανόνες για την ονομασία πειραμάτων, ετικετών (τομέας/αγορά/μοντέλο).
12) Επιγραμμική μεταφορά εκτός διαδικτύου
Ενιαίος κωδικός μετασχηματισμού (Feature Store)· δοκιμή ισοδυναμίας on/offline.
Σερβίροντας: REST/gRPC, timeouts/retrays/cache. αποσύρσεις από καναρίνι/στάδιο προς στάδιο.
Κατώτατο όριο/πολιτική: διαμορφώσιμο (σημαίες χαρακτηριστικών), έλεγχος και οπισθοπορεία.
13) Παρακολούθηση και μετατόπιση
Δεδομένα/ρυθμός: PSI/KL· καταχωρίσεις σε περίπτωση υπέρβασης των ορίων.
Βαθμονόμηση και μετρήσεις: ECE, PR- AUC/KS σε ετικέτες ροής.
Μετρήσεις επιχειρήσεων: αύξηση των καθαρών εσόδων, εξοικονόμηση απάτης, παρεμβάσεις της RG, SLA.
Retrain Triggers: By Drift/Seasonality/Releases/Ημερομηνία λήξης.
14) Προστασία της ιδιωτικής ζωής, διαμονή, δικαιοσύνη
ελαχιστοποίηση PII: ψευδώνυμα, CLS/RLS, ατομικές χαρτογραφήσεις.
Κατοικία: μεμονωμένοι κατάλογοι/κλειδιά (ΕΟΧ/ΗΒ/BR)· η απαγόρευση των διαπεριφερειακών ενώσεων χωρίς λόγο.
Δικαιοσύνη: ανάλυση φέτες (ηλικία αγοράς/συσκευής/λογαριασμού), ανόμοιες επιπτώσεις, ισοσταθμισμένες αποδόσεις. διόρθωση χαρακτηριστικών/κατώτατων ορίων/βαρών.
15) Μηχανική κόστους
Κόστος εκπαίδευσης: CPU/GPU ώρες, I/O, αριθμός διαδρομών.
Κόστος συμπερασμάτων: καθυστέρηση/κόστος ανά αίτηση· όρια για τα επιγραμμικά χαρακτηριστικά και το μέγεθος του μοντέλου.
Υλοποίηση: βαριά χαρακτηριστικά - offline. σε απευθείας σύνδεση - γρήγορα, cached.
Χρέωση: Πειραματικοί/επαναληπτικοί προϋπολογισμοί.
16) Παραδείγματα (θραύσματα)
LightGBM (ταξινόμηση, σκίτσο Python):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Δειγματοληψία από σημείο σε χρόνο (ιδέα SQL):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Αναμενόμενη εκτίμηση κόστους και επιλογή κατώτατου ορίου:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Διαδικασίες και ΠΓΣ
R (Υπεύθυνη): Επιστήμη δεδομένων (μοντέλα/πειράματα), Eng δεδομένων (σύνολα δεδομένων/χαρακτηριστικά/Feature Store), MLOp (serving/monitoring/CI-CD-CT).
A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
C (Ζητήθηκε η γνώμη): Συμμόρφωση/ΥΠΔ (PII/RG/AML/DSAR), Ασφάλεια (KMS/μυστικά/λογιστικός έλεγχος), SRE (SLO/αξία), Χρηματοδότηση (ROI).
I (Ενημερωμένο): Προϊόν/Εμπορία/Δραστηριότητες/Υποστήριξη.
18) Χάρτης πορείας για την εφαρμογή
MVP (3- 6 εβδομάδες):1. Κατάλογος εργασιών και μετρήσεων (αναμενόμενο κόστος), σύνολα δεδομένων point-in-time.
2. Βασικά μοντέλα (LogReg/GBDT) + βαθμονόμηση + κάρτες μοντέλου.
3. Πειράματα εντοπισμού, σταθεροί σπόροι/τεχνουργήματα, αναπαραγώγιμες κατασκευές.
4. Canary online surfing, κατώφλια όπως config, μετρήσεις συναγερμού/μετατόπιση.
Φάση 2 (6- 12 εβδομάδες):- Επιλογή Bayesian/Hyperband, ανάλυση φέτες/δικαιοσύνη, ενεργοποιήσεις επανεκπαίδευσης.
- Οικονομικό χαρακτηριστικό/συμπέρασμα, κρύπτη/TTL, φόρτιση.
- Τεκμηρίωση τύπων μέτρησης/κατωφλίου, ποιες προσομοιώσεις.
- Πολυπεριφερειακοί αγωγοί, DR/ασκήσεις, WORM-αρχείο απελευθερώσεων.
- Αυτόματη δημιουργία εκθέσεων ποιότητας/βαθμονόμησης, αυτόματη-over-training ανά συμβάν.
- Πειράματα A/B/n με διαδοχικές δοκιμές και αυτόματη διακοπή λειτουργίας.
19) Κατάλογος ελέγχου πριν από την πώληση
- Ευθυγραμμισμένες εργασίες και μετρικές δραστηριότητες. υπολογίζεται το κόστος των σφαλμάτων.
- Χρονική στιγμή λήξης δεδομένων· Χρόνος/αγορά χωρίς λευχαιμία.
- Επιλογή/τακτοποίηση, πρόωρη διακοπή, βαθμονόμηση πιθανότητας.
- Υπόδειγμα κάρτας: δεδομένα, χαρακτηριστικά, μετρήσεις, κίνδυνοι, δικαιοσύνη, ιδιοκτήτης.
- Αποθηκεύονται αντικείμενα (βάρη, αγωγός χαρακτηριστικών, βαθμονόμηση, κατώφλια).
- Επιτυχής δοκιμή επιγραμμικής/μη επιγραμμικής ισοδυναμίας· σερφάρισμα με σημαία χαρακτηριστικών.
- Παρακολούθηση παρασυρόμενων/βαθμονομημένων/επιχειρηματικών μετρήσεων· σχέδια επανεκπαίδευσης/ανατροπής.
- Ακολουθούνται οι πολιτικές PII/DSAR/RTBF, η κατοικία και ο έλεγχος πρόσβασης.
- Το κόστος της κατάρτισης/συμπερασμάτων περιλαμβάνεται στον προϋπολογισμό. Ειδοποιήσεις SLA.
20) Αντισυμβαλλόμενοι και κίνδυνοι
Lakage: χαρακτηριστικά/ετικέτες από το μέλλον, ασυντόνιστη SCD.
Ρύθμιση «σε μπλε» σε ένα δείγμα άξονα: καμία προσωρινή διαίρεση/διασταύρωση.
Δεν υπάρχουν όρια βαθμονόμησης και κόστους.
Αναντιστοιχία online/offline: διαφορετικά αποτελέσματα στο prod.
Αγνοεί τη δικαιοσύνη/τις φέτες: κρυφές αποτυχίες σε αγορές/συσκευές.
Απεριόριστες επαναλήψεις και ακριβά χαρακτηριστικά: αυξανόμενη αξία χωρίς όφελος.
21) Η τελική γραμμή
Η κατάρτιση μοντέλου είναι μια διαχειρίσιμη διαδικασία: σαφής εργασία και μέτρηση, πειθαρχία από σημείο σε χρόνο, ευφυής ρύθμιση με τακτοποίηση, βαθμονόμηση και αναπαραγωγιμότητα, διαφανής μεταφορά στο διαδίκτυο και συνεχής παρακολούθηση της ποιότητας, του κόστους και του κινδύνου. Ακολουθώντας αυτό το βιβλίο παιχνιδιών, παίρνουμε μοντέλα που βελτιώνουν προβλέψιμα το προϊόν, τη διατήρηση και τη συμμόρφωση - γρήγορα, ηθικά και αξιόπιστα.