GH GambleHub

Αγωγοί AI και αυτοματοποίηση κατάρτισης

1) Σκοπός και αρχές

Σκοπός: είναι αξιόπιστος και αναπαράγεται για να μετατρέψει δεδομένα χαρακτηριστικά μοντέλα αποφάσεις ανάδρασης, με τον ελάχιστο χρόνο προς αξία και τον έλεγχο του κινδύνου/κόστους.

Αρχές:
  • Αγωγός ως κώδικας: τα πάντα (DAG, συνθέσεις, δοκιμές, πολιτικοί) - στο Git, μέσω δημοσίων σχέσεων και αναθεώρησης.
  • Προσδιορισμός: σταθερές εκδόσεις δεδομένων/κωδικών/εμπορευματοκιβωτίων/εξαρτήσεων.
  • Διαχωρισμός ανησυχιών: DataOps, FeatureOps, TrainOps, DeployOps, Ops.
  • Φύλαξη αυτοματισμού: αυτοματοποιούμε, αλλά με «πύλες» ποιότητας, ασφάλειας και συμμόρφωσης.
  • Privacy by Design: ελαχιστοποίηση PII, κατοικία, έλεγχος.

2) Μεταφορικά στρώματα και αρχιτεκτονική

1. Insumping & Bronze: αξιόπιστη λήψη συμβάντων/παρτίδων (CDC, ελαστικά, retrays, DLQ).
2. Ασήμι (ομαλοποίηση/εμπλουτισμός): SCD, νομίσματα/χρόνος, εκκαθάριση, αφαίρεση.
3. Χρυσός (καταστήματα): πίνακες και σύνολα δεδομένων για την κατάρτιση/υποβολή εκθέσεων.
4. Feature Store: ενιαίοι τύποι για επιγραμμικά/offline χαρακτηριστικά, εκδόσεις και SLO.
5. Αμαξοστοιχία & επικύρωση: προετοιμασία δειγμάτων, εκπαίδευση, βαθμονόμηση, πύλες αξιολόγησης/ελέγχου.
6. Μητρώο & Προώθηση: μητρώο μοντέλων, κάρτες ποιότητας, πολιτική προώθησης.
7. Σερβίροντας: REST/gRPC/Παρτίδα, κρύπτες, σημαίες χαρακτηριστικών, καναρίνι/σκιά.
8. Παρακολούθηση & ανατροφοδότησης: SLI/SLO, μετατόπιση/βαθμονόμηση, επιγραμμικές ετικέτες, αυτόματη επανεκκίνηση.


3) Ενορχήστρωση: μοτίβα DAG

Ημερήσια CT (D + 1): νυχτερινός κύκλος δεδομένων χαρακτηριστικά εκπαίδευσης επικύρωσης υποψήφιου μητρώου.
Επανεκκίνηση οχήματος: ενεργοποίηση για μετατόπιση ή απελευθέρωση κυκλώματος PSI/ECE/αναμενόμενου κόστους.
Κυλιόμενα παράθυρα: εβδομαδιαία/μηνιαία επανεκπαίδευση με «συρόμενο παράθυρο» δεδομένων.
Blue/Green Articacts: όλα τα τεχνουργήματα είναι αμετάβλητα (hash), παράλληλες εκδόσεις.
Διπλή γραφή v1/v2: σχήματα/χαρακτηριστικά μεταναστεύσεις μέσω διπλής γραφής και σύγκρισης ισοδυναμίας.

Παράδειγμα ροής αέρα (μικρογραφία):
python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest.sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf.yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates.yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4) Σύνολα δεδομένων και δείγματα

point-in-time join και «no future» for feature/labels.
Στρωματοποιημένες από αγορές/ενοικιαστές/χρόνο, καθυστέρηση και «κενό» για διαρροές.
Έκδοση: 'data _ version', 'logic _ version', 'asof _ date'. Στιγμιότυπα WORM.


5) Feature Store και επιγραμμική/επιγραμμική ισοδυναμία

Ενοποιημένες προδιαγραφές χαρακτηριστικών (ονομασία, τύπος, ιδιοκτήτης, SLO, δοκιμές).
Online = offline: κοινός κώδικας μετασχηματισμού, δοκιμή ισοδυναμίας (MAE/MAE).

TTL και μνήμη: παράθυρα 10m/1h/1d· χρονοδιαγράμματα/υποχωρήσεις· Folbacks «last_known_good.»

Speca fici (YAML):
yaml name: bets_sum_7d owner: ml-risk offline: {source: silver.fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0.5 slo: {latency_ms_p95: 20, availability: 0.999}

6) Αυτοματοποίηση κατάρτισης (CT) και πύλες ποιότητας

Κύκλος CT: προετοιμασία → κατάρτιση → βαθμονόμηση → αξιολόγηση → καταχώριση του υποψηφίου.

Πύλες (παράδειγμα):
  • Εκτός γραμμής: δείκτης αναφοράς PR- AUC ≥ − δ· ECE ≤ 0. 05; όριο αναμενόμενου κόστους ≤.
  • Φέτα/Δικαιοσύνη: πτώση των μετρήσεων σε οποιαδήποτε φέτα ≤ Y%; Ο ανόμοιος αντίκτυπος είναι φυσιολογικός.
  • Χαρακτηριστικό ισοδυναμίας: περίπου.
  • Κόστος: χρόνος/πόροι ≤ προϋπολογισμός.
Πύλες ρύθμισης (YAML):
yaml gates:
pr_auc_min: 0.42 ece_max: 0.05 expected_cost_delta_max: 0.0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0.5

7) Πρότυπο μητρώο και προώθηση

Υπόδειγμα κάρτας: δεδομένα, παράθυρα, χαρακτηριστικά, μετρήσεις εκτός/σε απευθείας σύνδεση, βαθμονόμηση, κίνδυνοι, ιδιοκτήτης.
Στάδια: 'Staging → Production → Archived'. προώθηση μόνο μέσω αποδεδειγμένων πυλών.
Πολιτική ανατροπής: διατήρηση της ≥N των πλέον πρόσφατων εκδόσεων παραγωγής· ένα κλικ rollback.


8) CI/CD/CT: πώς να συνδεθείτε

CI (κωδικός/δοκιμές): μονάδα/ολοκλήρωση/δοκιμές σύμβασης, χιτώνια, σαρώσεις ασφαλείας.
CD (σερβίρισμα): Docker/K8s/Helm/feature σημαίες, καναρίνι/σκιά/μπλε-πράσινο.
CT (δεδομένα/εκπαίδευση): προγραμματιστής/ενορχηστρωτής εκδηλώσεων· τεχνουργήματα → μητρώο.
Πύλες προώθησης: αυτόματη κυκλοφορία στην παραγωγή με πράσινη online SLO (σε καναρίνι ≥ X ώρες).


9) Πολλαπλή μίσθωση και κατοικία

Ενοικιαστές/περιφέρειες: μεμονωμένοι αγωγοί και κλειδιά κρυπτογράφησης (EEA/UK/BR)· η απαγόρευση των διαπεριφερειακών συνδέσεων χωρίς λόγο.
Μυστικά: KMS/CMK, Μυστικός Διευθυντής. μαρκαρισμένες ταυτότητες σε αρχεία καταγραφής.
πολιτικές DSAR/RTBF: υπολογίσιμες προβολές και επιλεκτικές επεξεργασίες σε χαρακτηριστικά και αρχεία καταγραφής· Νομικό καθεστώς για υποθέσεις.


10) Παρακολούθηση → ανάδραση → επανεκπαίδευση

SLI/SLO: καθυστέρηση p95/p99, 5xx, κάλυψη, κόστος/αίτημα· παρασυρόμενο PSI/KL, ECE, αναμενόμενο κόστος.
Επιγραμμικές ετικέτες: πληρεξούσιο (ώρα/ημέρα) και καθυστέρηση (D + 7/D + 30/D + 90).
Αυτόματες ενέργειες: επικαιροποίηση επαναβαθμονόμησης/κατωφλίου επανεκπαίδευση σκιών προώθηση καναρινιών.
Runbooks: σενάρια αποδόμησης (μετατόπιση, βαθμονόμηση, κρύπτη χαρακτηριστικών, πάροχοι).


11) Ασφάλεια, RG/AML και πολιτική λύσεων

Guardrails: προ/μετά το φίλτρο, συχνότητες καπέλων, ψύξη, λίστες απαγόρευσης.
Προστασία της πολιτικής - Υπόδειγμα λύσης φιλτράρισμα πολιτικής δράση.
Έλεγχος: 'model _ id/version', 'feature _ version', 'street', 'policy _ id', λόγοι.
Αρχείο WORM: κυκλοφορίες, εκθέσεις ποιότητας, αρχεία καταγραφής δοκιμών/προώθησης.


12) Κόστος και απόδοση

Προφίλ διαδρομής: χαρακτηριστικά (30-60%), συμπεράσματα (20-40%), IO/δίκτυο.
Πίνακες κόστους: κόστος/αίτημα, κόστος/χαρακτηριστικό, GPU/CPU-ρολόι, μικρά αρχεία.
Βελτιστοποίηση: υλοποίηση βαρέων εκτός σύνδεσης χαρακτηριστικών, μνήμη θερμού παραθύρου, INT8/FP16, ποσοστώσεις αναπαραγωγής/backfill.
Chargeback: διανέμουμε τον προϋπολογισμό ανά ομάδα/αγορά, ελέγχουμε τα «ακριβά» χαρακτηριστικά.


13) Παραδείγματα (θραύσματα)

Ροή εργασίας Argo:
yaml apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf.yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates.yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs.parameters.cmd}}"]}
Σενάριο πύλης (ψευδοκώδικας):
python ok = (pr_auc >= gate.pr_auc_min and ece <= gate.ece_max and expected_cost_delta <= gate.expected_cost_delta_max and slice_drop_pct <= gate.slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate.features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)
Πολιτική προώθησης (ιδέα):
yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14) Διαδικασίες και RACI

R (Υπεύθυνος):
  • Data Eng - Ingest/Silver/Gold, Feature Store, CDC/Backfill
  • Επιστήμη δεδομένων - δείγματα/κατάρτιση/βαθμονόμηση/πύλες
  • MLOps - orkestration/reestr/serving/nablyudayemost.
  • A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
  • C (Ζητήθηκε η γνώμη): Συμμόρφωση/ΥΠΔ (PII/RG/AML/DSAR), Ασφάλεια (KMS/Audit), SRE (SLO/Value), Χρηματοδότηση (Προϋπολογισμοί/ROI), Προϊόν.
  • I (Ενημερωμένο): Μάρκετινγκ/Δραστηριότητες/Υποστήριξη.

15) Χάρτης πορείας για την εφαρμογή

MVP (3- 6 εβδομάδες):

1. DAG «daily CT»: Bronze→Silver→Gold→Feature Store→Train→Eval→Registry (Staging).

2. Feature Store v1 και online/offline δοκιμή ισοδυναμίας.

3. Πύλες ποιότητας (PR- AUC/ECE/αναμενόμενο κόστος/φέτα).

4. Αρχείο έκδοσης μοντέλου, κάρτας και WORM.

Φάση 2 (6- 12 εβδομάδες):
  • Αυτόματη επαναβαθμονόμηση/επικαιροποίηση κατωφλίου, προώθηση καναρινιών μέσω online SLO.
  • Επανεκπαίδευση με κινητήρα συμβάντων με μετατόπιση· διπλή γραφή v1/v2 για τις μεταναστεύσεις.
  • Ταμπλό κόστους και ποσοστώσεις backfill/replay· απομόνωση πολλαπλών ενοικιαστών.
Φάση 3 (12- 20 εβδομάδες):
  • Δίκαιες πολιτικές για τις φέτες και την αυτόματη υποβολή εκθέσεων.
  • Πολυπεριφερειακή κατοικία (ΕΟΧ/ΗΒ/BR) με μεμονωμένα κλειδιά.
  • Αυτόματη επανεκπαίδευση σύμφωνα με το χρονοδιάγραμμα και τα γεγονότα, αυτόματη τεκμηρίωση των αγωγών.

16) Κατάλογος ελέγχου παράδοσης

  • Pipeline-as-Code в Git· Δοκιμές CI (μονάδα/ενσωμάτωση/συμβάσεις/ασφάλεια).
  • Το χάλκινο/ασημένιο/χρυσό και το κατάστημα χαρακτηριστικών είναι σταθερά. η ισοδυναμία είναι πράσινη.
  • Διερχόμενες πύλες εκτός σύνδεσης· το υπόδειγμα κάρτας είναι πλήρες· Δημιουργήθηκε αρχείο WORM.
  • Κανάρια ≥ 24 ώρες με πράσινους SLOs. λειτουργία rollback και kill-switch.
  • Παρασυρόμενη/ΟΕΕ/αναμενόμενο κόστος και παρακολούθηση επιγραμμικού σήματος.
  • PII/κατοικία/DSAR/RTBF/Legal Hold· Διάρθρωση ελέγχου.
  • Κόστος στον προϋπολογισμό. Η μνήμη/οι ποσοστώσεις/τα χαρακτηριστικά και τα όρια αναπαραγωγής είναι ενεργά.

17) Αντισυμβαλλόμενοι και κίνδυνοι

Χειροκίνητες βαθμίδες «μιας βολής» έξω από τον ενορχηστρωτή. Όχι ιστορία Git.
Εκπαίδευση χωρίς πύλες και κάρτες. προώθηση «με το χέρι».
Ασυνεπή επιγραμμικά/offline χαρακτηριστικά → ασυμφωνίες κατά την πώληση.
Αγνοώντας τη μετατόπιση/βαθμονόμηση/αναμενόμενο κόστος· ROC- AUC «ανά είδος» μόνο.
Έλλειψη πολιτικών διαμονής/PII· καταγραφή «ακατέργαστων» ταυτοτήτων.
Απεριόριστα backfill/replays → έκρηξη κόστους και επιπτώσεις στην SLA.


18) Η τελική γραμμή

Οι αγωγοί AI είναι ένας αγωγός αξίας, όχι ένα σύνολο φορητών υπολογιστών. Επισημοποιήστε τα στρώματα δεδομένων, το Feature Store και το CT/CI/CD, προσθέστε πύλες ποιότητας και ασφάλειας, αυτοματοποιήστε την επανεκπαίδευση παρασυρόμενη, διατηρήστε την ισοδυναμία online/offline και μια διαφανή οικονομία. Αυτό σας δίνει ένα γρήγορο, προβλέψιμο και συμβατό κύκλο δεδομένων → μοντέλου → επίδρασης που κλιμακώνεται σε όλες τις αγορές και τον χρόνο.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.