GH GambleHub

Conducte AI și automatizarea instruirii

1) Scop și principii

Scop: este fiabil și reprodus pentru a transforma datele → caracteristici → modele → decizii → feedback, cu timpul minim până la valoare și controlul riscului/costului.

Principii:
  • Pipeline-as-Code: totul (DAG, configurații, teste, politicieni) - în Git, prin PR și revizuire.
  • Determinism: versiuni fixe de date/cod/containere/dependențe.
  • Separarea preocupărilor: DataOps, FeatureOps, TrainOps, ImplementoyOps, MonitorOps.
  • Automatizare păzită: automatizăm, dar cu „porți” de calitate, siguranță și conformitate.
  • Confidențialitate prin design: minimizare PII, rezidență, audit.

2) Straturi transportoare și arhitectură

1. Inger & Bronze: recepție fiabilă a evenimentelor/loturilor (CDC, anvelope, retraverse, DLQ).
2. Argint (normalizare/imbogatire): SCD, valute/ora, clearing, dedup.
3. Aur (storefronturi): tabele de subiecte și seturi de date pentru instruire/raportare.
4. Feature Store: formule uniforme pentru caracteristici online/offline, versiuni și SLO.
5. Tren & Validare: pregătirea eșantionului, instruire, calibrare, evaluare/verificare porți.
6. Registry & Promovare: registru de modele, carduri de calitate, politica de promovare.
7. Servire: REST/gRPC/Lot, caracteristici cache-uri, caracteristici steaguri, canar/umbra.
8. Monitor & Feedback: SLI/SLO, drift/calibrare, etichete online, auto-recalificare.


3) Orchestrație: modele DAG

CT zilnic (D + 1): ciclu de date de noapte → caracteristici → formare → validare → candidat registru.
Event-Driven Retrain: declanșator pentru PSI/ECE/drift de așteptat-cost sau eliberare de circuit.
Rolling Windows: recalificare săptămânală/lunară cu o „fereastră glisantă” de date.
Artefacte albastre/verzi: toate artefactele sunt imuabile (hash), versiuni paralele.
Dual-write v1/v2: schema/migrarea caracteristicilor prin compararea scrierii duble și a echivalenței.

Exemplu de flux de aer (miniatură):
python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest.sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf.yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates.yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4) Seturi de date și probe

Punct-in-time se alăture și „nici un viitor” pentru caracteristică/etichete.
Stratificat de piețe/chiriași/timp, holdout și „decalaj” pentru scurgeri.
Versioning: 'data _ version', 'logic _ version', 'asof _ date'; Instantanee WORM.


5) Feature Store și echivalență online/offline

Specificații unificate ale caracteristicilor (nume, formulă, proprietar, SLO, teste).
Online = offline: cod de transformare comun; testul de echivalență (MAE/MAE).

TTL și memoria cache: ferestre 10m/1h/1d; pauze/retrageri; Folback-uri „last_known_good.”

Speca fici (YAML):
yaml name: bets_sum_7d owner: ml-risk offline: {source: silver.fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0.5 slo: {latency_ms_p95: 20, availability: 0.999}

6) Automatizarea instruirii (CT) și porțile de calitate

Ciclul CT: pregătirea → formarea → calibrarea → evaluarea → înregistrarea candidatului.

Porti (exemplu):
  • Off-line: criteriu de referinţă PR-ASC ≥ − δ; ECE ≤ 0. 05; limita de cost preconizată ≤.
  • Felie/corectitudine: scăderea valorilor în orice felie ≤ Y%; impactul disparat este normal.
  • Caracteristică de echivalență: aprox.
  • Cost: timp/resurse ≤ buget.
Porți de configurare (YAML):
yaml gates:
pr_auc_min: 0.42 ece_max: 0.05 expected_cost_delta_max: 0.0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0.5

7) Model de înregistrare și promovare

Model card: date, ferestre, caracteristici, metrici off/online, calibrare, riscuri, proprietar.
Etape: „Staging → Production → Archived”; promovare numai prin porți dovedite.
Politica de rollback: păstrați ≥N cele mai recente versiuni de producție; rollback cu un singur clic.


8) CI/CD/CT: cum se conectează

CI (cod/teste): teste de unitate/integrare/contract, lintere, scanări de securitate.
CD (servire): steaguri Docker/K8s/Helm/feature, canar/umbra/albastru-verde.
CT (date/training): orchestrator program/eveniment; artefacte → registru.
Porti de promovare: auto-lansare în producție cu verde on-line SLO (pe canar ≥ X ore).


9) Multi-chirie și rezidență

Chiriași/regiuni: conducte izolate și chei de criptare (SEE/UK/BR); interzicerea intrărilor interregionale fără motiv.
Secretele: KMS/CMK, Secret Manager; ID-uri tokenizate în jurnale.
Politici DSAR/RTBF: proiecții calculabile și modificări selective în caracteristici și jurnale; Legal Hold pentru cazuri.


10) Monitorizarea → feedback → recalificare

SLI/SLO: latență p95/p99, 5xx, acoperire, cost/cerere; drift PSI/KL, ECE, cost așteptat.
Etichete online: proxy (oră/zi) și întârziat (D + 7/D + 30/D + 90).
Auto-acțiuni: recalibrare/actualizare prag → shadow recalificare → canar → promovare.
Runbooks: scenarii de degradare (derivă, calibrare, caracteristică cache, furnizori).


11) Politica de securitate, RG/AML și soluții

Guardrails: pre/post-filtru, frecvențe capace, cooldown, liste de ban.
Policy Shielding - Model → Soluție → Filtru de politică → acțiune.
Audit: 'model _ id/version', 'feature _ version', 'prag', 'policy _ id', motive.
Arhiva WORM: versiuni, rapoarte de calitate, jurnale de testare/promovare.


12) Cost și performanță

Profilarea traseului: caracteristici (30-60%), inferență (20-40%), IO/rețea.
Cost-tablouri de bord: cost/cerere, cost/caracteristică, GPU/CPU-ceas, fișiere mici.
Optimizare: materializarea caracteristicilor offline grele, cache-ul ferestrei fierbinte, INT8/FP16, reluarea cotelor/backfill.
Chargeback: distribuim bugetul pe echipă/piață, controlăm caracteristicile „scumpe”.


13) Exemple (fragmente)

Fluxul de lucru Argo:
yaml apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf.yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates.yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs.parameters.cmd}}"]}
Script poarta (pseudocod):
python ok = (pr_auc >= gate.pr_auc_min and ece <= gate.ece_max and expected_cost_delta <= gate.expected_cost_delta_max and slice_drop_pct <= gate.slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate.features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)
Politica de promovare (idee):
yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14) Procese și RACI

R (Responsabil):
  • Date Eng - Ingera/Silver/Gold, Feature Store, CDC/Backfill;
  • Știința datelor - probe/instruire/calibrare/porți;
  • MLOps - orkestration/reestr/servire/nablyudayemost.
  • A (Responsabil): șef de date/CDO.
  • C (Consultat): Conformitate/DPO (PII/RG/AML/DSAR), Securitate (KMS/Audit), SRE (SLO/Valoare), Finanțe (Bugete/ROI), Produs.
  • I (Informat): Marketing/Operațiuni/Suport.

15) Foaia de parcurs privind implementarea

MVP (3-6 săptămâni):

1. DAG „CT de zi cu zi”: Bronze→Silver→Gold→Feature Store→Train→Eval→Registry (Staging).

2. Feature Store v1 și testul de echivalență online/offline.

3. Porţi de calitate (PR-ASC/ECE/cost preconizat/felie).

4. Registrul modelului, cardul și arhiva de lansare WORM.

Faza 2 (6-12 săptămâni):
  • Auto-recalibrare/prag actualizare, canar-promovare prin SLO on-line.
  • Recalificarea condusă de evenimente prin derivă; dual-write v1/v2 pentru migrații.
  • Cost-tablouri de bord și rambursare/reluare cote; Izolarea multi-chiriaşilor.
Faza 3 (12-20 săptămâni):
  • Politici de corectitudine pe felii și auto-raportare.
  • Rezidență multiregională (SEE/UK/BR) cu chei individuale.
  • Auto-recalificare după program și evenimente, documentație autogen de conducte.

16) Lista de verificare a livrării

  • Pipeline-as-Code в Git; Teste CI (unitate/integrare/contracte/securitate).
  • Bronze/Silver/Gold și Feature Store sunt stabile; caracteristică de echivalență verde.
  • Porțile offline au trecut; model de card este plin; Arhiva WORM creată.
  • Canare ≥ 24 de ore cu SLO-uri verzi; butonul rollback și funcția kill-switch.
  • Este activată monitorizarea drift/ECE/cost așteptat și a etichetei online.
  • PII/rezidență/DSAR/RTBF/Legal Hold sa întâlnit; audit configurat.
  • Costul în buget; cache/cote/caracteristică și limitele de reluare sunt active.

17) Anti-modele și riscuri

Manual, „one-shot” pași în afara orchestrator; Nici o poveste Git.
Instruire fără porți și cărți; promovarea „manual”.
Caracteristici inconsecvente online/offline → discrepanțe la vânzare.
Ignorarea derivei/calibrării/costului așteptat; ROC-ASC „numai pe specie”.
Lipsa politicilor de rezidență/PII; înregistrarea actelor de identitate „brute”.
Rambursare nelimitată/reluări → explozia costurilor și impactul asupra SLA.


18) Linia de jos

Conductele AI sunt o conductă de valoare, nu un set de laptopuri. Formalizați straturile de date, Feature Store și CT/CI/CD, adăugați porți de calitate și siguranță, automatizați recalificarea prin derivă, păstrați echivalența online/offline și o economie transparentă. Acest lucru vă oferă un ciclu rapid, previzibil și compatibil de date → model → efect care scalează pe piețe și timp.

Contact

Contactați-ne

Scrieți-ne pentru orice întrebare sau solicitare de suport.Suntem mereu gata să ajutăm!

Pornește integrarea

Email-ul este obligatoriu. Telegram sau WhatsApp sunt opționale.

Numele dumneavoastră opțional
Email opțional
Subiect opțional
Mesaj opțional
Telegram opțional
@
Dacă indicați Telegram — vă vom răspunde și acolo, pe lângă Email.
WhatsApp opțional
Format: cod de țară și număr (de exemplu, +40XXXXXXXXX).

Apăsând butonul, sunteți de acord cu prelucrarea datelor dumneavoastră.