Conducte AI și automatizarea instruirii

1) Scop și principii

Scop: este fiabil și reprodus pentru a transforma datele → caracteristici → modele → decizii → feedback, cu timpul minim până la valoare și controlul riscului/costului.

Principii:

Pipeline-as-Code: totul (DAG, configurații, teste, politicieni) - în Git, prin PR și revizuire.
Determinism: versiuni fixe de date/cod/containere/dependențe.
Separarea preocupărilor: DataOps, FeatureOps, TrainOps, ImplementoyOps, MonitorOps.
Automatizare păzită: automatizăm, dar cu „porți” de calitate, siguranță și conformitate.
Confidențialitate prin design: minimizare PII, rezidență, audit.

2) Straturi transportoare și arhitectură

1. Inger & Bronze: recepție fiabilă a evenimentelor/loturilor (CDC, anvelope, retraverse, DLQ).
2. Argint (normalizare/imbogatire): SCD, valute/ora, clearing, dedup.
3. Aur (storefronturi): tabele de subiecte și seturi de date pentru instruire/raportare.
4. Feature Store: formule uniforme pentru caracteristici online/offline, versiuni și SLO.
5. Tren & Validare: pregătirea eșantionului, instruire, calibrare, evaluare/verificare porți.
6. Registry & Promovare: registru de modele, carduri de calitate, politica de promovare.
7. Servire: REST/gRPC/Lot, caracteristici cache-uri, caracteristici steaguri, canar/umbra.
8. Monitor & Feedback: SLI/SLO, drift/calibrare, etichete online, auto-recalificare.

3) Orchestrație: modele DAG

CT zilnic (D + 1): ciclu de date de noapte → caracteristici → formare → validare → candidat registru.
Event-Driven Retrain: declanșator pentru PSI/ECE/drift de așteptat-cost sau eliberare de circuit.
Rolling Windows: recalificare săptămânală/lunară cu o „fereastră glisantă” de date.
Artefacte albastre/verzi: toate artefactele sunt imuabile (hash), versiuni paralele.
Dual-write v1/v2: schema/migrarea caracteristicilor prin compararea scrierii duble și a echivalenței.

Exemplu de flux de aer (miniatură):

python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest. sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf. yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates. yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4) Seturi de date și probe

Punct-in-time se alăture și „nici un viitor” pentru caracteristică/etichete.
Stratificat de piețe/chiriași/timp, holdout și „decalaj” pentru scurgeri.
Versioning: 'data _ version', 'logic _ version', 'asof _ date'; Instantanee WORM.

5) Feature Store și echivalență online/offline

Specificații unificate ale caracteristicilor (nume, formulă, proprietar, SLO, teste).
Online = offline: cod de transformare comun; testul de echivalență (MAE/MAE).

TTL și memoria cache: ferestre 10m/1h/1d; pauze/retrageri; Folback-uri „last_known_good.”

Speca fici (YAML):

yaml name: bets_sum_7d owner: ml-risk offline: {source: silver. fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0. 5 slo: {latency_ms_p95: 20, availability: 0. 999}

6) Automatizarea instruirii (CT) și porțile de calitate

Ciclul CT: pregătirea → formarea → calibrarea → evaluarea → înregistrarea candidatului.

Porti (exemplu):

Off-line: criteriu de referinţă PR-ASC ≥ − δ; ECE ≤ 0. 05; limita de cost preconizată ≤.
Felie/corectitudine: scăderea valorilor în orice felie ≤ Y%; impactul disparat este normal.
Caracteristică de echivalență: aprox.
Cost: timp/resurse ≤ buget.

Porți de configurare (YAML):

yaml gates:
pr_auc_min: 0. 42 ece_max: 0. 05 expected_cost_delta_max: 0. 0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0. 5

7) Model de înregistrare și promovare

Model card: date, ferestre, caracteristici, metrici off/online, calibrare, riscuri, proprietar.
Etape: „Staging → Production → Archived”; promovare numai prin porți dovedite.
Politica de rollback: păstrați ≥N cele mai recente versiuni de producție; rollback cu un singur clic.

8) CI/CD/CT: cum se conectează

CI (cod/teste): teste de unitate/integrare/contract, lintere, scanări de securitate.
CD (servire): steaguri Docker/K8s/Helm/feature, canar/umbra/albastru-verde.
CT (date/training): orchestrator program/eveniment; artefacte → registru.
Porti de promovare: auto-lansare în producție cu verde on-line SLO (pe canar ≥ X ore).

9) Multi-chirie și rezidență

Chiriași/regiuni: conducte izolate și chei de criptare (SEE/UK/BR); interzicerea intrărilor interregionale fără motiv.
Secretele: KMS/CMK, Secret Manager; ID-uri tokenizate în jurnale.
Politici DSAR/RTBF: proiecții calculabile și modificări selective în caracteristici și jurnale; Legal Hold pentru cazuri.

10) Monitorizarea → feedback → recalificare

SLI/SLO: latență p95/p99, 5xx, acoperire, cost/cerere; drift PSI/KL, ECE, cost așteptat.
Etichete online: proxy (oră/zi) și întârziat (D + 7/D + 30/D + 90).
Auto-acțiuni: recalibrare/actualizare prag → shadow recalificare → canar → promovare.
Runbooks: scenarii de degradare (derivă, calibrare, caracteristică cache, furnizori).

11) Politica de securitate, RG/AML și soluții

Guardrails: pre/post-filtru, frecvențe capace, cooldown, liste de ban.
Policy Shielding - Model → Soluție → Filtru de politică → acțiune.
Audit: 'model _ id/version', 'feature _ version', 'prag', 'policy _ id', motive.
Arhiva WORM: versiuni, rapoarte de calitate, jurnale de testare/promovare.

12) Cost și performanță

Profilarea traseului: caracteristici (30-60%), inferență (20-40%), IO/rețea.
Cost-tablouri de bord: cost/cerere, cost/caracteristică, GPU/CPU-ceas, fișiere mici.
Optimizare: materializarea caracteristicilor offline grele, cache-ul ferestrei fierbinte, INT8/FP16, reluarea cotelor/backfill.
Chargeback: distribuim bugetul pe echipă/piață, controlăm caracteristicile „scumpe”.

13) Exemple (fragmente)

Fluxul de lucru Argo:

yaml apiVersion: argoproj. io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf. yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates. yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs. parameters. cmd}}"]}

Script poarta (pseudocod):

python ok = (pr_auc >= gate. pr_auc_min and ece <= gate. ece_max and expected_cost_delta <= gate. expected_cost_delta_max and slice_drop_pct <= gate. slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate. features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)

Politica de promovare (idee):

yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14) Procese și RACI

R (Responsabil):

Date Eng - Ingera/Silver/Gold, Feature Store, CDC/Backfill;
Știința datelor - probe/instruire/calibrare/porți;
MLOps - orkestration/reestr/servire/nablyudayemost.
A (Responsabil): șef de date/CDO.
C (Consultat): Conformitate/DPO (PII/RG/AML/DSAR), Securitate (KMS/Audit), SRE (SLO/Valoare), Finanțe (Bugete/ROI), Produs.
I (Informat): Marketing/Operațiuni/Suport.

15) Foaia de parcurs privind implementarea

MVP (3-6 săptămâni):

1. DAG „CT de zi cu zi”: Bronze→Silver→Gold→Feature Store→Train→Eval→Registry (Staging).

2. Feature Store v1 și testul de echivalență online/offline.

3. Porţi de calitate (PR-ASC/ECE/cost preconizat/felie).

4. Registrul modelului, cardul și arhiva de lansare WORM.

Faza 2 (6-12 săptămâni):

Auto-recalibrare/prag actualizare, canar-promovare prin SLO on-line.
Recalificarea condusă de evenimente prin derivă; dual-write v1/v2 pentru migrații.
Cost-tablouri de bord și rambursare/reluare cote; Izolarea multi-chiriaşilor.

Faza 3 (12-20 săptămâni):

Politici de corectitudine pe felii și auto-raportare.
Rezidență multiregională (SEE/UK/BR) cu chei individuale.
Auto-recalificare după program și evenimente, documentație autogen de conducte.

16) Lista de verificare a livrării

Pipeline-as-Code в Git; Teste CI (unitate/integrare/contracte/securitate).
Bronze/Silver/Gold și Feature Store sunt stabile; caracteristică de echivalență verde.
Porțile offline au trecut; model de card este plin; Arhiva WORM creată.
Canare ≥ 24 de ore cu SLO-uri verzi; butonul rollback și funcția kill-switch.
Este activată monitorizarea drift/ECE/cost așteptat și a etichetei online.
PII/rezidență/DSAR/RTBF/Legal Hold sa întâlnit; audit configurat.
Costul în buget; cache/cote/caracteristică și limitele de reluare sunt active.

17) Anti-modele și riscuri

Manual, „one-shot” pași în afara orchestrator; Nici o poveste Git.
Instruire fără porți și cărți; promovarea „manual”.
Caracteristici inconsecvente online/offline → discrepanțe la vânzare.
Ignorarea derivei/calibrării/costului așteptat; ROC-ASC „numai pe specie”.
Lipsa politicilor de rezidență/PII; înregistrarea actelor de identitate „brute”.
Rambursare nelimitată/reluări → explozia costurilor și impactul asupra SLA.

18) Linia de jos

Conductele AI sunt o conductă de valoare, nu un set de laptopuri. Formalizați straturile de date, Feature Store și CT/CI/CD, adăugați porți de calitate și siguranță, automatizați recalificarea prin derivă, păstrați echivalența online/offline și o economie transparentă. Acest lucru vă oferă un ciclu rapid, previzibil și compatibil de date → model → efect care scalează pe piețe și timp.

Conducte AI și automatizarea instruirii

Contactați-ne

Contact rapid

Videoclipul va fi actualizat în curând

Suntem în prezent foarte ocupați cu proiectele