AI payplayns və təlim avtomatlaşdırılması
1) Təyinat və prinsiplər
Məqsəd: etibarlı və təkrarlanabilir data çevirmək → oyun → modellər → həllər → rəy, minimum vaxt-to-value və risk/dəyər nəzarəti ilə.
Prinsiplər:- Pipeline-as-Code: bütün (DAG, konfiqlər, testlər, siyasətlər) - Git-də, PR və revyu vasitəsilə.
- Determinism: məlumatların/kodların/konteynerlərin/asılılıqların sabit versiyaları.
- Separation of Concerns: DataOps, FeatureOps, TrainOps, DeployOps, MonitorOps.
- Guarded Automation: avtomatlaşdırılmış, lakin keyfiyyət, təhlükəsizlik və uyğunluq «gates» ilə.
- Privacy by Design: PII minimuma endirilməsi, rezidentlik, audit.
2) Laylar və konveyer arxitekturası
1. Ingest & Bronze: etibarlı hadisə/batch qəbulu (CDC, şinlər, retras, DLQ).
2. Gümüş (normallaşma/zənginləşdirmə): SCD, valyuta/vaxt, təmizləmə, deadup.
3. Gold (vitrinlər): təlim/hesabat üçün fənn cədvəlləri və datasetlər.
4. Feature Store: online/offline, versiyası və SLO vahid formulları.
5. Train & Validate: Seçmələrin hazırlanması, təlim, kalibrləmə, qiymətləndirmə/çek geytaları.
6. Registry & Promotion: model reyestri, keyfiyyət kartları, promosyon siyasəti.
7. Serving: REST/gRPC/Batch, fich caches, fich bayraqları, canary/shadow.
8. Monitor & Feedback: SLI/SLO, drift/kalibrləmə, onlayn etiket, auto-retrain.
3) Orkestrasiya: DAG nümunələri
Daily CT (D + 1): gecə məlumat dövrü → fici → təlim → validasiya → reyestr namizədi.
Event-Driven Retrain: PSI/ECE/expected-cost drift trigger və ya reliz sxemləri.
Rolling Windows: məlumat «sürüşmə pəncərəsi» ilə weekly/monthly yenidən təlim.
Blue/Green Artifacts: Bütün artefaktlar immutable (hash), paralel versiyalar.
Dual-write v1/v2: cüt qeyd və ekvivalentlik müqayisə vasitəsilə sxemləri/fic miqrasiya.
python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest.sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf.yaml")
eval = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates.yaml")
reg = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg
4) Data dəsti və nümunələr
Point-in-time join və fich/etiketlər üçün «gələcəyi yoxdur».
Sızma üçün bazarlar/tenantlar/vaxt, holdout və «gap».
Versiyası: 'data _ version', 'logic _ version', 'asof _ date'; WORM snapshotlar.
5) Feature Store və ekvivalenti online/offline
Vahid xüsusiyyətlər (ad, formula, sahibi, SLO, testlər).
Online = offline: ümumi transformasiya kodu; ekvivalentlik testi (MAE/MAPE).
TTL və cache: pəncərələr 10m/1h/1d; taymaut/retraj; folback "last_known_good".
yaml name: bets_sum_7d owner: ml-risk offline: {source: silver.fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0.5 slo: {latency_ms_p95: 20, availability: 0.999}
6) Təlim avtomatlaşdırılması (CT) və keyfiyyət geytaları
CT-dövrü: təlim → təlim → kalibrləmə → qiymətləndirmə → namizədin qeydiyyatı.
Geytalar (nümunə):- Off-line: PR-AUC ≥ bençmark − δ; ECE ≤ 0. 05; limitin ≤ expected-cost.
- Slice/Fairness: hər hansı bir slaysda metrlərin düşməsi ≤ Y%; disparate impact normal.
- Fic ekvivalentliyi: ok.
- Dəyəri: vaxt/resurslar ≤ büdcə.
yaml gates:
pr_auc_min: 0.42 ece_max: 0.05 expected_cost_delta_max: 0.0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0.5
7) Model reyestri və promosyonlar
Model kartı: verilənlər, pəncərələr, fırçalar, metriklər off/online, kalibrləmə, risklər, sahibi.
Stages: `Staging → Production → Archived`; yalnız sübut edilmiş geytlər vasitəsilə promosyon.
Geri qaytarma siyasəti: Son prodüserlərin N ≥ saxlamaq; one-click rollback.
8) CI/CD/CT: necə birləşdirmək olar
CI (kod/testlər): vahid/inteqrasiya/müqavilə testləri, linterlər, security-skanlar.
CD (xidmət): Docker/K8s/Helm/Ficha bayraqları, canary/shadow/blue-green.
CT (məlumat/təlim): cədvəl/hadisə üzrə orkestrator; artefaktlar → reyestr.
Promotion Gates: yaşıl online SLO (canary ≥ X saat) ilə auto-reliz.
9) Çox icarə və rezidentlik
Tenant/regionlar: izolyasiya payplayns və şifrələmə açarları (EEA/UK/BR); əsas olmadan regionlararası join 'oların qadağan edilməsi.
Secrets: KMS/CMK, Secret Manager; loqlarda tokenləşdirilmiş ID.
DSAR/RTBF siyasətləri: Fich və Log-da hesablanabilir proyeksiyalar və seçici redaktələr; Legal Hold cases üçün.
10) Monitorinq → geribildirim → retrain
SLI/SLO: latency p95/p99, 5xx, coverage, cost/request; PSI/KL drift, ECE, expected-cost.
Onlayn etiketlər: proxy (saat/gün) və saxlanılanlar (D + 7/D + 30/D + 90).
Avtomatik hərəkətlər: recalibration/threshold update → shadow retrain → canary → promotion.
Runbooks: deqradasiya ssenariləri (sürüklənmə, kalibrləmə, fich cache, provayderlər).
11) Təhlükəsizlik, RG/AML və həll siyasəti
Guardrails: pre/post-filter, caps tezliyi, cooldown, qadağan siyahıları.
Policy Shielding: model → həll → filter siyasəti → fəaliyyət.
Audit: 'model _ id/version', 'feature _ version', 'threshold', 'policy _ id', səbəbləri.
WORM arxivi: relizlər, keyfiyyət hesabatları, test/promosyon jurnalları.
12) Qiymət və performans
Yol profili: Fich (30-60%), Inference (20-40%), IO/şəbəkə.
Cost-dashboard: cost/request, cost/feature, GPU/CPU-saat, kiçik files.
Optimizasiya: ağır fich offline materiallaşdırma, isti pəncərələr cache, INT8/FP16, replay/backfill üçün kvotalar.
Chargeback: büdcəni komandalara/bazarlara ayırırıq, «bahalı» fişlərə nəzarət edirik.
13) Nümunələr (fraqmentlər)
Argo Workflow:yaml apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf.yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates.yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs.parameters.cmd}}"]}
Gate-skript (psevdokod):
python ok = (pr_auc >= gate.pr_auc_min and ece <= gate.ece_max and expected_cost_delta <= gate.expected_cost_delta_max and slice_drop_pct <= gate.slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate.features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)
Təbliğat siyasəti (ideya):
yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%
14) Proseslər və RACI
R (Responsible):- Data Eng — Ingest/Silver/Gold, Feature Store, CDC/Backfill;
- Data Science - nümunələr/təlim/kalibrləmə/geytalar;
- MLOps - orkestr/reyestr/servinq/müşahidə.
- A (Accountable): Head of Data / CDO.
- C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/audit), SRE (SLO/dəyər), Finance (büdcələr/ROI), Product.
- I (Informed): Marketinq/Əməliyyatlar/Dəstək.
15) Tətbiqi yol xəritəsi
MVP (3-6 həftə):1. DAG «daily CT»: Bronze→Silver→Gold→Feature Store→Train→Eval→Registry(Staging).
2. Feature Store v1 və online/offline ekvivalent testi.
3. Keyfiyyət geytaları (PR-AUC/ECE/expected-cost/slice).
4. Model reyestri, kart və WORM-relizlər arxivi.
Faza 2 (6-12 həftə):- Auto-recalibration/threshold update, canary-promotion online SLO.
- Drift Event-driven retrain; miqrasiya üçün dual-write v1/v2.
- Cost-dashboard və backfill/replay kvotaları; multi-tenant izolyasiya.
- Slaytlar və avto reportinq üzrə fairness siyasəti.
- Ayrı açarları olan çox regional rezidentlik (EEA/UK/BR).
- Avto-retrain cədvəl və hadisələr, avtogen sənədləşdirmə payplaynlar.
16) Hazırlıq yoxlama siyahısı
- Pipeline-as-Code в Git; CI testləri (birlik/inteqrasiya/müqavilələr/təhlükəsizlik).
- Bronze/Silver/Gold və Feature Store sabitdir; ekvivalentliyi fich yaşıl.
- Offline geytlər keçdi; model kartı doldurulur; WORM arxivi yaradılmışdır.
- Canary ≥ 24 saat yaşıl SLO ilə; rollback düyməsi və kill-switch işləyir.
- Drift/ECE/expected-cost və online etiketlərin monitorinqi daxildir.
- PII/rezidentlik/DSAR/RTBF/Legal Hold riayət; audit xüsusi.
- Büdcə dəyəri; cache/kvota/fich və replay limitləri aktivdir.
17) Anti-nümunələr və risklər
Orkestratordan kənarda əl, «birdəfəlik» addımlar; heç bir Git-hekayə.
Gates və kartsız təhsil; promosyon «əl».
Razılaşdırılmamış online/offline ficies → prodda uyğunsuzluqlar.
Drift ignor/kalibrləmə/expected-cost; yalnız ROC-AUC «görünüş üçün».
Rezidentlik olmaması/PII siyasəti; «xam» ID loging.
Limitsiz backfill/replies → partlayış dəyəri və SLA təsiri.
18) Yekun
AI payplayns noutbukların dəsti deyil, qiymətli konveyerdir. Məlumat qatlarını rəsmiləşdirin, Feature Store və CT/CI/CD, keyfiyyət və təhlükəsizlik geytaları əlavə edin, sürüklənməni avtomatlaşdırın, onlayn/offline ekvivalentliyi və şəffaf iqtisadiyyatı saxlayın. Beləliklə, sürətli, proqnozlaşdırıla bilən və komplayent «data → model → effekt» dövrünü alacaqsınız.