AI boru hatları ve eğitim otomasyonu
1) Amaç ve prensipler
Amaç: verileri çevirmek için güvenilir ve yeniden üretilir - özellikler - modeller - kararlar - geri bildirim, minimum zaman-değer ve risk/maliyet kontrolü ile.
İlkeler:- Pipeline-as-Code: Her şey (DAG, yapılandırmalar, testler, politikacılar) - Git'te, PR ve inceleme yoluyla.
- Determinizm: Veri/kod/konteyner/bağımlılıkların sabit versiyonları.
- Endişelerin Ayrılması: DataOps, FeatureOps, TrainOps, DeployOps, MonitorOps.
- Korumalı Otomasyon: Otomatikleştiriyoruz, ancak kalite, güvenlik ve uyumluluk "kapıları'ile.
- Tasarımla Gizlilik: PII minimizasyonu, ikamet, denetim.
2) Konveyör katmanları ve mimarisi
1. Ingest & Bronze: Etkinliklerin/partilerin güvenilir bir şekilde alınması (CDC, lastikler, retrays, DLQ).
2. Gümüş (normalleştirme/zenginleştirme): SCD, para birimleri/zaman, takas, dedup.
3. Altın (vitrinler): eğitim/raporlama için konu tabloları ve veri kümeleri.
4. Feature Store: Çevrimiçi/çevrimdışı özellikler, sürümler ve SLO için tek tip formüller.
5. Train & Validate: örnek hazırlama, eğitim, kalibrasyon, değerlendirme/kontrol kapıları.
6. Kayıt Defteri ve Promosyon: modellerin kaydı, kalite kartları, promosyon politikası.
7. Servis: REST/gRPC/Batch, özellik önbellekleri, özellik bayrakları, kanarya/gölge.
8. Monitör ve Geri Bildirim: SLI/SLO, sürüklenme/kalibrasyon, çevrimiçi etiketler, otomatik yeniden eğitim.
3) Orkestrasyon: DAG desenleri
Günlük CT (D + 1): Gece veri döngüsü - özellikler - eğitim - doğrulama - kayıt adayı.
Olay Odaklı Retrain: PSI/ECE/beklenen maliyet kayması veya devre serbest bırakılması için tetikleyici.
Rolling Windows: Verilerin "kayan pencere'ile haftalık/aylık yeniden eğitim.
Mavi/Yeşil Eserler: tüm eserler değişmez (karma), paralel sürümlerdir.
Çift yazma v1/v2: şema/özellik çift yazma ve eşdeğerlik karşılaştırması yoluyla geçişler.
python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest.sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf.yaml")
eval = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates.yaml")
reg = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg
4) Veri setleri ve örnekler
Zaman içinde birleşme ve özellik/etiketler için "gelecek yok".
Piyasalar/kiracılar/zaman, bekletme ve sızıntılar için "boşluk'tarafından katmanlaştırıldı.
Sürüm oluşturma: 'data _ version', 'logic _ version', 'asof _ date'; WORM anlık görüntüleri.
5) Özellik Mağazası ve çevrimiçi/çevrimdışı eşdeğerliği
Özelliklerin birleştirilmiş özellikleri (isim, formül, sahip, SLO, testler).
Online = offline: ortak dönüşüm kodu; Denklik testi (MAE/MAPE).
TTL ve önbellek: pencereler 10m/1h/1d; Zaman aşımları/geri çekilmeler; Folbacks "last_known_good."
Özel fici (YAML):yaml name: bets_sum_7d owner: ml-risk offline: {source: silver.fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0.5 slo: {latency_ms_p95: 20, availability: 0.999}
6) Eğitim Otomasyonu (CT) ve Kalite Kapıları
CT cycle: preparation - training - calibration - evaluation - registration of the candidate.
Gates (örnek):- Off-line: PR-AUC benchmark ≥ − δ; ECE ≤ 0. 05; Beklenen maliyet sınırı ≤.
- Dilim/Adalet: herhangi bir dilimdeki metriklerde düşüş ≤ Y %; Farklı etki normaldir.
- Eşdeğerlik özelliği: yaklaşık.
- Maliyet: Zaman/kaynaklar ≤ bütçe.
yaml gates:
pr_auc_min: 0.42 ece_max: 0.05 expected_cost_delta_max: 0.0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0.5
7) Model kayıt ve promosyon
Model kart: veri, pencereler, özellikler, kapalı/çevrimiçi metrikler, kalibrasyon, riskler, sahip.
Aşamalar: 'Evreleme - Üretim - Arşivlenmiş'; Sadece kanıtlanmış kapılar aracılığıyla promosyon.
Geri alma politikası: en son üretim sürümlerinden ≥N olun; Tek tıkla geri al.
8) CI/CD/CT: nasıl bağlanır
CI (kod/testler): birim/entegrasyon/sözleşme testleri, linters, güvenlik taramaları.
CD (hizmet): Docker/K8s/Helm/feature bayrakları, kanarya/gölge/mavi-yeşil.
CT (veri/eğitim): program/etkinlik orkestratörü; artifacts - registry.
Promosyon Kapıları: Yeşil çevrimiçi SLO ile üretimde otomatik serbest bırakma (kanarya ≥ X saatlerinde).
9) Çok kiracılık ve ikamet
Kiracılar/bölgeler: yalıtılmış boru hatları ve şifreleme anahtarları (EEA/UK/BR); Bölgeler arası birleşmeleri sebepsiz yere yasaklamak.
Sırlar: KMS/CMK, Gizli Yönetici; Günlüklerde tokenize edilmiş kimlikler.
DSAR/RTBF politikaları: özellikler ve günlüklerde hesaplanabilir projeksiyonlar ve seçici düzenlemeler; Davalar için Yasal Bekletme.
10) İzleme - geri bildirim - yeniden eğitim
SLI/SLO: gecikme p95/p99, 5xx, kapsam, maliyet/istek; Drift PSI/KL, ECE, beklenen maliyet.
Çevrimiçi etiketler: proxy (saat/gün) ve gecikmeli (D + 7/D + 30/D + 90).
Otomatik eylemler: yeniden kalibre/eşik güncelleştirme - gölge yeniden eğitim - kanarya - promosyon.
Runbook'lar: bozulma senaryoları (sürüklenme, kalibrasyon, özellik önbelleği, sağlayıcılar).
11) Güvenlik, RG/AML ve Çözüm Politikası
Korkuluklar: ön/son filtre, caps frekansları, cooldown, ban listeleri.
Policy Shielding - Model - Çözüm - Policy Filter - Eylem.
Denetim: 'Model _ id/version', 'feature _ version', 'threshold', 'policy _ id', nedenler.
WORM arşivi: yayınlar, kalite raporları, test/promosyon kayıtları.
12) Maliyet ve performans
Yol profili oluşturma: özellikler (%30-60), çıkarım (%20-40), IO/ağ.
Maliyet panoları: maliyet/istek, maliyet/özellik, GPU/CPU-saat, küçük dosyalar.
Optimizasyon: Ağır çevrimdışı özelliklerin, sıcak pencere önbelleğinin, INT8/FP16, tekrar oynatma kotalarının/geri doldurma.
Ters ibraz: Bütçeyi takıma/pazara göre dağıtıyoruz, "pahalı" özellikleri kontrol ediyoruz.
13) Örnekler (fragmanlar)
Argo İş Akışı:yaml apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf.yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates.yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs.parameters.cmd}}"]}
Kapı komut dosyası (pseudocode):
python ok = (pr_auc >= gate.pr_auc_min and ece <= gate.ece_max and expected_cost_delta <= gate.expected_cost_delta_max and slice_drop_pct <= gate.slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate.features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)
Promosyon politikası (fikir):
yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%
14) Süreçler ve RACI
R (Sorumlu):- Veri Müh - En/Gümüş/Altın, Özellik Mağazası, CDC/Geri Dolum;
- Veri Bilimi - numuneler/eğitim/kalibrasyon/kapılar;
- MLOps - orkestrasyon/reestr/serving/nablyudayemost.
- A (Sorumlu): Veri/CDO Başkanı.
- C (Danışmanlık): Uyumluluk/DPO (PII/RG/AML/DSAR), Güvenlik (KMS/Denetim), SRE (SLO/Değer), Finans (Bütçeler/ROI), Ürün.
- I (Bilgilendirilmiş): Pazarlama/Operasyon/Destek.
15) Uygulama Yol Haritası
MVP (3-6 hafta):1. DAG "günlük CT": Bronz - Gümüş - Altın - Özellik Deposu - Tren - Eval - Kayıt (Evreleme).
2. Özellik Mağazası v1 ve çevrimiçi/çevrimdışı eşdeğerlik testi.
3. Kalite kapıları (PR-AUC/ECE/beklenen maliyet/dilim).
4. Model kaydı, kart ve WORM yayın arşivi.
Faz 2 (6-12 hafta):- Otomatik yeniden kalibrasyon/eşik güncellemesi, çevrimiçi SLO aracılığıyla kanarya promosyonu.
- Sürüklenme ile olay odaklı yeniden eğitim; Göçler için çift yazmalı v1/v2.
- Maliyet panoları ve geri doldurma/tekrar oynatma kotaları; Çok kiracılı izolasyon.
- Dilimler ve otomatik raporlama ile ilgili adalet politikaları.
- Bireysel anahtarlarla çok bölgeli ikamet (EEA/UK/BR).
- Programa ve olaylara göre otomatik yeniden eğitim, boru hatlarının otomatik olarak belgelenmesi.
16) Teslimat kontrol listesi
- Pipeline-as-Code в Git; CI testleri (birim/entegrasyon/sözleşmeler/güvenlik).
- Bronz/Gümüş/Altın ve Özellik Mağazası istikrarlıdır; eşdeğerlik özelliği yeşil.
- Çevrimdışı kapılar geçti; model kart dolu; WORM arşivi oluşturuldu.
- Kanarya yeşil SLO'lar ile 24 h ≥; Geri alma düğmesi ve kill-switch işlevi.
- Drift/ECE/beklenen maliyet ve çevrimiçi etiket izleme etkinleştirildi.
- PII/residency/DSAR/RTBF/Legal Hold toplandı; denetim yapılandırıldı.
- Bütçede maliyet; Önbellek/kotalar/özellik ve tekrar oynatma sınırları etkindir.
17) Anti-kalıplar ve riskler
Orkestratörün dışında manuel,'tek atış "adımları; Git hikayesi yok.
Kapılar ve kartlar olmadan eğitim; Promosyon "elle".
Tutarsız çevrimiçi/çevrimdışı özellikler - satışta tutarsızlıklar.
Sürüklenme/kalibrasyon/beklenen maliyeti göz ardı etmek; ROC-AUC yalnızca'tür başına ".
İkamet/PII politikalarının eksikliği; "Ham" kimliklerin günlüğü.
Sınırsız doldurma/tekrarlama - maliyet patlaması ve SLA üzerindeki etkisi.
18) Alt satır
AI boru hatları, bir dizi dizüstü bilgisayar değil, bir değer boru hattıdır. Veri katmanlarını resmileştirin, Feature Store ve CT/CI/CD, kalite ve güvenlik kapıları ekleyin, sürüklenerek yeniden eğitimi otomatikleştirin, çevrimiçi/çevrimdışı eşdeğerliği ve şeffaf bir ekonomiyi koruyun. Bu size piyasalar ve zaman arasında ölçeklenebilen hızlı, öngörülebilir ve uyumlu bir veri - model - etki döngüsü sunar.