Adaptif model öğrenme
1) Neden adaptasyon
Dünya serbest bırakma döngülerinden daha hızlı değişiyor. Uyarlanabilir öğrenme, modelin tamamen yeniden oluşturulmadan yeni verilere/modlara adapte olmasını sağlar: kaliteyi korumak, sürüklenme tepki süresini azaltmak ve sahip olma maliyetini azaltmak.
Hedefler:- Kaynak, özellik, etiket, konsept sürüklenirken istikrarlı kalite.
- Kesme algılama ve parametre güncellemesi arasında minimum gecikme.
- Kontrollü maliyet ve riskler (gizlilik/adalet/güvenlik).
2) Sürüklenme türleri ve sinyalleri
Veri (kovaryat) sürüklenme: X dağılımı değişti.
Etiket sürüklenmesi: sınıf frekansları/etiketleme politikası.
Sinyaller: Özelliklere göre PSI/JS/KS, kalibrasyon izleme, holdout/proxysamers üzerindeki metriklerde düşüş, insanlar tarafından geçersiz kılmaların payında artış, şikayet/olaylarda ani artışlar.
3) Adaptasyon tetikleyicisi
Eşik: PSI> X, p-değeri <α, senkronizasyon dışı kalibrasyon.
Geçici: günlük/haftalık/sürgülü pencereler.
Etkinlik: yeni ürün sürümü, fiyatlandırma, pazara giriş.
Ekonomik: maliyet-hata/kayıp payı> limit.
Tetikleyiciler kod olarak politika olarak kodlanır ve gözden geçirilir.
4) Adaptif öğrenme arketipleri
1. Toplu yeniden tren: basit ve güvenilir; yavaş tepki veriyor.
2. Artımlı/çevrimiçi öğrenme: akıştaki ağırlıkları güncelleme; Anında, ama unutmanın riskleri.
3. Sıcak başlangıç ince ayarı: önceki modelle başlatma, yeni pencerede ek eğitim.
4. PEFT/LoRA/Adaptörler (LLM/vektörler): tam FT olmadan hızlı dar güncellemeler.
5. Damıtma/Öğretmen - Öğrenci: Mimariyi/alanı değiştirirken bilgi aktarımı.
6. Etki alanı uyarlaması/transferi: temel dondurma + "başın'ince ayarı.
7. Meta-öğrenme/Hiper ağlar: Birkaç örnekle yeniden eğitimi hızlandırın.
8. Haydutlar/RL: Çevrenin tepkisine yanıt olarak politika uyarlaması.
9. Federe öğrenme: ham verileri çıkarmadan kişiselleştirme.
5) Veri modu stratejileri
Akış: çevrimiçi optimize ediciler (SGD/Adam/Adagrad), EMA ölçekleri, sürgülü pencereler, anti-unutma için prova tamponu.
Mikro partiler: düzenli mini-fit (saat/gün), doğrulama ile erken-stop.
Toplu pencereler: Etki alanına göre 7/14/30d haddeleme, nadir sınıflar için tabakalı.
Birkaç çekim: PEFT/Adaptörler, hızlı ayarlama, LLM için alma ekleri.
6) Felaket unutma kontrolü
Prova yapıyoruz.
Düzenlilik: EWC/LwF/ELR - önceki önemden uzaklaşmanın cezası.
Damıtma: KLD'den çapa verilerinde geçmiş modele.
Uzmanların karışımı/bağlamda durum: Segmentlere göre farklı uzmanlar.
Dondur- & - çözülme: temelin dondurulması, üst tabakaların ilave eğitimi.
7) Kişiselleştirme ve segmentasyon
Global + Yerel başkanlar: ortak taban, segment başına "kafa" (bölge/kanal/VIP).
Kullanıcı başına bağdaştırıcılar/gömmeler: kullanıcı için kolay bellek.
Bağlama göre geçiş: trafiği en iyi uzmana yönlendirme (MoE/yönlendiriciler).
Adalet Muhafızları: Kişiselleştirmenin grup paritesini kötüleştirmediğinden emin olun.
8) Aktif Öğrenme (devredeki adam)
İşaretleme sorgu stratejileri: maksimum belirsizlik, marj/entropi, çekirdek küme, ihlal komitesi.
Bütçeler ve son tarihler: günlük işaretleme kotaları, yanıt SLA'ları.
İşaretleme kabulü: Ek açıklamaların rızasının kontrolü, küçük altın testleri.
Döngü kapatma: Yeni gerçek etiketler üzerinde anında ek eğitim.
9) Optimize edicilerin ve programların seçimi
Çevrimiçi: Çürüme, clip-grad, EMA seçenekleri ile Adagrad/AdamW.
Programlar: Kosinüs yeniden başlar, tek döngü, ısınma - çürüme.
Tablolar için: artan GBDT (ağaçları güncelleme/ağaç ekleme).
LLM için: düşük lr, görev için LoRA sıralaması, düzenlemelere göre kalite düşürme kontrolü.
10) Adaptasyon için veriler
Çevrimiçi tampon: taze pozitif/negatif vakalar, sınıf dengesi.
Yeniden ağırlıklandırma: önem ağırlıklandırma при kovaryat sürüklenme.
Zor örnek madenciliği: öncelikli ağır hatalar.
Veri sözleşmeleri: şemalar/kalite/PII maskeleri - üretim akışı için olduğu gibi.
11) Uyarlanabilir kalite değerlendirmesi
Ön/Post-lift: A/B veya yorumlanmış yarı-deney.
Rolling validation: zaman bölünmeleri, zaman dışı test.
Korkuluklar: kalibrasyon, toksisite/kötüye kullanım, güvenli güven eşikleri.
En kötü segment izleme: Sadece ortalama değil, en kötü segmenti izleme.
Staleness KPI: Son başarılı adaptasyondan bu yana geçen süre.
12) MLOps: Süreç ve Eserler
Model Kayıt Defteri: sürüm, tarih, veri penceresi, özellik karma, hiper, eserler (PEFT).
Veri Lineage: kaynaklardan özellik deposuna; Eğitim dilimlerinin dondurulması.
Boru Hatları: DAG для sığdırın, eval, kanaryayı teşvik edin, otomatik geri dönüşü с.
Gölge/Kanarya: Gerçek trafikte üretim versiyonuyla karşılaştırma.
Gözlemlenebilirlik: gecikme/maliyet, sürüklenme, adalet, güvenlik, geçersiz kılma oranı.
Yayın politikası: kim ve hangi metriklerin altında "teşvik et'i tıklıyor.
13) Güvenlik, gizlilik, haklar
PII minimizasyonu ve maskeleme, özellikle akış tamponlarında.
Gizlilik koruma uyarlaması: FL/güvenli toplama, hassas alanlar için DP klipleri/sesleri.
Etik: Yüksek riskli çözümlerde otoadapt yasakları (döngüde insan zorunludur).
Bilginin yabancılaşması: damıtma/yerleşik tuzak anahtarları aracılığıyla sızıntıların kontrolü.
14) Ekonomi ve SLO uyarlamaları
SLA güncellemeleri: Örneğin, TTA (uyum sağlama süresi) sürüklenirken 4 saat ≤.
Bütçe korkulukları: GPU saat/gün sınırları, çıkış/depolama sınırı.
Maliyet bilincine sahip politika: gece pencereleri, kritik modellerin önceliği, tam FT yerine PEFT.
Önbellek/retriever: LLM için - tam eğitim olmadan yerindeliğini artırmak.
15) Antipatterns
"Her zaman ve her yerde öğrenin": kontrolsüz çevrimiçi uyum - uçuruma sürüklenin.
Prova/düzenlileştirme eksikliği: katastrofik unutma.
Çevrimdışı/çevrimiçi eval yok: "by eye" bültenleri.
Şikayetler/itirazlar konusunda yeniden eğitim: Geri bildirimlerin saldırganlar tarafından kullanılması.
Etki alanı karıştırma: Yönlendirme olmadan radikal olarak farklı segmentler için tek bir model.
Sıfır izlenebilirlik: Yeniden eğittiğiniz şeyi yeniden üretemezsiniz.
16) Uygulama Yol Haritası
1. Keşif: sürüklenme haritası, segmentler, kritik metrikler ve riskler; Modu seçin (toplu/çevrimiçi/PEFT).
2. İzleme: PSI/kalibrasyon/iş korkulukları; Uyarılar ve paneller.
3. MVP adaptasyonu: yuvarlanan pencere + sıcak başlangıç; kanarya + otomatik dönüş.
4. Güvenlik/priv: maskeler, gerekirse FL/DP; denetim günlükleri.
5. Aktif Öğrenme: Bütçe ve SLA ile işaretleme döngüsü.
6. Ölçek: segmental başlıklar/MoE, prova tamponları, damıtma.
7. Optimizasyon: PEFT/LoRA, maliyet bilincine sahip programlar, meta-öğrenme, otomatik tetikleyici seçimi.
17) Otomatik adaptasyonu etkinleştirmeden önce kontrol listesi
- Tetikleyiciler (PSI/metrikler), eşikler ve pencereler, sahip ve yükseltme kanalı tanımlanır.
- Çevrimdışı eval ve çevrimiçi kanarya/gölge var; Korkuluk-metrikler ve teşvik kriterleri.
- Prova/damıtma/düzenlileştirmeye karşı unutma dahildir.
- Veri/ağırlıklar/PEFT deltaları sürümlüdür; pencere anlık görüntüsü saklanır.
- Uygulanan gizlilik/PII politikaları; Denetim arabelleği erişimi.
- Kaynak bütçeleri ve limitleri; Acil durdurma ve otomatik geri alma.
- Belgeler: Model Kart (güncellenmiş uygulanabilirlik bölgesi), runbooks olayları.
18) Mini şablonlar (sözde YAML/kod)
İlke Otomatik Uyarlamaları
yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}
Çevrimiçi güncelleme (küçük resim)
python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()
Aktif Öğrenme Kuyruğu
yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true
19) Alt satır
Modellerin uyarlanabilir eğitimi bir "eğitimin yeniden başlatılması'değil, bir mühendislik devresidir: sürüklenme tespiti - güvenli ve ekonomik adaptasyon - kalite ve adalet testi - anında geri alma olasılığı ile kontrollü serbest bırakma. İzleme, PEFT/çevrimiçi stratejileri, unutmaya karşı prova ve sıkı korkulukları birleştirerek, verilerle güvenilir bir şekilde değişen ve ölçülebilir faydalar sağlamaya devam eden modeller elde edersiniz.