Adaptiv model təlimi
1) Nə üçün adaptasiya
Dünya buraxılış dövrlərindən daha sürətli dəyişir. Adaptiv təlim modelə tam montaj olmadan yeni məlumatlara/rejimlərə uyğunlaşmağa imkan verir: keyfiyyəti qorumaq, sürüklənmə reaksiyasını azaltmaq və sahiblik xərclərini azaltmaq.
Məqsədlər:- Sabit keyfiyyət sürüklənərkən source, feature, label, concept.
- Sürüşmə aşkarlanması və parametrlərin yenilənməsi arasında minimum gecikmə.
- Nəzarət olunan dəyər və risklər (privacy/fairness/təhlükəsizlik).
2) Drift növləri və siqnalları
Data (covariate) drift: X paylanması dəyişdi.
Label drift: sinif tezliyi/labeling siyasəti.
Siqnallar: PSI/JS/KS, kalibrləmə monitorinqi, holdout/proksizamerlərdə metrlərin düşməsi, insan overradlarının payının artması, şikayət/hadisələrdə lehimləmə.
3) Adaptasiya başlanğıc tetikleyicilər
Eşik: PSI> X, p-value <α, kalibrləmə sinxronlaşdırılmışdır.
Müvəqqəti: gündəlik/həftəlik/sürüşmə pəncərələri.
Hadisə: məhsulun yeni versiyası, qiymət, bazara çıxışı.
İqtisadi: cost-to-error/zərər payı> limit.
Triggers policy-as-code kimi kodlanır və review keçir.
4) Adaptiv öyrənmə arxetipləri
1. Batch re-train (pəncərə yenidən hazırlanması): sadə və etibarlı; yavaş reaksiya verir.
2. Incremental/online learn: axın tərəzi yeniləmə; dərhal, lakin unutmaq riskləri.
3. Warm-start fine-tune: keçmiş modellə başlanğıc, təzə pəncərədə əlavə təlim.
4. PEFT/LoRA/Adapters (LLM/vektorlar): tam FT olmadan sürətli dar yeniləmələr.
5. Distillation/Teacher → Student: memarlıq/domen dəyişikliyi zamanı biliklərin ötürülməsi.
6. Domain adaptation/transfer: baza dondurulması + nazik «baş» konfiqurasiya.
7. Meta-learning/Hypernets: az sayda nümunə ilə yenidən hazırlığı sürətləndirir.
8. Bandits/RL: mühitin cavabına cavab olaraq siyasətin uyğunlaşdırılması.
9. Federated learning: xam məlumatların ixracı olmadan personalizasiya.
5) Məlumat rejimləri üzrə strategiyalar
Streaming: online optimallaşdırıcılar (SGD/Adam/Adagrad), EMA tərəzi, sürüşmə pəncərələri, anti-unudulması üçün rehearsal bufer.
Mikro batches: müntəzəm mini-fit (saat/gün), early-stop validasiya.
Batch Windows: rolling 7/14/30d domain, nadir siniflər üçün təbəqələşmə.
Few-shot: LLM üçün PEFT/Adapters, prompt-tuning, retrieval-insert.
6) Fəlakətli unudulma nəzarəti
Rehearsal (keçmiş məlumatların istinad nümunəsi).
Regularization: EWC/LwF/ELR - əvvəlki əhəmiyyətlərdən uzaqlaşmaq üçün cərimə.
Distillation: KLD lövbər data keçmiş model.
Mixture-of-Experts/condition on context: seqmentlər üzrə müxtəlif mütəxəssislər.
Freeze- & -thaw: bazanın dondurulması, üst təbəqələrin əlavə öyrənilməsi.
7) Personallaşdırma və seqmentləşdirmə
Global + Local heads: ümumi baza, seqment «başları» (region/kanal/VIP).
Per-user adapters/embeddings: istifadəçi altında asan yaddaş.
Kontekstə Gating: trafikin ən yaxşı mütəxəssisə marşrutlaşdırılması (MoE/routers).
Fairness-guard: Personalizasiya qrup paritetini pisləşdirməməlidir.
8) Active Learning (insan-kontur)
Nişan tələb strategiyaları: maksimum qeyri-müəyyənlik, margin/entropy, core-set, disagreement committee.
Büdcələr və müddətlər: günlük işarələmə kvotaları, SLA cavab.
Nişanların qəbulu: annotatorların razılığına nəzarət, kiçik qızıl testlər.
Dövrün qapanması: Yeni həqiqi etiketlərdə dərhal əlavə öyrənmə.
9) Optimallaşdırıcıların və cədvəllərin seçilməsi
Online: decay, clip-grad, EMA parametrləri ilə Adagrad/AdamW.
Schedules: cosine restarts, one-cycle, warmup→decay.
Cədvəllər üçün: incremental GBDT (ağacların yenilənməsi/ağacların əlavə edilməsi).
LLM üçün: aşağı lr, tapşırıq altında LoRA rank, qaydalara uyğun olaraq keyfiyyətə nəzarət.
10) Adaptasiya üçün məlumatlar
Online bufer: təzə müsbət/mənfi hallar, sinif balansı.
Reweighting: importance weighting при covariate drift.
Hard-examples mining: ağır səhvlər prioritet.
Data contracts: sxemlər/keyfiyyət/PII maskaları - prod axını üçün eynidir.
11) Adaptiv rejimdə keyfiyyətin qiymətləndirilməsi
Pre-/Post-lift: A/B və ya interpretable kvazi-eksperiment.
Rolling validation: müvəqqəti split, out-of-time test.
Guardrails: kalibrləmə, toxicity/abuse, təhlükəsiz inam həddi.
Worst-segment tracking: yalnız orta deyil, ən pis seqmentin monitorinqi.
Staleness KPI: son uğurlu adaptasiyadan bəri vaxt.
12) MLOps: proses və artefaktlar
Model Registry: versiya, tarix, məlumat pəncərəsi, hash fich, hiper, artefaktlar (PEFT).
Data Lineage: mənbələrdən feature store-a qədər; tədris dilimlərinin dondurulması.
Pipelines: DAG для fit→eval→promote→canary→rollout, с auto-revert.
Shadow/Canary: real trafik prod versiyası qarşı müqayisə.
Observability: latency/cost, drift, fairness, safety, override-rate.
Release policy: kim və hansı metrik «promote» basın.
13) Təhlükəsizlik, məxfilik, hüquqlar
PII minimallaşdırma və maskalama, xüsusilə axın tamponlarında.
Privacy-preserving adaptasiyası: FL/secure aggregation, DP klipləri/həssas domenlər üçün səs-küy.
Etika: yüksək riskli həllərdə avtoadapt qadağaları (human-in-the-loop tələb olunur).
Biliklərin kənarlaşdırılması: distillə vasitəsilə sızmalara nəzarət/quraşdırılmış açar-tələlər.
14) İqtisadiyyat və SLO adaptasiyaları
SLA yeniləmələri: məsələn, TTA (time-to-adapt) ≤ sürüklənərkən 4 saat.
Budget guardrails: GPU-saat/gün limitləri, egress/saxlama cap.
Cost-aware siyasəti: gecə pəncərələri, kritik modellərin prioriteti, tam FT əvəzinə PEFT.
Cache/Retriever: LLM üçün - tam təlim olmadan groundedness artırın.
15) Antipattern
«Həmişə və hər yerdə öyrənmək»: nəzarətsiz online-fit → uçuruma sürüklənmək.
rehearsal/regularization yoxdur: fəlakətli unudulma.
No offline/online eval: «göz» buraxılışlar.
Şikayət/apellyasiya şikayətlərində yenidən təlim: təcavüzkarlar tərəfindən rəylərin istismarı.
Domenlərin qarışması: routing olmadan köklü fərqli seqmentlər üçün vahid model.
Sıfır izləmə: yenidən öyrəndiyiniz şeyi oynaya bilməzsiniz.
16) Tətbiqi yol xəritəsi
1. Discovery: sürüklənmə xəritəsi, seqmentlər, kritik metriklər və risklər; rejimi seçin (batch/online/PEFT).
2. Monitorinq: PSI/kalibrləmə/business guardrails; alertlər və panellər.
3. MVP adaptasiyası: rolling window + warm-start; canary + auto-revert.
4. Təhlükəsizlik/priv: maskalar, lazım olduqda FL/DP; log auditi.
5. Active Learning: büdcə və SLA ilə nişan loop.
6. Scale: seqment başları/MoE, rehearsal-tamponlar, distillə.
7. Optimizasiya: PEFT/LoRA, cost-aware cədvəli, meta-təlim, avtomatik trigger seçimi.
17) Avtomatik adaptasiya başlamazdan əvvəl çek siyahısı
- Tetik (PSI/metrik), eşik və pəncərələr, ovner və eskalasiya kanalı müəyyən edilmişdir.
- offline eval və online canary/shadow var; guardrail metrika və promote meyarları.
- rehearsal/distillation/unutma qarşı nizamlama daxildir.
- Version data/çəki/PEFT-delta; window snapshot saxlanılır.
- Tətbiq privacy/PII siyasətləri; buferlərə giriş auditi.
- Resursların büdcələri və limitləri; təcili stop və auto-rollback.
- Sənədləşmə: Model Card (yenilənmiş tətbiq zonası), runbooks hadisələri.
18) Mini şablonlar (psevdo-YAML/kod)
Avtoadaptasiya siyasəti
yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}
Online yeniləmə (eskiz)
python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()
Active Learning növbəsi
yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true
19) Yekun
Adaptiv model təlimi «məşqin yenidən başlaması» deyil, mühəndis konturudur: sürüklənmə deteksiyası → təhlükəsiz və qənaətli adaptasiya → keyfiyyət və ədalət testi → ani geri dönüş imkanı ilə nəzarət olunan buraxılış. Monitorinq, PEFT/online strategiyaları, rehearsal anti-unudulma və ciddi guardrails birləşdirərək, məlumatlarla birlikdə etibarlı şəkildə dəyişən və ölçülebilir fayda gətirməyə davam edən modellər əldə edəcəksiniz.