Adaptiv model təlimi

1) Nə üçün adaptasiya

Dünya buraxılış dövrlərindən daha sürətli dəyişir. Adaptiv təlim modelə tam montaj olmadan yeni məlumatlara/rejimlərə uyğunlaşmağa imkan verir: keyfiyyəti qorumaq, sürüklənmə reaksiyasını azaltmaq və sahiblik xərclərini azaltmaq.

Məqsədlər:

Sabit keyfiyyət sürüklənərkən source, feature, label, concept.
Sürüşmə aşkarlanması və parametrlərin yenilənməsi arasında minimum gecikmə.
Nəzarət olunan dəyər və risklər (privacy/fairness/təhlükəsizlik).

2) Drift növləri və siqnalları

Data (covariate) drift: X paylanması dəyişdi.
Label drift: sinif tezliyi/labeling siyasəti.

Concept drift: asılılıq P (y	X) dəyişdi (yeni səbəb reallığı).
Context drift: mövsümlük, kampaniya, tənzimləyici, region.

Siqnallar: PSI/JS/KS, kalibrləmə monitorinqi, holdout/proksizamerlərdə metrlərin düşməsi, insan overradlarının payının artması, şikayət/hadisələrdə lehimləmə.

3) Adaptasiya başlanğıc tetikleyicilər

Eşik: PSI> X, p-value <α, kalibrləmə sinxronlaşdırılmışdır.
Müvəqqəti: gündəlik/həftəlik/sürüşmə pəncərələri.
Hadisə: məhsulun yeni versiyası, qiymət, bazara çıxışı.
İqtisadi: cost-to-error/zərər payı> limit.

Triggers policy-as-code kimi kodlanır və review keçir.

4) Adaptiv öyrənmə arxetipləri

1. Batch re-train (pəncərə yenidən hazırlanması): sadə və etibarlı; yavaş reaksiya verir.
2. Incremental/online learn: axın tərəzi yeniləmə; dərhal, lakin unutmaq riskləri.
3. Warm-start fine-tune: keçmiş modellə başlanğıc, təzə pəncərədə əlavə təlim.
4. PEFT/LoRA/Adapters (LLM/vektorlar): tam FT olmadan sürətli dar yeniləmələr.
5. Distillation/Teacher → Student: memarlıq/domen dəyişikliyi zamanı biliklərin ötürülməsi.
6. Domain adaptation/transfer: baza dondurulması + nazik «baş» konfiqurasiya.
7. Meta-learning/Hypernets: az sayda nümunə ilə yenidən hazırlığı sürətləndirir.
8. Bandits/RL: mühitin cavabına cavab olaraq siyasətin uyğunlaşdırılması.
9. Federated learning: xam məlumatların ixracı olmadan personalizasiya.

5) Məlumat rejimləri üzrə strategiyalar

Streaming: online optimallaşdırıcılar (SGD/Adam/Adagrad), EMA tərəzi, sürüşmə pəncərələri, anti-unudulması üçün rehearsal bufer.
Mikro batches: müntəzəm mini-fit (saat/gün), early-stop validasiya.
Batch Windows: rolling 7/14/30d domain, nadir siniflər üçün təbəqələşmə.
Few-shot: LLM üçün PEFT/Adapters, prompt-tuning, retrieval-insert.

6) Fəlakətli unudulma nəzarəti

Rehearsal (keçmiş məlumatların istinad nümunəsi).
Regularization: EWC/LwF/ELR - əvvəlki əhəmiyyətlərdən uzaqlaşmaq üçün cərimə.
Distillation: KLD lövbər data keçmiş model.
Mixture-of-Experts/condition on context: seqmentlər üzrə müxtəlif mütəxəssislər.
Freeze- & -thaw: bazanın dondurulması, üst təbəqələrin əlavə öyrənilməsi.

7) Personallaşdırma və seqmentləşdirmə

Global + Local heads: ümumi baza, seqment «başları» (region/kanal/VIP).
Per-user adapters/embeddings: istifadəçi altında asan yaddaş.
Kontekstə Gating: trafikin ən yaxşı mütəxəssisə marşrutlaşdırılması (MoE/routers).
Fairness-guard: Personalizasiya qrup paritetini pisləşdirməməlidir.

8) Active Learning (insan-kontur)

Nişan tələb strategiyaları: maksimum qeyri-müəyyənlik, margin/entropy, core-set, disagreement committee.
Büdcələr və müddətlər: günlük işarələmə kvotaları, SLA cavab.
Nişanların qəbulu: annotatorların razılığına nəzarət, kiçik qızıl testlər.
Dövrün qapanması: Yeni həqiqi etiketlərdə dərhal əlavə öyrənmə.

9) Optimallaşdırıcıların və cədvəllərin seçilməsi

Online: decay, clip-grad, EMA parametrləri ilə Adagrad/AdamW.
Schedules: cosine restarts, one-cycle, warmup→decay.
Cədvəllər üçün: incremental GBDT (ağacların yenilənməsi/ağacların əlavə edilməsi).
LLM üçün: aşağı lr, tapşırıq altında LoRA rank, qaydalara uyğun olaraq keyfiyyətə nəzarət.

10) Adaptasiya üçün məlumatlar

Online bufer: təzə müsbət/mənfi hallar, sinif balansı.
Reweighting: importance weighting при covariate drift.
Hard-examples mining: ağır səhvlər prioritet.
Data contracts: sxemlər/keyfiyyət/PII maskaları - prod axını üçün eynidir.

11) Adaptiv rejimdə keyfiyyətin qiymətləndirilməsi

Pre-/Post-lift: A/B və ya interpretable kvazi-eksperiment.
Rolling validation: müvəqqəti split, out-of-time test.
Guardrails: kalibrləmə, toxicity/abuse, təhlükəsiz inam həddi.
Worst-segment tracking: yalnız orta deyil, ən pis seqmentin monitorinqi.
Staleness KPI: son uğurlu adaptasiyadan bəri vaxt.

12) MLOps: proses və artefaktlar

Model Registry: versiya, tarix, məlumat pəncərəsi, hash fich, hiper, artefaktlar (PEFT).
Data Lineage: mənbələrdən feature store-a qədər; tədris dilimlərinin dondurulması.
Pipelines: DAG для fit→eval→promote→canary→rollout, с auto-revert.
Shadow/Canary: real trafik prod versiyası qarşı müqayisə.
Observability: latency/cost, drift, fairness, safety, override-rate.
Release policy: kim və hansı metrik «promote» basın.

13) Təhlükəsizlik, məxfilik, hüquqlar

PII minimallaşdırma və maskalama, xüsusilə axın tamponlarında.
Privacy-preserving adaptasiyası: FL/secure aggregation, DP klipləri/həssas domenlər üçün səs-küy.
Etika: yüksək riskli həllərdə avtoadapt qadağaları (human-in-the-loop tələb olunur).
Biliklərin kənarlaşdırılması: distillə vasitəsilə sızmalara nəzarət/quraşdırılmış açar-tələlər.

14) İqtisadiyyat və SLO adaptasiyaları

SLA yeniləmələri: məsələn, TTA (time-to-adapt) ≤ sürüklənərkən 4 saat.
Budget guardrails: GPU-saat/gün limitləri, egress/saxlama cap.
Cost-aware siyasəti: gecə pəncərələri, kritik modellərin prioriteti, tam FT əvəzinə PEFT.
Cache/Retriever: LLM üçün - tam təlim olmadan groundedness artırın.

15) Antipattern

«Həmişə və hər yerdə öyrənmək»: nəzarətsiz online-fit → uçuruma sürüklənmək.
rehearsal/regularization yoxdur: fəlakətli unudulma.
No offline/online eval: «göz» buraxılışlar.
Şikayət/apellyasiya şikayətlərində yenidən təlim: təcavüzkarlar tərəfindən rəylərin istismarı.
Domenlərin qarışması: routing olmadan köklü fərqli seqmentlər üçün vahid model.
Sıfır izləmə: yenidən öyrəndiyiniz şeyi oynaya bilməzsiniz.

16) Tətbiqi yol xəritəsi

1. Discovery: sürüklənmə xəritəsi, seqmentlər, kritik metriklər və risklər; rejimi seçin (batch/online/PEFT).
2. Monitorinq: PSI/kalibrləmə/business guardrails; alertlər və panellər.
3. MVP adaptasiyası: rolling window + warm-start; canary + auto-revert.
4. Təhlükəsizlik/priv: maskalar, lazım olduqda FL/DP; log auditi.
5. Active Learning: büdcə və SLA ilə nişan loop.
6. Scale: seqment başları/MoE, rehearsal-tamponlar, distillə.
7. Optimizasiya: PEFT/LoRA, cost-aware cədvəli, meta-təlim, avtomatik trigger seçimi.

17) Avtomatik adaptasiya başlamazdan əvvəl çek siyahısı

Tetik (PSI/metrik), eşik və pəncərələr, ovner və eskalasiya kanalı müəyyən edilmişdir.
offline eval və online canary/shadow var; guardrail metrika və promote meyarları.
rehearsal/distillation/unutma qarşı nizamlama daxildir.
Version data/çəki/PEFT-delta; window snapshot saxlanılır.
Tətbiq privacy/PII siyasətləri; buferlərə giriş auditi.
Resursların büdcələri və limitləri; təcili stop və auto-rollback.
Sənədləşmə: Model Card (yenilənmiş tətbiq zonası), runbooks hadisələri.

18) Mini şablonlar (psevdo-YAML/kod)

Avtoadaptasiya siyasəti

yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}

Online yeniləmə (eskiz)

python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()

Active Learning növbəsi

yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true

19) Yekun

Adaptiv model təlimi «məşqin yenidən başlaması» deyil, mühəndis konturudur: sürüklənmə deteksiyası → təhlükəsiz və qənaətli adaptasiya → keyfiyyət və ədalət testi → ani geri dönüş imkanı ilə nəzarət olunan buraxılış. Monitorinq, PEFT/online strategiyaları, rehearsal anti-unudulma və ciddi guardrails birləşdirərək, məlumatlarla birlikdə etibarlı şəkildə dəyişən və ölçülebilir fayda gətirməyə davam edən modellər əldə edəcəksiniz.

Adaptiv model təlimi

Online yeniləmə (eskiz)

Active Learning növbəsi

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq