მოდელების ადაპტირებული სწავლება

1) რატომ არის ადაპტირება

სამყარო უფრო სწრაფად იცვლება, ვიდრე ციკლის გამოშვება. ადაპტირებული ტრენინგი საშუალებას აძლევს მოდელებს შეცვალონ ახალი მონაცემები/რეჟიმები შეკრების სრული კალმის გარეშე: შეინარჩუნონ ხარისხი, შეამცირონ დრიფტზე რეაგირების დრო და შეამცირონ საკუთრების ღირებულება.

მიზნები:

სტაბილური ხარისხი დრაიფის დროს წყარო, feature, label, კონცეფცია.
მინიმალური ლატენტობა ცვლის გამოვლენასა და პარამეტრების განახლებას შორის.
კონტროლირებადი ღირებულება და რისკები (კერძო/უსაფრთხოების/უსაფრთხოება).

2) დრიფტებისა და სიგნალების ტიპები

Data (covariate) drift: X განაწილება შეიცვალა.
Label drift: კლასების სიხშირე/labeling პოლიტიკა.

Concept drift: დამოკიდებულება P (y	X) შეიცვალა (ახალი მიზეზობრივი რეალობა).
Context drift: სეზონური, კამპანია, მარეგულირებელი, რეგიონი.

სიგნალები: PSI/JS/KS fich- ისთვის, კალიბრაციის მონიტორინგი, holdout/proxamers- ზე მეტრიკის ვარდნა, ადამიანის მიერ ოვერრაიდების წილის ზრდა, საჩივრები/ინციდენტები.

3) ადაპტაციის დაწყების გამომწვევები

ბარიერი: PSI> X, p-value <

დროებითი: ყოველდღიური/ყოველკვირეული/მოცურების ფანჯრები.
ღონისძიება: პროდუქტის ახალი ვერსია, პრაიმერი, ბაზარზე შესვლა.
ეკონომიკური: cost-to-error/ზარალის წილი> ლიმიტი.

გამომწვევები დაშიფრულია, როგორც პოლიცია-as-code და გადის მიმოხილვას.

4) ადაპტირებული სწავლების არქეტიპები

1. Batch re-train (ფანჯრის გადამზადება): მარტივი და საიმედო; რეაგირებს ნელა.
2. Incremental/online learn: წონის განახლება ნაკადზე; მყისიერად, მაგრამ დავიწყების რისკი.
3. Warm-start fine-tune: წარსული მოდელის ინიციალიზაცია, ახალი ფანჯრის შევსება.
4. PEFT/LoRA/Adapters (LLM/ვექტორები): სწრაფი ვიწრო განახლებები სრული FT- ს გარეშე.
5. Distillation/Teacher: Student: ცოდნის გადაცემა არქიტექტურის/დომენის შეცვლისას.
6. დომენის ადაპტაცია/ტრანსფერი: ბაზის გაყინვა + „ხელმძღვანელის“ თხელი კონფიგურაცია.
7. Meta-learning/Hypernets: აჩქარებს გადამზადებას მცირე რაოდენობის მაგალითებით.
8. Bandits/RL: პოლიტიკის ადაპტაცია გარემოს რეაგირების საპასუხოდ.
9. Federated learning: პერსონალიზაცია ნედლეული მონაცემების ექსპორტის გარეშე.

5) მონაცემთა რეჟიმის სტრატეგიები

სტრიმინგი: ონლაინ ოპტიმიზატორები (SGD/Adam/Adagrad), EMA სასწორი, მოცურების ფანჯრები, rehearsal ბუფერი ანტი-დავიწყებისთვის.
მიკრო ბრძოლები: რეგულარული mini-fit (საათი/დღე), early-stop სავალდებულო.
Batch ფანჯრები: rolling 7/14/30d დომენში, სტრატიფიკაცია იშვიათი კლასებისთვის.
Few-shot: PEFT/Adapters, prompt-tuning, retrieval ჩანართები LLM- სთვის.

6) კატასტროფული დავიწყების კონტროლი

Rehearsal (წარსული მონაცემების დამხმარე ნიმუში).
რეგულირება: EWC/LwF/ELR - ჯარიმა წინა მნიშვნელობების თავიდან აცილებისთვის.
Distillation: KLD წინა წამყვანმა მოდელმა.
Mixture-of-Experts/condition on context: სხვადასხვა სეგმენტის სპეციალისტები.
Freeze & -thaw: ბაზის გაყინვა, ზედა ფენების შევსება.

7) პერსონალიზაცია და სეგმენტურობა

Global + Local Heads: საერთო ბაზა, „ხელმძღვანელები“ სეგმენტზე (რეგიონი/არხი/VIP).
Per-user adapters/embeddings: მსუბუქი მეხსიერება მომხმარებლის ქვეშ.
კონტექსტის გაშვება: ტრაფიკის როუტინგი საუკეთესო ექსპერტზე (MoE/routers).
Fairness გვარდიები: უზრუნველყოს, რომ პერსონალიზაცია არ გაუარესდეს პარიტეტს ჯგუფებად.

8) აქტიური Learning (კაცი-წრე)

მარკირების მოთხოვნის სტრატეგიები: მაქსიმალური გაურკვევლობა, margin/entropy, core-set, disagrement committee.
ბიუჯეტები და ვადები: დღის მარკირების კვოტები, SLA პასუხი.
მარკირების მიღება: პრეზენტატორთა თანხმობის კონტროლი, მცირე ოქროს ტესტები.
ციკლის დახურვა: დაუყოვნებლივი დაჭერა ახალ ჭეშმარიტ ეტიკეტებზე.

9) ოპტიმიზატორებისა და გრაფიკის არჩევა

ონლაინ: Adagrad/AdamW დღიდან, clip-grad, EMA პარამეტრებით.
Schedules: cosine restarts, one-cycle, warmup→decay.
ფირფიტებისთვის: incremental GBDT (ხეების განახლება/ხეების დამატება).
LLM- სთვის: დაბალი lr, LoRA rank დავალებისთვის, ხარისხის ნაკადის კონტროლი რეგულირებისთვის.

10) მონაცემები ადაპტაციისთვის

ონლაინ ბუფერი: ახალი პოზიტიური/უარყოფითი შემთხვევები, კლასების ბალანსი.
Reweighting: importance weighting при covariate drift.
Hard-examples mining: სერიოზული შეცდომები პრიორიტეტულია.
მონაცემთა კონტრაქტები: სქემები/ხარისხი/PII ნიღბები იგივეა, რაც საწყობის ნაკადისთვის.

11) ადაპტირებული ხარისხის შეფასება

Pre-/Post-lift: A/B ან ინტერპრეტირებული კვაზი ექსპერიმენტი.
Rolling validation: დროებითი დაყოფები, out-time ტესტი.
Guardrails: კალიბრაცია, toxicity/abuse, უსაფრთხო ნდობის ბარიერები.
Worst-segment tracking: ყველაზე ცუდი სეგმენტის მონიტორინგი და არა მხოლოდ საშუალო.
Staleness KPI: დრო წარმატებული ადაპტაციის შემდეგ.

12) MLOps: პროცესი და არტეფაქტები

Model Registry: ვერსია, თარიღი, მონაცემთა ფანჯარა, fish hash, hipers, არტეფაქტები (PEFT).
Data Lineage: წყაროებიდან მომავალი მაღაზიამდე; სასწავლო ნაჭრების გაყინვა.
Pipelines: DAG для fit→eval→promote→canary→rollout, с auto-revert.
Shadow/Canary: შედარება რეალურ ტრაფიკზე პროდ ვერსიაზე.
Observability: latency/cost, drift, fairness, safety, override-rate.
Release policy: ვინ და რა მეტრიკებით დააჭირეთ „პრომოტს“.

13) უსაფრთხოება, კონფიდენციალურობა, უფლებები

PII მინიმიზაცია და შენიღბვა, განსაკუთრებით ნაკადის ბუფერებში.
Privacy-preserving ადაპტაცია: FL/secure gregation, DP კლიპები/ხმაური მგრძნობიარე დომენებისთვის.
ეთიკა: მაღალი რისკის გადაწყვეტილებებში ავტომობილების ადაპტირების აკრძალვები (სავალდებულოა ადამიანის დაცვა).
ცოდნის გასხვისება: გაჟონვის კონტროლი დისტილაციის/ინტეგრირებული გასაღების ხაფანგების საშუალებით.

14) ეკონომიკა და SLO ადაპტაცია

SLA განახლებები: მაგალითად, TTA (time-adapt) - 4 საათი დრიფტის დროს.
Budget guardrails: GPU საათების/დღის ლიმიტები, cap egress/საცავში.
Cost-aware პოლიტიკა: ღამის ფანჯრები, კრიტიკული მოდელების პრიორიტეტი, PEFT სრული FT- ის ნაცვლად.
Kash/retriver: LLM- სთვის - ჩვენ ვზრდით groundedness- ს სრული ტრენინგის გარეშე.

15) ანტიპატერები

„ისწავლე ყოველთვის და ყველგან“: უკონტროლო ონლაინ ფიტი - უფსკრული.
rehearsal/regularization არარსებობა: კატასტროფული დავიწყება.
არ არის ოფლაინ/ონლაინ: გამოშვებები „თვალზე“.
საჩივრების/საჩივრების გადამზადება: თავდამსხმელთა მიერ უკუკავშირის ოპერაცია.
დომენების ნაზავი: ერთი მოდელი რადიკალურად განსხვავებული სეგმენტებისთვის, როუტინგის გარეშე.
ნულოვანი ტრეკირება: შეუძლებელია რეპროდუცირება, რაზეც გადამზადდა.

16) გზის განხორციელების რუკა

1. Discovery: დრიფტის რუკა, სეგმენტები, კრიტიკული მეტრიკა და რისკები; შეარჩიეთ რეჟიმი (batch/online/PEFT).
2. მონიტორინგი: PSI/კალიბრაცია/ბიზნეს guardrails; ალერტები და პანელები.
3. MVP ადაპტაცია: rolling window + warm-start; canary + auto-revert.
4. უსაფრთხოება/პრივი: ნიღბები, FL/DP საჭიროების შემთხვევაში; ლოგოების აუდიტი.
5. აქტიური Learning: მარკირების მარყუჟი ბიუჯეტით და SLA.
6. სკალი: სეგმენტის თავები/MOE, რეჰარსალური ბუფერები, დისტილაცია.
7. Optimization: PEFT/LoRA, გრაფიკის კოდი, მეტა ტრენინგი, ტრიგერების ავტომატური არჩევანი.

17) ჩეკის სია ავტო ადაპტაციამდე

განსაზღვრულია ტრიგერები (PSI/მეტრიკა), ბარიერები და ფანჯრები, owner და ესკალაციის არხი.
არსებობს offline eval და ონლაინ არხი/shadow; guardrail მეტრები და promote კრიტერიუმები.
შედის rehearsal/distillation/რეგულირება დავიწყების საწინააღმდეგოდ.
მონაცემები/წონა/PEFT დელტა ვერსია; ინახება window snapshot.
დააწესა კერძო/PII პოლიტიკა; ბუფერების წვდომის აუდიტი.
რესურსების ბიუჯეტები და შეზღუდვები; გადაუდებელი გაჩერება და auto-rollback.
დოკუმენტაცია: Model Card (განახლებული გამოყენების ზონა), runbooks ინციდენტები.

18) მინი შაბლონები (ფსევდო-YAML/კოდი)

ავტო ადაპტაციის პოლიტიკა

yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}

ონლაინ განახლება (ესკიზი)

python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()

Active Learning ჯერი

yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true

19) შედეგი

მოდელების ადაპტირებული სწავლება არ არის „ტრენინგის გადატვირთვა“, არამედ საინჟინრო წრე: დრიფტის იდენტიფიკაცია - უსაფრთხო და ეკონომიკური ადაპტაცია, ხარისხისა და სამართლიანობის შემოწმება, კონტროლირებადი გამოშვება მყისიერი დაბრუნების შესაძლებლობით. მონიტორინგთან ერთად, PEFT/ონლაინ სტრატეგიები, rehearsal დავიწყების საწინააღმდეგოდ და მკაცრი guardrails, თქვენ მიიღებთ მოდელებს, რომლებიც საიმედოდ იცვლება მონაცემებთან ერთად და აგრძელებენ გაზომილ სარგებელს.

მოდელების ადაპტირებული სწავლება

ონლაინ განახლება (ესკიზი)

Active Learning ჯერი

დაგვიკავშირდით

სწრაფი კავშირი

ვიდეო მალე განახლდება

ჩვენ ახლა ძალიან დაკავებული ვართ პროექტებით