მოდელების ადაპტირებული სწავლება
1) რატომ არის ადაპტირება
სამყარო უფრო სწრაფად იცვლება, ვიდრე ციკლის გამოშვება. ადაპტირებული ტრენინგი საშუალებას აძლევს მოდელებს შეცვალონ ახალი მონაცემები/რეჟიმები შეკრების სრული კალმის გარეშე: შეინარჩუნონ ხარისხი, შეამცირონ დრიფტზე რეაგირების დრო და შეამცირონ საკუთრების ღირებულება.
მიზნები:- სტაბილური ხარისხი დრაიფის დროს წყარო, feature, label, კონცეფცია.
- მინიმალური ლატენტობა ცვლის გამოვლენასა და პარამეტრების განახლებას შორის.
- კონტროლირებადი ღირებულება და რისკები (კერძო/უსაფრთხოების/უსაფრთხოება).
2) დრიფტებისა და სიგნალების ტიპები
Data (covariate) drift: X განაწილება შეიცვალა.
Label drift: კლასების სიხშირე/labeling პოლიტიკა.
სიგნალები: PSI/JS/KS fich- ისთვის, კალიბრაციის მონიტორინგი, holdout/proxamers- ზე მეტრიკის ვარდნა, ადამიანის მიერ ოვერრაიდების წილის ზრდა, საჩივრები/ინციდენტები.
3) ადაპტაციის დაწყების გამომწვევები
ბარიერი: PSI> X, p-value <
დროებითი: ყოველდღიური/ყოველკვირეული/მოცურების ფანჯრები.
ღონისძიება: პროდუქტის ახალი ვერსია, პრაიმერი, ბაზარზე შესვლა.
ეკონომიკური: cost-to-error/ზარალის წილი> ლიმიტი.
გამომწვევები დაშიფრულია, როგორც პოლიცია-as-code და გადის მიმოხილვას.
4) ადაპტირებული სწავლების არქეტიპები
1. Batch re-train (ფანჯრის გადამზადება): მარტივი და საიმედო; რეაგირებს ნელა.
2. Incremental/online learn: წონის განახლება ნაკადზე; მყისიერად, მაგრამ დავიწყების რისკი.
3. Warm-start fine-tune: წარსული მოდელის ინიციალიზაცია, ახალი ფანჯრის შევსება.
4. PEFT/LoRA/Adapters (LLM/ვექტორები): სწრაფი ვიწრო განახლებები სრული FT- ს გარეშე.
5. Distillation/Teacher: Student: ცოდნის გადაცემა არქიტექტურის/დომენის შეცვლისას.
6. დომენის ადაპტაცია/ტრანსფერი: ბაზის გაყინვა + „ხელმძღვანელის“ თხელი კონფიგურაცია.
7. Meta-learning/Hypernets: აჩქარებს გადამზადებას მცირე რაოდენობის მაგალითებით.
8. Bandits/RL: პოლიტიკის ადაპტაცია გარემოს რეაგირების საპასუხოდ.
9. Federated learning: პერსონალიზაცია ნედლეული მონაცემების ექსპორტის გარეშე.
5) მონაცემთა რეჟიმის სტრატეგიები
სტრიმინგი: ონლაინ ოპტიმიზატორები (SGD/Adam/Adagrad), EMA სასწორი, მოცურების ფანჯრები, rehearsal ბუფერი ანტი-დავიწყებისთვის.
მიკრო ბრძოლები: რეგულარული mini-fit (საათი/დღე), early-stop სავალდებულო.
Batch ფანჯრები: rolling 7/14/30d დომენში, სტრატიფიკაცია იშვიათი კლასებისთვის.
Few-shot: PEFT/Adapters, prompt-tuning, retrieval ჩანართები LLM- სთვის.
6) კატასტროფული დავიწყების კონტროლი
Rehearsal (წარსული მონაცემების დამხმარე ნიმუში).
რეგულირება: EWC/LwF/ELR - ჯარიმა წინა მნიშვნელობების თავიდან აცილებისთვის.
Distillation: KLD წინა წამყვანმა მოდელმა.
Mixture-of-Experts/condition on context: სხვადასხვა სეგმენტის სპეციალისტები.
Freeze & -thaw: ბაზის გაყინვა, ზედა ფენების შევსება.
7) პერსონალიზაცია და სეგმენტურობა
Global + Local Heads: საერთო ბაზა, „ხელმძღვანელები“ სეგმენტზე (რეგიონი/არხი/VIP).
Per-user adapters/embeddings: მსუბუქი მეხსიერება მომხმარებლის ქვეშ.
კონტექსტის გაშვება: ტრაფიკის როუტინგი საუკეთესო ექსპერტზე (MoE/routers).
Fairness გვარდიები: უზრუნველყოს, რომ პერსონალიზაცია არ გაუარესდეს პარიტეტს ჯგუფებად.
8) აქტიური Learning (კაცი-წრე)
მარკირების მოთხოვნის სტრატეგიები: მაქსიმალური გაურკვევლობა, margin/entropy, core-set, disagrement committee.
ბიუჯეტები და ვადები: დღის მარკირების კვოტები, SLA პასუხი.
მარკირების მიღება: პრეზენტატორთა თანხმობის კონტროლი, მცირე ოქროს ტესტები.
ციკლის დახურვა: დაუყოვნებლივი დაჭერა ახალ ჭეშმარიტ ეტიკეტებზე.
9) ოპტიმიზატორებისა და გრაფიკის არჩევა
ონლაინ: Adagrad/AdamW დღიდან, clip-grad, EMA პარამეტრებით.
Schedules: cosine restarts, one-cycle, warmup→decay.
ფირფიტებისთვის: incremental GBDT (ხეების განახლება/ხეების დამატება).
LLM- სთვის: დაბალი lr, LoRA rank დავალებისთვის, ხარისხის ნაკადის კონტროლი რეგულირებისთვის.
10) მონაცემები ადაპტაციისთვის
ონლაინ ბუფერი: ახალი პოზიტიური/უარყოფითი შემთხვევები, კლასების ბალანსი.
Reweighting: importance weighting при covariate drift.
Hard-examples mining: სერიოზული შეცდომები პრიორიტეტულია.
მონაცემთა კონტრაქტები: სქემები/ხარისხი/PII ნიღბები იგივეა, რაც საწყობის ნაკადისთვის.
11) ადაპტირებული ხარისხის შეფასება
Pre-/Post-lift: A/B ან ინტერპრეტირებული კვაზი ექსპერიმენტი.
Rolling validation: დროებითი დაყოფები, out-time ტესტი.
Guardrails: კალიბრაცია, toxicity/abuse, უსაფრთხო ნდობის ბარიერები.
Worst-segment tracking: ყველაზე ცუდი სეგმენტის მონიტორინგი და არა მხოლოდ საშუალო.
Staleness KPI: დრო წარმატებული ადაპტაციის შემდეგ.
12) MLOps: პროცესი და არტეფაქტები
Model Registry: ვერსია, თარიღი, მონაცემთა ფანჯარა, fish hash, hipers, არტეფაქტები (PEFT).
Data Lineage: წყაროებიდან მომავალი მაღაზიამდე; სასწავლო ნაჭრების გაყინვა.
Pipelines: DAG для fit→eval→promote→canary→rollout, с auto-revert.
Shadow/Canary: შედარება რეალურ ტრაფიკზე პროდ ვერსიაზე.
Observability: latency/cost, drift, fairness, safety, override-rate.
Release policy: ვინ და რა მეტრიკებით დააჭირეთ „პრომოტს“.
13) უსაფრთხოება, კონფიდენციალურობა, უფლებები
PII მინიმიზაცია და შენიღბვა, განსაკუთრებით ნაკადის ბუფერებში.
Privacy-preserving ადაპტაცია: FL/secure gregation, DP კლიპები/ხმაური მგრძნობიარე დომენებისთვის.
ეთიკა: მაღალი რისკის გადაწყვეტილებებში ავტომობილების ადაპტირების აკრძალვები (სავალდებულოა ადამიანის დაცვა).
ცოდნის გასხვისება: გაჟონვის კონტროლი დისტილაციის/ინტეგრირებული გასაღების ხაფანგების საშუალებით.
14) ეკონომიკა და SLO ადაპტაცია
SLA განახლებები: მაგალითად, TTA (time-adapt) - 4 საათი დრიფტის დროს.
Budget guardrails: GPU საათების/დღის ლიმიტები, cap egress/საცავში.
Cost-aware პოლიტიკა: ღამის ფანჯრები, კრიტიკული მოდელების პრიორიტეტი, PEFT სრული FT- ის ნაცვლად.
Kash/retriver: LLM- სთვის - ჩვენ ვზრდით groundedness- ს სრული ტრენინგის გარეშე.
15) ანტიპატერები
„ისწავლე ყოველთვის და ყველგან“: უკონტროლო ონლაინ ფიტი - უფსკრული.
rehearsal/regularization არარსებობა: კატასტროფული დავიწყება.
არ არის ოფლაინ/ონლაინ: გამოშვებები „თვალზე“.
საჩივრების/საჩივრების გადამზადება: თავდამსხმელთა მიერ უკუკავშირის ოპერაცია.
დომენების ნაზავი: ერთი მოდელი რადიკალურად განსხვავებული სეგმენტებისთვის, როუტინგის გარეშე.
ნულოვანი ტრეკირება: შეუძლებელია რეპროდუცირება, რაზეც გადამზადდა.
16) გზის განხორციელების რუკა
1. Discovery: დრიფტის რუკა, სეგმენტები, კრიტიკული მეტრიკა და რისკები; შეარჩიეთ რეჟიმი (batch/online/PEFT).
2. მონიტორინგი: PSI/კალიბრაცია/ბიზნეს guardrails; ალერტები და პანელები.
3. MVP ადაპტაცია: rolling window + warm-start; canary + auto-revert.
4. უსაფრთხოება/პრივი: ნიღბები, FL/DP საჭიროების შემთხვევაში; ლოგოების აუდიტი.
5. აქტიური Learning: მარკირების მარყუჟი ბიუჯეტით და SLA.
6. სკალი: სეგმენტის თავები/MOE, რეჰარსალური ბუფერები, დისტილაცია.
7. Optimization: PEFT/LoRA, გრაფიკის კოდი, მეტა ტრენინგი, ტრიგერების ავტომატური არჩევანი.
17) ჩეკის სია ავტო ადაპტაციამდე
- განსაზღვრულია ტრიგერები (PSI/მეტრიკა), ბარიერები და ფანჯრები, owner და ესკალაციის არხი.
- არსებობს offline eval და ონლაინ არხი/shadow; guardrail მეტრები და promote კრიტერიუმები.
- შედის rehearsal/distillation/რეგულირება დავიწყების საწინააღმდეგოდ.
- მონაცემები/წონა/PEFT დელტა ვერსია; ინახება window snapshot.
- დააწესა კერძო/PII პოლიტიკა; ბუფერების წვდომის აუდიტი.
- რესურსების ბიუჯეტები და შეზღუდვები; გადაუდებელი გაჩერება და auto-rollback.
- დოკუმენტაცია: Model Card (განახლებული გამოყენების ზონა), runbooks ინციდენტები.
18) მინი შაბლონები (ფსევდო-YAML/კოდი)
ავტო ადაპტაციის პოლიტიკა
yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}
ონლაინ განახლება (ესკიზი)
python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()
Active Learning ჯერი
yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true
19) შედეგი
მოდელების ადაპტირებული სწავლება არ არის „ტრენინგის გადატვირთვა“, არამედ საინჟინრო წრე: დრიფტის იდენტიფიკაცია - უსაფრთხო და ეკონომიკური ადაპტაცია, ხარისხისა და სამართლიანობის შემოწმება, კონტროლირებადი გამოშვება მყისიერი დაბრუნების შესაძლებლობით. მონიტორინგთან ერთად, PEFT/ონლაინ სტრატეგიები, rehearsal დავიწყების საწინააღმდეგოდ და მკაცრი guardrails, თქვენ მიიღებთ მოდელებს, რომლებიც საიმედოდ იცვლება მონაცემებთან ერთად და აგრძელებენ გაზომილ სარგებელს.