Մոդելների հարմարվողական ուսուցում
1) Ինչո՞ ւ հարմարվողականությունը
Աշխարհը փոխվում է ավելի արագ, քան ռելիզի ցիկլերը։ Հարմարվողական ուսուցումը թույլ է տալիս մոդելներին հարմարվել նոր տվյալներին/ռեժիմներին առանց հավաքման ամբողջական փետուրի 'պահպանել որակը, կրճատել դրաֆթի վրա արձագանքի ժամանակը և նվազեցնել սեփականության արժեքը։
Նպատակները
Կայուն որակը source, feature, label, concept։
Նվազագույն լատենտ հերթափոխի հայտնաբերման և շարժիչների նորացման միջև։
Վերահսկվող արժեքը և ռիսկերը (privacy/fairness/անվտանգություն)։
2) Դրեյֆների տեսակները և ազդանշանները
Express (covariate) drift: X-ի բաշխումը փոխվել է։
Label drift 'դասարանների հաճախականությունը/labeling քաղաքականությունը։
Ազդանշաններ ՝ PSI/JS/KS ֆիգուրներ, տրամաչափեր, մետրի անկում holdout/procosizamers-ում, մարդու օվերդրադների մասնաբաժնի բարձրացում, բողոքների/միջադեպերի մեջ։
3) Հարմարեցման գործարկման խթանները
Շեմի ՝ PSI> X, p-value <108, տրամաչափը ռասինխրոնիզացվել է։
Ժամանակավոր 'ամենօրյա/շաբաթական/սայթաքող պատուհաններ։
Իրադարձություններ 'ապրանքի նոր տարբերակը, անջատումը, շուկա դուրս գալը։
Տնտեսական 'cost-to-error/մասնաբաժինը 24> լիմիտի։
Triggers կոդավորված են որպես policy-as-code և անցնում են review։
4) Հարմարվողական ուսուցման արխեթիպները
1. Batch re-train (պատուհանից) 'պարզապես և հուսալի; դանդաղ արձագանքում է։
2. Incremental/onium learn: Քաշի նորարարություն հոսքի վրա; ակնթարթորեն, բայց մոռացման ռիսկերը։
3. Warm-start fine-tune-ը անցյալ մոդելի նախաձեռնությունն է, թարմ պատուհանի վրա ուսումը։
4. PEFT/LoRA/Adapters (LLM/վեկտորներ) 'արագ նեղ նորարարություններ առանց ամբողջական FT։
5. Distillation/Teacher no Student: Գիտելիքների փոխանցումը ճարտարապետության/տիրույթի փոփոխության ժամանակ։
6. Domain adaptation/transfer: Բազիսի սառեցում + գլխի բարակ կարգավորում։
7. Meta-learning/Hypernets-ը արագացնում է վերապատրաստումը փոքր թվով օրինակներով։
8. Bandits/RL 'քաղաքականության հարմարեցումը ի պատասխան միջավայրի արձագանքին։
9. Federated learning: կերպարը առանց հում տվյալների հանելու։
5) Տվյալների ռեժիմների ռազմավարությունները
Striming: Onls-լավատեսներ (SGD/Adam/Adagrad), EMA կշիռներ, սայթաքող պատուհաններ, rehearsal-bufer anti-մոռացման համար։
Micro-batchi: wwww.mini-fit (ժամ/օր), early-stop-validation։
Batch պատուհանը 'rolling 7/14/30d տրամագծով, կառուցվածք հազվագյուտ դասարանների համար։
Few-shot: PEFT/Adapters, prompt-tuning, retrieval-2019 LLM համար։
6) Աղետալի մոռացության վերահսկումը
Rehearsal (անցյալի տվյալների աջակցության ընտրություն)։
Regularization: EWC/LwF/ELR - տուգանք նախկին կարևորություններից խուսափելու համար։
Distillation: KLD-ը անցյալ մոդելին խարիսխային տվյալների վրա։
Mixture-of-Exper.ru/condenson ext: Տարբեր հատվածների մասնագետներ։
Freeze- &-tham 'բազայի սառեցում, վերին շերտերի դասավորում։
7) Կերպարացում և սեգմենտություն
Global + International heads: Ընդհանուր հիմքը, «գլուխները» սեգմենտին (տարածք/ալիք/VIP)։
Per-user adapters/embeddings: հեշտ հիշողություն օգտագործողի համար։
Gating-ը համատեքստով 'routing-ը ավելի լավ մասնագետի (MoE/routers)։
Fairness-գվարդներ 'հետևել, որ կերպարը չի վատթարանում խմբերով։
8) Active Learning (մարդ-վ-կոնտակտով)
Որոնման ռազմավարությունները 'առավելագույն անորոշություն, margin/entropy, 2019-2019, wwww.agrement comittee։
Բյուջեներն ու դադարները 'օրվա քվոտաները նշելու համար, SLA պատասխանը։
Նշման ընդունումը 'նույնագրիչների համաձայնության վերահսկումը, փոքր ոսկե թեստերը։
Ցիկլի փակումը 'wwww.dw.dw.com նոր իրական պիտակների վրա։
9) Օպտիմիզատորների և գրաֆիկների ընտրություն
Online: Adagrad/AdamW-ը decay, clip-grad, EMA-ից։
Schedules: cosine restarts, one-cycle, warmup→decay.
Պլանշետների համար ՝ incremental GBDT (ծառերի թարմացում/ավելացում)։
LLM-ի համար 'ցածր lr, LoRA rank-ը առաջադրանքի տակ է, որակը վերահսկելու համար։
10) Հարմարեցման տվյալներ
Առցանց բուֆեր 'թարմ դրական/բացասական դեպքեր, դասարանների հավասարակշռություն։
Reweighting: importance weighting при covariate drift.
Hard-examples mining: Լուրջ սխալներ առաջնահերթության մեջ։
Windowrac.ru: սխեմաները/որակը/PII դիմակները նույնն են, ինչ հոսքի համար։
11) Որակի գնահատումը հարմարվողական ռեժիմում
Մոսկվա -/Post-lift: A/B կամ մեկնաբանվող քվասի փորձը։
Rolling validation 'ժամանակավոր համախմբումներ, out-of-time թեստ։
Guardrails: Տրամաբանություն, toxicity/abuse, անվտանգ վստահության շեմեր։
Worst-segram tracking: Worst-segram tracking: Worst-se
Staleness KPI: ժամանակը վերջին հաջողակ հարմարվողականության պահից։
12) MLOps: Գործընթացը և արտեֆակտները
Model Registry: Տարբերակը, ամսաթիվը, տվյալների պատուհանը, հեշը, հիպերերը, արտեֆակտները (PEFT)։
Express Lineage: աղբյուրներից մինչև feature store; զամբյուղների սառեցում։
Pipelines: DAG для fit→eval→promote→canary→rollout, с auto-revert.
Shadow/Canary: Համեմատություն իրական տարբերակի հետ։
Observability: latency/cost, drift, fairness, safety, override-rate.
Releant policy: Ո՞ վ և ինչ մետրերով է սեղմում promote-ը։
13) Անվտանգությունը, գաղտնիությունը, իրավունքները
PII նվազեցումը և դիմակավորումը, հատկապես սթրիմինգի բուֆերում։
Privacy-preserving հարմարեցումը 'FL/secure aggregation, DP-կլիպեր/աղմուկներ զգայուն ածխաջրերի համար։
Էթիկան 'ավտո adapt-ի արգելքները բարձր ռիսկային լուծումներում (human-in-the-loop-ը պարտական է)։
Գիտելիքների օտարումը 'արտահոսքի վերահսկումը աղտոտման միջոցով/ներկառուցված բանալիներ-թակարդների միջոցով։
14) Տնտեսությունը և SLO հարմարեցումները
SLA նորարարություններ. Օրինակ, TTA (Time-to-adapt) 244 ժամ դրաֆթի ժամանակ։
Budget guardrails: GPU-ժամ/օր, cap egress/պահեստում։
Cost-aere քաղաքականությունը 'գիշերային պատուհանները, կրիտիկական մոդելների գերակայությունը, PEFT-ը ամբողջական FT-ի փոխարեն։
Քաշ/ռետրիվեր 'LLM-ի համար, մենք ավելացնում ենք ռուսական undedness առանց ամբողջական ուսուցման։
15) Անտիպատերնի
«Սովորել միշտ և ամենուր» 'անվերահսկելի onoft-fit-dreaff անդունդը։
Rehearsal/regularization 'աղետալի մոռացում։
Ոչ մի ստանդարտ/online eval: ալգորիթմներ «աչքերի վրա»։
Բողոքների/միգրացիաների ուսմունքը 'հարձակվողների հետադարձ կապի գործողությունը։
Ածխաջրածինների խառնուրդ 'մեկ մոդել արմատական տարբեր հատվածների համար առանց ռոտինգի։
Զրոյական ուղի. Դուք չեք կարող վերարտադրել, թե ինչի վրա են սովորել։
16) Իրականացման ճանապարհային քարտեզը
1. Discovery 'dreafs քարտեզը, հատվածները, կրիտիկական մետրերը և ռիսկերը։ ընտրեք ռեժիմը (batch/onts/PEFT)։
2. Մոսկվա: PSI/տրամաչափություն/բիզնես guardrails; ալտերտեր և վահանակներ։
3. MVP հարմարեցում 'rolling no + warm-start; canary + 2019-revert.
4. Անվտանգություն/priv 'դիմակներ, FL/DP անհրաժեշտության դեպքում։ լոգարանների աուդիտ։
5. Action Learning: Պիտակներ բյուջեով և SLA-ով։
6. Scale: սեգմենտային գլուխներ/MoE, rehearsal-Alts, միգրացիա։
7. Optimization: PEFT/LoRA, cost-aj գրաֆիկա, meta-ուսուցում, ձգանողների ավտոմատ ընտրություն։
17) Chek-Lister-ը մինչև ավտոդապտացիայի միացումը
- Որոշված են ձգանները (PSI/metrics), շեմերը և պատուհանները, owner-ը և էսկալացիայի ալիքը։
- Կա www.eval և առցանց canary/shadow; guardrail-metriks և promote չափանիշներ։
- Ներառված է rehearsal/distillation/կարգավորումը մոռացման դեմ։
- Տարբերակվում են տվյալները/քաշը/PEFT-դելտա; պահվում է www.apshot։
- Privacy/PII քաղաքականություն; բուֆերների հասանելիության աուդիտ։
- Ռեսուրսների բյուջեներն ու սահմանները. վթարային կանգառ և 105-rollback։
- Lenta.ru: Model Card (նորարարված օգտագործման գոտի), runbooks 2019։
18) Minido-YAML/կոդը)
Policy adaptatation
yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}
Online-նորարարություն (ուրվագիծ)
python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()
Action Learning հերթը
yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true
19) Արդյունքը
Մոդելների հարմարվողական ուսուցումը ոչ թե «վերագործարկումը» է, այլ ինժեներական պաշտպանությունը 'dreaft դետեկտիվը անվտանգ և տնտեսական հարմարեցում է որակի և արդարության ստուգումը, որը վերահսկվում է ռելիզը ակնթարթային արձագանքման հնարավորությամբ։ Միացնելով ստանդարտները, PEFT/onter-ռազմավարությունը, rehearsal դեմ մոռացության և խիստ guardrails-ի դեմ, դուք կստանաք մոդելներ, որոնք վստահորեն փոխվում են տվյալների հետ և շարունակում են բերել չափված օգուտներ։