अनुकूली मॉडल सीखना
1) अनुकूलनशीलता क्यों
दुनिया रिलीज चक्रों की तुलना में तेजी से बदल रही है। अनुकूली सीखने से मॉडल को पूरी तरह से पुन: निर्माण के बिना नए डेटा/मोड के अनुकूल होने की अनुमति मिलती है: गुणवत्ता बनाए रखना, बहाव प्रतिक्रिया समय को कम करना और स्वामित्व की लागत को कम करना।
उद्देश्य:- स्थिर गुणवत्ता जब बहती स्रोत, सुविधा, लेबल, अवधारणा।
- कतरनी पहचान और पैरामीटर अद्यतन के बीच न्यूनतम विलंबता।
- नियंत्रित लागत और जोखिम (गोपनीयता/निष्पक्षता/सुरक्षा
2) बहाव प्रकार और संकेत
डेटा (सहसंयोजक) बहाव: एक्स वितरण बदल गया है।
लेबल बहाव: वर्ग आवृत्ति/लेबलिंग नीति।
संकेत: सुविधाओं द्वारा पीएसआई/जेएस/केएस, अंशांकन निगरानी, होल्डआउट/प्रॉक्सीसेमर पर मैट्रिक्स में गिरावट, मनुष्यों द्वारा ओवरराइड की हिस्सेदारी में वृद्धि, शिकायतों/घटनाओं में स्पाइक्स।
3) अनुकूलन ट्रिगर
सीमा: PSI> X, p-value <ć, सिंक से बाहर अंशांकन।
अस्थायी: दैनिक/साप्ताहिक/स्लाइडिंग विंडो।
घटना: नया उत्पाद संस्करण, मूल्य निर्धारण, बाजार प्रविष
आर्थिक: लागत-से-त्रुटि/नुकसान की हिस्सेदारी> सीमा।
ट्रिगर को पॉलिसी-ए-कोड के रूप में एन्कोड किया जाता है और समीक्षा की जाती है।
4) एडेप्टिव लर्निंग आर्कटाइप्स
1. बैच री-ट्रेन: सरल और विश्वसनीय; धीरे-धीरे प्रतिक्रिया
2. वृद्धिशील/ऑनलाइन सीखना: धारा पर वजन को अद्यतन करना; तुरंत, लेकिन भूल जाने के जोखिम।
3. वार्म-स्टार्ट फाइन-ट्यून: पिछले मॉडल के साथ इनिशियलाइजेशन, ताजा विंडो में अतिरिक्त प्रशिक
4. PEFT/LoRA/Addapters (LLM/vectors): पूर्ण FT के बिना तेज संकीर्ण अपडेट।
5. Distillation/Teacher→Student: वास्तुकला/डोमेन बदलते समय ज्ञान हस्तांतरण।
6. डोमेन अनुकूलन/स्थानांतरण: आधार ठंड + "सिर" की ठीक ट्यूनिंग।
7. मेटा-लर्निंग/हाइपरनेट्स: कुछ उदाहरणों के साथ पीछे हटने की गति।
8. डाकू/आरएल: पर्यावरण की प्रतिक्रिया के जवाब में नीति अनुकूलन।
9. संघीय सीखने: कच्चे डेटा को निकाले बिना निजीकरण।
5) डेटा मोड रणनीतियाँ
स्ट्रीमिंग: ऑनलाइन ऑप्टिमाइज़र (SGD/Adam/Adagrad), EMA तराजू, स्लाइडिंग विंडो, रिहर्सल बफर विरोधी भूल के लिए।
माइक्रो-बैच: नियमित मिनी-फिट (घंटा/दिन), सत्यापन द्वारा प्रारंभिक-स्टॉप।
बैच विंडो: डोमेन द्वारा 7/14/30 डी रोलिंग, दुर्लभ वर्गों के लिए स्तरीकृत।
कुछ-शॉट: PEFT/Addapters, संकेत-ट्यूनिंग, LLM के लिए पुनर्प्राप्ति-आवेषण।
6) भयावह भूल नियंत्रण
रिहर्सल।
नियमितीकरण: EWC/LwF/ELR - पिछले महत्व से दूर जाने के लिए जुर्माना।
आसवन: एंकर डेटा पर पिछले मॉडल के लिए केएलडी।
संदर्भ पर मिश्रण-विशेषज्ञ/शर्त: खंड द्वारा विभिन्न विशेषज्ञ।
Freeze- & -thaw: आधार की ठंड, ऊपरी परतों का अतिरिक्त प्रशिक्षण।
7) निजीकरण और विभाजन
ग्लोबल + लोकल हेड्स: कॉमन बेस, "हेड्स" प्रति सेगमेंट (क्षेत्र/चैनल/वीआईपी)।
प्रति-उपयोगकर्ता एडेप्टर/एम्बेडिंग: उपयोगकर्ता के लिए आसान मेमोरी।
संदर्भ द्वारा गेटिंग: सर्वश्रेष्ठ विशेषज्ञ (एमओई/राउटर) के लिए यातायात को रूट करना।
फेयरनेस गार्ड: सुनिश्चित करें कि निजीकरण समूह समानता को खराब न करे।
8) सक्रिय शिक्षण (मैन-इन-सर्किट)
मार्कअप क्वेरी रणनीतियाँ: अधिकतम अनिश्चितता, मार्जिन/एन्ट्रापी, कोर-सेट, उल्लंघन समिति।
बजट और समय सीमा: दैनिक मार्कअप कोटा, प्रतिक्रिया एसएलए।
मार्कअप स्वीकृति: एनोटेटर्स की सहमति का नियंत्रण, छोटे सोने के परीक्षण।
लूप क्लोजर: नए सच्चे लेबल पर तत्काल अतिरिक्त प्रशिक्षण।
9) अनुकूलन और अनुसूचियों का चयन
ऑनलाइन: क्षय, क्लिप-ग्रेड, ईएमए विकल्पों के साथ Adagrad/AdamW।
शेड्यूल: कोसाइन रीस्टार्ट, एक-चक्र, warmup→decay।
सारणीबद्ध के लिए: वृद्धिशील GBDT (पेड़ों को अद्यतन/जोड़ना)।
LLM के लिए: कम lr, कार्य के लिए LoRA रैंक, नियमों के अनुसार गुणवत्ता ड्रॉप कंट्रोल।
10) अनुकूलन के लिए डेटा
ऑनलाइन बफर: ताजा सकारात्मक/नकारात्मक मामले, वर्ग संतुलन।
Reweighting: महत्व का भार при covariate बहाव।
कठिन उदाहरण खनन: प्राथमिकता में भारी त्रुटियां।
डेटा अनुबंध: योजनाएं/गुणवत्ता/पीआईआई मास्क - उत्पादन धारा के समान।
11) अनुकूली गुणवत्ता मूल्यांकन
प्री-/पोस्ट-लिफ्ट: ए/बी या व्याख्या अर्ध-प्रयोग।
रोलिंग सत्यापन: समय विभाजन, आउट-ऑफ-टाइम परीक्षण।
रेलिंग: अंशांकन, विषाक्तता/दुरुपयोग, सुरक्षित आत्मविश्वास सीमा।
सबसे खराब खंड ट्रैकिंग: सबसे खराब खंड की निगरानी, न कि केवल औसत।
स्टेलेस केपीआई: अंतिम सफल अनुकूलन के बाद से समय।
12) MLOps: प्रक्रिया और कलाकृतियाँ
मॉडल रजिस्ट्री: संस्करण, तिथि, डेटा विंडो, फीचर हैश, हाइपर, कलाकृतियाँ (PEFT)।
डेटा वंश: स्रोतों से लेकर सुविधा स्टोर तक; प्रशिक्षण स्लाइस का जमना।
पाइपलाइन: DAG для fit→eval→promote→canary→rollout, с ऑटो-रिवर्ट।
छाया/कैनरी: वास्तविक यातायात पर उत्पादन संस्करण के खिलाफ तुलना।
अवलोकन: विलंबता/लागत, बहाव, निष्पक्षता, सुरक्षा, ओवरराइड-दर।
रिलीज नीति: कौन और क्या मेट्रिक्स क्लिक करता है "प्रचार।"
13) सुरक्षा, गोपनीयता, अधिकार
पीआईआई कम से कम और मास्किंग, विशेष रूप से स्ट्रीमिंग बफर्स में।
गोपनीयता-संरक्षण अनुकूलन: एफएल/सुरक्षित एकत्रीकरण, संवेदनशील डोमेन के लिए डीपी-क्लिप/शोर।
नैतिकता: उच्च जोखिम वाले समाधानों में ऑटोडैप पर प्रतिबंध (मानव-इन-द-लूप अनिवार्य है)।
ज्ञान का अलगाव: आसवन/अंतर्निहित जाल कुंजियों के माध्यम से लीक का नियंत्रण।
14) अर्थशास्त्र और एसएलओ अनुकूलन
SLA अपडेट: उदाहरण के लिए, TTA (समय-से-अनुकूलन) ≤ 4 घंटे जब बहता है।
बजट रेल: GPU घंटे/दिन की सीमा, कैप ऑन एग्रेस/स्टोरेज।
लागत-जागरूक नीति: रात की खिड़कियां, महत्वपूर्ण मॉडल की प्राथमिकता, पूर्ण एफटी के बजाय पीईएफटी।
कैश/रिट्रीवर: एलएलएम के लिए - पूर्ण प्रशिक्षण के बिना जमीनी स्तर बढ़ाएं।
15) एंटीपैटर्न
"हमेशा और हर जगह सीखें": अनियंत्रित ऑनलाइन-फिट - रसातल में बहाव।
रिहर्सल/नियमितीकरण की कमी: भयावह भूल।
कोई ऑफ़ लाइन/ऑनलाइन निष्कासन नहीं: "आंख से" जारी करता है।
शिकायतों/अपीलों पर पुनर्विचार: हमलावरों द्वारा प्रतिक्रिया का शोषण।
डोमेन मिश्रण: रूटिंग के बिना मौलिक रूप से विभिन्न खंडों के लिए एक एकल मॉडल।
शून्य ट्रेसिबिलिटी: आप पुन: पेश नहीं कर सकते कि आपने क्या किया है।
16) कार्यान्वयन रोडमैप
1. डिस्कवरी: बहाव मानचित्र, खंड, महत्वपूर्ण मैट्रिक्स और जोखिम; मोड चुनें (बैच/ऑनलाइन/PEFT)।
2. निगरानी: पीएसआई/अंशांकन/व्यावसायिक रेलिंग; अलर्ट और पैनल।
3. एमवीपी अनुकूलन: रोलिंग विंडो + वार्म-स्टार्ट; कैनरी + ऑटो-रिवर्ट।
4. सुरक्षा/ : यदि आवश्यक हो तो मास्क, एफएल/डीपी; ऑडिट लॉग।
5. सक्रिय सीखना: बजट और एसएलए के साथ मार्कअप लूप।
6. स्केल: सेगमेंटल हेड्स/एमओई, रिहर्सल बफर्स, आसवन।
7. अनुकूलन: PEFT/LoRA, लागत-जागरूक कार्यक्रम, मेटा-लर्निंग, स्वचालित ट्रिगर चयन।
17) ऑटो-अनुकूलन को सक्षम करने से पहले चेकलिस्ट
- ट्रिगर (पीएसआई/मैट्रिक्स), थ्रेसहोल्ड और विंडो, मालिक और एस्केलेशन चैनल परिभाषित हैं।
- ऑफलाइन निष्कासन और ऑनलाइन कैनरी/छाया है; रेलिंग-मैट्रिक्स और मानदंड को बढ़ावा देना।
- रिहर्सल/आसवन/नियमितीकरण बनाम भूलना शामिल हैं।
- डेटा/भार/PEFT डेल्टा बहुत लंबवत हैं; विंडो स्नैपशॉट संग्रहीत है।
- गोपनीयता/पीआईआई नीतियां लगाई गईं; ऑडिट बफर एक्सेस।
- संसाधन बजट और सीमाएं; आपातकालीन स्टॉप और ऑटो-रोलबैक।
- प्रलेखन: मॉडल कार्ड (अद्यतन प्रयोज्यता क्षेत्र), रनबुक की घटनाएं।
18) मिनी-टेम्पलेट (छद्म-YAML/कोड)
नीति स्वतः अनुकूलन
yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}
ऑनलाइन अपडेट (लघु छवि)
python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()
सक्रिय सीखने की कतार
yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true
19) नीचे की रेखा
मॉडल का अनुकूली प्रशिक्षण "प्रशिक्षण का पुनः आरंभ" नहीं है, बल्कि एक इंजीनियरिंग सर्किट है: बहाव का पता लगाना - सुरक्षित और किफायती अनुकूलन - गुणवत्ता और निष्पक्षता परीक्षण - तत्काल रोलबैक की संभावना। निगरानी, PEFT/ऑनलाइन रणनीतियों के संयोजन से, भूल और सख्त रेलिंग के खिलाफ पूर्वाभ्यास, आपको ऐसे मॉडल मिलते हैं जो डेटा के साथ मज़बूती से बदलते हैं और औसत दर्जे का लाभ देते रहते हैं।