Apprentissage adaptatif des modèles
1) Pourquoi l'adaptabilité
Le monde change plus vite que les cycles de sortie. L'apprentissage adaptatif permet au modèle de s'adapter aux nouvelles données/modes sans une plume d'assemblage complète : maintenir la qualité, réduire le temps de réaction à la dérive et réduire le coût de possession.
Objectifs :- Qualité stable à la dérive source, feature, label, concept.
- Latence minimale entre la détection de décalage et la mise à jour des paramètres.
- Coûts et risques contrôlés (privacy/fairness/security).
2) Types de dérives et signaux
Data (covariate) drift : la distribution X a changé.
Label drift : fréquences de classe/labeling-policy.
Signaux : PSI/JS/KS pour les fiches, la surveillance de l'étalonnage, la chute des métriques sur les holdout/proxisamers, l'augmentation de la proportion de ravines humaines, les spykes dans les plaintes/incidents.
3) Déclencheurs de déclenchement d'adaptation
Seuils : PSI> X, p-value <α, étalonnage dissynchronisé.
Temporaires : fenêtres quotidiennes/hebdomadaires/coulissantes.
Evénement : nouvelle version du produit, prix, mise sur le marché.
Économique : cost-to-error/part de perte> limite.
Les déclencheurs sont codés comme policy-as-code et passent en revue.
4) Archétypes de l'apprentissage adaptatif
1. Batch re-train (réapprentissage par fenêtre) : simple et fiable ; il réagit lentement.
2. Incrémental/apprentissage en ligne : mise à jour des échelles sur le flux ; instantanément, mais les risques d'oubli.
3. Warm-start fine-tune : initialisation par le modèle précédent, pré-apprentissage sur une nouvelle fenêtre.
4. PEFT/LoRA/Adaptateurs (LLM/vecteurs) : mises à jour rapides et étroites sans FT complet.
5. Distillation/Teacher→Student : transfert de connaissances lors du changement d'architecture/domaine.
6. Adaptation/transfert du domaine : congélation de la base + réglage fin de la « tête ».
7. Meta-learning/Hypernets : accélérer le réapprentissage avec un petit nombre d'exemples.
8. Bandits/RL : adapter la politique en réponse à la réponse de l'environnement.
9. Federated learning : Personnalisation sans extraction de données brutes.
5) Stratégies sur les modes de données
Streaming : optimiseurs en ligne (SGD/Adam/Adagrad), balances EMA, fenêtres coulissantes, tampon rehearsal pour anti-oubli.
Micro-batchies : mini-fit régulier (heure/jour), premier arrêt par validation.
Fenêtre Batch : rolling 7/14/30d par domaine, stratification pour les classes rares.
Few-shot : PEFT/Adaptateurs, prompt-tuning, retrieval-inserts pour LLM.
6) Contrôle de l'oubli catastrophique
Rehearsal (échantillon de référence des données passées).
Regularization : EWC/LwF/ELR - une amende pour s'être éloigné de l'ancienne importance.
Distillation : KLD vers le modèle précédent sur les données d'ancrage.
Mixture-of-Experts/condition on context : différents spécialistes des segments.
Freez- & -thaw : congélation de la base, préformation des couches supérieures.
7) Personnalisation et segmentation
Global + Local heads : base commune, « têtes » par segment (région/canal/VIP).
Adaptateurs per-user/embeddings : mémoire facile pour l'utilisateur.
Gating par contexte : routage du trafic vers le meilleur expert (MoE/routeurs).
Gardes Fairness : veiller à ce que la personnalisation n'aggrave pas la parité entre les groupes.
8) Apprentissage actif (homme-en-circuit)
Stratégies de demande de balisage : incertitude maximale, margin/entropy, core-set, disagreement committee.
Budgets et échéances : quotas journaliers de marquage, réponse SLA.
Acceptation du marquage : contrôle de l'accord des annotateurs, petits tests en or.
Fermeture du cycle : pré-apprentissage immédiat sur de nouvelles étiquettes vraies.
9) Sélection des optimiseurs et des horaires
En ligne : Adagrad/AdamW avec des paramètres decay, clip-grad, EMA.
Schedules: cosine restarts, one-cycle, warmup→decay.
Pour les tableaux : GBDT incrémental (renouvellement des arbres/ajout d'arbres).
Pour LLM : low lr, LoRA rank à la tâche, contrôle de la qualité drop par règlement.
10) Données à adapter
Tampon en ligne : nouveaux cas positifs/négatifs, équilibre des classes.
Reweighting: importance weighting при covariate drift.
Hard-exemples mining : erreurs lourdes en priorité.
Contrats de données : schémas/qualité/masques PII sont les mêmes que pour le flux de données.
11) Évaluation de la qualité en mode adaptatif
Pré-/Post-lift : A/B ou quasi-expérience interprétable.
Rolling validation : split temporel, test hors du temps.
Guardrails : étalonnage, toxicité/abuse, seuils de confiance sécurisés.
Suivi du segment de travail : surveillance du pire segment, pas seulement de la moyenne.
KPI Staleness : Temps écoulé depuis la dernière adaptation réussie.
12) MLOps : processus et artefacts
Registre du modèle : version, date, fenêtre de données, hachage des fiches, hypers, artefacts (PEFT).
Data Lineage : des sources au magasin de fonctionnalités ; gel des tranches d'entraînement.
Pipelines: DAG для fit→eval→promote→canary→rollout, с auto-revert.
Shadow/Canary : comparaison par rapport à la version pro sur le trafic réel.
Observability: latency/cost, drift, fairness, safety, override-rate.
Politique de release : qui et dans quelles métriques appuie sur « promote ».
13) Sécurité, vie privée, droits
PII minimisation et masquage, en particulier dans les tampons de streaming.
Adaptation privacy-preserving : aggregation FL/secure, clips DP/bruits pour les domaines sensibles.
Ethique : interdictions d'autoadapt dans les décisions à haut risque (human-in-the-loop obligatoire).
Aliénation des connaissances : contrôle des fuites par distillation/pièges à clés intégrés.
14) L'économie et les adaptations SLO
Mise à jour SLA : par exemple, TTA (time-to-adapt) ≤ 4 heures à la dérive.
Budget guardrails : limites GPU-heures/24, cap sur egress/storage.
Cost-aware politique : fenêtres de nuit, priorité des modèles critiques, PEFT au lieu d'un FT complet.
Cache/retriever : pour LLM - nous augmentons groundedness sans formation complète.
15) Anti-modèles
« Apprendre toujours et partout » : online-fit incontrôlable → dérive dans le gouffre.
L'absence de rehearsal/regularization : un oubli catastrophique.
No offline/online eval : releases « on eye ».
Réapprendre sur les plaintes/appels : exploiter la rétroaction des intrus.
Mélange de domaines : un modèle unique pour des segments radicalement différents sans itinérance.
Traçabilité nulle : vous ne pouvez pas reproduire ce que vous avez appris.
16) Feuille de route pour la mise en œuvre
1. Discovery : carte des dérives, segments, métriques critiques et risques ; sélectionnez le mode (batch/online/PEFT).
2. Surveillance : PSI/étalonnage/guardrails d'affaires ; alertes et panneaux.
3. Adaptation MVP : rolling window + warm-start ; canary + auto-revert.
4. Sécurité/bou : masques, FL/DP si nécessaire ; audit des loges.
5. Active Learning : boucle de marquage avec budget et SLA.
6. Scale : têtes segmentées/MoE, tampons rehearsal, distillation.
7. Optimisation : PEFT/LoRA, horaires cost-aware, méta-apprentissage, sélection automatique des déclencheurs.
17) Chèque avant d'activer l'auto-adaptation
- Des déclencheurs (PSI/métriques), des seuils et des fenêtres, un owner et un canal d'escalade ont été définis.
- Il ya hors ligne eval et en ligne canary/shadow ; métriques de guardrail et critères de promotion.
- Inclus rehearsal/distillation/régularisation contre l'oubli.
- Les données/poids/PEFT-delta sont versionnés ; la fenêtre snapshot est stockée.
- Politiques de confidentialité/PII imposées ; audit de l'accès aux tampons.
- Budgets et limites de ressources ; arrêt d'urgence et auto-rollback.
- Documentation : Model Card (zone d'applicabilité mise à jour), runbooks incidents.
18) Mini-modèles (pseudo-YAML/code)
Politique d'adaptation automatique
yaml adapt_policy:
triggers:
- type: psi_feature; feature: device_os; threshold: 0. 2; window: 7d
- type: metric_drop; metric: auc; delta: -0. 03; window: 3d mode: warm_start_finetune method:
lora: {rank: 8, alpha: 16, lr: 2e-4, epochs: 1}
rehearsal:
buffer_days: 30 size: 200k guardrails:
min_calibration: ece<=0. 03 worst_segment_auc>=0. 78 rollout: {canary: 10%, promote_after_hours: 6, rollback_on_guardrail_fail: true}
budgets: {gpu_hours_day: 40}
Mise à jour en ligne (croquis)
python for batch in stream():
x,y = batch. features, batch. labels loss = model. loss(x,y) + reg_ewc(theta, theta_old, fisher, λ=0. 5)
loss. backward(); clip_grad_norm_(model. parameters(), 1. 0)
opt. step(); ema. update(model); opt. zero_grad()
if t % eval_k == 0: online_eval()
File d'attente Active Learning
yaml al_queue:
strategy: "entropy"
daily_budget: 3000 sla_labeling_h: 24 golden_checks: true
19) Résultat
L'apprentissage adaptatif des modèles n'est pas un « redémarrage de l'entraînement », mais un circuit d'ingénierie : détection de dérive → adaptation sûre et économique → contrôle de la qualité et de l'équité → sortie contrôlée avec possibilité de retour instantané. En connectant monitoring, PEFT/stratégies en ligne, rehearsal contre l'oubli et rigoureux guardrails, vous obtiendrez des modèles qui changent en toute sécurité avec les données et continuent d'apporter des avantages mesurables.