FORMATION IA
Compression de modèles et quantisation pour la production
Déployez des modèles plus légers et plus rapides sans sacrifier la précision grâce à la quantisation, l'élagage et la distillation.
Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit
Lancer le diagnostic →Ce qu'elle couvre
Ce programme de niveau praticien couvre l'ensemble des techniques de compression de modèles, quantisation (GPTQ, AWQ, GGUF), élagage structuré et non structuré, et distillation de connaissances, avec une analyse rigoureuse des compromis. Les participants travaillent sur des laboratoires pratiques de compression de LLM et de CNN réels, en mesurant la latence, l'empreinte mémoire et la dégradation de précision sur différentes cibles matérielles (GPU, CPU, edge). À l'issue du programme, les ingénieurs sont capables de choisir et d'appliquer la bonne stratégie de compression pour des contraintes de déploiement données et de l'intégrer dans un pipeline MLOps existant.
À l'issue, vous saurez
- Appliquer la quantisation GPTQ, AWQ et GGUF à un LLM de production et mesurer le compromis précision-latence résultant
- Concevoir et exécuter une stratégie de pruning réduisant la taille du modèle d'au moins 50 % tout en maintenant des scores de benchmark acceptables
- Construire un pipeline de distillation de connaissance transférant les capacités d'un grand modèle maître à un modèle apprenti plus petit
- Sélectionner la technique de compression appropriée étant donné une cible matérielle spécifique, un budget de latence et un seuil de précision
- Intégrer une étape de compression de modèle dans un pipeline CI/CD MLOps existant avec benchmarking de régression automatisé
Sujets abordés
- Quantisation post-entraînement : formats et chaînes d'outils GPTQ, AWQ, GGUF
- Quantisation consciente de l'entraînement (QAT) et stratégies de précision mixte
- Pruning structuré vs non structuré : approches par magnitude, mouvement et lottery ticket
- Distillation de connaissance : frameworks maître-apprenti, distillation spécifique à la tâche et agnostique à la tâche
- Courbes de compromis précision vs latence vs mémoire et comment les naviguer
- Compression consciente du matériel : GPU (CUDA), CPU (ONNX Runtime, OpenVINO) et edge (TFLite, CoreML)
- Benchmarking des modèles comprimés : perplexité, MMLU, débit et profilage mémoire
- Intégration de la compression dans les pipelines CI/CD et MLOps
Modalité
Dispensé sur 3 jours (en présentiel ou formation instructor-led virtuelle), répartis approximativement 40 % théorie et 60 % labs pratiques. Les participants doivent avoir accès à une instance GPU (A10 ou mieux recommandé ; bac à sable cloud fourni si nécessaire). Les matériaux de lab incluent des modèles pré-entraînés de la famille LLaMA et ResNet pour les exercices de compression. Un tableau de bord de benchmarking partagé est utilisé tout au long pour comparer les résultats des participants. La livraison à distance utilise des salles de réunion pour les sessions de labs en binôme. La livraison sur site fonctionne bien dans un tech hub adjacent à un centre de données ou un lab IA d'entreprise.
Ce qui fait que ça marche
- Établir une suite de benchmarks sur des données spécifiques au domaine avant de commencer la compression, afin que les régressions soient détectées rapidement
- Associer les expériences de compression à un journal de compromis structuré enregistrant la taille, la latence, la mémoire et la précision pour chaque configuration
- Impliquer les ingénieurs DevOps et infrastructure dès le départ pour assurer que les formats de modèle comprimés sont compatibles avec la pile de serving
- Exécuter la compression dans le pipeline CI afin que chaque mise à jour de modèle soit automatiquement profilée par rapport aux métriques de baseline
Erreurs fréquentes
- Appliquer une quantisation INT4 agressive sans valider sur des ensembles d'évaluation spécifiques au domaine, entraînant des régressions de précision silencieuses en production
- Traiter la compression comme une étape ponctuelle plutôt que de l'intégrer dans le cycle de réentraînement et fine-tuning
- Ignorer le support des noyaux spécifiques au matériel, causant que les modèles théoriquement comprimés s'exécutent plus lentement sur le matériel cible
- Confondre la réduction de la taille du modèle avec l'amélioration de la vitesse d'inférence sans profiler le débit réel sur la cible de déploiement
Quand NE PAS suivre cette formation
Cette formation n'est pas appropriée pour une équipe qui n'a pas encore déployé un modèle de baseline en production, si l'équipe expérimente encore la sélection de modèles ou le fine-tuning, l'optimisation de compression est prématurée et l'investissement ne délivrera pas de valeur mesurable.
Fournisseurs à considérer
Sources
Cas d'usage que cette formation débloque
- Système de perception pour véhicule autonomeFusion multi-capteurs et deep learning pour offrir aux véhicules autonomes une perception environnementale à 360 degrés.
- Assistant vocal embarqué pour conducteursContrôle vocal mains libres pour la navigation, le climatiseur et l'infotainment dans les véhicules connectés.
- Système de prédiction des pannes avioniquesAnticipez les défaillances des composants électroniques avioniques pour éviter les immobilisations coûteuses et les incidents de sécurité.
- Prédiction de la dégradation des batteries VEAnticipez la durée de vie des batteries grâce au deep learning pour optimiser les coûts de garantie et la planification SAV.
- Surveillance d'infrastructure et remédiation par AIOpsCorrélation automatique des alertes, prédiction des incidents et remédiation autonome pour les équipes IT.
- Plateforme de simulation par jumeau numériqueRépliquer des actifs physiques en logiciel pour simuler, prédire et optimiser les opérations avant tout changement.
Autres formations à ce niveau
Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.