FORMATION IA

Compression de modèles et quantisation pour la production

Déployez des modèles plus légers et plus rapides sans sacrifier la précision grâce à la quantisation, l'élagage et la distillation.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Lancer le diagnostic

Format: bootcamp
Durée: 16-24h
Niveau: advanced
Taille de groupe: 6-16
Prix / participant: €2K-€4K
Prix groupe: €18K-€45K
Public: Ingénieurs ML et ingénieurs infrastructure IA responsables du déploiement de modèles en environnement de production
Prérequis: Solides compétences en Python, expérience pratique de l'entraînement ou du fine-tuning de réseaux de neurones, et familiarité avec au moins un framework de deep learning (PyTorch préféré)

Ce qu'elle couvre

Ce programme de niveau praticien couvre l'ensemble des techniques de compression de modèles, quantisation (GPTQ, AWQ, GGUF), élagage structuré et non structuré, et distillation de connaissances, avec une analyse rigoureuse des compromis. Les participants travaillent sur des laboratoires pratiques de compression de LLM et de CNN réels, en mesurant la latence, l'empreinte mémoire et la dégradation de précision sur différentes cibles matérielles (GPU, CPU, edge). À l'issue du programme, les ingénieurs sont capables de choisir et d'appliquer la bonne stratégie de compression pour des contraintes de déploiement données et de l'intégrer dans un pipeline MLOps existant.

À l'issue, vous saurez

Appliquer la quantisation GPTQ, AWQ et GGUF à un LLM de production et mesurer le compromis précision-latence résultant
Concevoir et exécuter une stratégie de pruning réduisant la taille du modèle d'au moins 50 % tout en maintenant des scores de benchmark acceptables
Construire un pipeline de distillation de connaissance transférant les capacités d'un grand modèle maître à un modèle apprenti plus petit
Sélectionner la technique de compression appropriée étant donné une cible matérielle spécifique, un budget de latence et un seuil de précision
Intégrer une étape de compression de modèle dans un pipeline CI/CD MLOps existant avec benchmarking de régression automatisé

Sujets abordés

Quantisation post-entraînement : formats et chaînes d'outils GPTQ, AWQ, GGUF
Quantisation consciente de l'entraînement (QAT) et stratégies de précision mixte
Pruning structuré vs non structuré : approches par magnitude, mouvement et lottery ticket
Distillation de connaissance : frameworks maître-apprenti, distillation spécifique à la tâche et agnostique à la tâche
Courbes de compromis précision vs latence vs mémoire et comment les naviguer
Compression consciente du matériel : GPU (CUDA), CPU (ONNX Runtime, OpenVINO) et edge (TFLite, CoreML)
Benchmarking des modèles comprimés : perplexité, MMLU, débit et profilage mémoire
Intégration de la compression dans les pipelines CI/CD et MLOps

Modalité

Dispensé sur 3 jours (en présentiel ou formation instructor-led virtuelle), répartis approximativement 40 % théorie et 60 % labs pratiques. Les participants doivent avoir accès à une instance GPU (A10 ou mieux recommandé ; bac à sable cloud fourni si nécessaire). Les matériaux de lab incluent des modèles pré-entraînés de la famille LLaMA et ResNet pour les exercices de compression. Un tableau de bord de benchmarking partagé est utilisé tout au long pour comparer les résultats des participants. La livraison à distance utilise des salles de réunion pour les sessions de labs en binôme. La livraison sur site fonctionne bien dans un tech hub adjacent à un centre de données ou un lab IA d'entreprise.

Ce qui fait que ça marche

Établir une suite de benchmarks sur des données spécifiques au domaine avant de commencer la compression, afin que les régressions soient détectées rapidement
Associer les expériences de compression à un journal de compromis structuré enregistrant la taille, la latence, la mémoire et la précision pour chaque configuration
Impliquer les ingénieurs DevOps et infrastructure dès le départ pour assurer que les formats de modèle comprimés sont compatibles avec la pile de serving
Exécuter la compression dans le pipeline CI afin que chaque mise à jour de modèle soit automatiquement profilée par rapport aux métriques de baseline

Erreurs fréquentes

Appliquer une quantisation INT4 agressive sans valider sur des ensembles d'évaluation spécifiques au domaine, entraînant des régressions de précision silencieuses en production
Traiter la compression comme une étape ponctuelle plutôt que de l'intégrer dans le cycle de réentraînement et fine-tuning
Ignorer le support des noyaux spécifiques au matériel, causant que les modèles théoriquement comprimés s'exécutent plus lentement sur le matériel cible
Confondre la réduction de la taille du modèle avec l'amélioration de la vitesse d'inférence sans profiler le débit réel sur la cible de déploiement

Quand NE PAS suivre cette formation

Cette formation n'est pas appropriée pour une équipe qui n'a pas encore déployé un modèle de baseline en production, si l'équipe expérimente encore la sélection de modèles ou le fine-tuning, l'optimisation de compression est prématurée et l'investissement ne délivrera pas de valeur mesurable.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.

Lancer le diagnostic Réserver un appel