Altitud
Édition · 25 mai 2026
Toutes les formations

FORMATION IA

Compression de modèles et quantisation pour la production

Déployez des modèles plus légers et plus rapides sans sacrifier la précision grâce à la quantisation, l'élagage et la distillation.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Lancer le diagnostic
Format
bootcamp
Durée
16-24h
Niveau
advanced
Taille de groupe
6-16
Prix / participant
€2K-€4K
Prix groupe
€18K-€45K
Public
Ingénieurs ML et ingénieurs infrastructure IA responsables du déploiement de modèles en environnement de production
Prérequis
Solides compétences en Python, expérience pratique de l'entraînement ou du fine-tuning de réseaux de neurones, et familiarité avec au moins un framework de deep learning (PyTorch préféré)

Ce qu'elle couvre

Ce programme de niveau praticien couvre l'ensemble des techniques de compression de modèles, quantisation (GPTQ, AWQ, GGUF), élagage structuré et non structuré, et distillation de connaissances, avec une analyse rigoureuse des compromis. Les participants travaillent sur des laboratoires pratiques de compression de LLM et de CNN réels, en mesurant la latence, l'empreinte mémoire et la dégradation de précision sur différentes cibles matérielles (GPU, CPU, edge). À l'issue du programme, les ingénieurs sont capables de choisir et d'appliquer la bonne stratégie de compression pour des contraintes de déploiement données et de l'intégrer dans un pipeline MLOps existant.

À l'issue, vous saurez

  • Appliquer la quantisation GPTQ, AWQ et GGUF à un LLM de production et mesurer le compromis précision-latence résultant
  • Concevoir et exécuter une stratégie de pruning réduisant la taille du modèle d'au moins 50 % tout en maintenant des scores de benchmark acceptables
  • Construire un pipeline de distillation de connaissance transférant les capacités d'un grand modèle maître à un modèle apprenti plus petit
  • Sélectionner la technique de compression appropriée étant donné une cible matérielle spécifique, un budget de latence et un seuil de précision
  • Intégrer une étape de compression de modèle dans un pipeline CI/CD MLOps existant avec benchmarking de régression automatisé

Sujets abordés

  • Quantisation post-entraînement : formats et chaînes d'outils GPTQ, AWQ, GGUF
  • Quantisation consciente de l'entraînement (QAT) et stratégies de précision mixte
  • Pruning structuré vs non structuré : approches par magnitude, mouvement et lottery ticket
  • Distillation de connaissance : frameworks maître-apprenti, distillation spécifique à la tâche et agnostique à la tâche
  • Courbes de compromis précision vs latence vs mémoire et comment les naviguer
  • Compression consciente du matériel : GPU (CUDA), CPU (ONNX Runtime, OpenVINO) et edge (TFLite, CoreML)
  • Benchmarking des modèles comprimés : perplexité, MMLU, débit et profilage mémoire
  • Intégration de la compression dans les pipelines CI/CD et MLOps

Modalité

Dispensé sur 3 jours (en présentiel ou formation instructor-led virtuelle), répartis approximativement 40 % théorie et 60 % labs pratiques. Les participants doivent avoir accès à une instance GPU (A10 ou mieux recommandé ; bac à sable cloud fourni si nécessaire). Les matériaux de lab incluent des modèles pré-entraînés de la famille LLaMA et ResNet pour les exercices de compression. Un tableau de bord de benchmarking partagé est utilisé tout au long pour comparer les résultats des participants. La livraison à distance utilise des salles de réunion pour les sessions de labs en binôme. La livraison sur site fonctionne bien dans un tech hub adjacent à un centre de données ou un lab IA d'entreprise.

Ce qui fait que ça marche

  • Établir une suite de benchmarks sur des données spécifiques au domaine avant de commencer la compression, afin que les régressions soient détectées rapidement
  • Associer les expériences de compression à un journal de compromis structuré enregistrant la taille, la latence, la mémoire et la précision pour chaque configuration
  • Impliquer les ingénieurs DevOps et infrastructure dès le départ pour assurer que les formats de modèle comprimés sont compatibles avec la pile de serving
  • Exécuter la compression dans le pipeline CI afin que chaque mise à jour de modèle soit automatiquement profilée par rapport aux métriques de baseline

Erreurs fréquentes

  • Appliquer une quantisation INT4 agressive sans valider sur des ensembles d'évaluation spécifiques au domaine, entraînant des régressions de précision silencieuses en production
  • Traiter la compression comme une étape ponctuelle plutôt que de l'intégrer dans le cycle de réentraînement et fine-tuning
  • Ignorer le support des noyaux spécifiques au matériel, causant que les modèles théoriquement comprimés s'exécutent plus lentement sur le matériel cible
  • Confondre la réduction de la taille du modèle avec l'amélioration de la vitesse d'inférence sans profiler le débit réel sur la cible de déploiement

Quand NE PAS suivre cette formation

Cette formation n'est pas appropriée pour une équipe qui n'a pas encore déployé un modèle de baseline en production, si l'équipe expérimente encore la sélection de modèles ou le fine-tuning, l'optimisation de compression est prématurée et l'investissement ne délivrera pas de valeur mesurable.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.