FORMATION IA

Déploiement et Scalabilité des Modèles ML en Production

Construisez et opérez une infrastructure d'inférence ML performante, économique et prête pour la production.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Format: bootcamp
Durée: 24-40h
Niveau: practitioner
Taille de groupe: 6-16
Prix / participant: €2K-€4K
Prix groupe: €20K-€45K
Public: Ingénieurs plateforme ML, ingénieurs MLOps et ingénieurs ML seniors responsables du déploiement de modèles en production
Prérequis: Solides compétences en Python, familiarité avec PyTorch ou TensorFlow, expérience antérieure du déploiement d'au moins un modèle ML dans un environnement cloud ou on-premise

Ce qu'elle couvre

Ce programme de niveau praticien couvre le cycle complet de déploiement et de mise à l'échelle de modèles de machine learning en environnement de production. Les participants acquièrent une expérience pratique avec les principaux moteurs d'inférence (vLLM, TGI, Triton Inference Server), les stratégies de batching, les techniques de quantisation et la sélection GPU/matériel. La formation allie fondements théoriques et exercices en laboratoire, et se conclut par le benchmarking et l'optimisation d'une stack d'inférence complète. Le format combine sessions magistrales, labs guidés et revues de code entre pairs.

À l'issue, vous saurez

Déployer et configurer vLLM et Triton Inference Server pour servir un grand modèle de langage avec des SLO de latence définis
Appliquer les techniques de quantisation INT8 et INT4 et mesurer leurs compromis exactitude/débit sur un modèle réel
Concevoir une stratégie de batching qui maximise l'utilisation GPU tout en respectant les cibles de latence p95
Sélectionner et justifier le hardware GPU (A10G, A100, H100) en fonction de la taille du modèle, des exigences de débit et des contraintes de coûts
Instrumenter un service d'inférence avec des métriques Prometheus et créer un tableau de bord suivi l'utilisation GPU, le débit en tokens et les taux d'erreur

Sujets abordés

Analyse approfondie des moteurs d'inférence : vLLM, TGI et Triton Inference Server
Batching continu, batching dynamique et ordonnancement de requêtes
Quantisation de modèles : INT8, INT4, GPTQ, AWQ et bitsandbytes
Sélection de GPU, parallélisme multi-GPU (tensor, pipeline, data)
Compromis latence/débit et conception de SLO
API de serveur de modèles : REST, gRPC et réponses en streaming
Monitoring d'inférence : percentiles de latence, utilisation GPU, coût par token
Stratégies d'autoscaling et optimisation du KV-cache

Modalité

Livré sous forme de bootcamp intensif de 3 à 5 jours, soit sur site dans les locaux du client, soit entièrement en distanciel via un environnement de laboratoire cloud (des instances GPU AWS, GCP ou Azure sont provisionnées pour les participants). Environ 60 % du temps est consacré aux laboratoires pratiques ; 40 % aux sessions conceptuelles animées par un instructeur. Les participants travaillent par paires pendant les exercices de laboratoire. Tout le code de laboratoire, les scripts de benchmark et les configurations de référence sont fournis et conservés par les participants après le programme. Un bac à sable cloud compatibles GPU est inclus dans le tarif groupe ; les participants utilisant des comptes cloud personnels ou d'entreprise doivent budgétiser séparément.

Ce qui fait que ça marche

Définir les SLO de latence et de débit avant de benchmarker afin que les décisions hardware et batching soient basées sur des exigences réelles
Exécuter les évaluations d'exactitude de quantisation sur un ensemble de données représentatif spécifique à la tâche, pas seulement des benchmarks génériques
Instrumenter l'inférence dès le premier jour, les équipes qui ajoutent l'observabilité tôt itèrent beaucoup plus rapidement sur l'optimisation des performances
Traiter les configurations de serveur de modèles comme du code (versionné, examiné, testé) pour éviter une dérive de configuration entre les environnements

Erreurs fréquentes

Utiliser par défaut un serveur REST synchrone simple sans considérer le batching continu, ce qui entraîne une sous-utilisation sévère du GPU à grande échelle
Appliquer une quantisation agressive (INT4) sans valider la dégradation d'exactitude sur la tâche spécifique, causant des régressions de qualité silencieuses en production
Sur-provisionner les instances GPU en fonction de la charge de pointe sans implémenter l'autoscaling, entraînant des coûts d'infrastructure excessifs
Ignorer le dimensionnement du KV-cache et les politiques d'éviction, causant des pics de latence imprévisibles sous charge concurrente

Quand NE PAS suivre cette formation

Cette formation n'est pas appropriée pour les équipes qui n'ont pas encore entraîné ou fine-tuné un modèle et évaluent toujours si le ML est la bonne solution, elles ont besoin d'un programme de stratégie ou de littératie IA d'abord, pas d'une profondeur d'infrastructure.

Fournisseurs à considérer

Sources

Cas d'usage que cette formation débloque

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.

Lancer le diagnostic Réserver un appel