Altitud
Édition · 25 mai 2026
Toutes les formations

FORMATION IA

Bootcamp Ingénierie Computer Vision

Construisez, entraînez et déployez des systèmes de vision par ordinateur prêts pour la production.

Voir si cette formation est la bonne pour votre équipe, diagnostic gratuit

Lancer le diagnostic
Format
bootcamp
Durée
32-48h
Niveau
practitioner
Taille de groupe
8-20
Prix / participant
€2K-€4K
Prix groupe
€25K-€55K
Public
Ingénieurs logiciel et ingénieurs ML en transition vers des rôles en vision par ordinateur
Prérequis
Maîtrise de Python, connaissance pratique des fondamentaux NumPy/PyTorch ou TensorFlow, et familiarité avec l'entraînement d'un modèle ML simple

Ce qu'elle couvre

Un bootcamp pratique couvrant l'ensemble de la stack ingénierie en vision par ordinateur : du traitement d'image classique aux modèles de détection d'objets, segmentation, OCR et modèles vision-langage. Les participants entraînent des modèles sur des jeux de données réels, optimisent les pipelines d'inférence et déploient des systèmes supervisés en production. Le programme alterne sessions de coding en direct, projets guidés et revues par les pairs sur quatre à six journées intensives.

À l'issue, vous saurez

  • Fine-tuner un modèle YOLO ou DETR sur un dataset personnalisé et l'évaluer selon les métriques COCO
  • Construire un pipeline OCR et d'analyse de documents end-to-end prêt pour l'ingestion en production
  • Exporter un modèle CV entraîné vers ONNX, appliquer la quantisation INT8 et évaluer les performances de latence d'inférence
  • Intégrer un modèle vision-langage (CLIP ou LLaVA) dans une application via API ou déploiement local
  • Configurer un tableau de bord de monitoring en production suivant le data drift et la dégradation de confiance

Sujets abordés

  • Traitement d'image classique : convolutions, extraction de features, fondamentaux OpenCV
  • Architectures de détection d'objets : entraînement et fine-tuning YOLO, DETR, Faster R-CNN
  • Segmentation d'instance et sémantique avec Mask R-CNN et SAM
  • Pipelines OCR : Tesseract, PaddleOCR et analyse de mise en page de documents
  • Modèles vision-langage : intégration CLIP, LLaVA et GPT-4V API
  • Optimisation de l'inférence : TensorRT, export ONNX, quantisation et déploiement edge
  • MLOps pour vision par ordinateur : versioning de données avec DVC, experiment tracking avec MLflow, model registry
  • Monitoring en production : détection de data drift, suivi de confiance de prédiction, alerting

Modalité

Généralement délivré en personne ou en distanciel synchrone sur cinq à six jours complets, avec approximativement 70% de coding hands-on et 30% de théorie dirigée par l'instructeur. Chaque participant doit disposer d'un environnement GPU (crédits cloud fournis ou notebooks pré-configurés sur Colab Pro / AWS). Les matériaux incluent des slide decks, des notebooks Jupyter annotés, des datasets de référence et un dépôt GitHub privé. Un projet capstone, entraînement et déploiement d'un système de vision par ordinateur sur un cas d'usage choisi par le participant, est présenté le dernier jour.

Ce qui fait que ça marche

  • Apporter un dataset interne réel et un cas d'usage pour que le capstone du bootcamp ait une pertinence métier immédiate
  • Associer chaque ingénieur à un environnement GPU dès le premier jour pour éviter les délais de configuration
  • Établir les baselines d'évaluation du modèle avant le fine-tuning pour mesurer l'amélioration réelle
  • Planifier une session de révision de suivi 30 jours après pour consolider les déploiements en production et traiter les blocages

Erreurs fréquentes

  • Entraîner sur des datasets déséquilibrés ou non labellisés sans établir d'abord une baseline de qualité data
  • Ignorer l'optimisation d'inférence et déployer des modèles FP32 complets en production, causant des problèmes de latence
  • Traiter les modèles vision-langage comme des remplaçants prêts à l'emploi sans évaluer les taux d'hallucination sur des images spécifiques au domaine
  • Négliger le monitoring post-déploiement, menant à une dégradation silencieuse du modèle à mesure que les distributions d'entrée évoluent

Quand NE PAS suivre cette formation

Ce bootcamp n'est pas adapté à une équipe qui doit évaluer si la vision par ordinateur est viable pour son cas d'usage, elle doit d'abord suivre un workshop de scoping. Il est aussi inadapté aux data scientists qui manquent de compétences en ingénierie Python, car le rythme suppose une fluidité en ingénierie.

Fournisseurs à considérer

Sources

Autres formations à ce niveau

Cette formation fait partie d'un catalogue Data & IA construit pour les leaders sérieux sur l'exécution. Lancez le diagnostic gratuit pour voir quelles formations sont prioritaires pour votre équipe.