IA & Data

IA Multimodale Avancée : Concevoir et déployer des systèmes combinant texte, image, audio et vidéo

2 jour(s) • 14h

Description

Maîtriser les architectures et outils de l’IA multimodale afin de concevoir, intégrer et déployer des pipelines combinant texte, image, audio et vidéo dans des cas d’usage avancés.

Objectifs pédagogiques

Comprendre les architectures des modèles multimodaux modernes
Exploiter des modèles Vision-Language (CLIP, LLaVA, GPT-4V)
Mettre en œuvre des pipelines audio (transcription, analyse vocale)
Analyser et exploiter des flux vidéo avec des modèles IA
Concevoir des pipelines multimodaux complets en production
Identifier et implémenter des cas d’usage métier avancés

Public concerné

Data Scientists

Machine Learning Engineers

Architectes IA

Lead Developers IA / Data

Prérequis

Maîtrise de Python et des librairies ML (PyTorch ou TensorFlow)

Connaissances en Deep Learning (CNN, Transformers)

Expérience avec des APIs IA (OpenAI, Google, Hugging Face)

Notions en traitement du langage naturel et vision par ordinateur

Déroulé du programme

JOUR 1- Module 1 – Architectures multimodales et état de l’art (3h)

Principes des modèles multimodaux (fusion, alignment, embedding partagé)
Architectures Transformer multimodales
Panorama des modèles : GPT-4o, Gemini, CLIP, Whisper
Enjeux : performance, coût, latence, biais
Activité pratique : Étude comparative de modèles multimodaux

Analyse des performances de différents modèles sur un cas réel (image + texte)

Benchmark rapide via API (OpenAI / Hugging Face)

JOUR 1- Module 2 – Vision-Language : compréhension image + texte (4h)

Fonctionnement de CLIP (alignement image-texte)
Utilisation de LLaVA et GPT-4V
Cas d’usage : classification, captioning, recherche sémantique
Intégration dans des applications métiers
Activité pratique : Pipeline Vision-Language

Implémentation d’un système de recherche d’images basé sur du texte

Génération automatique de descriptions d’images (captioning avancé)

JOUR 2- Module 3 – Audio et traitement vocal (3h)

Fonctionnement de Whisper et modèles de transcription
Speech-to-text et text-to-speech
Analyse vocale (sentiment, détection d’intention)
Cas d’usage : call center, accessibilité, automatisation
Activité pratique : Analyse audio avancée

Transcription et analyse d’un fichier audio réel

Extraction d’informations (mots-clés, émotions, résumé)

JOUR 2- Module 4 – Vidéo et pipelines multimodaux complets (4h)

Analyse de flux vidéo (frame sampling, temporal modeling)
Génération de descriptions vidéo (video captioning)
Orchestration de pipelines multimodaux
Intégration dans des architectures data/ML (batch vs temps réel)
Cas d’usage : monitoring, sécurité, analyse documentaire
Activité pratique : TP fil rouge – Pipeline multimodal complet

Création d’un pipeline combinant texte + image + audio

Déploiement d’un cas d’usage : analyse automatique d’un contenu multimédia (vidéo ou dataset mixte)

Informations

Durée

2 jour(s)

14h

Tarif

Sur demande

Formations similaires

IA & Data

Migration vers le Cloud

2 jour(s)

Sur demande

IA & Data

Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé

3 jour(s)

Sur demande

IA & Data

AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant

1 jour(s)

Sur demande

IA & Data

Analyse des données avec Microsoft Power BI (4-167)

3 jour(s)

2200 € HT