Retour aux formations
IA & Data
Deep Learning Avancé : des Transformers à l'IA Générative
5 jour(s) • 35h
Description
Maîtriser les architectures fondamentales et modernes du deep learning, des réseaux convolutifs aux Transformers, en passant par le fine-tuning de LLMs, les modèles génératifs et l'optimisation pour la production. Acquérir une expérience pratique solide avec PyTorch et l'écosystème Hugging Face.
Objectifs pédagogiques
- Maîtriser PyTorch comme framework principal de développement de modèles de deep learning
- Comprendre et implémenter les architectures CNN avancées et le transfer learning
- Appréhender en profondeur le mécanisme d'attention et l'architecture Transformer
- Fine-tuner des modèles de langage pré-entraînés avec les techniques modernes (LoRA, QLoRA, Hugging Face)
- Comprendre les architectures génératives : VAE, GANs, modèles de diffusion
- Maîtriser les techniques d'optimisation et de déploiement de modèles en production
Public concerné
Ingénieurs et développeurs souhaitant maîtriser les architectures de deep learning modernes
Data scientists ayant des bases en machine learning et souhaitant progresser vers le deep learning
Chefs de projet IA et consultants souhaitant acquérir une compréhension technique approfondie des modèles
Prérequis
Connaissances solides en machine learning (supervisé, non supervisé, évaluation de modèles)
Pratique de Python (numpy, pandas)
Notions de statistiques et d'algèbre linéaire
Avoir suivi la formation "Introduction au Deep Learning" ou connaissances équivalentes
Déroulé du programme
1
PyTorch : fondamentaux et écosystème
- Positionnement de PyTorch vs TensorFlow : état du marché 2025
- Tenseurs, autograd et graphe de calcul dynamique
- Pipeline d'entraînement : Dataset, DataLoader, transforms
- Modules torch.nn, torch.optim, schedulers
- Débogage et profiling avec PyTorch
- Travaux pratiques : mise en place d'un pipeline d'entraînement complet avec PyTorch
2
Réseaux convolutifs avancés
- Rappels : convolution, pooling, stride, padding
- Architectures de référence : VGG, ResNet, EfficientNet — principes et comparaison
- Connexions résiduelles et skip connections : pourquoi elles fonctionnent
- Batch Normalization, Dropout, régularisation avancée
- Transfer learning : feature extraction vs fine-tuning complet
- Data augmentation : techniques classiques et avancées (MixUp, CutMix)
- Travaux pratiques : classification d'images avec ResNet pré-entraîné, comparaison des stratégies de transfer learning
3
Des RNN aux Transformers : pourquoi le changement de paradigme
- Limites des architectures récurrentes (RNN, LSTM, GRU) : dépendances longues, non-parallélisme
- Seq2Seq et le premier mécanisme d'attention (Bahdanau, 2015)
- "Attention is All You Need" : rupture et conséquences
4
Le mécanisme d'attention en détail
- Queries, Keys, Values : intuition et formalisme
- Attention scalaire produit : calcul, softmax, pondération
- Multi-head attention : capter plusieurs types de relations en parallèle
- Complexité computationnelle en O(n²) et solutions : attention linéaire, sparse attention, FlashAttention
- Positional encoding : absolu, relatif, RoPE (Rotary Position Embedding)
5
Architecture Transformer complète
- Encodeur : self-attention + feed-forward + layer norm + résidus
- Décodeur : masked self-attention + cross-attention
- BERT (encodeur seul), GPT (décodeur seul), T5/BART (encodeur-décodeur) : quand utiliser quoi
- Tokenisation : BPE, WordPiece, SentencePiece — impact sur les performances
- Travaux pratiques : implémentation from scratch d'un Transformer simplifié avec PyTorch, visualisation des têtes d'attention
6
Grands modèles de langage : architecture et fonctionnement
- Scaling laws : pourquoi les grands modèles émergent
- Pré-entraînement : masked language modeling, causal language modeling
- Instruction tuning et RLHF : comment ChatGPT est construit
- Panorama des modèles open source : Llama, Mistral, Falcon, Phi
7
Écosystème Hugging Face
- Hub, Transformers, Datasets, Tokenizers, Evaluate : tour d'horizon
- Charger, inspecter et utiliser un modèle pré-entraîné
- Pipelines pour l'inférence : classification, NER, résumé, génération
- Travaux pratiques : exploration et inférence avec plusieurs modèles du Hub
8
Fine-tuning de LLMs : techniques modernes
- Fine-tuning complet vs fine-tuning partiel : compromis mémoire/performance
- PEFT (Parameter-Efficient Fine-Tuning) : principe général
- LoRA (Low-Rank Adaptation) : décomposition de matrices, rang, alpha
- QLoRA : quantization 4 bits + LoRA, entraînement sur GPU grand public
- Préparation des données : formats d'instruction, prompt templates
- Évaluation : perplexité, BLEU, ROUGE, benchmarks spécialisés
- Travaux pratiques : fine-tuning d'un modèle de langage avec LoRA sur un corpus métier via Hugging Face PEFT
9
Autoencodeurs et modèles variationnels
- Autoencodeurs : encoder, espace latent, décodeur
- VAE (Variational Autoencoders) : espace latent continu, reparametrization trick
- Applications : compression, débruitage, génération contrôlée
- Travaux pratiques : implémentation d'un VAE avec PyTorch
10
GANs : principes et architectures
- Architecture GAN : générateur et discriminateur en jeu adversarial
- Instabilités d'entraînement : mode collapse, training collapse
- Variantes stabilisées : WGAN, DCGAN, StyleGAN (lecture commentée)
- Pourquoi les GANs ont été supplantés par les modèles de diffusion
11
Modèles de diffusion
- Processus de diffusion : ajout progressif de bruit gaussien
- Processus de débruitage (reverse diffusion) : DDPM
- Score matching et DDIM : accélération de l'inférence
- Latent Diffusion Models : Stable Diffusion, architecture U-Net dans l'espace latent
- Guidance : classifier guidance, classifier-free guidance, ControlNet
- Applications au texte et aux données tabulaires
- Travaux pratiques : utilisation et exploration d'un modèle de diffusion pré-entraîné
12
Vision Transformers (ViT) et modèles multimodaux
- Patchification : découper une image en tokens
- ViT vs CNN : biais inductif vs apprentissage de la structure spatiale
- Modèles hybrides CNN+Transformer : Swin Transformer
- Modèles multimodaux : CLIP (vision + texte), principe et applications
- Travaux pratiques : classification d'images avec ViT pré-entraîné, comparaison avec ResNet
13
Optimisation des modèles pour la production
- Quantization : INT8, INT4, GGUF — principes et compromis
- Pruning et distillation de modèles
- Inférence efficace : batching dynamique, KV cache, speculative decoding
- Formats d'export : ONNX, TensorRT
- Outils de monitoring : Weights & Biases, TensorBoard
14
Déploiement de modèles
- Serving de modèles : TorchServe, Triton Inference Server
- APIs d'inférence : FastAPI + modèle PyTorch
- Déploiement cloud : Hugging Face Inference Endpoints, AWS SageMaker (introduction)
- Gestion des versions et registre de modèles
15
Projet de synthèse
- Conception et implémentation d'un pipeline de bout en bout au choix
- Pipeline NLP : ingestion de documents > embeddings > indexation vectorielle > recherche sémantique > réponse augmentée
- Pipeline vision : fine-tuning d'un ViT sur un jeu de données métier > optimisation > API d'inférence
- Pipeline génératif : fine-tuning LoRA d'un LLM sur corpus spécialisé > évaluation > déploiement
- Présentation et revue critique des choix architecturaux
- Discussion : bonnes pratiques, pièges fréquents, évolutions à surveiller
Informations
Durée
5 jour(s)
35h
Tarif
Sur demande
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT