IA & Data

Deep Learning Avancé : des Transformers à l'IA Générative

5 jour(s) • 35h

Description

Maîtriser les architectures fondamentales et modernes du deep learning, des réseaux convolutifs aux Transformers, en passant par le fine-tuning de LLMs, les modèles génératifs et l'optimisation pour la production. Acquérir une expérience pratique solide avec PyTorch et l'écosystème Hugging Face.

Objectifs pédagogiques

Maîtriser PyTorch comme framework principal de développement de modèles de deep learning
Comprendre et implémenter les architectures CNN avancées et le transfer learning
Appréhender en profondeur le mécanisme d'attention et l'architecture Transformer
Fine-tuner des modèles de langage pré-entraînés avec les techniques modernes (LoRA, QLoRA, Hugging Face)
Comprendre les architectures génératives : VAE, GANs, modèles de diffusion
Maîtriser les techniques d'optimisation et de déploiement de modèles en production

Public concerné

Ingénieurs et développeurs souhaitant maîtriser les architectures de deep learning modernes

Data scientists ayant des bases en machine learning et souhaitant progresser vers le deep learning

Chefs de projet IA et consultants souhaitant acquérir une compréhension technique approfondie des modèles

Prérequis

Connaissances solides en machine learning (supervisé, non supervisé, évaluation de modèles)

Pratique de Python (numpy, pandas)

Notions de statistiques et d'algèbre linéaire

Avoir suivi la formation "Introduction au Deep Learning" ou connaissances équivalentes

Déroulé du programme

PyTorch : fondamentaux et écosystème

Positionnement de PyTorch vs TensorFlow : état du marché 2025
Tenseurs, autograd et graphe de calcul dynamique
Pipeline d'entraînement : Dataset, DataLoader, transforms
Modules torch.nn, torch.optim, schedulers
Débogage et profiling avec PyTorch
Travaux pratiques : mise en place d'un pipeline d'entraînement complet avec PyTorch

Réseaux convolutifs avancés

Rappels : convolution, pooling, stride, padding
Architectures de référence : VGG, ResNet, EfficientNet — principes et comparaison
Connexions résiduelles et skip connections : pourquoi elles fonctionnent
Batch Normalization, Dropout, régularisation avancée
Transfer learning : feature extraction vs fine-tuning complet
Data augmentation : techniques classiques et avancées (MixUp, CutMix)
Travaux pratiques : classification d'images avec ResNet pré-entraîné, comparaison des stratégies de transfer learning

Des RNN aux Transformers : pourquoi le changement de paradigme

Limites des architectures récurrentes (RNN, LSTM, GRU) : dépendances longues, non-parallélisme
Seq2Seq et le premier mécanisme d'attention (Bahdanau, 2015)
"Attention is All You Need" : rupture et conséquences

Le mécanisme d'attention en détail

Queries, Keys, Values : intuition et formalisme
Attention scalaire produit : calcul, softmax, pondération
Multi-head attention : capter plusieurs types de relations en parallèle
Complexité computationnelle en O(n²) et solutions : attention linéaire, sparse attention, FlashAttention
Positional encoding : absolu, relatif, RoPE (Rotary Position Embedding)

Architecture Transformer complète

Encodeur : self-attention + feed-forward + layer norm + résidus
Décodeur : masked self-attention + cross-attention
BERT (encodeur seul), GPT (décodeur seul), T5/BART (encodeur-décodeur) : quand utiliser quoi
Tokenisation : BPE, WordPiece, SentencePiece — impact sur les performances
Travaux pratiques : implémentation from scratch d'un Transformer simplifié avec PyTorch, visualisation des têtes d'attention

Grands modèles de langage : architecture et fonctionnement

Scaling laws : pourquoi les grands modèles émergent
Pré-entraînement : masked language modeling, causal language modeling
Instruction tuning et RLHF : comment ChatGPT est construit
Panorama des modèles open source : Llama, Mistral, Falcon, Phi

Écosystème Hugging Face

Hub, Transformers, Datasets, Tokenizers, Evaluate : tour d'horizon
Charger, inspecter et utiliser un modèle pré-entraîné
Pipelines pour l'inférence : classification, NER, résumé, génération
Travaux pratiques : exploration et inférence avec plusieurs modèles du Hub

Fine-tuning de LLMs : techniques modernes

Fine-tuning complet vs fine-tuning partiel : compromis mémoire/performance
PEFT (Parameter-Efficient Fine-Tuning) : principe général
LoRA (Low-Rank Adaptation) : décomposition de matrices, rang, alpha
QLoRA : quantization 4 bits + LoRA, entraînement sur GPU grand public
Préparation des données : formats d'instruction, prompt templates
Évaluation : perplexité, BLEU, ROUGE, benchmarks spécialisés
Travaux pratiques : fine-tuning d'un modèle de langage avec LoRA sur un corpus métier via Hugging Face PEFT

Autoencodeurs et modèles variationnels

Autoencodeurs : encoder, espace latent, décodeur
VAE (Variational Autoencoders) : espace latent continu, reparametrization trick
Applications : compression, débruitage, génération contrôlée
Travaux pratiques : implémentation d'un VAE avec PyTorch

GANs : principes et architectures

Architecture GAN : générateur et discriminateur en jeu adversarial
Instabilités d'entraînement : mode collapse, training collapse
Variantes stabilisées : WGAN, DCGAN, StyleGAN (lecture commentée)
Pourquoi les GANs ont été supplantés par les modèles de diffusion

Modèles de diffusion

Processus de diffusion : ajout progressif de bruit gaussien
Processus de débruitage (reverse diffusion) : DDPM
Score matching et DDIM : accélération de l'inférence
Latent Diffusion Models : Stable Diffusion, architecture U-Net dans l'espace latent
Guidance : classifier guidance, classifier-free guidance, ControlNet
Applications au texte et aux données tabulaires
Travaux pratiques : utilisation et exploration d'un modèle de diffusion pré-entraîné

Vision Transformers (ViT) et modèles multimodaux

Patchification : découper une image en tokens
ViT vs CNN : biais inductif vs apprentissage de la structure spatiale
Modèles hybrides CNN+Transformer : Swin Transformer
Modèles multimodaux : CLIP (vision + texte), principe et applications
Travaux pratiques : classification d'images avec ViT pré-entraîné, comparaison avec ResNet

Optimisation des modèles pour la production

Quantization : INT8, INT4, GGUF — principes et compromis
Pruning et distillation de modèles
Inférence efficace : batching dynamique, KV cache, speculative decoding
Formats d'export : ONNX, TensorRT
Outils de monitoring : Weights & Biases, TensorBoard

Déploiement de modèles

Serving de modèles : TorchServe, Triton Inference Server
APIs d'inférence : FastAPI + modèle PyTorch
Déploiement cloud : Hugging Face Inference Endpoints, AWS SageMaker (introduction)
Gestion des versions et registre de modèles

Projet de synthèse

Conception et implémentation d'un pipeline de bout en bout au choix
Pipeline NLP : ingestion de documents > embeddings > indexation vectorielle > recherche sémantique > réponse augmentée
Pipeline vision : fine-tuning d'un ViT sur un jeu de données métier > optimisation > API d'inférence
Pipeline génératif : fine-tuning LoRA d'un LLM sur corpus spécialisé > évaluation > déploiement
Présentation et revue critique des choix architecturaux
Discussion : bonnes pratiques, pièges fréquents, évolutions à surveiller