IA & Data

Machine Learning - Traitement de la parole

3 jour(s) • 21h

Description

Cette formation vise à fournir aux participants des connaissances approfondies dans le domaine de l'IA, en se concentrant spécifiquement sur le machine-learning et le traitement de la parole. Les participants acquerront une vue d'ensemble sur les technologies vocales modernes, y compris le codage, la reconnaissance et la synthèse de la parole, ainsi que les applications pratiques de ces technologies.

Objectifs pédagogiques

Comprendre les principes du traitement de la parole.
Appliquer des techniques de codage vocal.
Mettre en œuvre des modèles de reconnaissance automatique de la parole.
Comprendre les méthodes de synthèse vocale et les appliquer.
Explorer les applications pratiques du traitement de la parole.
Analyser des études de cas et résoudre des problèmes concrets.

Public concerné

Cette formation s'adresse à tout personnel technique, notamment les techniciens et ingénieurs, souhaitant acquérir des connaissances approfondies dans le domaine du traitement de la parole.

Prérequis

Des connaissances générales dans un domaine des télécommunications et/ou des réseaux sont recommandées.

Déroulé du programme

Introduction au traitement du signal audio (1,5 heures)

Définitions et concepts clés (signal, échantillonnage, quantification)
Représentations temporelle et fréquentielle des signaux
Signaux périodiques (sinus, carrés) et signaux aléatoires (bruit blanc, rose)
Optionnel : l'analyse spectrale (transformée de Fourier, spectrogramme, fenêtrage)

Caractéristiques du signal de parole (1 heures)

Production de la parole et organes phonatoires
Formants et enveloppe spectrale
Prosodie (intonation, rythme, accent)

Vue d'ensemble des technologies de reconnaissance et de synthèse vocale (3 heures)

Concepts fondamentaux (modélisation acoustique, modélisation linguistique, synthèse vocale)
Applications et cas d'utilisation
Traitement du signal audio
Exercice : Analyser un fichier WAV et extraire une caractéristique
Exercice : Chargement et visualisation de signaux audio avec Python
Exercice : Analyse spectrale et extraction de caractéristiques
Exercice : Exercices sur les signaux périodiques et le bruit
Exercice : Analyse de signaux de parole

Techniques de modélisation acoustique (Réseaux de neurones profonds) (2,5 heures)

Exercice : Workflow d'un système de reconnaissance vocale
Exercice : Évaluation et métriques
Exercice : Extraction de caractéristiques et traitement du signal

Modèles acoustiques (3 heures)

Réseaux de neurones (RNN, LSTM, GRU)
Transformers (attention, self-attention)
Optionnel : Les techniques de prétraitement du signal (préaccentuation, normalisation, suppression du silence)

Boîte à outils du traitement de la parole (4 heures)

Introduction aux boîtes à outils populaires de reconnaissance vocale (speech-to-text)
Introduction aux boîtes à outils populaires de synthèse vocale (text-to-speech)
Traitement des données dans la reconnaissance vocale
Chargement de modèles pré-entraînés (Hugging Face)
Exercice : Travaux pratiques avec les boîtes à outils
Exercice : Prétraitement de signaux de parole
Exercice : Entraînement d'un modèle acoustique simple
Exercice : Évaluation des performances

Modèles de langage (3 heures)

Modèles de reconnaissance vocale end-to-end (Transformer, Conformer)
Exploration des architectures Transformer audio, comprendre leurs différences

et les tâches auxquelles elles sont le mieux adaptées (reconnaissance vocale

multi-locuteurs et multilingue, bonus : transfert d'apprentissage et adaptation au

domaine)

Travaux pratiques (4 heures)

Exercice (créer application) : Apprendre à générer du texte à partir de la parole

OU Apprendre à générer de la parole à partir de texte

Bonus / Optionnel : Considérations pour le déploiement (services cloud, solutions sur site, appareils de périphérie)
Bonus / Optionnel : Considérations éthiques et de confidentialité dans les technologies de la parole
Bonus / Optionnel : Optimisation des performances et compression de modèles