Formation en IA & Data: Machine Learning - Traitement de la parole  - Ascent Formation
Retour aux formations
IA & Data

Machine Learning - Traitement de la parole

3 jour(s)21h

Description

Cette formation vise à fournir aux participants des connaissances approfondies dans le domaine de l'IA, en se concentrant spécifiquement sur le machine-learning et le traitement de la parole. Les participants acquerront une vue d'ensemble sur les technologies vocales modernes, y compris le codage, la reconnaissance et la synthèse de la parole, ainsi que les applications pratiques de ces technologies.

Objectifs pédagogiques

  • Comprendre les principes du traitement de la parole.
  • Appliquer des techniques de codage vocal.
  • Mettre en œuvre des modèles de reconnaissance automatique de la parole.
  • Comprendre les méthodes de synthèse vocale et les appliquer.
  • Explorer les applications pratiques du traitement de la parole.
  • Analyser des études de cas et résoudre des problèmes concrets.

Public concerné

Cette formation s'adresse à tout personnel technique, notamment les techniciens et ingénieurs, souhaitant acquérir des connaissances approfondies dans le domaine du traitement de la parole.

Prérequis

Des connaissances générales dans un domaine des télécommunications et/ou des réseaux sont recommandées.

Déroulé du programme

1

Introduction au traitement du signal audio (1,5 heures)

5h
  • Définitions et concepts clés (signal, échantillonnage, quantification)
  • Représentations temporelle et fréquentielle des signaux
  • Signaux périodiques (sinus, carrés) et signaux aléatoires (bruit blanc, rose)
  • Optionnel : l'analyse spectrale (transformée de Fourier, spectrogramme, fenêtrage)
2

Caractéristiques du signal de parole (1 heures)

1h
  • Production de la parole et organes phonatoires
  • Formants et enveloppe spectrale
  • Prosodie (intonation, rythme, accent)
3

Vue d'ensemble des technologies de reconnaissance et de synthèse vocale (3 heures)

3h
  • Concepts fondamentaux (modélisation acoustique, modélisation linguistique, synthèse vocale)
  • Applications et cas d'utilisation
  • Traitement du signal audio
  • Exercice : Analyser un fichier WAV et extraire une caractéristique
  • Exercice : Chargement et visualisation de signaux audio avec Python
  • Exercice : Analyse spectrale et extraction de caractéristiques
  • Exercice : Exercices sur les signaux périodiques et le bruit
  • Exercice : Analyse de signaux de parole
4

Techniques de modélisation acoustique (Réseaux de neurones profonds) (2,5 heures)

5h
  • Exercice : Workflow d'un système de reconnaissance vocale
  • Exercice : Évaluation et métriques
  • Exercice : Extraction de caractéristiques et traitement du signal
5

Modèles acoustiques (3 heures)

3h
  • Réseaux de neurones (RNN, LSTM, GRU)
  • Transformers (attention, self-attention)
  • Optionnel : Les techniques de prétraitement du signal (préaccentuation, normalisation, suppression du silence)
6

Boîte à outils du traitement de la parole (4 heures)

4h
  • Introduction aux boîtes à outils populaires de reconnaissance vocale (speech-to-text)
  • Introduction aux boîtes à outils populaires de synthèse vocale (text-to-speech)
  • Traitement des données dans la reconnaissance vocale
  • Chargement de modèles pré-entraînés (Hugging Face)
  • Exercice : Travaux pratiques avec les boîtes à outils
  • Exercice : Prétraitement de signaux de parole
  • Exercice : Entraînement d'un modèle acoustique simple
  • Exercice : Évaluation des performances
7

Modèles de langage (3 heures)

3h
  • Modèles de reconnaissance vocale end-to-end (Transformer, Conformer)
  • Exploration des architectures Transformer audio, comprendre leurs différences
8

et les tâches auxquelles elles sont le mieux adaptées (reconnaissance vocale

9

multi-locuteurs et multilingue, bonus : transfert d'apprentissage et adaptation au

10

domaine)

11

Travaux pratiques (4 heures)

4h
  • Exercice (créer application) : Apprendre à générer du texte à partir de la parole
12

OU Apprendre à générer de la parole à partir de texte

  • Bonus / Optionnel : Considérations pour le déploiement (services cloud, solutions sur site, appareils de périphérie)
  • Bonus / Optionnel : Considérations éthiques et de confidentialité dans les technologies de la parole
  • Bonus / Optionnel : Optimisation des performances et compression de modèles

Informations

Durée

3 jour(s)

21h

Tarif

2100 € HT

HT