Formation en IA & Data: Text Mining & Natural Language Processing - Pratique - Ascent Formation
Retour aux formations
IA & Data

Text Mining & Natural Language Processing - Pratique

3 jour(s)21h

Description

Objectif de formation : Comprendre les concepts de text mining et NLP par la pratique.

Objectifs pédagogiques

  • Appréhender les techniques de la statistique textuelle
  • Réaliser l’extraction des caractéristiques de données textuelles
  • Construire des sélections et des classements dans des volumes importants de données textuelles
  • Définir un algorithme de classification
  • Mesurer les performances prédictives d’un algorithme

Public concerné

Ingénieurs
Chefs de projets IA
Consultants IA
Toute personne souhaitant utiliser le Text Mining

Prérequis

Maîtriser les bases en statistique, en Machine Learning et en Deep Learning
Avoir une expérience pratique

Déroulé du programme

1

Les bases traditionnelles du Text Mining

  • L’utilisation d’API pour récupérer des données textuelles
  • Préparer les données textuelles selon le cas d’usage
  • Récupérer et explorer le corpus de textes
  • Supprimer les caractères accentués et spéciaux
  • Stemming Lemmatization & retrait des mots de liaison
  • Rassembler les données pour le nettoyage
  • Normaliser les données
  • Travaux pratiques : mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données
2

Feature engineering : répresentation de texte

  • Présentation de la syntaxe et de la structure du texte
  • Le modèle Bag of Words & Bag of N-Grams
  • Le modèle TF-IDF, Transformer & Vectorizer
  • Le modèle Word2Vec et l’implémenter avec Gensim
  • Le modèle GloVe
  • Le modèle FastText
  • Travaux pratiques : mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles, bâtir des classifications à partir des caractéristiques extraites.
3

Similarité des textes et classification non-supervisée

  • Les concepts fondamentaux de similarité
  • Analyser la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein
  • Analyser la similarité des documents
  • Okopi BM25 et le palmarès de classement
  • Les algorithmes de classification non supervisée
  • Travaux pratiques : bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits
4

La classification supervisée du texte

  • Prétraitement et normalisation des données
  • Modèles de classification
  • Multinomial Naïve Bayes
  • Régression logistique
  • Support Vector Machines
  • Random forest
  • Gradient Boosting Machines
  • Évaluation des modèles de classification
  • Travaux pratiques : mettre en oeuvre des classifications supervisées sur plusieurs jeux de données
5

NLP & Deep Learning

  • Les instances NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
  • Les librairies de Deep Learning : Theano, TensorFlow, Keras
  • Natural Language Processing & Recurrent Neural Networks
  • RNN & Long Short-Term Memory
  • Les modèles bidirectionnels RNN
  • Les modèles Sequence-to-Sequence
  • Questions & réponses avec les modèles RNN
  • Travaux pratiques : créer un RNN pour générer un texte

Informations

Durée

3 jour(s)

21h

Tarif

2100 € HT

HT