Aperçu du cours
Objectif de formation : Comprendre les concepts de text mining et NLP par la pratique.
Prérequis
- Maîtriser les bases en statistique, en Machine Learning et en Deep Learning
- Avoir une expérience pratique
Objectifs pédagogiques
- Appréhender les techniques de la statistique textuelle
- Réaliser l’extraction des caractéristiques de données textuelles
- Construire des sélections et des classements dans des volumes importants de données textuelles
- Définir un algorithme de classification
- Mesurer les performances prédictives d’un algorithme
Public ciblé
- Ingénieurs
- Chefs de projets IA
- Consultants IA
- Toute personne souhaitant utiliser le Text Mining
Programme de formation
-
Les bases traditionnelles du Text Mining
-
L’utilisation d’API pour récupérer des données textuelles
-
Préparer les données textuelles selon le cas d’usage
-
Récupérer et explorer le corpus de textes
-
Supprimer les caractères accentués et spéciaux
-
Stemming Lemmatization & retrait des mots de liaison
-
Rassembler les données pour le nettoyage
-
Normaliser les données
-
Travaux pratiques : mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données
-
-
Feature engineering : répresentation de texte
-
Présentation de la syntaxe et de la structure du texte
-
Le modèle Bag of Words & Bag of N-Grams
-
Le modèle TF-IDF, Transformer & Vectorizer
-
Le modèle Word2Vec et l’implémenter avec Gensim
-
Le modèle GloVe
-
Le modèle FastText
-
Travaux pratiques : mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles, bâtir des classifications à partir des caractéristiques extraites.
-
-
Similarité des textes et classification non-supervisée
-
Les concepts fondamentaux de similarité
-
Analyser la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein
-
Analyser la similarité des documents
-
Okopi BM25 et le palmarès de classement
-
Les algorithmes de classification non supervisée
-
Travaux pratiques : bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits
-
-
La classification supervisée du texte
-
Prétraitement et normalisation des données
-
Modèles de classification
-
Multinomial Naïve Bayes
-
Régression logistique
-
Support Vector Machines
-
Random forest
-
Gradient Boosting Machines
-
Évaluation des modèles de classification
-
Travaux pratiques : mettre en oeuvre des classifications supervisées sur plusieurs jeux de données
-
-
NLP & Deep Learning
-
Les instances NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
-
Les librairies de Deep Learning : Theano, TensorFlow, Keras
-
Natural Language Processing & Recurrent Neural Networks
-
RNN & Long Short-Term Memory
-
Les modèles bidirectionnels RNN
-
Les modèles Sequence-to-Sequence
-
Questions & réponses avec les modèles RNN
-
Travaux pratiques : créer un RNN pour générer un texte
-