Description
Objectif de formation : Comprendre les concepts de text mining et NLP par la pratique.
Objectifs pédagogiques
- Appréhender les techniques de la statistique textuelle
- Réaliser l’extraction des caractéristiques de données textuelles
- Construire des sélections et des classements dans des volumes importants de données textuelles
- Définir un algorithme de classification
- Mesurer les performances prédictives d’un algorithme
Public concerné
Ingénieurs
Chefs de projets IA
Consultants IA
Toute personne souhaitant utiliser le Text Mining
Prérequis
Maîtriser les bases en statistique, en Machine Learning et en Deep Learning
Avoir une expérience pratique
Déroulé du programme
1
Les bases traditionnelles du Text Mining
- L’utilisation d’API pour récupérer des données textuelles
- Préparer les données textuelles selon le cas d’usage
- Récupérer et explorer le corpus de textes
- Supprimer les caractères accentués et spéciaux
- Stemming Lemmatization & retrait des mots de liaison
- Rassembler les données pour le nettoyage
- Normaliser les données
- Travaux pratiques : mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données
2
Feature engineering : répresentation de texte
- Présentation de la syntaxe et de la structure du texte
- Le modèle Bag of Words & Bag of N-Grams
- Le modèle TF-IDF, Transformer & Vectorizer
- Le modèle Word2Vec et l’implémenter avec Gensim
- Le modèle GloVe
- Le modèle FastText
- Travaux pratiques : mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles, bâtir des classifications à partir des caractéristiques extraites.
3
Similarité des textes et classification non-supervisée
- Les concepts fondamentaux de similarité
- Analyser la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein
- Analyser la similarité des documents
- Okopi BM25 et le palmarès de classement
- Les algorithmes de classification non supervisée
- Travaux pratiques : bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits
4
La classification supervisée du texte
- Prétraitement et normalisation des données
- Modèles de classification
- Multinomial Naïve Bayes
- Régression logistique
- Support Vector Machines
- Random forest
- Gradient Boosting Machines
- Évaluation des modèles de classification
- Travaux pratiques : mettre en oeuvre des classifications supervisées sur plusieurs jeux de données
5
NLP & Deep Learning
- Les instances NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
- Les librairies de Deep Learning : Theano, TensorFlow, Keras
- Natural Language Processing & Recurrent Neural Networks
- RNN & Long Short-Term Memory
- Les modèles bidirectionnels RNN
- Les modèles Sequence-to-Sequence
- Questions & réponses avec les modèles RNN
- Travaux pratiques : créer un RNN pour générer un texte
Informations
Durée
3 jour(s)
21h
Tarif
2100 € HT
HT
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT