Text Mining & Natural Language Processing – Pratique

0 Enrolled
21 heures
  • 21 heures
  • 38
  • 0
  • no
2,100.00€

Aperçu du cours

Objectif de formation : Comprendre les concepts de text mining et NLP par la pratique.

Prérequis

  • Maîtriser les bases en statistique, en Machine Learning et en Deep Learning
  • Avoir une expérience pratique

Objectifs pédagogiques

  • Appréhender les techniques de la statistique textuelle
  • Réaliser l’extraction des caractéristiques de données textuelles
  • Construire des sélections et des classements dans des volumes importants de données textuelles
  • Définir un algorithme de classification
  • Mesurer les performances prédictives d’un algorithme

Public ciblé

  • Ingénieurs
  • Chefs de projets IA
  • Consultants IA
  • Toute personne souhaitant utiliser le Text Mining

Programme de formation

  • Les bases traditionnelles du Text Mining

    • L’utilisation d’API pour récupérer des données textuelles

    • Préparer les données textuelles selon le cas d’usage

    • Récupérer et explorer le corpus de textes

    • Supprimer les caractères accentués et spéciaux

    • Stemming Lemmatization & retrait des mots de liaison

    • Rassembler les données pour le nettoyage

    • Normaliser les données

    • Travaux pratiques : mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données

  • Feature engineering : répresentation de texte

    • Présentation de la syntaxe et de la structure du texte

    • Le modèle Bag of Words & Bag of N-Grams

    • Le modèle TF-IDF, Transformer & Vectorizer

    • Le modèle Word2Vec et l’implémenter avec Gensim

    • Le modèle GloVe

    • Le modèle FastText

    • Travaux pratiques : mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles, bâtir des classifications à partir des caractéristiques extraites.

  • Similarité des textes et classification non-supervisée

    • Les concepts fondamentaux de similarité

    • Analyser la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein

    • Analyser la similarité des documents

    • Okopi BM25 et le palmarès de classement

    • Les algorithmes de classification non supervisée

    • Travaux pratiques : bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits

  • La classification supervisée du texte

    • Prétraitement et normalisation des données

    • Modèles de classification

    • Multinomial Naïve Bayes

    • Régression logistique

    • Support Vector Machines

    • Random forest

    • Gradient Boosting Machines

    • Évaluation des modèles de classification

    • Travaux pratiques : mettre en oeuvre des classifications supervisées sur plusieurs jeux de données

  • NLP & Deep Learning

    • Les instances NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP

    • Les librairies de Deep Learning : Theano, TensorFlow, Keras

    • Natural Language Processing & Recurrent Neural Networks

    • RNN & Long Short-Term Memory

    • Les modèles bidirectionnels RNN

    • Les modèles Sequence-to-Sequence

    • Questions & réponses avec les modèles RNN

    • Travaux pratiques : créer un RNN pour générer un texte

Instructeur

Avatar de l’utilisateur

bprigent

0.0
0 commentaire
0 Students
491 Courses
Main Content