Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
youremail@yourdomain.com
+88 (0) 101 0000 000
Follow Us

Text Mining & Natural Language Processing - Pratique

réf : BDT-TM

Objectifs pédagogiques

  • Appréhender les techniques de la statistique textuelle
  • Réaliser l’extraction des caractéristiques de données textuelles
  • Construire des sélections et des classements dans des volumes importants de données textuelles
  • Définir un algorithme de classification
  • Mesurer les performances prédictives d’un algorithme

Pré-requis

Maîtriser les bases en statistique, en Machine Learning et en Deep Learning

Avoir une expérience pratique

Public concerné

Ingénieurs, chefs de projets IA, consultants IA, ou toute personne souhaitant utiliser le Text Mining…

Programme

  • L’utilisation d’API pour récupérer des données textuelles
  • Préparer les données textuelles selon le cas d’usage
  • Récupérer et explorer le corpus de textes
  • Supprimer les caractères accentués et spéciaux
  • Stemming Lemmatization & retrait des mots de liaison
  • Rassembler les données pour le nettoyage
  • Normaliser les données

Travaux pratiques

Mise en oeuvre des concepts présentés : recherche, préparation, transformation et vectorisation des données

  • Présentation de la syntaxe et de la structure du texte
  • Le modèle Bag of Words & Bag of N-Grams
  • Le modèle TF-IDF, Transformer & Vectorizer
  • Le modèle Word2Vec et l’implémenter avec Gensim
  • Le modèle GloVe
  • Le modèle FastText

Travaux pratiques

Mettre en oeuvre des opérations d’extraction de caractéristiques de données textuelles

Bâtir des classifications à partir des caractéristiques extraites.  

  • Les concepts fondamentaux de similarité
  • Analyser la similarité des termes : distances Hamming,  Manhattan, Euclidienne et Levenshtein
  • Analyser la similarité des documents
  • Okopi BM25 et le palmarès de classement
  • Les algorithmes de classification non supervisée

Travaux pratiques

Bâtir le système de recommandation des produits similaires à partir de la base de la description et du contenu des produits

  • Prétraitement et normalisation des données
  • Modèles de classification
  • Multinomial Naïve Bayes
  • Régression logistique
  • Support Vector Machines
  • Random forest
  • Gradient Boosting Machines
  • Évaluation des modèles de classification

Travaux pratiques

Mettre en oeuvre des classifications supervisées sur plusieurs jeux de données

  • Les instances NLP
    • NLTK
    • TextBlob
    • SpaCy
    • Gensim
    • Pattern
    • Stanford CoreNLP
  • Les librairies de Deep Learning
    • Theano
    • TensorFlow
    • Keras
  • Natural Language Processing & Recurrent Neural Networks
  • RNN & Long Short-Term Memory
  • Les modèles bidirectionnels RNN
  • Les modèles Sequence-to-Sequence
  • Questions & réponses avec les modèles RNN

Travaux pratiques

Créer un RNN pour générer un texte

Équipe pédagogique

Professionnel expert dans le Big Data

Moyens pédagogiques et techniques

  • Espace intranet de formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Dispositif de suivi

  • Émargement numérique.
  • Mises en situation.
  • Formulaires d’évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Vous avez une question ?