Aperçu du cours
Doel van de opleiding: Begrijpen van de concepten van text mining en NLP door middel van praktijk.
Prérequis
- Beheersing van basiskennis in statistiek, machine learning en deep learning
- Praktische ervaring
Objectifs pédagogiques
- Begrijpen van technieken in tekststatistiek
- Uitvoeren van de extractie van kenmerken van tekstuele gegevens
- Opbouwen van selecties en rangschikkingen binnen grote hoeveelheden tekstuele gegevens
- Definiëren van een classificatie-algoritme
- Prestaties van een algoritme meten
Public ciblé
- Ingenieurs
- Projectmanagers in AI
- AI Consultants
- Iedereen die text mining wil gebruiken
Programme de formation
-
De basisprincipes van Text Mining
-
Het gebruik van API’s om tekstgegevens op te halen
-
Tekstgegevens voorbereiden volgens de use case
-
Het ophalen en verkennen van de tekstcorpus
-
Verwijderen van geaccentueerde en speciale tekens
-
Stemming, Lemmatization en het verwijderen van verbindingswoorden
-
Gegevens verzamelen voor opschoning
-
Normaliseren van de gegevens
-
Praktijkoefeningen: implementatie van de gepresenteerde concepten: zoeken, voorbereiden, transformeren en vectoriseren van gegevens
-
-
Feature engineering: tekstrepresentatie
-
Presentatie van de syntaxis en structuur van tekst
-
Het Bag of Words-model & Bag of N-Grams
-
Het TF-IDF-model, Transformer & Vectorizer
-
Het Word2Vec-model en implementatie met Gensim
-
Het GloVe-model
-
Het FastText-model
-
Praktijkoefeningen: uitvoering van tekstkenmerkextractie, opbouw van classificaties op basis van geëxtraheerde kenmerken
-
-
Tekstsimilariteit en niet-gecontroleerde classificatie
-
Fundamentele concepten van similariteit
-
Analyseren van de similariteit van termen: Hamming, Manhattan, Euclidische en Levenshtein afstanden
-
Analyseren van de similariteit van documenten
-
Okapi BM25 en ranking-scores
-
Niet-gecontroleerde classificatie-algoritmen
-
Praktijkoefeningen: bouwen van een productaanbevelingssysteem op basis van productbeschrijvingen en inhoud
-
-
Gecontroleerde tekstclassificatie
-
Voorbehandeling en normalisatie van gegevens
-
Classificatiemodellen
-
Multinomial Naïve Bayes
-
Logistische regressie
-
Support Vector Machines
-
Random forest
-
Gradient Boosting Machines
-
Evaluatie van classificatiemodellen
-
Praktijkoefeningen: implementeren van gecontroleerde classificatie op verschillende datasets
-
-
NLP & Deep Learning
-
NLP-instanties: NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
-
Deep Learning-libraries: Theano, TensorFlow, Keras
-
Natural Language Processing & Recurrent Neural Networks
-
RNN & Long Short-Term Memory
-
Bidirectionele RNN-modellen
-
Sequence-to-Sequence-modellen
-
Vraag-antwoord systemen met RNN-modellen
-
Praktijkoefeningen: creëren van een RNN om tekst te genereren
-