Aperçu du cours
Doel van de opleiding: Begrijpen van de concepten van text mining en NLP door middel van praktijk.
Prérequis
- Beheersing van basiskennis in statistiek, machine learning en deep learning
- Praktische ervaring
Fonctionnalités
- Begrijpen van technieken in tekststatistiek
- Uitvoeren van de extractie van kenmerken van tekstuele gegevens
- Opbouwen van selecties en rangschikkingen binnen grote hoeveelheden tekstuele gegevens
- Definiëren van een classificatie-algoritme
- Prestaties van een algoritme meten
Public ciblé
- Ingenieurs
- Projectmanagers in AI
- AI Consultants
- Iedereen die text mining wil gebruiken
Détails
- 5 Sections
- 38 Lessons
- 21 Hours
Expand all sectionsCollapse all sections
- De basisprincipes van Text Mining8
- 1.1Het gebruik van API’s om tekstgegevens op te halen
- 1.2Tekstgegevens voorbereiden volgens de use case
- 1.3Het ophalen en verkennen van de tekstcorpus
- 1.4Verwijderen van geaccentueerde en speciale tekens
- 1.5Stemming, Lemmatization en het verwijderen van verbindingswoorden
- 1.6Gegevens verzamelen voor opschoning
- 1.7Normaliseren van de gegevens
- 1.8Praktijkoefeningen: implementatie van de gepresenteerde concepten: zoeken, voorbereiden, transformeren en vectoriseren van gegevens
- Feature engineering: tekstrepresentatie7
- 2.1Presentatie van de syntaxis en structuur van tekst
- 2.2Het Bag of Words-model & Bag of N-Grams
- 2.3Het TF-IDF-model, Transformer & Vectorizer
- 2.4Het Word2Vec-model en implementatie met Gensim
- 2.5Het GloVe-model
- 2.6Het FastText-model
- 2.7Praktijkoefeningen: uitvoering van tekstkenmerkextractie, opbouw van classificaties op basis van geëxtraheerde kenmerken
- Tekstsimilariteit en niet-gecontroleerde classificatie6
- 3.1Fundamentele concepten van similariteit
- 3.2Analyseren van de similariteit van termen: Hamming, Manhattan, Euclidische en Levenshtein afstanden
- 3.3Analyseren van de similariteit van documenten
- 3.4Okapi BM25 en ranking-scores
- 3.5Niet-gecontroleerde classificatie-algoritmen
- 3.6Praktijkoefeningen: bouwen van een productaanbevelingssysteem op basis van productbeschrijvingen en inhoud
- Gecontroleerde tekstclassificatie9
- 4.1Voorbehandeling en normalisatie van gegevens
- 4.2Classificatiemodellen
- 4.3Multinomial Naïve Bayes
- 4.4Logistische regressie
- 4.5Support Vector Machines
- 4.6Random forest
- 4.7Gradient Boosting Machines
- 4.8Evaluatie van classificatiemodellen
- 4.9Praktijkoefeningen: implementeren van gecontroleerde classificatie op verschillende datasets
- NLP & Deep Learning8
- 5.1NLP-instanties: NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP
- 5.2Deep Learning-libraries: Theano, TensorFlow, Keras
- 5.3Natural Language Processing & Recurrent Neural Networks
- 5.4RNN & Long Short-Term Memory
- 5.5Bidirectionele RNN-modellen
- 5.6Sequence-to-Sequence-modellen
- 5.7Vraag-antwoord systemen met RNN-modellen
- 5.8Praktijkoefeningen: creëren van een RNN om tekst te genereren