Aperçu du cours
Objectif de formation : Construire et évaluer des modèles à partir du langage R
Prérequis
- Responsables Infocentre, utilisateurs et gestionnaires métiers de bases de données
- Gestionnaires métiers de base de données
- Data Analysts
Objectifs pédagogiques
- Appréhender le principe de la modélisation statistique
- Déterminer le modèle d'algorithme adapté entre la régression et la classification en fonction du type de données
- Mesurer les performances prédictives d'un algorithme
- Construire des sélections et des classements dans d'importants volumes de données pour déterminer des tendances
Public ciblé
- Fondamentaux solides en statistiques et en langage R
Programme de formation
-
Introduction : langage R
-
Tour d’horizon des types de données dans R
-
Importation-exportation de données
-
Techniques pour tracer des courbes et des graphiques
-
Travaux pratiques : Manipulation des scripts & Notebooks
-
-
Analyse en composantes
-
Analyse en Composantes Principales
-
Analyse Factorielle des Correspondances
-
Analyse des Correspondances Multiples
-
Analyse Factorielle pour Données Mixtes
-
Classification Hiérarchique sur Composantes Principales
-
Travaux pratiques : Implémentation de la diminution du nombre des variables & identification des facteurs sous-jacents des dimensions associées à une variabilité importante
-
-
Modélisation
-
Étapes de construction d’un modèle
-
Algorithmes supervisés & non supervisés
-
Comparatif entre régression & classification
-
Travaux pratiques : Déploiement d’échantillonnage de jeux de donnes puis mise en place de tests d’évaluations sur plusieurs modèles fournis
-
-
Outils et techniques d'évaluation de modèles
-
Outils de ré-échantillonnage en jeu d’apprentissage, de validation et de test
-
Test de représentativité des données d’apprentissage
-
Évaluation de la performance des modèles prédictifs
-
Matrice de confusion, de coût et la courbe ROC et AUC
-
Travaux pratiques : Déploiement d’échantillonnage de jeux de donnes puis implémentation des tests d’évaluations sur plusieurs modèles fournis
-
-
Présentation des différents algorithmes non supervisés
-
Clustering hiérarchique
-
Custering non hiérarchique
-
Approches mixtes
-
Travaux pratiques : Traitements de clustering non supervisés sur différents jeux de données
-
-
Présentation des différents algorithmes supervisés
-
Principe de régression linéaire univariée
-
Régression multivariée
-
Régression polynomiale
-
Régression régularisée
-
Naive Bayes
-
Régression logistique
-
Travaux pratiques : Implémentation des régressions et des classifications sur différents types de données
-
-
Étude de données textuelles
-
Récolte & prétraitement des données textuelles
-
Extraction d’entités primaires, d’entités nommées & résolution référentielle
-
Étiquetage grammatical
-
Analyse syntaxique & analyse sémantique
-
Lemmatisation
-
Représentation vectorielle des textes
-
Pondération TF-IDF
-