Langage R – Big Data Analytics

0 Enrolled
28 heures
  • 28 heures
  • 37
  • 0
  • no
2,700.00€

Aperçu du cours

Objectif de formation : Construire et évaluer des modèles à partir du langage R

Prérequis

  • Responsables Infocentre, utilisateurs et gestionnaires métiers de bases de données
  • Gestionnaires métiers de base de données
  • Data Analysts

Objectifs pédagogiques

  • Appréhender le principe de la modélisation statistique
  • Déterminer le modèle d'algorithme adapté entre la régression et la classification en fonction du type de données
  • Mesurer les performances prédictives d'un algorithme
  • Construire des sélections et des classements dans d'importants volumes de données pour déterminer des tendances

Public ciblé

  • Fondamentaux solides en statistiques et en langage R

Programme de formation

  • Introduction : langage R

    • Tour d’horizon des types de données dans R

    • Importation-exportation de données

    • Techniques pour tracer des courbes et des graphiques

    • Travaux pratiques : Manipulation des scripts & Notebooks

  • Analyse en composantes

    • Analyse en Composantes Principales

    • Analyse Factorielle des Correspondances

    • Analyse des Correspondances Multiples

    • Analyse Factorielle pour Données Mixtes

    • Classification Hiérarchique sur Composantes Principales

    • Travaux pratiques : Implémentation de la diminution du nombre des variables & identification des facteurs sous-jacents des dimensions associées à une variabilité importante

  • Modélisation

    • Étapes de construction d’un modèle

    • Algorithmes supervisés & non supervisés

    • Comparatif entre régression & classification

    • Travaux pratiques : Déploiement d’échantillonnage de jeux de donnes puis mise en place de tests d’évaluations sur plusieurs modèles fournis

  • Outils et techniques d'évaluation de modèles

    • Outils de ré-échantillonnage en jeu d’apprentissage, de validation et de test

    • Test de représentativité des données d’apprentissage

    • Évaluation de la performance des modèles prédictifs

    • Matrice de confusion, de coût et la courbe ROC et AUC

    • Travaux pratiques : Déploiement d’échantillonnage de jeux de donnes puis implémentation des tests d’évaluations sur plusieurs modèles fournis

  • Présentation des différents algorithmes non supervisés

    • Clustering hiérarchique

    • Custering non hiérarchique

    • Approches mixtes

    • Travaux pratiques : Traitements de clustering non supervisés sur différents jeux de données

  • Présentation des différents algorithmes supervisés

    • Principe de régression linéaire univariée

    • Régression multivariée

    • Régression polynomiale

    • Régression régularisée

    • Naive Bayes

    • Régression logistique

    • Travaux pratiques : Implémentation des régressions et des classifications sur différents types de données

  • Étude de données textuelles

    • Récolte & prétraitement des données textuelles

    • Extraction d’entités primaires, d’entités nommées & résolution référentielle

    • Étiquetage grammatical

    • Analyse syntaxique & analyse sémantique

    • Lemmatisation

    • Représentation vectorielle des textes

    • Pondération TF-IDF

Instructeur

Avatar de l’utilisateur

bprigent

0.0
0 commentaire
0 Students
491 Courses
Main Content