Aperçu du cours
Objectif de formation : Appréhender le Machine Learning du point de vue du traitement de la donnée ainsi qu’au processus de modélisation statistique
Prérequis
- Connaissances des principes du Big Data et des architectures techniques
Objectifs pédagogiques
- Savoir définir les étapes de préparation des données
- Comprendre et mettre en oeuvre l’apprentissage automatique
- Appréhender les techniques de classification de données
- Comprendre les apports des réseaux de neurones et du Deep Learning
Public ciblé
- Chefs de projets
- Développeurs
- Data scientists
- Architectes
Programme de formation
-
Introduction
-
Zoom sur les données
-
Présentation des requêtes
-
Attentes des utilisateurs
-
Étapes de la préparation des données
-
Définitions, présentation du data munging
-
Rôle du data scientist
-
-
Gouvernance des données
-
Qualité des données
-
Transformation de l’information en donnée
-
Qualification et enrichissement
-
Sécurisation et étanchéité des lacs de données
-
Flux de données et organisation dans l’entreprise
-
Donnée maître à la donnée de travail
-
Mise en oeuvre pratique des différentes phases : nettoyage, enrichissement, organisation des données
-
-
Traitements statistiques de base
-
Introduction aux calculs statistiques
-
Paramètres des fonctions
-
Applications aux fermes de calculs distribués
-
Problématiques induites
-
Approximations
-
Précision des estimations
-
-
Data Mining
-
Besoin, apports et enjeux
-
Extraction et organisation des classes de données
-
Analyse factorielle
-
-
Machine Learning
-
Apprentissage automatique
-
Définition & les attentes par rapport au Machine Learning
-
Valeurs d’observation et variables cibles
-
Ingénierie des variables
-
Apprentissage supervisé et non supervisé
-
Classification des données
-
Panorama des différents algorithmes
-
Conception de jeux d’essai, entraînement et construction de modèles
-
Prévisions à partir de données réelles
-
Mesure de l’efficacité des algorithmes
-
Courbes ROC
-
Parallélisation des algorithmes. Choix automatique.
-
-
IA
-
Introduction aux réseaux de neurones
-
Réseaux de neurones à convolution
-
Modèles de CNN
-
Types de couches
-
Deep Learning & Deeplearning4j sur Spark
-
-
Risques & erreurs à éviter
-
Importance de la préparation des données
-
Surapprentissage
-
-
Visualisation des données
-
Intérêt de la visualisation
-
Outils disponibles
-