Aperçu du cours
Objectif de formation : au terme de la formation, les participants seront capable d’analyser des données grâce au langage de programmation R.
Prérequis
- Connaissances solides en mathématiques : algèbre, probabilités, statistiques
- Bonnes bases informatique : algorithmie, logique
Objectifs pédagogiques
- Appréhender les différences entre le Data Mining & la Data Science
- Comprendre le fonctionnement du Machine Learning dans un apprentissage supervisé
- Maîtriser des techniques et concepts avancés du langage R
- Savoir déployer des apprentissages non-supervisés en Machine Learning avec R
Public ciblé
- Dataminers
- Data Scientists
Programme de formation
-
Introduction au data mining & au machine learning
-
Différence entre le Data Mining et la Data Science
-
Apprentissage statistique vs. apprentissage automatique
-
Itération et évaluation
-
Compromis biais-variance
-
Les phases d’un projet de Data Mining / Data Science
-
-
Machine learning supervisé : Régressions
-
Régression linéaire simple
-
Exemple de cas pratiques : expliquer et prédire des loyers en fonction des caractéristiques d’un logement et de ses commodités
-
Régression linéaire multiple
-
Exemple de cas pratiques : expliquer et prédire le niveau de concentration d’Ozone en fonction de plusieurs paramètres météorologiques ou prédire l’émission de CO2 en fonction des caractéristiques d’un véhicule automobile
-
Généralisations et non-linéarité
-
Arbres de décisions pour la régression
-
Random Forest pour la régression
-
Exemple de cas pratiques : détecter les cas de cancer de la prostate chez des patients ou détecter le départ d’un client à la concurrence
-
-
Machine learning supervisé : Classification
-
Régression logistique
-
Exemple de cas pratiques : expliquer et prédire la survenue du cancer du sein
-
Analyse discriminante
-
Exemple de cas pratiques : prédire le type de vin en fonction de ses caractéristiques chimiques
-
K plus proches voisins
-
Exemple de cas pratiques : Profilage des clients bancaires : comment identifier des profils à haut risque ?
-
Rafraîchissement bayésien
-
Classification naïve bayésienne
-
Exemple de cas pratiques : détecter le départ d’un client à la concurrence ou identifier des e-mails comme courriels ou spams
-
Machine à vecteurs de support
-
Exemple de cas pratiques : détecter le départ d’un client à la concurrence
-
Réseaux neuronaux
-
-
Sujets avancés
-
Validation croisée et techniques de rééchantillonnage
-
Bootstrap
-
Les hyper-paramètres
-
Modèles ensemblistes
-
Modèles mixtes
-
Boosting
-
-
Machine Learning non-supervisé
-
Regroupement K-means
-
Exemple de cas pratiques : classification automatique d’espèces de plantes ou de poissons en fonction de leurs caractéristiques physiologiques
-
Défis de l’apprentissage non supervisé et au-delà de K-means
-
Réduction multidimensionnelle
-
Réduction multidimensionnelle : Analyse en Composantes Principales
-
Exemple de cas pratiques : Typologie d’athlètes au regard de leurs performances aux jeux olympiques
-
Réduction multidimensionnelle : Analyse Factorielle des Correspondances
-
Réduction multidimensionnelle : Analyse en Correspondances Multiples
-
Exemple de cas pratiques : répartition des tâches dans un ménage ou étude sur les équipements sportifs des communes française
-