Aperçu du cours
Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.
Prérequis
- Avoir de fortes connaissances en algorithmes d'intelligence artificielle
- Maîtriser Scala et de l'écosystème Hadoop
Objectifs pédagogiques
- Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
- Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala
Public ciblé
- Statisticiens
- Consultants Big Data
- Data Scientists
- Data analysts
Programme de formation
-
Présentation du Big Data et d'Apache Spark
-
Introduction au Big Data
-
Les challenges du Big Data
-
Batch vs le temps réel dans le Big Data Analytics
-
Analyse en Batch Hadoop
-
Tour d’horizon de l’écosystème
-
L’analyse en temps réel
-
In-memory Data & Streaming Data sous Spark
-
Introduction à Spark
-
Présentation de l’écosystème Spark
-
Présentation des différents modes de Spark
-
Installation de Spark
-
Vue d’ensemble de Spark en cluster
-
Spark Standalone cluster
-
Spark Web UI
-
Travaux pratiques : installation et configuration de Spark
-
-
Introduction aux opérations de bases sur Spark
-
Les usages de Spark Shell
-
Création d’un contexte Spark
-
Chargement d’un fichier en Shell
-
Manipulation d’opérations basiques sur un fichier avec Spark Shell
-
Environnement de développement SBT
-
Création d’un projet Spark avec SBT
-
Exécution d’un projet Spark avec SBT
-
Mode local
-
Mode Spark
-
Caching sur Spark
-
Persistance distribuée
-
Travaux pratiques : Data Preprocessing
-
-
Spark ML
-
Présentation générale du Machine Learning
-
Terminologies & définitions
-
Usages du Machine Learning
-
Machine Learning & Spark
-
Spark ML API
-
DataFrames
-
Transformateurs et estimateurs
-
Pipelines
-
Fonctionnement en pipeline
-
DAG Pipelines
-
Vérification durant l’exécution
-
Passage de paramètres
-
General Machine Learning Pipeline
-
Sélection de modèles via une validation croisée
-
Les types supportés, les algorithmes et les utilitaires
-
Les types de données
-
Les fonctionnalités d’extraction et les statistiques basiques
-
Clustering
-
K-Means
-
Mise en place le Clustering en utilisant K-Means
-
Gaussian Mixture
-
Power Iteration Clustering (PIC)
-
Latent Dirichlet Allocation (LDA)
-
Présentation du filtrage collaboratif
-
Classification
-
Régression
-
Exemple de régression
-
Mise en place une classification en utilisation la régression linéaire
-
Mise en place un système de recommandations avec le filtrage collaboratif
-
Travaux pratiques : Utilisation du Machine Learning sous Spark
-