Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.
Prérequis
- Avoir des bonnes connaissances de Java ou Python
- Avoir des notions de calculs statistiques
Objectifs pédagogiques
- Maîtriser les concepts fondamentaux de Spark
- Savoir intégrer Spark dans un environnement Hadoop
- Développer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle avec Spark sur un cluster
- Manipuler des données avec Spark SQL
- Avoir une première approche du Machine Learning
Public ciblé
- Chefs de projet
- Data Scientists
- Développeurs
- Architectes
Programme de formation
-
Introduction d'Apache Spark
-
Présentation de l’histoire de Spark
-
Les versions de Spark
-
Spark vs Apache Hadoop
-
Les modules de Spark
-
Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
-
-
Programmation avec les Resilient Distributed Dataset
-
Définition des RDD
-
Création, manipulation et réutilisation des RDD
-
Utiliser des partitions
-
Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l’API de Spark
-
-
Données structurées avec Spark SQL
-
SQL, Dataframes & Datasets
-
Présentation des types de sources de données
-
Interopérabilité avec les RDD
-
Performance de Spark SQL
-
JDBC/ODBC server & Spark SQL CLI
-
Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.
-
-
Spark sur un cluster
-
Présentation des types d’architectures
-
Paramétrage d’un cluster en Standalone
-
Package d’une application et ses dépendances
-
Déploiement d’applications avec Spark-submit
-
Dimensionnement d’un cluster
-
Travaux pratiques : Création et mise en oeuvre d’un cluster Spark
-
-
Spark Streaming : analyse en temps réel
-
Principe de fonctionnement
-
Définition ds DStreams
-
Présentation des types de sources
-
Manipulation de l’API
-
Comparaison Spark Streaming & Apache Storm
-
Travaux pratiques : Consommation de logs avec Spark Streaming
-
-
GraphX : Manipulation de graphes
-
Présentation de l’outil
-
Les différentes opérations
-
Création de graphes
-
Vertex & Edge RDD
-
Présentation des algorithmes
-
Travaux pratiques : Manipulation de l’API GraphX à travers différents exemples
-
-
Machine learning & Spark
-
Introduction au Machine Learning
-
Les classes d’algorithmes
-
Sprak ML & MLlib
-
Implémentations des algorithmes dans MLlib
-
Travaux pratiques : Utilisation de SparkML & MLlib
-