Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.
Programme d'études
Introduction d'Apache Spark
Présentation de l’histoire de Spark
Les versions de Spark
Spark vs Apache Hadoop
Les modules de Spark
Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
Programmation avec les Resilient Distributed Dataset
Définition des RDD
Création, manipulation et réutilisation des RDD
Accumulateurs et variables broadcastées
Utiliser des partitions
Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l’API de Spark
Données structurées avec Spark SQL
SQL, Dataframes & Datasets
Présentation des types de sources de données
Interopérabilité avec les RDD
Performance de Spark SQL
JDBC/ODBC server & Spark SQL CLI
Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.
Spark sur un cluster
Présentation des types d’architectures
Paramétrage d’un cluster en Standalone
Package d’une application et ses dépendances
Déploiement d’applications avec Spark-submit
Dimensionnement d’un cluster
Travaux pratiques : Création et mise en oeuvre d’un cluster Spark
Spark Streaming : analyse en temps réel
Principe de fonctionnement
Définition ds DStreams
Présentation des types de sources
Manipulation de l’API
Comparaison Spark Streaming & Apache Storm
Travaux pratiques : Consommation de logs avec Spark Streaming
GraphX : Manipulation de graphes
Présentation de l’outil
Les différentes opérations
Création de graphes
Vertex & Edge RDD
Présentation des algorithmes
Travaux pratiques : Manipulation de l’API GraphX à travers différents exemples
Machine learning & Spark
Introduction au Machine Learning
Les classes d’algorithmes
Sprak ML & MLlib
Implémentations des algorithmes dans MLlib
Travaux pratiques : Utilisation de SparkML & MLlib