Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.
Prérequis
- Avoir des bonnes connaissances de Java ou Python
- Avoir des notions de calculs statistiques
Fonctionnalités
- Maîtriser les concepts fondamentaux de Spark
- Savoir intégrer Spark dans un environnement Hadoop
- Développer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle avec Spark sur un cluster
- Manipuler des données avec Spark SQL
- Avoir une première approche du Machine Learning
Public ciblé
- Chefs de projet
- Data Scientists
- Développeurs
- Architectes
Détails
- 14 Sections
- 76 Lessons
- 21
Expand all sectionsCollapse all sections
- Introduction d'Apache Spark5
- 1.1Présentation de l’histoire de Spark
- 1.2Les versions de Spark
- 1.3Spark vs Apache Hadoop
- 1.4Les modules de Spark
- 1.5Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
- Introduction d'Apache Spark5
- 2.1Présentation de l’histoire de Spark
- 2.2Les versions de Spark
- 2.3Spark vs Apache Hadoop
- 2.4Les modules de Spark
- 2.5Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
- Programmation avec les Resilient Distributed Dataset4
- 3.1Définition des RDD
- 3.2Création, manipulation et réutilisation des RDD
- 3.3Utiliser des partitions
- 3.4Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l’API de Spark
- Programmation avec les Resilient Distributed Dataset4
- 4.1Définition des RDD
- 4.2Création, manipulation et réutilisation des RDD
- 4.3Utiliser des partitions
- 4.4Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l’API de Spark
- Données structurées avec Spark SQL6
- 5.1SQL, Dataframes & Datasets
- 5.2Présentation des types de sources de données
- 5.3Interopérabilité avec les RDD
- 5.4Performance de Spark SQL
- 5.5JDBC/ODBC server & Spark SQL CLI
- 5.6Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.
- Données structurées avec Spark SQL6
- 6.1SQL, Dataframes & Datasets
- 6.2Présentation des types de sources de données
- 6.3Interopérabilité avec les RDD
- 6.4Performance de Spark SQL
- 6.5JDBC/ODBC server & Spark SQL CLI
- 6.6Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.
- Spark sur un cluster6
- 7.1Présentation des types d’architectures
- 7.2Paramétrage d’un cluster en Standalone
- 7.3Package d’une application et ses dépendances
- 7.4Déploiement d’applications avec Spark-submit
- 7.5Dimensionnement d’un cluster
- 7.6Travaux pratiques : Création et mise en oeuvre d’un cluster Spark
- Spark sur un cluster6
- 8.1Présentation des types d’architectures
- 8.2Paramétrage d’un cluster en Standalone
- 8.3Package d’une application et ses dépendances
- 8.4Déploiement d’applications avec Spark-submit
- 8.5Dimensionnement d’un cluster
- 8.6Travaux pratiques : Création et mise en oeuvre d’un cluster Spark
- Spark Streaming : analyse en temps réel6
- 9.1Principe de fonctionnement
- 9.2Définition ds DStreams
- 9.3Présentation des types de sources
- 9.4Manipulation de l’API
- 9.5Comparaison Spark Streaming & Apache Storm
- 9.6Travaux pratiques : Consommation de logs avec Spark Streaming
- Spark Streaming : analyse en temps réel6
- 10.1Principe de fonctionnement
- 10.2Définition ds DStreams
- 10.3Présentation des types de sources
- 10.4Manipulation de l’API
- 10.5Comparaison Spark Streaming & Apache Storm
- 10.6Travaux pratiques : Consommation de logs avec Spark Streaming
- GraphX : Manipulation de graphes6
- 11.1Présentation de l’outil
- 11.2Les différentes opérations
- 11.3Création de graphes
- 11.4Vertex & Edge RDD
- 11.5Présentation des algorithmes
- 11.6Travaux pratiques : Manipulation de l’API GraphX à travers différents exemples
- GraphX : Manipulation de graphes6
- 12.1Présentation de l’outil
- 12.2Les différentes opérations
- 12.3Création de graphes
- 12.4Vertex & Edge RDD
- 12.5Présentation des algorithmes
- 12.6Travaux pratiques : Manipulation de l’API GraphX à travers différents exemples
- Machine learning & Spark5
- 13.1Introduction au Machine Learning
- 13.2Les classes d’algorithmes
- 13.3Sprak ML & MLlib
- 13.4Implémentations des algorithmes dans MLlib
- 13.5Travaux pratiques : Utilisation de SparkML & MLlib
- Machine learning & Spark5
- 14.1Introduction au Machine Learning
- 14.2Les classes d’algorithmes
- 14.3Sprak ML & MLlib
- 14.4Implémentations des algorithmes dans MLlib
- 14.5Travaux pratiques : Utilisation de SparkML & MLlib