Description
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.
Objectifs pédagogiques
- Maîtriser les concepts fondamentaux de Spark
- Savoir intégrer Spark dans un environnement Hadoop
- Développer des applications d’analyse en temps réel avec Spark Streaming
- Faire de la programmation parallèle avec Spark sur un cluster
- Manipuler des données avec Spark SQL
- Avoir une première approche du Machine Learning
Public concerné
Chefs de projet
Data Scientists
Développeurs
Architectes
Prérequis
Avoir des bonnes connaissances de Java ou Python
Avoir des notions de calculs statistiques
Déroulé du programme
1
Introduction d'Apache Spark
- Présentation de l'histoire de Spark
- Les versions de Spark
- Spark vs Apache Hadoop
- Les modules de Spark
- Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique
2
Programmation avec les Resilient Distributed Dataset
- Définition des RDD
- Création, manipulation et réutilisation des RDD
- Accumulateurs et variables broadcastées
- Utiliser des partitions
- Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l'API de Spark
3
Données structurées avec Spark SQL
- SQL, Dataframes & Datasets
- Présentation des types de sources de données
- Interopérabilité avec les RDD
- Performance de Spark SQL
- JDBC/ODBC server & Spark SQL CLI
- Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d'une connexion à une base externe.
4
Spark sur un cluster
- Présentation des types d'architectures
- Paramétrage d'un cluster en Standalone
- Package d'une application et ses dépendances
- Déploiement d'applications avec Spark-submit
- Dimensionnement d'un cluster
- Travaux pratiques : Création et mise en oeuvre d'un cluster Spark
5
Spark Streaming : analyse en temps réel
- Principe de fonctionnement
- Définition ds DStreams
- Présentation des types de sources
- Manipulation de l'API
- Comparaison Spark Streaming & Apache Storm
- Travaux pratiques : Consommation de logs avec Spark Streaming
6
GraphX : Manipulation de graphes
- Présentation de l'outil
- Les différentes opérations
- Création de graphes
- Vertex & Edge RDD
- Présentation des algorithmes
- Travaux pratiques : Manipulation de l'API GraphX à travers différents exemples
7
Machine learning & Spark
- Introduction au Machine Learning
- Les classes d'algorithmes
- Sprak ML & MLlib
- Implémentations des algorithmes dans MLlib
- Travaux pratiques : Utilisation de SparkML & MLlib
Informations
Durée
3 jour(s)
21h
Tarif
2100 € HT
HT
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT