IA & Data

Spark - Développer des applications pour le Big Data

3 jour(s) • 21h

Description

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.

Objectifs pédagogiques

Maîtriser les concepts fondamentaux de Spark
Savoir intégrer Spark dans un environnement Hadoop
Développer des applications d’analyse en temps réel avec Spark Streaming
Faire de la programmation parallèle avec Spark sur un cluster
Manipuler des données avec Spark SQL
Avoir une première approche du Machine Learning

Public concerné

Chefs de projet

Data Scientists

Développeurs

Architectes

Prérequis

Avoir des bonnes connaissances de Java ou Python

Avoir des notions de calculs statistiques

Déroulé du programme

Introduction d'Apache Spark

Présentation de l'histoire de Spark
Les versions de Spark
Spark vs Apache Hadoop
Les modules de Spark
Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique

Programmation avec les Resilient Distributed Dataset

Définition des RDD
Création, manipulation et réutilisation des RDD
Accumulateurs et variables broadcastées
Utiliser des partitions
Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l'API de Spark

Données structurées avec Spark SQL

SQL, Dataframes & Datasets
Présentation des types de sources de données
Interopérabilité avec les RDD
Performance de Spark SQL
JDBC/ODBC server & Spark SQL CLI
Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d'une connexion à une base externe.