Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
youremail@yourdomain.com
+88 (0) 101 0000 000
Follow Us

Spark - Développer des applications pour le Big Data

réf : BDT-SPA

Objectif de formation : Au cours de cette formation vous apprendrez à traiter des flux de données en temps réel et à effectuer des traitements batch, du SQL jusqu’au machine learning.

Objectifs pédagogiques

  • Apprivoiser les concepts fondamentaux de Spark
  • Construire des applications avec Spark Streaming
  • Utiliser la programmation parallèle avec Spark sur un cluster
  • Manipuler et se servir des données avec Spark SQL
  • Introduire le Machine Learning

Pré-requis

Bonnes connaissances du langage Java

Public concerné

Développeurs, architectes, data scientists…

Programme

  • Présentation de l’histoire de Spark
  • Les versions de Spark
  • Spark vs Apache Hadoop
  • Les modules de Spark

Travaux pratiques

Installation et paramétrage de Spark. Première utilisation basique

  • Définition des RDD
  • Création, manipulation et réutilisation des RDD
  • Accumulateurs et variables broadcastées
  • Utiliser des partitions

Travaux pratiques

Utilisation de divers datasets avec des RDD, usage de l’API de Spark

  • SQL, Dataframes & Datasets
  • Présentation des types de sources de données
  • Interopérabilité avec les RDD
  • Performance de Spark SQL
  • JDBC/ODBC server & Spark SQL CLI

Travaux pratiques

Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.

  • Présentation des types d’architectures
  • Paramétrage d’un cluster en Standalone
  • Package d’une application et ses dépendances
  • Déploiement d’applications avec Spark-submit
  • Dimensionnement d’un cluster

Travaux pratiques

Création et mise en oeuvre d’un cluster Spark

  • Principe de fonctionnement
  • Définition ds DStreams
  • Présentation des types de sources
  • Manipulation de l’API
  • Comparaison Spark Streaming & Apache Storm

Travaux pratiques

Consommation de logs avec Spark Streaming

  • Présentation de l’outil
  • Les différentes opérations
  • Création de graphes
  • Vertex & Edge RDD
  • Présentation des algorithmes

Travaux pratiques 

Manipulation de l’API GraphX à travers différents exemples

  • Introduction au Machine Learning
  • Les classes d’algorithmes
  • Sprak ML & MLlib
  • Implémentations des algorithmes dans MLlib

Travaux pratiques

Utilisation de SparkML & MLlib

Équipe pédagogique

Professionnel expert dans le Big Data

Moyens pédagogiques et techniques

  • Espace intranet de formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Dispositif de suivi

  • Émargement numérique.
  • Mises en situation.
  • Formulaires d’évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Vous avez une question ?