Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
youremail@yourdomain.com
+88 (0) 101 0000 000
Follow Us

Spark - Développer des applications pour le Big Data

           réf : BDT-SPA

Objectif de formation : Dans ce cours, vous apprendrez à utiliser Spark SQL, Spark Streaming et Spark MLlib pour développer des applications big data. À la fin de cette formation, vous serez en mesure de développer des applications big data à la fois efficaces et évolutives. En outre, vous serez en mesure de construire des pipelines de données optimisés pour le traitement de grands ensembles de données. Vous comprendrez les principes fondamentaux de l’interrogation et de l’analyse des données volumineuses. Enfin, vous comprendrez les techniques avancées et les meilleures pratiques utilisées dans le développement du big data.

Objectifs pédagogiques

  • Apprivoiser les concepts fondamentaux de Spark
  • Construire des applications avec Spark Streaming
  • Utiliser la programmation parallèle avec Spark sur un cluster
  • Manipuler et se servir des données avec Spark SQL
  • Introduire le Machine Learning

Pré-requis

Bonnes connaissances du langage Java

Public concerné

Développeurs, architectes, data scientists…

Programme de formation Spark

  • Présentation de l’histoire de Spark
  • Les versions de Spark
  • Spark vs Apache Hadoop
  • Les modules de Spark

Travaux pratiques

Installation et paramétrage de Spark. Première utilisation basique

  • Définition des RDD
  • Création, manipulation et réutilisation des RDD
  • Accumulateurs et variables broadcastées
  • Utiliser des partitions

Travaux pratiques

Utilisation de divers datasets avec des RDD, usage de l’API de Spark

  • SQL, Dataframes & Datasets
  • Présentation des types de sources de données
  • Interopérabilité avec les RDD
  • Performance de Spark SQL
  • JDBC/ODBC server & Spark SQL CLI

Travaux pratiques

Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.

  • Présentation des types d’architectures
  • Paramétrage d’un cluster en Standalone
  • Package d’une application et ses dépendances
  • Déploiement d’applications avec Spark-submit
  • Dimensionnement d’un cluster

Travaux pratiques

Création et mise en oeuvre d’un cluster Spark

  • Principe de fonctionnement
  • Définition ds DStreams
  • Présentation des types de sources
  • Manipulation de l’API
  • Comparaison Spark Streaming & Apache Storm

Travaux pratiques

Consommation de logs avec Spark Streaming

  • Présentation de l’outil
  • Les différentes opérations
  • Création de graphes
  • Vertex & Edge RDD
  • Présentation des algorithmes

Travaux pratiques 

Manipulation de l’API GraphX à travers différents exemples

  • Introduction au Machine Learning
  • Les classes d’algorithmes
  • Sprak ML & MLlib
  • Implémentations des algorithmes dans MLlib

Travaux pratiques

Utilisation de SparkML & MLlib

Équipe pédagogique

Professionnel expert dans le Big Data

Moyens pédagogiques et techniques

  • Espace intranet de formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Dispositif de suivi

  • Émargement numérique.
  • Mises en situation.
  • Formulaires d’évaluation de la formation.
  • Certificat de réalisation de l’action de formation Spark.

Vous avez une question ?