Spark – Développer des applications pour le Big Data

0 Enrolled
21
  • 21
  • 39
  • 0
2,100.00€

Aperçu du cours

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de maîtriser le framework Spark pour traiter des données hétérogènes et optimiser les calculs.

Prérequis

  • Avoir des bonnes connaissances de Java ou Python
  • Avoir des notions de calculs statistiques

Objectifs pédagogiques

  • Maîtriser les concepts fondamentaux de Spark
  • Savoir intégrer Spark dans un environnement Hadoop
  • Développer des applications d’analyse en temps réel avec Spark Streaming
  • Faire de la programmation parallèle avec Spark sur un cluster
  • Manipuler des données avec Spark SQL
  • Avoir une première approche du Machine Learning

Public ciblé

  • Chefs de projet
  • Data Scientists
  • Développeurs
  • Architectes

Programme de formation

  • Introduction d'Apache Spark

    • Présentation de l’histoire de Spark

    • Les versions de Spark

    • Spark vs Apache Hadoop

    • Les modules de Spark

    • Travaux pratiques : Installation et paramétrage de Spark. Première utilisation basique

  • Programmation avec les Resilient Distributed Dataset

    • Définition des RDD

    • Création, manipulation et réutilisation des RDD

    • Utiliser des partitions

    • Travaux pratiques : Utilisation de divers datasets avec des RDD, usage de l’API de Spark

  • Données structurées avec Spark SQL

    • SQL, Dataframes & Datasets

    • Présentation des types de sources de données

    • Interopérabilité avec les RDD

    • Performance de Spark SQL

    • JDBC/ODBC server & Spark SQL CLI

    • Travaux pratiques : Utilisation de Datasets via des requêtes SQL, création d’une connexion à une base externe.

  • Spark sur un cluster

    • Présentation des types d’architectures

    • Paramétrage d’un cluster en Standalone

    • Package d’une application et ses dépendances

    • Déploiement d’applications avec Spark-submit

    • Dimensionnement d’un cluster

    • Travaux pratiques : Création et mise en oeuvre d’un cluster Spark

  • Spark Streaming : analyse en temps réel

    • Principe de fonctionnement

    • Définition ds DStreams

    • Présentation des types de sources

    • Manipulation de l’API

    • Comparaison Spark Streaming & Apache Storm

    • Travaux pratiques : Consommation de logs avec Spark Streaming

  • GraphX : Manipulation de graphes

    • Présentation de l’outil

    • Les différentes opérations

    • Création de graphes

    • Vertex & Edge RDD

    • Présentation des algorithmes

    • Travaux pratiques : Manipulation de l’API GraphX à travers différents exemples

  • Machine learning & Spark

    • Introduction au Machine Learning

    • Les classes d’algorithmes

    • Sprak ML & MLlib

    • Implémentations des algorithmes dans MLlib

    • Travaux pratiques : Utilisation de SparkML & MLlib

Instructeur

Avatar de l’utilisateur

nduval

0.0
0 commentaire
1 Student
31 Courses
Main Content