Formation en IA & Data: Spark & Storm - Traitement de données Big Data - Ascent Formation
Retour aux formations
IA & Data

Spark & Storm - Traitement de données Big Data

3 jour(s)21h

Description

Objectif de formation : Comprendre le fonctionnement et les forces des outils Storm et Spark

Objectifs pédagogiques

  • Maîtriser les concepts de base du développement d'applications Big Data en temps réel
  • Appréhender Spark et Storm
  • Implémenter des systèmes de calcul distribué temps réel de Storm & de Spark
  • Gérer des quantités importante de données en temps réel

Public concerné

Concepteurs
Développeurs
Architectes

Prérequis

Connaissances solides en développement logiciel

Déroulé du programme

1

Introduction à l'architecture temps réel

  • Traitements temps réel
  • Architectures LAMBDA
  • Architectures KAPPA
  • Architectures SMACK
  • Travaux pratiques : Étude de l'implémentation d'une architecture KAPPA pour Spark et Strom
2

Présentation de l'architecture Kafka

  • Présentation de Kafka Producers, Brokers, Consumers
  • Fichiers journaux
  • Schémas Avro
  • Utilisation de ZooKeeper
  • Travaux pratiques : Étude de la configuration de Kafka dans l'architecture KAPPA
3

Architecture Apache Storm

  • Détermination de l'environnement de développement
  • Construction de projets sur Storm
  • Présentation des composants Storm
  • Présentation des flux Storm
  • Modèle de données
  • Rôles des Nimbus et ZooKeeper
  • Travaux pratiques : Implémentation de l'architecture KAPPA pour Storm
4

Traitement des messages Storm

  • Programmation de services avec Clojure, Java, Python
  • Cycle de vie d'un message
  • API Storm : fiabilité
  • Déploiement de la fiabilité pour une application utilisant le Big Data
  • Travaux pratiques : Implémentation d'un projet de traitement des réseaux sociaux en temps réel dans l'architecture KAPPA
5

Architecture d'Apache Spark

  • Versionning de Spark (Scala, Python, R et Java)
  • Comparatif avec Storm
  • Tour d'horizon des modules de Spark
  • Présentation des différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN
  • Travaux pratiques : Etude de l'implémentation de l'architecture SMACK pour Spark
6

Temps réel avec Spark Streaming

  • Présentation des RDD
  • Création, manipulation et réutilisation des RDD
  • Accumulateurs & variables broadcastées
  • Principe de fonctionnement
  • Présentation des différents types de sources
  • Comparatif avec Apache Storm
  • Travaux pratiques : Implémentation d'un projet de traitement des réseaux sociaux en temps réel
7

Présentation des autres acteurs du marché

  • Tour d'horizon des outils de streaming de l'écosystème (Storm, Spark Streaming, Flink, Samza)
  • Focus sur l'architecture Samza
  • Travaux pratiques : Étude de l'implémentation de l'architecture KAPPA avec Samza

Informations

Durée

3 jour(s)

21h

Tarif

2100 € HT

HT