Aperçu du cours
Objectif de formation : Comprendre le fonctionnement et les forces des outils Storm et Spark
Prérequis
- Connaissances solides en développement logiciel
Objectifs pédagogiques
- Maîtriser les concepts de base du développement d'applications Big Data en temps réel
- Appréhender Spark et Storm
- Implémenter des systèmes de calcul distribué temps réel de Storm & de Spark
- Gérer des quantités importante de données en temps réel
Public ciblé
- Concepteurs
- Développeurs
- Architectes
Programme de formation
-
Introduction à l'architecture temps réel
-
Traitements temps réel
-
Architectures LAMBDA
-
Architectures KAPPA
-
Architectures SMACK
-
Travaux pratiques : Étude de l’implémentation d’une architecture KAPPA pour Spark et Strom
-
-
Présentation de l'architecture Kafka
-
Présentation de Kafka Producers, Brokers, Consumers
-
Fichiers journaux
-
Schémas Avro
-
Utilisation de ZooKeeper
-
Travaux pratiques : Étude de la configuration de Kafka dans l’architecture KAPPA
-
-
Architecture Apache Storm
-
Détermination de l’environnement de développement
-
Construction de projets sur Storm
-
Présentation des composants Storm
-
Présentation des flux Storm
-
Modèle de données
-
Rôles des Nimbus et ZooKeeper
-
Travaux pratiques : Implémentation de l’architecture KAPPA pour Storm
-
-
Traitement des messages Storm
-
Programmation de services avec Clojure, Java, Python
-
Cycle de vie d’un message
-
API Storm : fiabilité
-
Déploiement de la fiabilité pour une application utilisant le Big Data
-
Travaux pratiques : Implémentation d’un projet de traitement des réseaux sociaux en temps réel dans l’architecture KAPPA
-
-
Architecture d'Apache Spark
-
Versionning de Spark (Scala, Python, R et Java)
-
Comparatif avec Storm
-
Tour d’horizon des modules de Spark
-
Présentation des différents types d’architecture : Standalone, Apache Mesos ou Hadoop YARN
-
Travaux pratiques : Etude de l’implémentation de l’architecture SMACK pour Spark
-
-
Temps réel avec Spark Streaming
-
Présentation des RDD
-
Création, manipulation et réutilisation des RDD
-
Principe de fonctionnement
-
Présentation des différents types de sources
-
Comparatif avec Apache Storm
-
Travaux pratiques : Implémentation d’un projet de traitement des réseaux sociaux en temps réel
-
-
Présentation des autres acteurs du marché
-
Tour d’horizon des outils de streaming de l’écosystème (Storm, Spark Streaming, Flink, Samza)
-
Focus sur l’architecture Samza
-
Travaux pratiques : Étude de l’implémentation de l’architecture KAPPA avec Samza
-