Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.
Programme d'études
Présentation de l'outil
Introduction : présentation, définitions, forces & faiblesses
Versions & compatibilité
Installation
Création d’un projet
Monitoring d’un cluster Hadoop
Construction d’un cluster de métadonnées
HDFS
Stockage d’un fichier
Stockage de plusieurs fichiers
Lecture de données
Utilisation de HBase pour la sauvegarde des données
Utilisation de tables
Présentation de Sqoop
Importation de tables avec Sqoop
Présentation d’Hive
Création de tables dans HDFS avec Hive
Traitement des données et des tables en Hadoop Distributed File System
Utilisation d’Hive pour le traitement des tables avec des jobs
Utilisation d’Apache Pig pour le traitement des données
Traitement des données par lots
Maintenance du cluster
Guide de dépannage
Mise en oeuvre du dépannage
Clickstream
Surveillance du Cluster Hadoop
Construction d’un environnement de développement
Chargement des données HDFS
Enrichissement des logs
Calcul & suivi des statistiques
Création d’un lot Big Data à partir d’un job standard
Jobs MapReduce
Configuration des resource requests vers YARN à l’aide du studio
Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job
Présentation de Kafka
Surveillance du cluster Hadoop
Comprendre les bases de kafka
Publication de messages sur un sujet
Consommer des messages
Présentation de Spark
Compréhension des bases de Spark
Analyse des données des clients
Production & consommation des messages en temps réel
Génération de logs enrichis
Génération de logs bruts
Génération de logs enrichis
Surveillance des logs enrichis
Création de rapports à partir des fenêtres de données
Analyse de Batchs
Ingestion de flux de données
Analyse de logs à partir d’un batch job