Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.
Prérequis
- Avoir des connaissances en Hadoop, Spark et Kafka
Objectifs pédagogiques
- Maîtriser Talend dans un environnement Big Data
- Se servir de Talend comme lien entre les fichiers, applications et bases de données
- Acquérir la philosophie de l'outil
- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
- Être capable d'implémenter ses Jobs
- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
- Réaliser des Jobs de transformation à l'aide de Pig et Hive
- Gérer la qualité de la donnée avec Talend
- Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
- Maîtriser l'utilisation de la bibliothèque de composants
- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Public ciblé
- Consultants BI
- Architectes
- Chefs de projets
- Gestionnaires de données
- Toute personne devant gérer des flux de données
Programme de formation
-
Présentation de l'outil
-
Introduction : présentation, définitions, forces & faiblesses
-
Versions & compatibilité
-
Installation
-
Création d’un projet
-
Monitoring d’un cluster Hadoop
-
Construction d’un cluster de métadonnées
-
-
HDFS
-
Stockage d’un fichier
-
Stockage de plusieurs fichiers
-
Lecture de données
-
Utilisation de HBase pour la sauvegarde des données
-
-
Utilisation de tables
-
Présentation de Sqoop
-
Importation de tables avec Sqoop
-
Présentation d’Hive
-
Création de tables dans HDFS avec Hive
-
-
Traitement des données et des tables en Hadoop Distributed File System
-
Utilisation d’Hive pour le traitement des tables avec des jobs
-
Utilisation d’Apache Pig pour le traitement des données
-
Traitement des données par lots
-
-
Maintenance du cluster
-
Guide de dépannage
-
Mise en oeuvre du dépannage
-
-
Clickstream
-
Surveillance du Cluster Hadoop
-
Construction d’un environnement de développement
-
Chargement des données HDFS
-
Enrichissement des logs
-
Calcul & suivi des statistiques
-
Création d’un lot Big Data à partir d’un job standard
-
Jobs MapReduce
-
Configuration des resource requests vers YARN à l’aide du studio
-
Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job
-
-
Présentation de Kafka
-
Surveillance du cluster Hadoop
-
Comprendre les bases de kafka
-
Publication de messages sur un sujet
-
Consommer des messages
-
-
Présentation de Spark
-
Compréhension des bases de Spark
-
Analyse des données des clients
-
Production & consommation des messages en temps réel
-
-
Génération de logs enrichis
-
Génération de logs bruts
-
Génération de logs enrichis
-
Surveillance des logs enrichis
-
Création de rapports à partir des fenêtres de données
-
-
Analyse de Batchs
-
Ingestion de flux de données
-
Analyse de logs à partir d’un batch job
-