Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.
Prérequis
- Avoir des connaissances en Hadoop, Spark et Kafka
Fonctionnalités
- Maîtriser Talend dans un environnement Big Data
- Se servir de Talend comme lien entre les fichiers, applications et bases de données
- Acquérir la philosophie de l'outil
- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
- Être capable d'implémenter ses Jobs
- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
- Réaliser des Jobs de transformation à l'aide de Pig et Hive
- Gérer la qualité de la donnée avec Talend
- Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
- Maîtriser l'utilisation de la bibliothèque de composants
- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Public ciblé
- Consultants BI
- Architectes
- Chefs de projets
- Gestionnaires de données
- Toute personne devant gérer des flux de données
Détails
- 20 Sections
- 82 Lessons
- 21 heures
Expand all sectionsCollapse all sections
- Présentation de l'outil6
- Présentation de l'outil6
- HDFS4
- HDFS4
- Utilisation de tables4
- Utilisation de tables4
- Traitement des données et des tables en Hadoop Distributed File System3
- Traitement des données et des tables en Hadoop Distributed File System3
- Maintenance du cluster2
- Maintenance du cluster2
- Clickstream9
- 11.1Surveillance du Cluster Hadoop
- 11.2Construction d’un environnement de développement
- 11.3Chargement des données HDFS
- 11.4Enrichissement des logs
- 11.5Calcul & suivi des statistiques
- 11.6Création d’un lot Big Data à partir d’un job standard
- 11.7Jobs MapReduce
- 11.8Configuration des resource requests vers YARN à l’aide du studio
- 11.9Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job
- Clickstream9
- 12.1Surveillance du Cluster Hadoop
- 12.2Construction d’un environnement de développement
- 12.3Chargement des données HDFS
- 12.4Enrichissement des logs
- 12.5Calcul & suivi des statistiques
- 12.6Création d’un lot Big Data à partir d’un job standard
- 12.7Jobs MapReduce
- 12.8Configuration des resource requests vers YARN à l’aide du studio
- 12.9Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job
- Présentation de Kafka4
- Présentation de Kafka4
- Présentation de Spark3
- Présentation de Spark3
- Génération de logs enrichis4
- Génération de logs enrichis4
- Analyse de Batchs2
- Analyse de Batchs2