Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.
Prérequis
- Avoir des connaissances en Hadoop, Spark et Kafka
Fonctionnalités
- Maîtriser Talend dans un environnement Big Data
- Se servir de Talend comme lien entre les fichiers, applications et bases de données
- Acquérir la philosophie de l'outil
- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
- Être capable d'implémenter ses Jobs
- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
- Réaliser des Jobs de transformation à l'aide de Pig et Hive
- Gérer la qualité de la donnée avec Talend
- Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
- Maîtriser l'utilisation de la bibliothèque de composants
- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Public ciblé
- Consultants BI
- Architectes
- Chefs de projets
- Gestionnaires de données
- Toute personne devant gérer des flux de données
Détails
- 20 Sections
- 82 Lessons
- 21 heures
Expand all sectionsCollapse all sections
- Présentation de l'outil6
- 1.1Introduction : présentation, définitions, forces & faiblesses
- 1.2Versions & compatibilité
- 1.3Installation
- 1.4Création d’un projet
- 1.5Monitoring d’un cluster Hadoop
- 1.6Construction d’un cluster de métadonnées
- Présentation de l'outil6
- 2.1Introduction : présentation, définitions, forces & faiblesses
- 2.2Versions & compatibilité
- 2.3Installation
- 2.4Création d’un projet
- 2.5Monitoring d’un cluster Hadoop
- 2.6Construction d’un cluster de métadonnées
- HDFS4
- 3.1Stockage d’un fichier
- 3.2Stockage de plusieurs fichiers
- 3.3Lecture de données
- 3.4Utilisation de HBase pour la sauvegarde des données
- HDFS4
- 4.1Stockage d’un fichier
- 4.2Stockage de plusieurs fichiers
- 4.3Lecture de données
- 4.4Utilisation de HBase pour la sauvegarde des données
- Utilisation de tables4
- 5.1Présentation de Sqoop
- 5.2Importation de tables avec Sqoop
- 5.3Présentation d’Hive
- 5.4Création de tables dans HDFS avec Hive
- Utilisation de tables4
- 6.1Présentation de Sqoop
- 6.2Importation de tables avec Sqoop
- 6.3Présentation d’Hive
- 6.4Création de tables dans HDFS avec Hive
- Traitement des données et des tables en Hadoop Distributed File System3
- 7.1Utilisation d’Hive pour le traitement des tables avec des jobs
- 7.2Utilisation d’Apache Pig pour le traitement des données
- 7.3Traitement des données par lots
- Traitement des données et des tables en Hadoop Distributed File System3
- 8.1Utilisation d’Hive pour le traitement des tables avec des jobs
- 8.2Utilisation d’Apache Pig pour le traitement des données
- 8.3Traitement des données par lots
- Maintenance du cluster2
- 9.1Guide de dépannage
- 9.2Mise en oeuvre du dépannage
- Maintenance du cluster2
- 10.1Guide de dépannage
- 10.2Mise en oeuvre du dépannage
- Clickstream9
- 11.1Surveillance du Cluster Hadoop
- 11.2Construction d’un environnement de développement
- 11.3Chargement des données HDFS
- 11.4Enrichissement des logs
- 11.5Calcul & suivi des statistiques
- 11.6Création d’un lot Big Data à partir d’un job standard
- 11.7Jobs MapReduce
- 11.8Configuration des resource requests vers YARN à l’aide du studio
- 11.9Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job
- Clickstream9
- 12.1Surveillance du Cluster Hadoop
- 12.2Construction d’un environnement de développement
- 12.3Chargement des données HDFS
- 12.4Enrichissement des logs
- 12.5Calcul & suivi des statistiques
- 12.6Création d’un lot Big Data à partir d’un job standard
- 12.7Jobs MapReduce
- 12.8Configuration des resource requests vers YARN à l’aide du studio
- 12.9Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job
- Présentation de Kafka4
- 13.1Surveillance du cluster Hadoop
- 13.2Comprendre les bases de kafka
- 13.3Publication de messages sur un sujet
- 13.4Consommer des messages
- Présentation de Kafka4
- 14.1Surveillance du cluster Hadoop
- 14.2Comprendre les bases de kafka
- 14.3Publication de messages sur un sujet
- 14.4Consommer des messages
- Présentation de Spark3
- 15.1Compréhension des bases de Spark
- 15.2Analyse des données des clients
- 15.3Production & consommation des messages en temps réel
- Présentation de Spark3
- 16.1Compréhension des bases de Spark
- 16.2Analyse des données des clients
- 16.3Production & consommation des messages en temps réel
- Génération de logs enrichis4
- 17.1Génération de logs bruts
- 17.2Génération de logs enrichis
- 17.3Surveillance des logs enrichis
- 17.4Création de rapports à partir des fenêtres de données
- Génération de logs enrichis4
- 18.1Génération de logs bruts
- 18.2Génération de logs enrichis
- 18.3Surveillance des logs enrichis
- 18.4Création de rapports à partir des fenêtres de données
- Analyse de Batchs2
- 19.1Ingestion de flux de données
- 19.2Analyse de logs à partir d’un batch job
- Analyse de Batchs2
- 20.1Ingestion de flux de données
- 20.2Analyse de logs à partir d’un batch job