IA & Data

Talend - Intégration de données pour le Big Data

3 jour(s) • 21h

Description

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.

Objectifs pédagogiques

Maîtriser Talend dans un environnement Big Data
Se servir de Talend comme lien entre les fichiers, applications et bases de données
Acquérir la philosophie de l'outil
Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
Être capable d'implémenter ses Jobs
Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
Réaliser des Jobs de transformation à l'aide de Pig et Hive
Gérer la qualité de la donnée avec Talend
Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Maîtriser l'utilisation de la bibliothèque de composants
Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Public concerné

Consultants BI

Architectes

Chefs de projets

Gestionnaires de données

Toute personne devant gérer des flux de données

Prérequis

Avoir des connaissances en Hadoop, Spark et Kafka

Déroulé du programme

Présentation de l'outil

Introduction : présentation, définitions, forces & faiblesses
Versions & compatibilité
Installation
Création d'un projet
Monitoring d'un cluster Hadoop
Construction d'un cluster de métadonnées

HDFS

Stockage d'un fichier
Stockage de plusieurs fichiers
Lecture de données
Utilisation de HBase pour la sauvegarde des données

Utilisation de tables

Présentation de Sqoop
Importation de tables avec Sqoop
Présentation d'Hive
Création de tables dans HDFS avec Hive

Traitement des données et des tables en Hadoop Distributed File System

Utilisation d'Hive pour le traitement des tables avec des jobs
Utilisation d'Apache Pig pour le traitement des données
Traitement des données par lots

Maintenance du cluster

Guide de dépannage
Mise en oeuvre du dépannage

Clickstream

Surveillance du Cluster Hadoop
Construction d'un environnement de développement
Chargement des données HDFS
Enrichissement des logs
Calcul & suivi des statistiques
Création d'un lot Big Data à partir d'un job standard
Jobs MapReduce
Configuration des resource requests vers YARN à l'aide du studio
Cas pratique : Chargement d'un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l'exécution du job