Talend – Intégration de données pour le Big Data

0 Enrolled
21 heures
  • 21 heures
  • 41
  • 0
  • no
2,100.00€

Aperçu du cours

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.

Prérequis

  • Avoir des connaissances en Hadoop, Spark et Kafka

Objectifs pédagogiques

  • Maîtriser Talend dans un environnement Big Data
  • Se servir de Talend comme lien entre les fichiers, applications et bases de données
  • Acquérir la philosophie de l'outil
  • Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
  • Être capable d'implémenter ses Jobs
  • Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
  • Réaliser des Jobs de transformation à l'aide de Pig et Hive
  • Gérer la qualité de la donnée avec Talend
  • Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
  • Maîtriser l'utilisation de la bibliothèque de composants
  • Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Public ciblé

  • Consultants BI
  • Architectes
  • Chefs de projets
  • Gestionnaires de données
  • Toute personne devant gérer des flux de données

Programme de formation

  • Présentation de l'outil

    • Introduction : présentation, définitions, forces & faiblesses

    • Versions & compatibilité

    • Installation

    • Création d’un projet

    • Monitoring d’un cluster Hadoop

    • Construction d’un cluster de métadonnées

  • HDFS

    • Stockage d’un fichier

    • Stockage de plusieurs fichiers

    • Lecture de données

    • Utilisation de HBase pour la sauvegarde des données

  • Utilisation de tables

    • Présentation de Sqoop

    • Importation de tables avec Sqoop

    • Présentation d’Hive

    • Création de tables dans HDFS avec Hive

  • Traitement des données et des tables en Hadoop Distributed File System

    • Utilisation d’Hive pour le traitement des tables avec des jobs

    • Utilisation d’Apache Pig pour le traitement des données

    • Traitement des données par lots

  • Maintenance du cluster

    • Guide de dépannage

    • Mise en oeuvre du dépannage

  • Clickstream

    • Surveillance du Cluster Hadoop

    • Construction d’un environnement de développement

    • Chargement des données HDFS

    • Enrichissement des logs

    • Calcul & suivi des statistiques

    • Création d’un lot Big Data à partir d’un job standard

    • Jobs MapReduce

    • Configuration des resource requests vers YARN à l’aide du studio

    • Cas pratique : Chargement d’un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l’exécution du job

  • Présentation de Kafka

    • Surveillance du cluster Hadoop

    • Comprendre les bases de kafka

    • Publication de messages sur un sujet

    • Consommer des messages

  • Présentation de Spark

    • Compréhension des bases de Spark

    • Analyse des données des clients

    • Production & consommation des messages en temps réel

  • Génération de logs enrichis

    • Génération de logs bruts

    • Génération de logs enrichis

    • Surveillance des logs enrichis

    • Création de rapports à partir des fenêtres de données

  • Analyse de Batchs

    • Ingestion de flux de données

    • Analyse de logs à partir d’un batch job

Instructeur

Avatar de l’utilisateur

bprigent

0.0
0 commentaire
0 Students
491 Courses
Main Content