Description
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.
Objectifs pédagogiques
- Maîtriser Talend dans un environnement Big Data
- Se servir de Talend comme lien entre les fichiers, applications et bases de données
- Acquérir la philosophie de l'outil
- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
- Être capable d'implémenter ses Jobs
- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
- Réaliser des Jobs de transformation à l'aide de Pig et Hive
- Gérer la qualité de la donnée avec Talend
- Utiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop
- Maîtriser l'utilisation de la bibliothèque de composants
- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Public concerné
Consultants BI
Architectes
Chefs de projets
Gestionnaires de données
Toute personne devant gérer des flux de données
Prérequis
Avoir des connaissances en Hadoop, Spark et Kafka
Déroulé du programme
1
Présentation de l'outil
- Introduction : présentation, définitions, forces & faiblesses
- Versions & compatibilité
- Installation
- Création d'un projet
- Monitoring d'un cluster Hadoop
- Construction d'un cluster de métadonnées
2
HDFS
- Stockage d'un fichier
- Stockage de plusieurs fichiers
- Lecture de données
- Utilisation de HBase pour la sauvegarde des données
3
Utilisation de tables
- Présentation de Sqoop
- Importation de tables avec Sqoop
- Présentation d'Hive
- Création de tables dans HDFS avec Hive
4
Traitement des données et des tables en Hadoop Distributed File System
- Utilisation d'Hive pour le traitement des tables avec des jobs
- Utilisation d'Apache Pig pour le traitement des données
- Traitement des données par lots
5
Maintenance du cluster
- Guide de dépannage
- Mise en oeuvre du dépannage
6
Clickstream
- Surveillance du Cluster Hadoop
- Construction d'un environnement de développement
- Chargement des données HDFS
- Enrichissement des logs
- Calcul & suivi des statistiques
- Création d'un lot Big Data à partir d'un job standard
- Jobs MapReduce
- Configuration des resource requests vers YARN à l'aide du studio
- Cas pratique : Chargement d'un dictionnaire dans HDFS, incorporation de contenu avec MapReduce & planification de l'exécution du job
7
Présentation de Kafka
- Surveillance du cluster Hadoop
- Comprendre les bases de kafka
- Publication de messages sur un sujet
- Consommer des messages
8
Présentation de Spark
- Compréhension des bases de Spark
- Analyse des données des clients
- Production & consommation des messages en temps réel
9
Génération de logs enrichis
- Génération de logs bruts
- Génération de logs enrichis
- Surveillance des logs enrichis
- Création de rapports à partir des fenêtres de données
10
Analyse de Batchs
- Ingestion de flux de données
- Analyse de logs à partir d'un batch job
Informations
Durée
3 jour(s)
21h
Tarif
2100 € HT
HT
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT