Aperçu du cours
Objectifs de formation : à l’issue de la formation, le stagiaire sera capable de développer des applications compatibles avec la plateforme Hadoop d’Apache pour traiter des données Big Data.
Prérequis
- Avoir la connaissance d'un langage de programmation objet comme Java et du scripting
Objectifs pédagogiques
- Comprendre l’écosystème Hadoop Cloudera/Hortonworks
- Présenter les principes du Framework Hadoop
- Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
- Développer des algorithmes parallèles efficaces avec MapReduce
- Charger des données non structurées des systèmes HDFS et HBase
Public ciblé
- Développeurs
- Chefs de projets
- Data-scientists
- Architectes
Programme de formation
-
Présentation d'Hadoop
-
Introduction & historique
-
Fonctionnalités
-
Tour d’horizon du projet et des modules
-
Yarn & jobs MapReduce
-
-
MapReduce
-
Principe objectif du modèle de programmation
-
Fonctions map() & reduce ()
-
Couples (clés, valeurs)
-
Implémentation par le framework Hadoop
-
Etude de la collection d’exemples
-
Travaux pratiques : Écriture d’un programme et exécution avec Hadoop
-
-
Programmation
-
Paramétrage des jobs
-
Interfaces
-
Chaine de production
-
Partitioner, outputcollector, codecs, compresseurs
-
InputFormat et OutputFormat
-
Travaux pratiques : Type personnalisés : création d’un writable spécifique. Utilisation. Contraintes
-
-
Outils complémentaires
-
Mise en place du cache distribué
-
Utilisation du langage Python pour la création d’un Job MapReduce
-
Répartition sur la ferme
-
Forces & faiblesses
-
Liaisons avec des systèmes externes
-
Présentation du pont HadoopR
-
Travaux pratiques : Création d’un Job MapReduce sous Python & suivi en streaming
-
-
Création de MapReduce avec Apache Pig
-
Pattern & best practices MapReduce
-
Présentation de l’outil Apache Pig
-
Présentation du langage Pig Latin
-
Fonctions de bases
-
Fonctions personnalisées
-
UDF
-
Exécution
-
Travaux pratiques : Installation d’Apache Pig, écriture de fonctions & exécution du programme
-
-
Apache Hive
-
Requêtage
-
Syntaxe
-
Comparatif Pig / Hive
-
Travaux pratiques : Création de tables & de requêtes
-
-
Sécurité
-
Gestion de l’authentification
-
Travaux pratiques : Paramétrage des ACLs
-