Hadoop Cloudera - Configuration des systèmes distribués (4-016)
Description
Objectif général de la formation : Permettre aux participants de maîtriser les concepts, l'installation, la configuration et l'optimisation d'une plateforme Hadoop basée sur Cloudera pour gérer des systèmes distribués adaptés au Big Data. Modalité : Toutes les modalités (présentiel, classe virtuelle et hybride) sont possibles Lieu possible de réalisation : Locaux du bénéficiaire ou locaux d’Ascent Formation, en France métropolitaine et dans les DROM-COM Nombre maximal de participants : 20 Niveau SAME visé : Application (A) Compétences visées : Maîtriser les bases du fonctionnement des systèmes distribués avec Hadoop. Installer, configurer et administrer une plateforme Hadoop avec Cloudera. Optimiser les performances et résoudre les problèmes liés à l'infrastructure. Comprendre les enjeux stratégiques des systèmes distribués pour la gestion de grandes quantités de données.
Objectifs pédagogiques
- Découvrir les concepts et les enjeux liés à Hadoop.
- Comprendre le fonctionnement de la plateforme et de ses composants.
- Installer la plateforme et la gérer.
- Optimiser la plateforme.
Public concerné
Prérequis
Déroulé du programme
Jour 1 : Introduction et concepts fondamentaux (6 heures)
- Introduction à Hadoop et ses enjeux (2 heures)
Origines et concepts de base du Big Data et des systèmes distribués.
Présentation des composants Hadoop : HDFS, MapReduce, YARN.
Travaux pratiques : Explorer l’architecture d’un cluster Hadoop.
- Environnement Cloudera (2 heures)
Présentation de la distribution Cloudera et de ses avantages.
Comparaison avec d’autres distributions (Hortonworks, Apache).
Travaux pratiques : Configurer l’accès à l’interface Cloudera Manager.
- Concepts de stockage distribué (2 heures)
Fonctionnement de HDFS et gestion des données.
Travaux pratiques : Simulation d’un stockage distribué sur un environnement test.
Jour 2 : Installation et configuration de Hadoop (6 heures)
- Préparation de l’environnement (3 heures)
Installation des prérequis système et configuration de l’infrastructure.
Installation de Cloudera Manager et des composants Hadoop.
Travaux pratiques : Installer Hadoop sur un environnement virtuel.
- Configuration du cluster Hadoop (3 heures)
Configuration des services HDFS, YARN, et MapReduce.
Gestion des utilisateurs et des permissions.
Travaux pratiques : Configurer un cluster Hadoop simple avec plusieurs nœuds.
Jour 3 : Administration et gestion des clusters (6 heures)
- Administration des services Hadoop (3 heures)
Surveiller les performances des clusters.
Gérer les logs et résoudre les problèmes courants.
Travaux pratiques : Surveiller un cluster et diagnostiquer des problèmes.
- Gestion des données dans Hadoop (3 heures)
Ingestion des données avec Sqoop et Flume.
Traitement des données avec Hive et Pig.
Travaux pratiques : Importer des données avec Sqoop et les traiter avec Hive.
Jour 4 : Optimisation et bonnes pratiques (6 heures)
- Optimisation des performances (3 heures)
Optimisation des paramètres des services Hadoop.
Gestion de la scalabilité et du stockage.
Travaux pratiques : Optimiser un cluster pour un traitement intensif.
- Bonnes pratiques et sécurité (3 heures)
Implémentation de la sécurité avec Kerberos et chiffrement des données.
Travaux pratiques : Configurer un cluster sécurisé avec Kerberos.
Informations
Durée
4 jour(s)
24h
2850 € HT
HT