Aperçu du cours
Objectif de formation : L’apprenant saura au terme de cette formation comprendre l’architecture d’Hadoop Cloudera et l’administrer pour ses projets.
Prérequis
- Maîtriser les commandes Shell
- Avoir des connaissances de base autour des requêtes SQL
Objectifs pédagogiques
- Appréhender le framework Hadoop
- Administrer des clusters Cloudera
Public ciblé
- Administrateurs système et consultants SI…
Programme de formation
-
Introduction
-
La Big Data
-
L’écosystème Hadoop
-
L’architecture Hadoop
-
NoSQL
-
Travaux pratiques: présentation des outils Cloudera Distributed Hadoop (CDH), Cloudera Manager
-
-
Les clusters avec Cloudera
-
Tour d’horizon des fonctionnalités des clusters
-
Pourquoi une solution de gestion de cluster ?
-
Cloudera Manager : caractéristiques
-
L’installation d’un cluster : éléments nécessaires
-
-
Gestion des usagers
-
Utilisateurs et groupes
-
Privilèges des utilisateurs locaux et LDAP
-
-
Configuration d'un cluster Cloudera
-
Introduction
-
Réglages de configuration
-
Fichiers de configuration
-
Instances de rôle
-
Nouveaux services
-
Créer ou retirer des hôtes
-
Travaux pratiques: configuration du cluster
-
-
Les fichiers distribués Hadoop: le système HDFS
-
Fonctionnalités HDFS
-
Écriture de fichiers
-
Lecteur de fichiers
-
Mémoire NameNode
-
Sécurité HDFS
-
Stockage HDFS
-
Utilisation de Hadoop File Shell
-
Travaux pratiques: manipuler des fichiers via HDFS
-
-
YARN, MapReduce & Spark
-
L’utilisation des frameworks de calcul
-
La gestion des ressources de cluster : YARN
-
MapReduce
-
Spark
-
L’utilisation des frameworks de calcul sur YARN
-
L’interface Web et Shell : explorer les applications YARN
-
Les logs applicatifs
-
-
Intégration des données HDFS
-
Intégration des données par des sources externes : Flume, Nifi & Kafka
-
Intégration des données par des bases de données relationnelles avec Sqoop
-
Les Best Practices pour l’importation de données
-
-
Planifier le cluster
-
Introduction à la planification
-
Sélection du matériel
-
Virtualisation
-
La gestion des réseaux
-
Paramétrages des nœuds
-
-
Installation et configuration d'outils
-
Hive
-
Impala
-
Pig
-
-
Clients Hadoop avec Hue
-
Paramétrage des clients Hadoop
-
Paramétrage de la teinte
-
Système d’authentification et d’autorisation avec Hue
-
-
Configuration avancée du cluster
-
Configurations avancées
-
Réglages des ports Hadoop
-
Sensibilisation au rack : paramétrage de HDFS
-
Haute disponibilité et HDFS
-
-
La sécurité sous Hadoop
-
Pourquoi la sécurité ?
-
Le système de sécurité d’Hadoop
-
Kerberos: présentation, fonctionnement, sécurisation d’un cluster Hadoop
-
Les autres principes de sécurité
-
-
La gestion des ressources
-
Paramétrage des Cgroups & pools de services statistiques
-
Planification des ressources
-
Paramétrage des pools de ressources dynamiques
-
Mémoire YARN
-
Réglages du CPU
-
Planifier des requêtes Impala
-
-
Entretien du cluster
-
Vérification de l’état HDFS
-
Copier les données vers un autre cluster
-
Ajout et suppression de node de cluster
-
Rééquilibrage du cluster snapshots de répertoires
-
Mise à niveau du cluster
-
-
Suivi & débogage
-
Fonctionnalité de suivi de Cloudera Hadoop
-
Tests de santé
-
Suivi des clusters
-
Dépannage des clusters
-