Aperçu du cours
Objectif de formation : L’apprenant saura au terme de cette formation comprendre l’architecture d’Hadoop Cloudera et l’administrer pour ses projets.
Programme d'études
Introduction
La Big Data
L’écosystème Hadoop
L’architecture Hadoop
NoSQL
Travaux pratiques: présentation des outils Cloudera Distributed Hadoop (CDH), Cloudera Manager
Les clusters avec Cloudera
Tour d’horizon des fonctionnalités des clusters
Pourquoi une solution de gestion de cluster ?
Cloudera Manager : caractéristiques
L’installation d’un cluster : éléments nécessaires
Gestion des usagers
Utilisateurs et groupes
Privilèges des utilisateurs locaux et LDAP
Configuration d'un cluster Cloudera
Introduction
Réglages de configuration
Fichiers de configuration
Instances de rôle
Nouveaux services
Créer ou retirer des hôtes
Travaux pratiques: configuration du cluster
Les fichiers distribués Hadoop: le système HDFS
Fonctionnalités HDFS
Écriture de fichiers
Lecteur de fichiers
Mémoire NameNode
Sécurité HDFS
Stockage HDFS
Utilisation de Hadoop File Shell
Travaux pratiques: manipuler des fichiers via HDFS
YARN, MapReduce & Spark
L’utilisation des frameworks de calcul
La gestion des ressources de cluster : YARN
MapReduce
Spark
L’utilisation des frameworks de calcul sur YARN
L’interface Web et Shell : explorer les applications YARN
Les logs applicatifs
Intégration des données HDFS
Intégration des données par des sources externes : Flume, Nifi & Kafka
Intégration des données par des bases de données relationnelles avec Sqoop
Les Best Practices pour l’importation de données
Planifier le cluster
Introduction à la planification
Sélection du matériel
Virtualisation
La gestion des réseaux
Paramétrages des nœuds
Installation et configuration d'outils
Hive
Impala
Pig
Clients Hadoop avec Hue
Paramétrage des clients Hadoop
Paramétrage de la teinte
Système d’authentification et d’autorisation avec Hue
Configuration avancée du cluster
Configurations avancées
Réglages des ports Hadoop
Sensibilisation au rack : paramétrage de HDFS
Haute disponibilité et HDFS
La sécurité sous Hadoop
Pourquoi la sécurité ?
Le système de sécurité d’Hadoop
Kerberos: présentation, fonctionnement, sécurisation d’un cluster Hadoop
Les autres principes de sécurité
La gestion des ressources
Paramétrage des Cgroups & pools de services statistiques
Planification des ressources
Paramétrage des pools de ressources dynamiques
Mémoire YARN
Réglages du CPU
Planifier des requêtes Impala
Entretien du cluster
Vérification de l’état HDFS
Copier les données vers un autre cluster
Ajout et suppression de node de cluster
Rééquilibrage du cluster snapshots de répertoires
Mise à niveau du cluster
Suivi & débogage
Fonctionnalité de suivi de Cloudera Hadoop
Tests de santé
Suivi des clusters
Dépannage des clusters