Formation en IA & Data: Hadoop Cloudera - Architecture & administration - Ascent Formation
Retour aux formations
IA & Data

Hadoop Cloudera - Architecture & administration

5 jour(s)35h

Description

Objectif de formation : L'apprenant saura au terme de cette formation comprendre l'architecture d'Hadoop Cloudera et l'administrer pour ses projets.

Objectifs pédagogiques

  • Appréhender le framework Hadoop
  • Administrer des clusters Cloudera

Public concerné

Administrateurs système et consultants SI…

Prérequis

Maîtriser les commandes Shell
Avoir des connaissances de base autour des requêtes SQL

Déroulé du programme

1

Introduction

  • La Big Data
  • L’écosystème Hadoop
  • L’architecture Hadoop
  • NoSQL
  • Travaux pratiques: présentation des outils Cloudera Distributed Hadoop (CDH), Cloudera Manager
2

Les clusters avec Cloudera

  • Tour d’horizon des fonctionnalités des clusters
  • Pourquoi une solution de gestion de cluster ?
  • Cloudera Manager : caractéristiques
  • L’installation d’un cluster : éléments nécessaires
3

Gestion des usagers

  • Utilisateurs et groupes
  • Privilèges des utilisateurs locaux et LDAP
4

Configuration d'un cluster Cloudera

  • Introduction
  • Réglages de configuration
  • Fichiers de configuration
  • Instances de rôle
  • Nouveaux services
  • Créer ou retirer des hôtes
  • Travaux pratiques: configuration du cluster
5

Les fichiers distribués Hadoop: le système HDFS

  • Fonctionnalités HDFS
  • Écriture de fichiers
  • Lecteur de fichiers
  • Mémoire NameNode
  • Sécurité HDFS
  • Stockage HDFS
  • Utilisation de Hadoop File Shell
  • Travaux pratiques: manipuler des fichiers via HDFS
6

YARN, MapReduce & Spark

  • L’utilisation des frameworks de calcul
  • La gestion des ressources de cluster : YARN
  • MapReduce
  • Spark
  • L’utilisation des frameworks de calcul sur YARN
  • L’interface Web et Shell : explorer les applications YARN
  • Les logs applicatifs
7

Intégration des données HDFS

  • Intégration des données par des sources externes : Flume, Nifi & Kafka
  • Intégration des données par des bases de données relationnelles avec Sqoop
  • Les Best Practices pour l’importation de données
8

Planifier le cluster

  • Introduction à la planification
  • Sélection du matériel
  • Virtualisation
  • La gestion des réseaux
  • Paramétrages des nœuds
9

Installation et configuration d'outils

  • Hive
  • Impala
  • Pig
10

Clients Hadoop avec Hue

  • Paramétrage des clients Hadoop
  • Paramétrage de la teinte
  • Système d’authentification et d’autorisation avec Hue
11

Configuration avancée du cluster

  • Configurations avancées
  • Réglages des ports Hadoop
  • Sensibilisation au rack : paramétrage de HDFS
  • Haute disponibilité et HDFS
12

La sécurité sous Hadoop

  • Pourquoi la sécurité ?
  • Le système de sécurité d’Hadoop
  • Kerberos: présentation, fonctionnement, sécurisation d’un cluster Hadoop
  • Les autres principes de sécurité
13

La gestion des ressources

  • Paramétrage des Cgroups & pools de services statistiques
  • Planification des ressources
  • Paramétrage des pools de ressources dynamiques
  • Mémoire YARN
  • Réglages du CPU
  • Planifier des requêtes Impala
14

Entretien du cluster

  • Vérification de l’état HDFS
  • Copier les données vers un autre cluster
  • Ajout et suppression de node de cluster
  • Rééquilibrage du cluster snapshots de répertoires
  • Mise à niveau du cluster
15

Suivi & débogage

  • Fonctionnalité de suivi de Cloudera Hadoop
  • Tests de santé
  • Suivi des clusters
  • Dépannage des clusters

Informations

Durée

5 jour(s)

35h

Tarif

3250 € HT

HT