Retour aux formations
IA & Data
Big Data - Architecture et infrastructure Hadoop On-Premise et sur le Cloud5
5 jour(s) • 35h
Description
Objectif de formation : Cette formation vise à fournir aux participants les connaissances et les compétences nécessaires pour concevoir, mettre en œuvre et gérer des architectures Big Data utilisant Hadoop, à la fois sur site (On-Premise) et dans des environnements Cloud.
Objectifs pédagogiques
- Acquérir une compréhension approfondie des concepts et des technologies Big Data, en mettant l'accent sur Hadoop
- Être capable de concevoir, déployer et gérer des architectures Big Data utilisant Hadoop, à la fois sur site et dans le Cloud
- Maîtriser les techniques de stockage, de traitement et d'analyse des données dans un environnement Hadoop
Public concerné
Ingénieurs Big Data
Architectes de données
Administrateurs système
Développeurs
Prérequis
Connaissances de base en informatique et en traitement des données
Expérience avec Hadoop et les technologies Big Data
Familiarité avec les environnements Cloud
Déroulé du programme
1
Introduction au Big Data et à Hadoop (5 heures)
5h
- Définitions du Big Data et Hadoop
- Expliquer les trois V du Big Data (Volume, Vélocité, Variété) et les implications pour le stockage et le traitement des données
- Hadoop : Décrire Hadoop Distributed File System (HDFS), MapReduce, Yet Another Resource Negotiator (YARN), et discuter de leur rôle dans le traitement et l'analyse des données
- Configuration des binaires Hadoop, configuration des fichiers de configuration, et démarrage des services
- Configuration du cluster : Vérification de la connectivité entre les nœuds, exécution de commandes de diagnostic pour s'assurer que les services fonctionnent correctement
2
Architecture Hadoop On-Premise (6 heures)
6h
- Conception d'une architecture Hadoop On-Premise
- Planification du cluster : Évaluation des besoins en termes de volume de données à stocker, de performances de traitement, et de disponibilité
- Stratégies pour connecter Hadoop aux entrepôts de données, aux bases de données et aux applications métier
- Discussions sur les protocoles de communication, les formats de données pris en charge, et les outils d'intégration
- Travaux pratiques : Configuration avancée d'un cluster Hadoop On-Premise (partitionnement des données, du repliement de blocs, et de la stratégie de réplication)
3
Stockage de données dans Hadoop (6,5 heures)
5h
- Gestion du stockage : Explication du fonctionnement du système de fichiers distribué HDFS et de ses caractéristiques de fiabilité et de tolérance aux pannes
- Discussion sur la répartition des données en blocs, la redondance des données, et les stratégies de placement des blocs
- Exploration des différents formats de données (CSV, JSON, Parquet, etc.) et des meilleures pratiques pour les stocker dans Hadoop
- Comparaison des avantages et des inconvénients de chaque format en fonction des types de requêtes et des types d'analyse prévus
- Travaux pratiques : Utilisation de commandes Hadoop CLI et de scripts pour copier des données depuis des systèmes de fichiers locaux ou distants
- Travaux pratiques : Introduction au développement de scripts MapReduce simples pour filtrer, trier, et grouper les données
4
Traitement des données avec MapReduce (6,5 heures)
5h
- Principe de fonctionnement de MapReduce pour le traitement distribué des données
- Explication du modèle MapReduce avec des exemples de tâches Map et Reduce
- Création de jobs MapReduce pour effectuer des opérations de traitement et d'analyse sur les données
- Travaux pratiques : Implémentation de la logique MapReduce pour des tâches telles que le comptage des mots, le tri, ou le calcul des agrégats
5
Hadoop dans le Cloud (6 heures)
6h
- Comparaison des principales plateformes Cloud (AWS, Azure, Google Cloud) et de leurs offres pour le traitement et le stockage des données
- Migration : Stratégies et meilleures pratiques pour migrer des clusters Hadoop existants vers des environnements Cloud
- Évaluation des outils de migration disponibles, des coûts associés, et des considérations de performance et de sécurité
- Travaux pratiques : Utilisation d'outils de transfert de données comme DistCp ou les outils d'import/export Cloud pour déplacer les données
6
Gestion et maintenance de l'infrastructure Big Data (5 heures)
5h
- Focus sur les outils de surveillance pour suivre les performances du cluster Hadoop et identifier les goulots d'étranglement
- Configuration de métriques de surveillance pour collecter des informations sur l'utilisation des ressources et les temps de réponse
- Configuration des politiques de sécurité pour contrôler l'accès aux données sensibles et aux fonctionnalités du système
- Travaux pratiques : Mise en place de tableaux de bord de surveillance personnalisés pour suivre les indicateurs clés de performance
Informations
Durée
5 jour(s)
35h
Tarif
1500 € HT
HT
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT