Formation en IA & Data: Big Data - Architectures & infrastructures - Ascent Formation
Retour aux formations
IA & Data

Big Data - Architectures & infrastructures

2 jour(s)14h

Description

Objectif de formation : à l’issue de la formation, le stagiaire sera capable d’initier la conception d’une architecture et d’une infrastructure Big Data, en disposant d’une vue d’ensemble des différentes solutions dédiées au traitement des données de masse.

Objectifs pédagogiques

  • Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
  • Savoir analyser les difficultés propres à un projet Big Data
  • Déterminer la nature des données manipulées
  • Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
  • Exploiter les architectures Big Data
  • Mettre en place des socles techniques complets pour des projets Big Data

Public concerné

Chefs de projets
Architectes
Développeurs
Data Scientists
Toute personne souhaitant connaître les outils pour concevoir une architecture Big Data

Prérequis

Avoir une bonne culture générale des systèmes d'information et plus particulièrement
Avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation

Déroulé du programme

1

Introduction : les projets Big Data

  • Définition & historique du Big Data
  • Les enjeux de la data
  • Présentation d'un système Big Data
  • Tour d'horizon des architectures actuelles
  • Comparatif des forces & faiblesses
  • Principes de fonctionnement
2

Enjeux sécuritaire & éthique

  • Sécurité de la donnée & enjeux juridiques
  • Données personnelles
  • Informations sensibles / interdites
  • Présentation de l'organe régulateur en France : la CNIL
  • Les accords internationaux
3

Infrastructure & architecture

  • Les architectures décisionnelles traditionnelles
  • Introduction du NoSQL
  • Tour d'horizon des acteurs principaux
  • Big Table & Big Query
  • Database machine
  • BDD vectorielles
  • Présentation d'Hadoop
  • Enjeux techniques & économiques
4

Architectures distribuées

  • Enjeux des architectures distribuées
  • Forces & faiblesses
  • Architectures massivement parallèles
  • Traitements complexes
  • Paradigmes de calculs distribués
  • Le NoSQL & le calcul distribué
5

Qualité des données

  • Infrastructure & qualité
  • L'importance de la qualité pour l'analyse
  • Volume, Vélocité, Variété et Véracité
  • Base à Chaud & à froid
  • Outil de Dataquality : intérêts et limites
  • L'utilisation d'un ETL
  • Talend Data Integration
  • Analyse des données par fusion avec des données internes
  • Présentation du Master Data Management
6

Préparation & configuration du cluster Hadoop

  • Hadoop Distributed File System (HDFS)
  • MapReduce
  • Design "type" du cluster
  • Choix du matériel
7

Installation de la plateforme

  • Choix du type de déploiement
  • Installation d'Hadoop & de ses composantes
  • Tour d'horizon des distributions
8

Gestion du cluster

  • Management des noeuds
  • Présentation des outils TaskTracker & JobTracker pour MapReduce
  • Utilisation de schedulers
  • Gestion des logs
  • Utilisation d'un manager
9

Gestion des données dans HDFS

  • Importation de données externe dans Hadoop Distributed File System
  • Maniement des fichier Hadoop Distributed File System
10

Paramétrage avancé

  • Management des autorisations
  • Gestion de la sécurité
  • Reprise sur échec d'un name node
  • NameNode high availability
11

Monitoring & optimisation Tuning

  • Monitoring
  • Benchmarking / Profiling d'un cluster
  • Présentation d'Apache GridMix
  • Présentation de Vaaidya
  • Choisir la taille des blocs
  • Tour d'horizon des autres options de tuning
12

Introduction à Spark & MapReduce Spark

  • Comparatif Spark & Hadoop
  • Combinaison Spark/Hadoop
  • Comparaison des performances
  • Reprise après incident
  • Fonctionnement de MapReduce Spark
  • Paramétrage d'un noeud Hadoop pour le calcul MapReduce Spark
  • Hadoop Streaming & prototypage rapide de MapReduce Spark
  • Ecriture de MapReduce Spark pour la résolution de problèmes concerts

Informations

Durée

2 jour(s)

14h

Tarif

2100 € HT

HT