Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
youremail@yourdomain.com
+88 (0) 101 0000 000
Follow Us

Formation Big Data - Architectures & infrastructures

       réf : BDT-BAI

Formation GCP - Architecture - Design

Objectifs de formation : à l’issue de la formation, le stagiaire sera capable d’initier la conception d’une architecture et d’une infrastructure Big Data, en disposant d’une vue d’ensemble des différentes solutions dédiées au traitement des données de masse.

Objectifs pédagogiques

  • Comprendre les principaux concepts du Big Data ainsi que l’écosystème technologique d’un projet Big Data
  • Savoir analyser les difficultés propres à un projet Big Data
  • Déterminer la nature des données manipulées
  • Appréhender les éléments de sécurité, d’éthique et les enjeux juridiques
  • Exploiter les architectures Big Data
  • Mettre en place des socles techniques complets pour des projets Big Data

Pré-requis

Avoir une bonne culture générale des systèmes d’information et plus particulièrement

Avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation

Public concerné

Développeur, Chefs de projets, Data scientists, Architectes…

Programme de formation Big Data

  • Définition & historique du Big Data
  • Les enjeux de la data
  • Présentation d’un système Big Data
  • Tour d’horizon des architectures actuelles
  • Comparatif des forces & faiblesses
  • Principes de fonctionnement
  • Sécurité de la donnée & enjeux juridiques
  • Données personnelles
  • Informations sensibles / interdites
  • Présentation de l’organe régulateur en France : la CNIL
  • Les accords internationaux
  • Les architectures décisionnelles traditionnelles
  • Introduction du NoSQL
  • Tour d’horizon des acteurs principaux
  • Big Table & Big Query
  • Database machine
  • BDD vectorielles
  • Présentation d’Hadoop
  • Enjeux techniques & économiques
  • Enjeux des architectures distribuées
  • Forces & faiblesses
  • Architectures massivement parallèles
  • Traitements complexes
  • Paradigmes de calculs distribués
  • Le NoSQL & le calcul distribué
  • Infrastructure & qualité
  • L’importance de la qualité pour l’analyse
  • Volume, Vélocité, Variété et Véracité
  • Base à Chaud & à froid
  • Outil de Dataquality : intérêts et limites
  • L’utilisation d’un ETL
  • Talend Data Integration
  • Analyse des données par fusion avec des données internes
  • Présentation du Master Data Management
  • Hadoop Distributed File System (HDFS)
  • MapReduce
  • Design « type » du cluster
  • Choix du matériel
  • Choix du type de déploiement
  • Installation d’Hadoop & de ses composantes
  • Tour d’horizon des distributions
  • Management des noeuds
  • Présentation des outils TaskTracker & JobTracker pour MapReduce
  • Utilisation de schedulers
  • Gestion des logs
  • Utilisation d’un manager
  • Importation de données externe dans Hadoop Distributed File System
  • Maniement des fichier Hadoop Distributed File System
  • Management des autorisations
  • Gestion de la sécurité
  • Reprise sur échec d’un name node
  • NameNode high availability
  • Monitoring
  • Benchmarking / Profiling d’un cluster
  • Présentation d’Apache GridMix
  • Présentation de Vaaidya
  • Choisir la taille des blocs
  • Tour d’horizon des autres options de tuning
  • Comparatif Spark & Hadoop
  • Combinaison Spark/Hadoop
  • Comparaison des performances
  • Reprise après incident
  • Fonctionnement de MapReduce Spark
  • Paramétrage d’un noeud Hadoop pour le calcul MapReduce Spark
  • Hadoop Streaming & prototypage rapide de MapReduce Spark
  • Ecriture de MapReduce Spark pour la résolution de problèmes concerts

Équipe pédagogique

Professionnel expert technique et pédagogique

Moyens pédagogiques et techniques

  • Espace intranet de formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Dispositif de suivi

  • Émargement numérique.
  • Mises en situation.
  • Formulaires d’évaluation de la formation.
  • Certificat de réalisation de l’action de formation Big Data.

Vous avez une question ?