Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
youremail@yourdomain.com
+88 (0) 101 0000 000
Follow Us

Data Science - Spark ML

réf : BDT-PYT

Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.

Objectifs pédagogiques

  • Réaliser des applications incluant des implémentations d’algorithmes d’intelligence artificielle en mode Standalone sur Spark avec Scala
  • Réaliser des applications incluant des implémentations d’algorithmes d’intelligence artificielle en mode clusterisés sur Spark avec Scala

Pré-requis

Avoir de fortes connaissances en algorithmes d’intelligence artificielle

Maîtriser Scala et de l’écosystème Hadoop

Public concerné

Statisticiens, Consultants Big Data, Data Scientists, Data analysts…

Programme

  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Analyse en Batch Hadoop
  • Tour d’horizon de l’écosystème
  • L’analyse en temps réel
  • In-memory Data & Streaming Data sous Spark
  • Introduction à Spark
  • Présentation de l’écosystème Spark
  • Présentation des différents modes de Spark
  • Installation de Spark
  • Vue d’ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI

Travaux pratiques

Installation et configuration de Spark

  • Les usages de Spark Shell
  • Création d’un contexte Spark
  • Chargement d’un fichier en Shell
  • Manipulation d’opérations basiques sur un fichier avec Spark Shell
  • Environnement de développement SBT
  • Création d’un projet Spark avec SBT
  • Exécution d’un projet Spark avec SBT
  • Mode local
  • Mode Spark
  • Caching sur Spark
  • Persistance distribuée

Travaux pratiques

Data Preprocessing

  • Présentation générale du Machine Learning
  • Terminologies & définitions
  • Usages du Machine Learning
  • Machine Learning & Spark
  • Spark ML API
  • DataFrames
  • Transformateurs et estimateurs
  • Pipelines
  • Fonctionnement en pipeline
  • DAG Pipelines
  • Vérification durant l’exécution
  • Passage de paramètres
  • General Machine Learning Pipeline
  • Sélection de modèles via une validation croisée
  • Les types supportés, les algorithmes et les utilitaires
  • Les types de données
  • Les fonctionnalités d’extraction et les statistiques basiques
  • Clustering
  • K-Means
  • Mise en place le Clustering en utilisant K-Means
  • Gaussian Mixture
  • Power Iteration Clustering (PIC)
  • Latent Dirichlet Allocation (LDA)
  • Présentation du filtrage collaboratif
  • Classification
  • Régression
  • Exemple de régression
  • Mise en place une classification en utilisation la régression linéaire
  • Mise en place un système de recommandations avec le filtrage collaboratif

Travaux pratiques

Utilisation du Machine Learning sous Spark

Équipe pédagogique

Professionnel expert technique et pédagogique

Moyens pédagogiques et techniques

  • Espace intranet de formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Dispositif de suivi

  • Émargement numérique.
  • Mises en situation.
  • Formulaires d’évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Vous avez une question ?