Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
youremail@yourdomain.com
+88 (0) 101 0000 000
Follow Us

Formation Data Science - Spark ML

       réf : BDT-PYT

Formation Développement Web - Design Patterns

Objectif de formation : Apprendre Spark ML vous aidera à prendre le contrôle des processus de développement d’applications de science des données. Vous apprendrez à construire, déployer et gérer des pipelines d’apprentissage automatique efficaces avec Spark ML, à comprendre les concepts sous-jacents et à vous familiariser avec les algorithmes disponibles. En un mot, ce cours vous permettra d’avoir une base solide en apprentissage automatique avec Spark, ce qui facilitera la création de modèles plus avancés.

Objectifs pédagogiques

  • Réaliser des applications incluant des implémentations d’algorithmes d’intelligence artificielle en mode Standalone sur Spark avec Scala
  • Réaliser des applications incluant des implémentations d’algorithmes d’intelligence artificielle en mode clusterisés sur Spark avec Scala

Pré-requis

Avoir de fortes connaissances en algorithmes d’intelligence artificielle

Maîtriser Scala et de l’écosystème Hadoop

Public concerné

Statisticiens, Consultants Big Data, Data Scientists, Data analysts…

Programme de formation Data Science

  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Analyse en Batch Hadoop
  • Tour d’horizon de l’écosystème
  • L’analyse en temps réel
  • In-memory Data & Streaming Data sous Spark
  • Introduction à Spark
  • Présentation de l’écosystème Spark
  • Présentation des différents modes de Spark
  • Installation de Spark
  • Vue d’ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI

Travaux pratiques

Installation et configuration de Spark

  • Les usages de Spark Shell
  • Création d’un contexte Spark
  • Chargement d’un fichier en Shell
  • Manipulation d’opérations basiques sur un fichier avec Spark Shell
  • Environnement de développement SBT
  • Création d’un projet Spark avec SBT
  • Exécution d’un projet Spark avec SBT
  • Mode local
  • Mode Spark
  • Caching sur Spark
  • Persistance distribuée

Travaux pratiques

Data Preprocessing

  • Présentation générale du Machine Learning
  • Terminologies & définitions
  • Usages du Machine Learning
  • Machine Learning & Spark
  • Spark ML API
  • DataFrames
  • Transformateurs et estimateurs
  • Pipelines
  • Fonctionnement en pipeline
  • DAG Pipelines
  • Vérification durant l’exécution
  • Passage de paramètres
  • General Machine Learning Pipeline
  • Sélection de modèles via une validation croisée
  • Les types supportés, les algorithmes et les utilitaires
  • Les types de données
  • Les fonctionnalités d’extraction et les statistiques basiques
  • Clustering
  • K-Means
  • Mise en place le Clustering en utilisant K-Means
  • Gaussian Mixture
  • Power Iteration Clustering (PIC)
  • Latent Dirichlet Allocation (LDA)
  • Présentation du filtrage collaboratif
  • Classification
  • Régression
  • Exemple de régression
  • Mise en place une classification en utilisation la régression linéaire
  • Mise en place un système de recommandations avec le filtrage collaboratif

Travaux pratiques

Utilisation du Machine Learning sous Spark

Équipe pédagogique

Professionnel expert technique et pédagogique

Moyens pédagogiques et techniques

  • Espace intranet de formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Étude de cas concrets
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Dispositif de suivi

  • Émargement numérique.
  • Mises en situation.
  • Formulaires d’évaluation de la formation.
  • Certificat de réalisation de l’action de formation Data Science.

Vous avez une question ?