Data Science – Spark ML

0 Enrolled
21 heures
  • 21 heures
  • 57
  • 0
  • no
2,100.00€

Aperçu du cours

Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.

Prérequis

  • Avoir de fortes connaissances en algorithmes d'intelligence artificielle
  • Maîtriser Scala et de l'écosystème Hadoop

Objectifs pédagogiques

  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
  • Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala

Public ciblé

  • Statisticiens
  • Consultants Big Data
  • Data Scientists
  • Data analysts

Programme de formation

  • Présentation du Big Data et d'Apache Spark

    • Introduction au Big Data

    • Les challenges du Big Data

    • Batch vs le temps réel dans le Big Data Analytics

    • Analyse en Batch Hadoop

    • Tour d’horizon de l’écosystème

    • L’analyse en temps réel

    • In-memory Data & Streaming Data sous Spark

    • Introduction à Spark

    • Présentation de l’écosystème Spark

    • Présentation des différents modes de Spark

    • Installation de Spark

    • Vue d’ensemble de Spark en cluster

    • Spark Standalone cluster

    • Spark Web UI

    • Travaux pratiques : installation et configuration de Spark

  • Introduction aux opérations de bases sur Spark

    • Les usages de Spark Shell

    • Création d’un contexte Spark

    • Chargement d’un fichier en Shell

    • Manipulation d’opérations basiques sur un fichier avec Spark Shell

    • Environnement de développement SBT

    • Création d’un projet Spark avec SBT

    • Exécution d’un projet Spark avec SBT

    • Mode local

    • Mode Spark

    • Caching sur Spark

    • Persistance distribuée

    • Travaux pratiques : Data Preprocessing

  • Spark ML

    • Présentation générale du Machine Learning

    • Terminologies & définitions

    • Usages du Machine Learning

    • Machine Learning & Spark

    • Spark ML API

    • DataFrames

    • Transformateurs et estimateurs

    • Pipelines

    • Fonctionnement en pipeline

    • DAG Pipelines

    • Vérification durant l’exécution

    • Passage de paramètres

    • General Machine Learning Pipeline

    • Sélection de modèles via une validation croisée

    • Les types supportés, les algorithmes et les utilitaires

    • Les types de données

    • Les fonctionnalités d’extraction et les statistiques basiques

    • Clustering

    • K-Means

    • Mise en place le Clustering en utilisant K-Means

    • Gaussian Mixture

    • Power Iteration Clustering (PIC)

    • Latent Dirichlet Allocation (LDA)

    • Présentation du filtrage collaboratif

    • Classification

    • Régression

    • Exemple de régression

    • Mise en place une classification en utilisation la régression linéaire

    • Mise en place un système de recommandations avec le filtrage collaboratif

    • Travaux pratiques : Utilisation du Machine Learning sous Spark

Instructeur

Avatar de l’utilisateur

bprigent

0.0
0 commentaire
0 Students
491 Courses
Main Content