Aperçu du cours
Objectif de formation : Au terme de la formation l’apprenant aura pris en main Spark ML et détiendra des compétences de base en Data Science grâce à lui.
Prérequis
- Avoir de fortes connaissances en algorithmes d'intelligence artificielle
- Maîtriser Scala et de l'écosystème Hadoop
Fonctionnalités
- Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode Standalone sur Spark avec Scala
- Réaliser des applications incluant des implémentations d'algorithmes d'intelligence artificielle en mode clusterisés sur Spark avec Scala
Public ciblé
- Statisticiens
- Consultants Big Data
- Data Scientists
- Data analysts
Détails
- 18 Sections
- 342 Lessons
- 21 heures
Expand all sectionsCollapse all sections
- Présentation du Big Data et d'Apache Spark15
- 1.1Introduction au Big Data
- 1.2Les challenges du Big Data
- 1.3Batch vs le temps réel dans le Big Data Analytics
- 1.4Analyse en Batch Hadoop
- 1.5Tour d’horizon de l’écosystème
- 1.6L’analyse en temps réel
- 1.7In-memory Data & Streaming Data sous Spark
- 1.8Introduction à Spark
- 1.9Présentation de l’écosystème Spark
- 1.10Présentation des différents modes de Spark
- 1.11Installation de Spark
- 1.12Vue d’ensemble de Spark en cluster
- 1.13Spark Standalone cluster
- 1.14Spark Web UI
- 1.15Travaux pratiques : installation et configuration de Spark
- Présentation du Big Data et d'Apache Spark15
- 2.1Introduction au Big Data
- 2.2Les challenges du Big Data
- 2.3Batch vs le temps réel dans le Big Data Analytics
- 2.4Analyse en Batch Hadoop
- 2.5Tour d’horizon de l’écosystème
- 2.6L’analyse en temps réel
- 2.7In-memory Data & Streaming Data sous Spark
- 2.8Introduction à Spark
- 2.9Présentation de l’écosystème Spark
- 2.10Présentation des différents modes de Spark
- 2.11Installation de Spark
- 2.12Vue d’ensemble de Spark en cluster
- 2.13Spark Standalone cluster
- 2.14Spark Web UI
- 2.15Travaux pratiques : installation et configuration de Spark
- Présentation du Big Data et d'Apache Spark15
- 3.1Introduction au Big Data
- 3.2Les challenges du Big Data
- 3.3Batch vs le temps réel dans le Big Data Analytics
- 3.4Analyse en Batch Hadoop
- 3.5Tour d’horizon de l’écosystème
- 3.6L’analyse en temps réel
- 3.7In-memory Data & Streaming Data sous Spark
- 3.8Introduction à Spark
- 3.9Présentation de l’écosystème Spark
- 3.10Présentation des différents modes de Spark
- 3.11Installation de Spark
- 3.12Vue d’ensemble de Spark en cluster
- 3.13Spark Standalone cluster
- 3.14Spark Web UI
- 3.15Travaux pratiques : installation et configuration de Spark
- Présentation du Big Data et d'Apache Spark15
- 4.1Introduction au Big Data
- 4.2Les challenges du Big Data
- 4.3Batch vs le temps réel dans le Big Data Analytics
- 4.4Analyse en Batch Hadoop
- 4.5Tour d’horizon de l’écosystème
- 4.6L’analyse en temps réel
- 4.7In-memory Data & Streaming Data sous Spark
- 4.8Introduction à Spark
- 4.9Présentation de l’écosystème Spark
- 4.10Présentation des différents modes de Spark
- 4.11Installation de Spark
- 4.12Vue d’ensemble de Spark en cluster
- 4.13Spark Standalone cluster
- 4.14Spark Web UI
- 4.15Travaux pratiques : installation et configuration de Spark
- Présentation du Big Data et d'Apache Spark15
- 5.1Introduction au Big Data
- 5.2Les challenges du Big Data
- 5.3Batch vs le temps réel dans le Big Data Analytics
- 5.4Analyse en Batch Hadoop
- 5.5Tour d’horizon de l’écosystème
- 5.6L’analyse en temps réel
- 5.7In-memory Data & Streaming Data sous Spark
- 5.8Introduction à Spark
- 5.9Présentation de l’écosystème Spark
- 5.10Présentation des différents modes de Spark
- 5.11Installation de Spark
- 5.12Vue d’ensemble de Spark en cluster
- 5.13Spark Standalone cluster
- 5.14Spark Web UI
- 5.15Travaux pratiques : installation et configuration de Spark
- Présentation du Big Data et d'Apache Spark15
- 6.1Introduction au Big Data
- 6.2Les challenges du Big Data
- 6.3Batch vs le temps réel dans le Big Data Analytics
- 6.4Analyse en Batch Hadoop
- 6.5Tour d’horizon de l’écosystème
- 6.6L’analyse en temps réel
- 6.7In-memory Data & Streaming Data sous Spark
- 6.8Introduction à Spark
- 6.9Présentation de l’écosystème Spark
- 6.10Présentation des différents modes de Spark
- 6.11Installation de Spark
- 6.12Vue d’ensemble de Spark en cluster
- 6.13Spark Standalone cluster
- 6.14Spark Web UI
- 6.15Travaux pratiques : installation et configuration de Spark
- Introduction aux opérations de bases sur Spark12
- 7.1Les usages de Spark Shell
- 7.2Création d’un contexte Spark
- 7.3Chargement d’un fichier en Shell
- 7.4Manipulation d’opérations basiques sur un fichier avec Spark Shell
- 7.5Environnement de développement SBT
- 7.6Création d’un projet Spark avec SBT
- 7.7Exécution d’un projet Spark avec SBT
- 7.8Mode local
- 7.9Mode Spark
- 7.10Caching sur Spark
- 7.11Persistance distribuée
- 7.12Travaux pratiques : Data Preprocessing
- Introduction aux opérations de bases sur Spark12
- 8.1Les usages de Spark Shell
- 8.2Création d’un contexte Spark
- 8.3Chargement d’un fichier en Shell
- 8.4Manipulation d’opérations basiques sur un fichier avec Spark Shell
- 8.5Environnement de développement SBT
- 8.6Création d’un projet Spark avec SBT
- 8.7Exécution d’un projet Spark avec SBT
- 8.8Mode local
- 8.9Mode Spark
- 8.10Caching sur Spark
- 8.11Persistance distribuée
- 8.12Travaux pratiques : Data Preprocessing
- Introduction aux opérations de bases sur Spark12
- 9.1Les usages de Spark Shell
- 9.2Création d’un contexte Spark
- 9.3Chargement d’un fichier en Shell
- 9.4Manipulation d’opérations basiques sur un fichier avec Spark Shell
- 9.5Environnement de développement SBT
- 9.6Création d’un projet Spark avec SBT
- 9.7Exécution d’un projet Spark avec SBT
- 9.8Mode local
- 9.9Mode Spark
- 9.10Caching sur Spark
- 9.11Persistance distribuée
- 9.12Travaux pratiques : Data Preprocessing
- Introduction aux opérations de bases sur Spark12
- 10.1Les usages de Spark Shell
- 10.2Création d’un contexte Spark
- 10.3Chargement d’un fichier en Shell
- 10.4Manipulation d’opérations basiques sur un fichier avec Spark Shell
- 10.5Environnement de développement SBT
- 10.6Création d’un projet Spark avec SBT
- 10.7Exécution d’un projet Spark avec SBT
- 10.8Mode local
- 10.9Mode Spark
- 10.10Caching sur Spark
- 10.11Persistance distribuée
- 10.12Travaux pratiques : Data Preprocessing
- Introduction aux opérations de bases sur Spark12
- 11.1Les usages de Spark Shell
- 11.2Création d’un contexte Spark
- 11.3Chargement d’un fichier en Shell
- 11.4Manipulation d’opérations basiques sur un fichier avec Spark Shell
- 11.5Environnement de développement SBT
- 11.6Création d’un projet Spark avec SBT
- 11.7Exécution d’un projet Spark avec SBT
- 11.8Mode local
- 11.9Mode Spark
- 11.10Caching sur Spark
- 11.11Persistance distribuée
- 11.12Travaux pratiques : Data Preprocessing
- Introduction aux opérations de bases sur Spark12
- 12.1Les usages de Spark Shell
- 12.2Création d’un contexte Spark
- 12.3Chargement d’un fichier en Shell
- 12.4Manipulation d’opérations basiques sur un fichier avec Spark Shell
- 12.5Environnement de développement SBT
- 12.6Création d’un projet Spark avec SBT
- 12.7Exécution d’un projet Spark avec SBT
- 12.8Mode local
- 12.9Mode Spark
- 12.10Caching sur Spark
- 12.11Persistance distribuée
- 12.12Travaux pratiques : Data Preprocessing
- Spark ML30
- 13.1Présentation générale du Machine Learning
- 13.2Terminologies & définitions
- 13.3Usages du Machine Learning
- 13.4Machine Learning & Spark
- 13.5Spark ML API
- 13.6DataFrames
- 13.7Transformateurs et estimateurs
- 13.8Pipelines
- 13.9Fonctionnement en pipeline
- 13.10DAG Pipelines
- 13.11Vérification durant l’exécution
- 13.12Passage de paramètres
- 13.13General Machine Learning Pipeline
- 13.14Sélection de modèles via une validation croisée
- 13.15Les types supportés, les algorithmes et les utilitaires
- 13.16Les types de données
- 13.17Les fonctionnalités d’extraction et les statistiques basiques
- 13.18Clustering
- 13.19K-Means
- 13.20Mise en place le Clustering en utilisant K-Means
- 13.21Gaussian Mixture
- 13.22Power Iteration Clustering (PIC)
- 13.23Latent Dirichlet Allocation (LDA)
- 13.24Présentation du filtrage collaboratif
- 13.25Classification
- 13.26Régression
- 13.27Exemple de régression
- 13.28Mise en place une classification en utilisation la régression linéaire
- 13.29Mise en place un système de recommandations avec le filtrage collaboratif
- 13.30Travaux pratiques : Utilisation du Machine Learning sous Spark
- Spark ML30
- 14.1Présentation générale du Machine Learning
- 14.2Terminologies & définitions
- 14.3Usages du Machine Learning
- 14.4Machine Learning & Spark
- 14.5Spark ML API
- 14.6DataFrames
- 14.7Transformateurs et estimateurs
- 14.8Pipelines
- 14.9Fonctionnement en pipeline
- 14.10DAG Pipelines
- 14.11Vérification durant l’exécution
- 14.12Passage de paramètres
- 14.13General Machine Learning Pipeline
- 14.14Sélection de modèles via une validation croisée
- 14.15Les types supportés, les algorithmes et les utilitaires
- 14.16Les types de données
- 14.17Les fonctionnalités d’extraction et les statistiques basiques
- 14.18Clustering
- 14.19K-Means
- 14.20Mise en place le Clustering en utilisant K-Means
- 14.21Gaussian Mixture
- 14.22Power Iteration Clustering (PIC)
- 14.23Latent Dirichlet Allocation (LDA)
- 14.24Présentation du filtrage collaboratif
- 14.25Classification
- 14.26Régression
- 14.27Exemple de régression
- 14.28Mise en place une classification en utilisation la régression linéaire
- 14.29Mise en place un système de recommandations avec le filtrage collaboratif
- 14.30Travaux pratiques : Utilisation du Machine Learning sous Spark
- Spark ML30
- 15.1Présentation générale du Machine Learning
- 15.2Terminologies & définitions
- 15.3Usages du Machine Learning
- 15.4Machine Learning & Spark
- 15.5Spark ML API
- 15.6DataFrames
- 15.7Transformateurs et estimateurs
- 15.8Pipelines
- 15.9Fonctionnement en pipeline
- 15.10DAG Pipelines
- 15.11Vérification durant l’exécution
- 15.12Passage de paramètres
- 15.13General Machine Learning Pipeline
- 15.14Sélection de modèles via une validation croisée
- 15.15Les types supportés, les algorithmes et les utilitaires
- 15.16Les types de données
- 15.17Les fonctionnalités d’extraction et les statistiques basiques
- 15.18Clustering
- 15.19K-Means
- 15.20Mise en place le Clustering en utilisant K-Means
- 15.21Gaussian Mixture
- 15.22Power Iteration Clustering (PIC)
- 15.23Latent Dirichlet Allocation (LDA)
- 15.24Présentation du filtrage collaboratif
- 15.25Classification
- 15.26Régression
- 15.27Exemple de régression
- 15.28Mise en place une classification en utilisation la régression linéaire
- 15.29Mise en place un système de recommandations avec le filtrage collaboratif
- 15.30Travaux pratiques : Utilisation du Machine Learning sous Spark
- Spark ML30
- 16.1Présentation générale du Machine Learning
- 16.2Terminologies & définitions
- 16.3Usages du Machine Learning
- 16.4Machine Learning & Spark
- 16.5Spark ML API
- 16.6DataFrames
- 16.7Transformateurs et estimateurs
- 16.8Pipelines
- 16.9Fonctionnement en pipeline
- 16.10DAG Pipelines
- 16.11Vérification durant l’exécution
- 16.12Passage de paramètres
- 16.13General Machine Learning Pipeline
- 16.14Sélection de modèles via une validation croisée
- 16.15Les types supportés, les algorithmes et les utilitaires
- 16.16Les types de données
- 16.17Les fonctionnalités d’extraction et les statistiques basiques
- 16.18Clustering
- 16.19K-Means
- 16.20Mise en place le Clustering en utilisant K-Means
- 16.21Gaussian Mixture
- 16.22Power Iteration Clustering (PIC)
- 16.23Latent Dirichlet Allocation (LDA)
- 16.24Présentation du filtrage collaboratif
- 16.25Classification
- 16.26Régression
- 16.27Exemple de régression
- 16.28Mise en place une classification en utilisation la régression linéaire
- 16.29Mise en place un système de recommandations avec le filtrage collaboratif
- 16.30Travaux pratiques : Utilisation du Machine Learning sous Spark
- Spark ML30
- 17.1Présentation générale du Machine Learning
- 17.2Terminologies & définitions
- 17.3Usages du Machine Learning
- 17.4Machine Learning & Spark
- 17.5Spark ML API
- 17.6DataFrames
- 17.7Transformateurs et estimateurs
- 17.8Pipelines
- 17.9Fonctionnement en pipeline
- 17.10DAG Pipelines
- 17.11Vérification durant l’exécution
- 17.12Passage de paramètres
- 17.13General Machine Learning Pipeline
- 17.14Sélection de modèles via une validation croisée
- 17.15Les types supportés, les algorithmes et les utilitaires
- 17.16Les types de données
- 17.17Les fonctionnalités d’extraction et les statistiques basiques
- 17.18Clustering
- 17.19K-Means
- 17.20Mise en place le Clustering en utilisant K-Means
- 17.21Gaussian Mixture
- 17.22Power Iteration Clustering (PIC)
- 17.23Latent Dirichlet Allocation (LDA)
- 17.24Présentation du filtrage collaboratif
- 17.25Classification
- 17.26Régression
- 17.27Exemple de régression
- 17.28Mise en place une classification en utilisation la régression linéaire
- 17.29Mise en place un système de recommandations avec le filtrage collaboratif
- 17.30Travaux pratiques : Utilisation du Machine Learning sous Spark
- Spark ML30
- 18.1Présentation générale du Machine Learning
- 18.2Terminologies & définitions
- 18.3Usages du Machine Learning
- 18.4Machine Learning & Spark
- 18.5Spark ML API
- 18.6DataFrames
- 18.7Transformateurs et estimateurs
- 18.8Pipelines
- 18.9Fonctionnement en pipeline
- 18.10DAG Pipelines
- 18.11Vérification durant l’exécution
- 18.12Passage de paramètres
- 18.13General Machine Learning Pipeline
- 18.14Sélection de modèles via une validation croisée
- 18.15Les types supportés, les algorithmes et les utilitaires
- 18.16Les types de données
- 18.17Les fonctionnalités d’extraction et les statistiques basiques
- 18.18Clustering
- 18.19K-Means
- 18.20Mise en place le Clustering en utilisant K-Means
- 18.21Gaussian Mixture
- 18.22Power Iteration Clustering (PIC)
- 18.23Latent Dirichlet Allocation (LDA)
- 18.24Présentation du filtrage collaboratif
- 18.25Classification
- 18.26Régression
- 18.27Exemple de régression
- 18.28Mise en place une classification en utilisation la régression linéaire
- 18.29Mise en place un système de recommandations avec le filtrage collaboratif
- 18.30Travaux pratiques : Utilisation du Machine Learning sous Spark