Aperçu du cours
Introduction au Big Data Analytics avec Python
Découvrez comment Python est devenu l’outil incontournable pour le Big Data Analytics grâce à sa simplicité d’utilisation et sa grande bibliothèque d’outils dédiés. Ce module introductif vous présente les concepts clés du Big Data et les principales librairies Python utilisées dans ce domaine.
Librairies Python pour le Big Data
Explorez des librairies essentielles telles que Pandas pour la manipulation de données, PySpark pour le traitement de données à grande échelle, et Dask pour le calcul distribué. Apprenez à utiliser ces outils pour travailler efficacement avec de grandes quantités de données.
Techniques de Traitement et d’Analyse de Données
Maîtrisez les techniques avancées de traitement et d’analyse de données. Ce cours couvre la préparation des données, l’analyse exploratoire, les méthodes statistiques, et les visualisations pour extraire des insights à partir de grandes bases de données.
Machine Learning pour le Big Data
Initiez-vous à l’utilisation de Python pour appliquer des techniques de machine learning au Big Data. Découvrez comment utiliser des librairies comme Scikit-Learn et TensorFlow pour créer des modèles prédictifs capables de traiter et d’analyser des volumes importants de données.
Projets Pratiques et Études de Cas
Engagez-vous dans des projets pratiques où vous appliquerez les compétences acquises pour analyser des ensembles de données réels. Ces projets permettent de consolider les connaissances apprises et de préparer les participants à des applications professionnelles dans le domaine du Big Data.
Prérequis
- Connaissances de base en Python
- Connaissances de base en statistiques
Objectifs pédagogiques
- Maîtriser le principe de la modélisation statistique
- Comparer la régression et la classification et faire un choix en fonction du type de données
- Mesurer les performances prédictives d'un algorithme
- Concevoir des sélections et des classements dans de grands volumes de données pour dégager des tendances
Public ciblé
- Responsables Infocentre
- Utilisateurs et gestionnaires métiers de bases de données
Programme de formation
-
Introduction à la modélisation
-
Présentation du langage Python
-
Présentation du logiciel Jupiter Notebook
-
Définition des jalons de construction d’un modèle
-
Comparatif algorithmes supervisés & non supervisés
-
Différences entre régression et classification
-
-
Introduction à la modélisation
-
Présentation du langage Python
-
Présentation du logiciel Jupiter Notebook
-
Définition des jalons de construction d’un modèle
-
Comparatif algorithmes supervisés & non supervisés
-
Différences entre régression et classification
-
-
Procédures d'évaluation de modèles
-
Ré-échantillonnage en jeu d’apprentissage
-
Techniques de validation et de test
-
Test de représentativité des données d’apprentissage
-
Évaluation de performance des modèles prédictifs
-
Matrice de confusion, de coût et la courbe ROC et AUC
-
-
Procédures d'évaluation de modèles
-
Ré-échantillonnage en jeu d’apprentissage
-
Techniques de validation et de test
-
Test de représentativité des données d’apprentissage
-
Évaluation de performance des modèles prédictifs
-
Matrice de confusion, de coût et la courbe ROC et AUC
-
-
Algorithmes supervisés
-
Principe de régression linéaire univariée
-
Régression multivariée
-
Régression polynomiale
-
Régression régularisée
-
Naive Bayes
-
Régression logistique
-
-
Algorithmes supervisés
-
Principe de régression linéaire univariée
-
Régression multivariée
-
Régression polynomiale
-
Régression régularisée
-
Naive Bayes
-
Régression logistique
-
-
Algorithmes non supervisés
-
Clustering hiérarchique
-
Clustering non hiérarchique
-
Approches mixtes
-
-
Algorithmes non supervisés
-
Clustering hiérarchique
-
Clustering non hiérarchique
-
Approches mixtes
-
-
Analyse en composantes
-
Analyse en composantes principales
-
Analyse factorielle des correspondances
-
Analyse des correspondances multiples
-
Analyse factorielle pour données mixtes
-
Classification hiérarchique sur composantes principales
-
-
Analyse en composantes
-
Analyse en composantes principales
-
Analyse factorielle des correspondances
-
Analyse des correspondances multiples
-
Analyse factorielle pour données mixtes
-
Classification hiérarchique sur composantes principales
-
-
Analyse de données textuelles
-
Collecte et prétraitement des données textuelles
-
Extraction d’entités primaires, d’entités nommées et résolution référentielle
-
Étiquetage grammatical, analyse syntaxique, analyse sémantique.
-
Lemmatisation
-
Représentation vectorielle des textes
-
Pondération TF-IDF
-
Word2Vec
-
-
Analyse de données textuelles
-
Collecte et prétraitement des données textuelles
-
Extraction d’entités primaires, d’entités nommées et résolution référentielle
-
Étiquetage grammatical, analyse syntaxique, analyse sémantique.
-
Lemmatisation
-
Représentation vectorielle des textes
-
Pondération TF-IDF
-
Word2Vec
-