Aperçu du cours
Introduction au Web Scraping avec Python
Découvrez les bases du web scraping et comment Python, avec ses librairies puissantes comme BeautifulSoup et Scrapy, peut être utilisé pour automatiser la collecte de données à grande échelle. Ce module offre une introduction complète à l’identification des données exploitables sur des sites web et à leur extraction efficace.
Techniques de Scraping Avancées
Apprenez à surmonter les défis techniques tels que la navigation dans des sites web complexes, le contournement des mesures anti-scraping, et l’extraction de données à partir de sites dynamiques en utilisant Selenium. Ce cours couvre également des méthodes pour gérer les cookies et les sessions, essentielles pour accéder à des données protégées.
Nettoyage et Organisation des Données
Une fois les données extraites, il est crucial de les nettoyer et de les organiser pour une analyse efficace. Ce module vous enseigne comment utiliser Pandas pour transformer les données brutes en formats exploitables, préparer des datasets pour l’analyse, et automatiser le processus de nettoyage.
Applications de Growth Hacking
Explorez comment utiliser les données extraites pour des stratégies de growth hacking. Apprenez à identifier des opportunités de croissance, à analyser le comportement des utilisateurs, et à améliorer l’engagement et la conversion sur vos plateformes numériques.
Projets Pratiques
Mettez en pratique vos compétences en travaillant sur des projets de web scraping et de growth hacking. Ces projets vous permettront d’appliquer les techniques apprises pour résoudre des problèmes réels, préparant ainsi les participants à des initiatives de growth hacking dans leur propre environnement professionnel.
Prérequis
- Maîtriser les bases du langage Python
- Avoir des connaissances en algorithmique
Fonctionnalités
- Maîtriser le scrapping de données
- Réaliser les actions d’ingestion pour alimenter un Data Lake
Public ciblé
- Développeur, intégrateurs, chefs de projets, consultants…
Détails
- 10 Sections
- 74 Lessons
- 21 Weeks
- Présentation de Python4
- 1.1Les éléments fondamentaux du langage
- 1.2Les apports et enjeux de Python dans la Big Data et l’analyse de données
- 1.3Les différents types de bases
- 1.4Les procédures et fonctions
- Présentation de Python4
- 2.1Les éléments fondamentaux du langage
- 2.2Les apports et enjeux de Python dans la Big Data et l’analyse de données
- 2.3Les différents types de bases
- 2.4Les procédures et fonctions
- L'ingestion avec Python10
- 3.1Pandas : présentation de la librairie
- 3.2Manipuler les données avec cette librairie
- 3.3Définition du concept de DataFrame
- 3.4Les structures d’interrogation et d’indexation
- 3.5Les données manquantes et leur traitement
- 3.6La fusion de DataFrame
- 3.7Manipuler les dates
- 3.8Appliquer des mesures statistiques variées sur les DataFrames
- 3.9Les problèmes de mesure et de normalisation
- 3.10Réaliser des métriques d’analyse
- L'ingestion avec Python10
- 4.1Pandas : présentation de la librairie
- 4.2Manipuler les données avec cette librairie
- 4.3Définition du concept de DataFrame
- 4.4Les structures d’interrogation et d’indexation
- 4.5Les données manquantes et leur traitement
- 4.6La fusion de DataFrame
- 4.7Manipuler les dates
- 4.8Appliquer des mesures statistiques variées sur les DataFrames
- 4.9Les problèmes de mesure et de normalisation
- 4.10Réaliser des métriques d’analyse
- Le concept de scrapping de données10
- 5.1Définition du scrapping
- 5.2Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
- 5.3Les usages pratiques du scrapping
- 5.4L’architecture d’internet
- 5.5Définition d’un « Client »
- 5.6Définition d’un « Serveur »
- 5.7L’importance des deux notions
- 5.8L’impact du HTTP et du HTML sur les scrapers
- 5.9La balise HTML et son attribut
- 5.10L’identification d’éléments par « class » et par « id »
- Le concept de scrapping de données10
- 6.1Définition du scrapping
- 6.2Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
- 6.3Les usages pratiques du scrapping
- 6.4L’architecture d’internet
- 6.5Définition d’un « Client »
- 6.6Définition d’un « Serveur »
- 6.7L’importance des deux notions
- 6.8L’impact du HTTP et du HTML sur les scrapers
- 6.9La balise HTML et son attribut
- 6.10L’identification d’éléments par « class » et par « id »
- Python: l'usage en solution ETL6
- 7.1Les formats de données structurées: CSV, XML, JSON
- 7.2Lecture et écriture des fichiers
- 7.3Exploiter les données de fichiers de différentes sources
- 7.4Les fonctions d’accès
- 7.5Chargement des données en blocs de lignes
- 7.6Beautiful Soup & CSS Select : les outils dédiés au scrapping
- Python: l'usage en solution ETL6
- 8.1Les formats de données structurées: CSV, XML, JSON
- 8.2Lecture et écriture des fichiers
- 8.3Exploiter les données de fichiers de différentes sources
- 8.4Les fonctions d’accès
- 8.5Chargement des données en blocs de lignes
- 8.6Beautiful Soup & CSS Select : les outils dédiés au scrapping
- Mise en place d'un scraper7
- 9.1Les scrapers simples
- 9.2Élaborer une stratégie pour naviguer sur le site
- 9.3Le codage du scraper
- 9.4Les scrapers complexes : l’envoi de données à un site internet
- 9.5Les requêtes POST et les requêtes GET
- 9.6Parcourir un site pour trouver des données
- 9.7Élaborer une stratégie
- Mise en place d'un scraper7
- 10.1Les scrapers simples
- 10.2Élaborer une stratégie pour naviguer sur le site
- 10.3Le codage du scraper
- 10.4Les scrapers complexes : l’envoi de données à un site internet
- 10.5Les requêtes POST et les requêtes GET
- 10.6Parcourir un site pour trouver des données
- 10.7Élaborer une stratégie