Aperçu du cours
Introduction au Web Scraping avec Python
Découvrez les bases du web scraping et comment Python, avec ses librairies puissantes comme BeautifulSoup et Scrapy, peut être utilisé pour automatiser la collecte de données à grande échelle. Ce module offre une introduction complète à l’identification des données exploitables sur des sites web et à leur extraction efficace.
Techniques de Scraping Avancées
Apprenez à surmonter les défis techniques tels que la navigation dans des sites web complexes, le contournement des mesures anti-scraping, et l’extraction de données à partir de sites dynamiques en utilisant Selenium. Ce cours couvre également des méthodes pour gérer les cookies et les sessions, essentielles pour accéder à des données protégées.
Nettoyage et Organisation des Données
Une fois les données extraites, il est crucial de les nettoyer et de les organiser pour une analyse efficace. Ce module vous enseigne comment utiliser Pandas pour transformer les données brutes en formats exploitables, préparer des datasets pour l’analyse, et automatiser le processus de nettoyage.
Applications de Growth Hacking
Explorez comment utiliser les données extraites pour des stratégies de growth hacking. Apprenez à identifier des opportunités de croissance, à analyser le comportement des utilisateurs, et à améliorer l’engagement et la conversion sur vos plateformes numériques.
Projets Pratiques
Mettez en pratique vos compétences en travaillant sur des projets de web scraping et de growth hacking. Ces projets vous permettront d’appliquer les techniques apprises pour résoudre des problèmes réels, préparant ainsi les participants à des initiatives de growth hacking dans leur propre environnement professionnel.
Prérequis
- Maîtriser les bases du langage Python
- Avoir des connaissances en algorithmique
Objectifs pédagogiques
- Maîtriser le scrapping de données
- Réaliser les actions d’ingestion pour alimenter un Data Lake
Public ciblé
- Développeur, intégrateurs, chefs de projets, consultants…
Programme de formation
-
Présentation de Python
-
Les éléments fondamentaux du langage
-
Les apports et enjeux de Python dans la Big Data et l’analyse de données
-
Les différents types de bases
-
Les procédures et fonctions
-
-
Présentation de Python
-
Les éléments fondamentaux du langage
-
Les apports et enjeux de Python dans la Big Data et l’analyse de données
-
Les différents types de bases
-
Les procédures et fonctions
-
-
L'ingestion avec Python
-
Pandas : présentation de la librairie
-
Manipuler les données avec cette librairie
-
Définition du concept de DataFrame
-
Les structures d’interrogation et d’indexation
-
Les données manquantes et leur traitement
-
La fusion de DataFrame
-
Manipuler les dates
-
Appliquer des mesures statistiques variées sur les DataFrames
-
Les problèmes de mesure et de normalisation
-
Réaliser des métriques d’analyse
-
-
L'ingestion avec Python
-
Pandas : présentation de la librairie
-
Manipuler les données avec cette librairie
-
Définition du concept de DataFrame
-
Les structures d’interrogation et d’indexation
-
Les données manquantes et leur traitement
-
La fusion de DataFrame
-
Manipuler les dates
-
Appliquer des mesures statistiques variées sur les DataFrames
-
Les problèmes de mesure et de normalisation
-
Réaliser des métriques d’analyse
-
-
Le concept de scrapping de données
-
Définition du scrapping
-
Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
-
Les usages pratiques du scrapping
-
L’architecture d’internet
-
Définition d’un « Client »
-
Définition d’un « Serveur »
-
L’importance des deux notions
-
L’impact du HTTP et du HTML sur les scrapers
-
La balise HTML et son attribut
-
L’identification d’éléments par « class » et par « id »
-
-
Le concept de scrapping de données
-
Définition du scrapping
-
Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
-
Les usages pratiques du scrapping
-
L’architecture d’internet
-
Définition d’un « Client »
-
Définition d’un « Serveur »
-
L’importance des deux notions
-
L’impact du HTTP et du HTML sur les scrapers
-
La balise HTML et son attribut
-
L’identification d’éléments par « class » et par « id »
-
-
Python: l'usage en solution ETL
-
Les formats de données structurées: CSV, XML, JSON
-
Lecture et écriture des fichiers
-
Exploiter les données de fichiers de différentes sources
-
Les fonctions d’accès
-
Chargement des données en blocs de lignes
-
Beautiful Soup & CSS Select : les outils dédiés au scrapping
-
-
Python: l'usage en solution ETL
-
Les formats de données structurées: CSV, XML, JSON
-
Lecture et écriture des fichiers
-
Exploiter les données de fichiers de différentes sources
-
Les fonctions d’accès
-
Chargement des données en blocs de lignes
-
Beautiful Soup & CSS Select : les outils dédiés au scrapping
-
-
Mise en place d'un scraper
-
Les scrapers simples
-
Élaborer une stratégie pour naviguer sur le site
-
Le codage du scraper
-
Les scrapers complexes : l’envoi de données à un site internet
-
Les requêtes POST et les requêtes GET
-
Parcourir un site pour trouver des données
-
Élaborer une stratégie
-
-
Mise en place d'un scraper
-
Les scrapers simples
-
Élaborer une stratégie pour naviguer sur le site
-
Le codage du scraper
-
Les scrapers complexes : l’envoi de données à un site internet
-
Les requêtes POST et les requêtes GET
-
Parcourir un site pour trouver des données
-
Élaborer une stratégie
-