Aperçu du cours
Objectif de formation : Savoir utiliser Python dans le cadre du scrapping de données et du growth hacking.
Programme d'études
Présentation de Python
Les éléments fondamentaux du langage
Les apports et enjeux de Python dans la Big Data et l’analyse de données
Les différents types de bases
Les procédures et fonctions
L'ingestion avec Python
Pandas : présentation de la librairie
Manipuler les données avec cette librairie
Définition du concept de DataFrame
Les structures d’interrogation et d’indexation
Les données manquantes et leur traitement
La fusion de DataFrame
Manipuler les dates
Appliquer des mesures statistiques variées sur les DataFrames
Les problèmes de mesure et de normalisation
Réaliser des métriques d’analyse
Le concept de scrapping de données
Définition du scrapping
Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
Les usages pratiques du scrapping
L’architecture d’internet
Définition d’un « Client »
Définition d’un « Serveur »
L’importance des deux notions
L’impact du HTTP et du HTML sur les scrapers
La balise HTML et son attribut
L’identification d’éléments par « class » et par « id »
Python: l'usage en solution ETL
Les formats de données structurées: CSV, XML, JSON
Lecture et écriture des fichiers
Exploiter les données de fichiers de différentes sources
Les fonctions d’accès
Chargement des données en blocs de lignes
Beautiful Soup & CSS Select : les outils dédiés au scrapping
Mise en place d'un scraper
Les scrapers simples
Élaborer une stratégie pour naviguer sur le site
Le codage du scraper
Les scrapers complexes : l’envoi de données à un site internet
Les requêtes POST et les requêtes GET
Parcourir un site pour trouver des données
Élaborer une stratégie