Retour aux formations
IA & Data
Python - Extraction des données, scrapping & growth hacking
3 jour(s) • 21h
Description
Objectif de formation : Savoir utiliser Python dans le cadre du scrapping de données et du growth hacking.
Objectifs pédagogiques
- Maîtriser le scrapping de données
- Réaliser les actions d’ingestion pour alimenter un Data Lake
Public concerné
Développeur, intégrateurs, chefs de projets, consultants…
Prérequis
Maîtriser les bases du langage Python
Avoir des connaissances en algorithmique
Déroulé du programme
1
Présentation de Python
- Les éléments fondamentaux du langage
- Les apports et enjeux de Python dans la Big Data et l’analyse de données
- Les différents types de bases
- Les procédures et fonctions
2
L'ingestion avec Python
- Pandas : présentation de la librairie
- Manipuler les données avec cette librairie
- Définition du concept de DataFrame
- Les structures d’interrogation et d’indexation
- Les données manquantes et leur traitement
- La fusion de DataFrame
- Manipuler les dates
- Appliquer des mesures statistiques variées sur les DataFrames
- Les problèmes de mesure et de normalisation
- Réaliser des métriques d’analyse
3
Le concept de scrapping de données
- Définition du scrapping
- Le niveau de difficulté du scrapping selon le support: Web, Papier, PDF
- Les usages pratiques du scrapping
- L’architecture d’internet
- Définition d’un « Client »
- Définition d’un « Serveur »
- L’importance des deux notions
- L’impact du HTTP et du HTML sur les scrapers
- La balise HTML et son attribut
- L’identification d’éléments par « class » et par « id »
4
Python: l'usage en solution ETL
- Les formats de données structurées: CSV, XML, JSON
- Lecture et écriture des fichiers
- Exploiter les données de fichiers de différentes sources
- Les fonctions d’accès
- Chargement des données en blocs de lignes
- Beautiful Soup & CSS Select : les outils dédiés au scrapping
5
Mise en place d'un scraper
- Les scrapers simples
- Élaborer une stratégie pour naviguer sur le site
- Le codage du scraper
- Les scrapers complexes : l’envoi de données à un site internet
- Les requêtes POST et les requêtes GET
- Parcourir un site pour trouver des données
- Élaborer une stratégie
Informations
Durée
3 jour(s)
21h
Tarif
2100 € HT
HT
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT