Formation en IA & Data: Data Engineering - Débutant - Ascent Formation
Retour aux formations
IA & Data

Data Engineering - Débutant

5 jour(s)35h

Description

Objectif général de la formation : Apporter les connaissances fondamentales sur les outils et technologies essentielles du Data Engineering pour permettre aux participants de construire et de gérer des pipelines de données.

Objectifs pédagogiques

  • Naviguer dans un environnement Linux et utiliser les commandes essentielles.
  • Utiliser Git pour le suivi des versions et le travail collaboratif.
  • Manipuler des conteneurs Docker pour déployer des applications.
  • Automatiser des workflows de données avec dbt et Airflow.
  • Écrire des scripts Python pour réaliser des étapes clés du pipeline de données.

Public concerné

Débutants en Data Engineering.
Collaborateurs techniques ou non techniques souhaitant s’initier aux pratiques du Data Engineering.

Prérequis

Aucun

Déroulé du programme

1

Introduction au Data Engineering (3 h)

3h
  • Concepts clés du Data Engineering : définition, rôle, et importance des pipelines de données.
  • Les principaux outils et leur positionnement dans le cycle de vie des données.
  • Travaux pratiques : Identifier les étapes d’un pipeline à partir d’un cas concret simplifié.
  • Travaux pratiques : Défis communs rencontrés dans la gestion des pipelines.
2

Git (3 h)

3h
  • Introduction à Git : gestion de versions, travail collaboratif.
  • Travaux pratiques : Initialiser un dépôt, gérer des branches, résoudre un conflit simple.
  • Bonnes pratiques pour travailler en équipe avec Git.
3

Linux & Bash (5 h)

5h
  • Navigation dans un système Linux : commandes de base, structure des fichiers.
  • Travaux pratiques : Manipuler des fichiers, gérer les permissions, utiliser des commandes avancées comme grep et sed.
  • Création de scripts pour automatiser des tâches courantes (ex : nettoyage de données, gestion de logs).
  • Travaux pratiques : Écrire un script qui automatise la sauvegarde de fichiers.
4

Conteneurisation avec Docker (6 h)

6h
  • Introduction aux conteneurs : concepts de base et terminologie.
  • Création d’images Docker personnalisées.
  • Travaux pratiques : Construire et exécuter une image Docker pour une application Python.
  • Réseautage et gestion des volumes avec Docker.
  • Travaux pratiques : Déployer une application multi-conteneurs avec Docker Compose.
5

Automatisation avec dbt et Airflow (9 h)

9h
  • Concepts clés : modélisation des données et transformations.
  • Travaux pratiques : Créer un modèle simple avec dbt et le valider.
  • Configuration d’un projet dbt : fichiers de configuration, tests, et documentation.
  • Comprendre les DAGs (Directed Acyclic Graphs) : structure et mise en œuvre.
  • Exercice pratique : Créer un DAG pour orchestrer un workflow.
  • Gestion des dépendances entre tâches et suivi des exécutions.
  • Déploiement d’Airflow dans un environnement Docker.
6

Python pour le Data Engineering (9 h)

9h
  • Introduction aux structures de données (listes, dictionnaires).
  • Travaux pratiques : Manipuler des fichiers CSV et JSON avec Python.
  • Écriture de scripts pour automatiser les transformations de données.
  • Travaux pratiques : Automatiser l’intégration de fichiers de données dans une base SQL.
  • Développement de modules personnalisés pour les workflows.
  • Travaux pratiques : Intégrer un script Python dans un pipeline orchestré avec Airflow.

Informations

Durée

5 jour(s)

35h

Tarif

3250 € HT

HT