Retour aux formations
IA & Data
DATABRICKS – Data Engineering et Analytics sur le Lakehouse
3 jour(s) • 21h
Description
Permettre aux participants de maîtriser la plateforme Databricks afin de concevoir, développer et exploiter des pipelines de données dans une architecture Lakehouse.
Objectifs pédagogiques
- Comprendre l’architecture Databricks et ses composants clés
- Manipuler Delta Lake pour garantir la fiabilité des données
- Développer des transformations avec Spark SQL et DataFrame API
- Orchestrer des pipelines avec Databricks Workflows
- Mettre en œuvre une gouvernance des données avec Unity Catalog
- Intégrer Databricks avec des outils data (dbt, Airflow, Power BI)
- Construire un pipeline data complet de bout en bout
Public concerné
Data engineers
Data analysts
Data scientists
Consultants data
Prérequis
Connaissances de base en SQL
Notions en traitement de données (ETL / pipelines)
Bases en Python ou Scala appréciées
Compréhension générale des architectures data
Déroulé du programme
1
JOUR 1- Module 1 – Architecture Databricks et prise en main (4h00)
4h
- Concept de Lakehouse et positionnement Databricks
- Architecture : workspace, clusters, notebooks
- Introduction à Unity Catalog
- Organisation des projets et bonnes pratiques
- Activité pratique : Prise en main de Databricks:
2
Création d’un cluster, exploration des notebooks et structuration d’un projet et
3
organisation des ressources (datasets, notebooks, dossiers)
4
JOUR 1 - Module 2 – Delta Lake et gestion des données (3h00)
3h
- ACID transactions et fiabilité des données
- Time Travel et versioning
- Schema enforcement et schema evolution
- Optimisation des performances (compaction, Z-order)
- Activité pratique : Manipulation Delta Lake :
5
Création et modification d’une table Delta avec gestion du schéma et
6
exploitation du time travel et optimisation des performances
7
JOUR 2- Module 3 – Traitement de données avec Spark (4h00)
4h
- Introduction à Spark sur Databricks
- Spark SQL pour l’analyse
- DataFrame API : transformations, jointures, agrégations
- Bonnes pratiques de performance
- Activité pratique : Transformation de données :
8
Développement d’un pipeline avec Spark SQL et DataFrames
9
et optimisation des traitements et gestion des ressources
10
JOUR 2- Module 4 – Orchestration avec Databricks Workflows (3h00)
3h
- Présentation des Workflows
- Création et planification de jobs
- Gestion des dépendances et monitoring
- Introduction à Airflow
- Activité pratique : Automatisation d’un pipeline
11
Création d’un workflow multi-tâches
12
et planification et suivi d’exécution
13
JOUR 3- Module 5 – Data Governance avec Unity Catalog (4h00)
4h
- Gestion des accès et des permissions
- Organisation des catalogues, schémas et tables
- Traçabilité et audit des données
- Bonnes pratiques de gouvernance
- Activité pratique : Mise en œuvre de la gouvernance :
14
Configuration des droits d’accès sur des datasets
15
et simulation de gestion des utilisateurs et audit
16
JOUR 3 - Module 6 – Intégration et pipeline complet Lakehouse (3h00)
3h
- Intégration avec dbt, Airflow et Power BI
- Architecture data moderne et bonnes pratiques
- Industrialisation des pipelines
- Activité pratique : Pipeline complet de bout en bout :
17
Construction d’un pipeline ingestion → transformation → serving et exposition des données pour consommation analytique (BI)
Informations
Durée
3 jour(s)
21h
Tarif
Sur demande
Formations similaires
IA & Data
Migration vers le Cloud
2 jour(s)
Sur demande
IA & Data
Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé
3 jour(s)
Sur demande
IA & Data
AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant
1 jour(s)
Sur demande
IA & Data
Analyse des données avec Microsoft Power BI (4-167)
3 jour(s)
2200 € HT