IA & Data

DATABRICKS – Data Engineering et Analytics sur le Lakehouse

3 jour(s) • 21h

Description

Permettre aux participants de maîtriser la plateforme Databricks afin de concevoir, développer et exploiter des pipelines de données dans une architecture Lakehouse.

Objectifs pédagogiques

Comprendre l’architecture Databricks et ses composants clés
Manipuler Delta Lake pour garantir la fiabilité des données
Développer des transformations avec Spark SQL et DataFrame API
Orchestrer des pipelines avec Databricks Workflows
Mettre en œuvre une gouvernance des données avec Unity Catalog
Intégrer Databricks avec des outils data (dbt, Airflow, Power BI)
Construire un pipeline data complet de bout en bout

Public concerné

Data engineers

Data analysts

Data scientists

Consultants data

Prérequis

Connaissances de base en SQL

Notions en traitement de données (ETL / pipelines)

Bases en Python ou Scala appréciées

Compréhension générale des architectures data

Déroulé du programme

JOUR 1- Module 1 – Architecture Databricks et prise en main (4h00)

Concept de Lakehouse et positionnement Databricks
Architecture : workspace, clusters, notebooks
Introduction à Unity Catalog
Organisation des projets et bonnes pratiques
Activité pratique : Prise en main de Databricks:

Création d’un cluster, exploration des notebooks et structuration d’un projet et

organisation des ressources (datasets, notebooks, dossiers)

JOUR 1 - Module 2 – Delta Lake et gestion des données (3h00)

ACID transactions et fiabilité des données
Time Travel et versioning
Schema enforcement et schema evolution
Optimisation des performances (compaction, Z-order)
Activité pratique : Manipulation Delta Lake :

Création et modification d’une table Delta avec gestion du schéma et

exploitation du time travel et optimisation des performances

JOUR 2- Module 3 – Traitement de données avec Spark (4h00)

Introduction à Spark sur Databricks
Spark SQL pour l’analyse
DataFrame API : transformations, jointures, agrégations
Bonnes pratiques de performance
Activité pratique : Transformation de données :

Développement d’un pipeline avec Spark SQL et DataFrames

et optimisation des traitements et gestion des ressources

JOUR 2- Module 4 – Orchestration avec Databricks Workflows (3h00)

Présentation des Workflows
Création et planification de jobs
Gestion des dépendances et monitoring
Introduction à Airflow
Activité pratique : Automatisation d’un pipeline

Création d’un workflow multi-tâches

et planification et suivi d’exécution

JOUR 3- Module 5 – Data Governance avec Unity Catalog (4h00)

Gestion des accès et des permissions
Organisation des catalogues, schémas et tables
Traçabilité et audit des données
Bonnes pratiques de gouvernance
Activité pratique : Mise en œuvre de la gouvernance :

Configuration des droits d’accès sur des datasets

et simulation de gestion des utilisateurs et audit

JOUR 3 - Module 6 – Intégration et pipeline complet Lakehouse (3h00)

Intégration avec dbt, Airflow et Power BI
Architecture data moderne et bonnes pratiques
Industrialisation des pipelines
Activité pratique : Pipeline complet de bout en bout :

Construction d’un pipeline ingestion → transformation → serving et exposition des données pour consommation analytique (BI)

Informations

Durée

3 jour(s)

21h

Tarif

Sur demande

Formations similaires

IA & Data

Migration vers le Cloud

2 jour(s)

Sur demande

IA & Data

Agents IA — Concevoir des systèmes autonomes avec LangChain et LangGraph - Avancé

3 jour(s)

Sur demande

IA & Data

AI Act européen — Comprendre vos obligations et vous mettre en conformité - Niveau débutant

1 jour(s)

Sur demande

IA & Data

Analyse des données avec Microsoft Power BI (4-167)

3 jour(s)

2200 € HT