Formation en IA & Data: DATABRICKS – Data Engineering et Analytics sur le Lakehouse - Ascent Formation
Retour aux formations
IA & Data

DATABRICKS – Data Engineering et Analytics sur le Lakehouse

3 jour(s)21h

Description

Permettre aux participants de maîtriser la plateforme Databricks afin de concevoir, développer et exploiter des pipelines de données dans une architecture Lakehouse.

Objectifs pédagogiques

  • Comprendre l’architecture Databricks et ses composants clés
  • Manipuler Delta Lake pour garantir la fiabilité des données
  • Développer des transformations avec Spark SQL et DataFrame API
  • Orchestrer des pipelines avec Databricks Workflows
  • Mettre en œuvre une gouvernance des données avec Unity Catalog
  • Intégrer Databricks avec des outils data (dbt, Airflow, Power BI)
  • Construire un pipeline data complet de bout en bout

Public concerné

Data engineers
Data analysts
Data scientists
Consultants data

Prérequis

Connaissances de base en SQL
Notions en traitement de données (ETL / pipelines)
Bases en Python ou Scala appréciées
Compréhension générale des architectures data

Déroulé du programme

1

JOUR 1- Module 1 – Architecture Databricks et prise en main (4h00)

4h
  • Concept de Lakehouse et positionnement Databricks
  • Architecture : workspace, clusters, notebooks
  • Introduction à Unity Catalog
  • Organisation des projets et bonnes pratiques
  • Activité pratique : Prise en main de Databricks:
2

Création d’un cluster, exploration des notebooks et structuration d’un projet et

3

organisation des ressources (datasets, notebooks, dossiers)

4

JOUR 1 - Module 2 – Delta Lake et gestion des données (3h00)

3h
  • ACID transactions et fiabilité des données
  • Time Travel et versioning
  • Schema enforcement et schema evolution
  • Optimisation des performances (compaction, Z-order)
  • Activité pratique : Manipulation Delta Lake :
5

Création et modification d’une table Delta avec gestion du schéma et

6

exploitation du time travel et optimisation des performances

7

JOUR 2- Module 3 – Traitement de données avec Spark (4h00)

4h
  • Introduction à Spark sur Databricks
  • Spark SQL pour l’analyse
  • DataFrame API : transformations, jointures, agrégations
  • Bonnes pratiques de performance
  • Activité pratique : Transformation de données :
8

Développement d’un pipeline avec Spark SQL et DataFrames

9

et optimisation des traitements et gestion des ressources

10

JOUR 2- Module 4 – Orchestration avec Databricks Workflows (3h00)

3h
  • Présentation des Workflows
  • Création et planification de jobs
  • Gestion des dépendances et monitoring
  • Introduction à Airflow
  • Activité pratique : Automatisation d’un pipeline
11

Création d’un workflow multi-tâches

12

et planification et suivi d’exécution

13

JOUR 3- Module 5 – Data Governance avec Unity Catalog (4h00)

4h
  • Gestion des accès et des permissions
  • Organisation des catalogues, schémas et tables
  • Traçabilité et audit des données
  • Bonnes pratiques de gouvernance
  • Activité pratique : Mise en œuvre de la gouvernance :
14

Configuration des droits d’accès sur des datasets

15

et simulation de gestion des utilisateurs et audit

16

JOUR 3 - Module 6 – Intégration et pipeline complet Lakehouse (3h00)

3h
  • Intégration avec dbt, Airflow et Power BI
  • Architecture data moderne et bonnes pratiques
  • Industrialisation des pipelines
  • Activité pratique : Pipeline complet de bout en bout :
17

Construction d’un pipeline ingestion → transformation → serving et exposition des données pour consommation analytique (BI)

Informations

Durée

3 jour(s)

21h

Tarif

Sur demande