Aperçu du cours
Doel van de opleiding : Deze training is bedoeld voor data engineers, data-analisten, softwareontwikkelaars en IT-architecten die willen leren hoe real-time data verwerkt en geanalyseerd kan worden met moderne streamingtechnologieën. De focus ligt op het ontwerpen, implementeren en optimaliseren van real-time data pipelines met Apache Kafka, Apache Flink, Spark Streaming en cloudgebaseerde streamingoplossingen.
Prérequis
- Basiskennis van SQL en databases.
- Ervaring met data-analyse of softwareontwikkeling is nuttig, maar niet verplicht.
- Kennis van Python, Java of Scala is een pluspunt voor hands-on implementaties.
Objectifs pédagogiques
- Real-time datastromen verwerken met streaming frameworks zoals Kafka, Flink en Spark Streaming.
- Gegevensstromen modelleren, filteren en transformeren voor business analytics en machine learning.
- Real-time analytics integreren in applicaties voor directe besluitvorming.
- Streamingtechnieken gebruiken om grote hoeveelheden data efficiënt te verwerken.
- Cloudgebaseerde oplossingen zoals AWS Kinesis en Google Dataflow implementeren voor schaalbare real-time verwerking.
Public ciblé
- Data engineers en softwareontwikkelaars die werken met grote hoeveelheden streaming data.
- Business intelligence-specialisten en data-analisten die real-time inzichten willen genereren.
- IT-architecten en DevOps-specialisten die real-time data pipelines willen implementeren.
Programme de formation
-
Dag 1: Basisprincipes van Real-time Data Processing (7 uur)
-
Wat is real-time data processing? (2 uur) Verschil tussen batch processing en stream processing. Use cases: fraudedetectie, IoT-sensoranalyse, financiële transacties, social media monitoring. Praktijk: Analyseren van real-time datastromen in een businesscontext.
-
Streaming Architecturen en Fundamentele Technologieën (3 uur) Overzicht van streamingtechnologieën: Kafka, Flink, Spark Streaming, AWS Kinesis, Google Dataflow. Hoe event-driven architecturen en microservices streamingdata gebruiken. Praktijk: Opzetten van een eenvoudige real-time streaming pipeline met Apache Kafka.
-
Data-injestie en preprocessing van real-time data (2 uur) Filtering, aggregatie en transformatie van inkomende data. Dataformaten en protocollen: JSON, Avro, Protobuf, Parquet. Praktijk: Eerste datatransformaties uitvoeren op een inkomende datastroom.
-
-
Dag 2: Streaming Analytics en Machine Learning op Real-time Data (7 uur)
-
Apache Kafka en Streaming Pipelines (3 uur) Kafka producers, consumers en topics. Implementeren van Kafka Streams en KSQL voor real-time queries. Praktijk: Bouwen van een real-time data pipeline met Kafka en KSQL.
-
Machine Learning en Anomaly Detection in Streaming Data (2 uur) Real-time anomaly detection met online machine learning-modellen. Toepassen van Flink en Spark Streaming voor machine learning. Praktijk: Train en deploy een real-time fraudedetectiemodel met Spark Streaming.
-
Real-time Dashboards en Business Intelligence (2 uur) Integratie van Power BI, Grafana, Tableau met streaming analytics. Real-time visualisaties en monitoring. Praktijk: Creëren van een live dashboard met real-time datastromen.
-
-
Dag 3: Cloud-gebaseerde Streaming en Geavanceerde Implementaties (7 uur)
-
Cloud Streaming Services: AWS Kinesis, Google Dataflow en Azure Stream Analytics (3 uur) Voor- en nadelen van cloud-gebaseerde streamingoplossingen. Implementatie en schaalbaarheid van streaming pipelines in de cloud. Praktijk: Opzetten van een real-time pipeline met AWS Kinesis of Google Dataflow.
-
Performance-optimalisatie en foutafhandeling in streaming systemen (2 uur) Hoe latency, throughput en backpressure beheren in streaming pipelines. Error handling en exactly-once processing met Apache Flink en Kafka Streams. Praktijk: Optimaliseren van een streaming job voor maximale prestaties.
-
Case Study en Afsluiting (2 uur) Werken met real-world datasets uit IoT, finance of cybersecurity. Praktijk: Deelnemers ontwerpen en presenteren een real-time data-analyse-oplossing.
-