2 jours (14 heures)
Formation certifiante - Code CNCP : 2234 - Certif Info : 93835
- Présentiel
- Blended - Learning
- FOAD / E-learning tutoré
Objectifs
- Concevoir un data lake
- Connaître de plus prêt l’Architecture et les concepts du Data Lake
- Utiliser l’architecture Lambda avec un Data Lake
- Procéder à l’acquisition de données de données par lots avec Apache Sqoop
- Procéder à l’acquisition de données de flux de données à l’aide d’Apache Flume
- Utiliser Apache Kafka dans la couche de messagerie
- Traiter des données à l’aide d’Apache Flink
- Stocker les donnée avec Apache Hadoop (HDFS)
- Indexer les données à l’aide d’Elasticsearch
Prérequis
- Connaissances en Big Data , de solides connaissances de l’écosystème
- Hadoop ainsi que des connaissances élémentaires en réseaux
Vous n’avez pas les prérequis nécessaires pour la formation Mise en place d’un Data Lake ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.
Intervenants
Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).
PROGRAMME DE FORMATION MISE EN PLACE D’UN DATA LAKE
Introduction aux données d’entreprise
- Données d’entreprise
- Importance de la qualité de la donnée
- Données du Big data
- Architectures Big Data
- Atelier pratique
Introduction aux Data lake
- Présentation du Data lake
- Pertinence du Data lake dans une entreprise
- Avantage du Data lake
- Fonctionnement d’un Data Lake
- Différence entre le Data Lake et de Data Warehouse
- Défis du du Data lake
- Approches pour créer un Data Lake
- Conclusion
- Atelier pratique
Architecture du Data Lake
- Architecture du Data lake
- Concepts clés du Data Lake
- Étapes de maturité du Data Lake
- Meilleures pratiques de l’architecture Data Lake
- Atelier pratique
L’architecture Lambda basée sur Data Lake
- Introduction
- Couche d’ingestion de données
- Speed layer – traitement des données en temps quasi réel
- Couche de stockage de données – stocker toutes les données
- Serving layer – livraison et exportation de données
- Acquisition layer – Couche d’acquisition de données
- Messaging Layer – Couche de livraison de données
- Ingestion layer – Couche d’ingestion de données
- Exploration de la couche Lambda
- Magasins de données relationnelles
- Atelier pratique
Écosystème Hadoop pour la mise en œuvre d’un Data lake
- Introduction
- Distributions Hadoop
- Facteurs de sélection d’un stack Big Data pour les entreprises
- Écosystème Hadoop pour un Data lake
Acquisition de données de données par lots avec Apache Sqoop
- Introduction
- Contexte dans Data Lake – Acquisition de données
- Fonctionnement de Sqoop
- Importation de données à l’aide de Sqoop
- Exportation de données à l’aide de Sqoop
- Connecteurs Sqoop
- Atelier pratique
Acquisition de données de flux de données à l’aide d’Apache Flume
- Introduction
- Contexte dans Data Lake: acquisition de données
- Initiation à la Stream Data (Flux de données)
- Données Batch Vs données stream
- Acquisition de données de flux – cartographie technologique
- Fonctionnement de Flume
- Sqoop Vs Flume
- Atelier pratique
Couche de messagerie utilisant Apache Kafka
- Introduction
- Contexte dans Data Lake – couche de messagerie
- Couche de messagerie
- Couche de messagerie – cartographie technologique
- Cycle de vie du flux de données
- Atelier pratique
Traitement des données à l’aide d’Apache Flink
- Introduction
- Contexte dans un lac de données – couche d’ingestion de données
- Couche d’ingestion de données
- Data Ingestion Layer – cartographie technologique
- Fonctionnement de Flink
- Architecture Flink
- Atelier pratique
Magasin de données à l’aide d’Apache Hadoop
- Introduction
- Contexte pour Data Lake – Stockage de données et lambda Batch Layer
- Stockage de données et Lambda Batch Layer
- Stockage de données et couche Lambda Batch – cartographie technologique
- Fonctionnement de Hadoop
- Architecture Hadoop
- Atelier pratique
Magasin de données indexé à l’aide d’Elasticsearch
- Introduction
- Contexte dans Data Lake: stockage de données et lambda Speed layer
- Data Storage et Lambda Speed Layer
- Data Storage et Lambda Speed Layer: cartographie technologique
- Définition d’Elasticsearch
- Fonctionnement d’Elasticsearch
- Principes de l’architecture de base d’Elasticsearch
- Atelier pratique
Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.
POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS