2 jours (14 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

  • Concevoir un data lake
  • Connaître de plus prêt l’Architecture et les concepts du Data Lake
  • Utiliser l’architecture Lambda avec un Data Lake
  • Procéder à l’acquisition de données de données par lots avec Apache Sqoop
  • Procéder à l’acquisition de données de flux de données à l’aide d’Apache Flume
  • Utiliser Apache Kafka dans la couche de messagerie
  • Traiter des données à l’aide d’Apache Flink
  • Stocker les donnée avec Apache Hadoop (HDFS)
  • Indexer les données à l’aide d’Elasticsearch

Prérequis

  • Connaissances en Big Data , de solides connaissances de l’écosystème
  • Hadoop ainsi que des connaissances élémentaires en réseaux

Vous n’avez pas les prérequis nécessaires pour la formation Mise en place d’un Data Lake ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION MISE EN PLACE D’UN DATA LAKE

Jour 1

Introduction aux données d’entreprise

  • Données d’entreprise
  • Importance de la qualité de la donnée
  • Données du Big data
  • Architectures Big Data
  • Atelier pratique

Introduction aux Data lake

  • Présentation du Data lake
  • Pertinence du Data lake dans une entreprise
  • Avantage du Data lake
  • Fonctionnement d’un Data Lake
  • Différence entre le Data Lake et de Data Warehouse
  • Défis du du Data lake
  • Approches pour créer un Data Lake
  • Conclusion
  • Atelier pratique

Architecture du Data Lake

  • Architecture du Data lake
  • Concepts clés du Data Lake
  • Étapes de maturité du Data Lake
  • Meilleures pratiques de l’architecture Data Lake
  • Atelier pratique

L’architecture Lambda basée sur Data Lake

  • Introduction
  • Couche d’ingestion de données
  • Speed layer – traitement des données en temps quasi réel
  • Couche de stockage de données – stocker toutes les données
  • Serving layer – livraison et exportation de données
  • Acquisition layer – Couche d’acquisition de données
  • Messaging Layer – Couche de livraison de données
  • Ingestion layer – Couche d’ingestion de données
  • Exploration de la couche Lambda
  • Magasins de données relationnelles
  • Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data lake

  • Introduction
  • Distributions Hadoop
  • Facteurs de sélection d’un stack Big Data pour les entreprises
  • Écosystème Hadoop pour un Data lake
Jour 2

Acquisition de données de données par lots avec Apache Sqoop

  • Introduction
  • Contexte dans Data Lake – Acquisition de données
  • Fonctionnement de Sqoop
  • Importation de données à l’aide de Sqoop
  • Exportation de données à l’aide de Sqoop
  • Connecteurs Sqoop
  • Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

  • Introduction
  • Contexte dans Data Lake: acquisition de données
  • Initiation à la Stream Data (Flux de données)
  • Données Batch Vs données stream
  • Acquisition de données de flux – cartographie technologique
  • Fonctionnement de Flume
  • Sqoop Vs Flume
  • Atelier pratique

Couche de messagerie utilisant Apache Kafka

  • Introduction
  • Contexte dans Data Lake – couche de messagerie
  • Couche de messagerie
  • Couche de messagerie – cartographie technologique
  • Cycle de vie du flux de données
  • Atelier pratique

Traitement des données à l’aide d’Apache Flink

  • Introduction
  • Contexte dans un lac de données – couche d’ingestion de données
  • Couche d’ingestion de données
  • Data Ingestion Layer – cartographie technologique
  • Fonctionnement de Flink
  • Architecture Flink
  • Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

  • Introduction
  • Contexte pour Data Lake – Stockage de données et lambda Batch Layer
  • Stockage de données et Lambda Batch Layer
  • Stockage de données et couche Lambda Batch – cartographie technologique
  • Fonctionnement de Hadoop
  • Architecture Hadoop
  • Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

  • Introduction
  • Contexte dans Data Lake: stockage de données et lambda Speed layer
  • Data Storage et Lambda Speed Layer
  • Data Storage et Lambda Speed Layer: cartographie technologique
  • Définition d’Elasticsearch
  • Fonctionnement d’Elasticsearch
  • Principes de l’architecture de base d’Elasticsearch
  • Atelier pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS