3 jours (21 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

  • Déterminer les caractéristiques opérationnelles du système de collecte
  • Sélectionner un système de collecte qui gère la fréquence, le volume et la source des données
  • Sélectionner un système de collecte qui traite des propriétés clés des données, telles que l’ordre, le format et compression
  • Déterminer les caractéristiques opérationnelles d’une solution de stockage pour l’analyse
  • Déterminer les modèles d’accès et de récupération des données
  • Sélectionnez une disposition, un schéma, une structure et un format de données appropriés
  • Définir un cycle de vie des données en fonction des modèles d’utilisation et des exigences métier
  • Déterminer un système approprié pour cataloguer les données et gérer les métadonnées
  • Déterminer les exigences de solution de traitement de données appropriées
  • Concevoir une solution pour transformer et préparer les données à analyser
  • Automatiser et opérationnaliser une solution de traitement de données
  • Déterminer les caractéristiques opérationnelles d’une solution d’analyse et de visualisation
  • Sélectionner la solution d’analyse de données appropriée pour un scénario donné
  • Sélectionner la solution de visualisation de données appropriée pour un scénario donné
  • Identifier l’architecture Big Data dans AWS
  • Comprendre la démarche de mise en place et de pilotage d’un projet Big Data dans AWS

Prérequis

  • Avoir des connaissances de base sur les technologies Big Data, y compris Apache Hadoop et HDFS ; Il peut également être utile d’avoir des connaissances préalables concernant Pig, Hive et MapReduce, mais ce n’est pas une obligation.
  • Savoir utiliser les principaux services AWS et l’implémentation de cloud public.
  • Les participants doivent avoir suivi le cours “Intégration d’une solution AWS dans un écosystème de Big Data” ou posséder un niveau d’expérience équivalent.
  • De comprendre les concepts d’entrepôt de données, de système de base de données relationnelle et de conception de base de données.
  • Avoir des connaissances de base en programmation python.

Vous n’avez pas les prérequis nécessaires pour la formation Mise en place d’une solution AWS dans un écosystème de Big Data ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION DÉPLOIEMENT D’UNE SOLUTION BIG DATA DANS AWS

Jour 1

Big Data avec AWS

  • Besoin croissant des pipelines de données
  • Les données dans le pipeline
  • Aws Data Pipeline
  • Étapes de déploiement d’une solution Big data AWS
  • Atelier pratique

Collecte des données avec AWS 

Introduction à la collecte des données

  • Outils de collect dans AWS
  • Amazon SQS
  • AWS IOT
  • AWS Data Pipeline
  •  Kinesis
  • Comparaison entre les Outils
  • Présentation d’Amazon Kinesis

Amazon Kinesis Data Stream

  • Avantages d’Amazon Kinesis Stream
  • Chargement de données dans Kinesis Stream
  • Architecture de haut niveau de Kinesis Data Stream
  • Concepts de base de Kinesis Stream
  • Producteurs de données (Data producers)
  • Consommateurs de données (Data consumers)
  • Bibliothèques de connecteurs kinesis (Kinesis Connector Library KCL)

Amazon kinesis Firehose

  • Concepts clés
  • Le transfert de données à l’aide de Lambda
  • Présentation des transformations de données Firehose

Démo 1: Exécution d’opérations de flux de données Kinesis

Démo 2: Traitement en temps réel des données avec KCL

Démo 3: Flux de livraison de Kinesis Data Firehose

Atelier pratique

Stockage des données avec AWS

  • Introduction

Amazon Glacier

  • Présentation de Amazon Glacier
  • Glacier et Big Data

DynamoDB

  • Présentation de DynamoDB
  • L’architecture de la table DynamoDB
  • DynamoDB dans AWS Eco-System
  • Partitions DynamoDB
  • Distribution des données
  • Concepts clés
  • DynamoDB GSI / LSI
  • Indice secondaire local (LSI)
  • Indice secondaire mondial (GSI)
  • Flux et réplication DynamoDB
  • DynamoDB Stream
  • Réplication entre régions
  • Sélection de la clé de partition

Démo : Créer et interroger une table NoSQL avec Amazon DynamoDB

Atelier pratique

Jour 2

Traitement des données avec Aws 

Introduction

Amazon Elastic MapReduce (EMR)

  • Présentation d’Amazon Elastic MapReduce (EMR)
  • Cas d’utilisation
  • Apache Hadoop
  • Modules d’architecture
  • Architecture Hadoop
  • Architecture EMR
  • Noeud maître
  • Nœud central
  • Noeud de tâche

HDFS (système de fichiers distribué Hadoop)

  • Options de stockage
  • Concepts
  • Opérations EMR

Lancement d’un cluster EMR

  • Option de réglage rapide et avancée
  • Cluster de longue durée
  • Cluster transitoire
  • Choix du type d’instance
  • Nombre d’instances
  • Surveillance EMR

Utilisation de Hue avec EMR

  • Hue sur EMR
  • Cas d’utilisation
  • Architecture
  • HBase avec EMR
  • Cas d’utilisation
  • Où utiliser HBase
  • Où ne pas utiliser HBase
  • HBase vs DynamoDB
  • HBase vs Redshift
  • Architecture HBase

Spark avec EMR

  • Cas d’utilisation
  • Composants Spark
  • Intégration Spark avec EMR
  • Spark streaming et stream

Atelier pratique

Jour 3

Analyse des données avec Aws 

  • Introduction
  • Présentation RedShift
  • Cas d’utilisation de RedShift
  • Architecture RedShift
  • RedShift dans l’écosystème AWS
  • Bases de données en colonnes
  • avantages des bases de données en colonnes
  • Où ne pas utiliser les bases de données en colonnes
  • Conception de table et architecture RedShift
  • Conception de table RedShift – Introduction
  • Conception de table RedShift – Styles de distribution
  • Conception de table RedShift – Clés de tri
  • Conception de table RedShift – Types de données
  • Conception de table RedShift – Compression
  • Conception de table RedShift – Contraintes
  • Gestion  de la charge de travail RedShift

Atelier pratique

Visualisation des données avec AWS

  • Introduction
  • Définition de la data visualisation
  • Introduction à Amazon QuickSight
  • Visualisation avec QuickSight
  • Types de visuels
  • Autres outils de visualisation

Atelier pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS