4 jours (28 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

  • Connaître toutes les notions liées à Apache Hadoop et de ses principaux composants
  • Comprendre l’architecture Hadoop (HDFS et MapReduce)
  • Avoir une vue d’ensemble des possibilités de développement offerts par les composants Hadoop.
  • Maîtriser l’installation de Hadoo,
  • Comprendre le rôle de chacun des composants et leurs interactions
  • Connaître HDFS, YARN, MapReduce, Oozie, Flume, Zookeeper, Pig, Hive, HBase
  • Comprendre les principes de l’informatique parallèle
  • Avoir une vue d’ensemble de la mise en œuvre d’une infrastructure Hadoop et de son administration et exploitation
  • Utiliser des outils Big Data supplémentaires (Pig, Hive, HBase, etc.)

Prérequis

Les prérequis nécessaires pour la formation APACHE HADOOP sont :

  • Posséder des connaissances de base en commandes Unix/Linux.
  • Connaissance de Java ou avoir suivi la formation (formation Cegefos :  » Java : les fondamentaux » )
  • Avoir de bonne connaissance sur Hbase

Vous n’avez pas les prérequis nécessaires pour la formation Apache Hadoop ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION APACHE HADOOP

Jour 1

SECTION 1 : INTRODUCTION À L’ÉCOSYSTÈME HADOOP

  • Aborder cette formation
  • Découvrir NoSQL
  • Définir le Big Data
  • Comprendre l’histoire d’Hadoop
  • Parcourir l’écosystème Hadoop
  • Différencier les distributions Hadoop
  • Comprendre le NoSQL
  • Définition du Big Data
  • Architecture de Hadoop
  • L’Écosystème de Hadoop
  • Rôle des différents composants de l’écosystème Hadoop
  • Rôle des collecteurs de données
  • Distributions d’Hadoop

SECTION 2 : INSTALLATION DE L’ENVIRONNEMENT HADOOP

  • Installation de l’environnement Hadoop VM Ubuntu
  • Installation de l’environnement Hadoop sur Windows
  • Différencier les distributions Hadoop
  • Découvrir Cloudera Hadoop
  • Démarrer une QuickStart VM
  • Travaux pratique: Installation Hadoop

SECTION 3 : HDFS – LA COUCHE DE STOCKAGE

  • Comprendre le HDFS
  • Découvrir HadoopFS
  • Assimiler les principes du HDFS
  • Appréhender les services HDFS
  • Comprendre les opérations HDFS
  • Configuration de HDFS
  • Demarrage de HDFS
  • Administrer le cluster HDFS
  • Découvrir la gestion des services HDFS
  • 0Manipuler les fichiers en ligne de commande
  • Exécuter des opérations en Java
  • Utiliser les InputStream Java
  • Accéder à HDFS avec WebHDFS
  • Caractéristiques de HDFS
  • Architecture de HDFS
  • Rôle de HDFS
  • Opérations HDFS
  • Listing des fichiers dans HDFS
  • Insertion des données dans HDFS
  • Extraction des données du HDFS
  • Arrêt du HDFS
Jour 2

SECTION 4 : FONCTIONNEMENT DE MAPREDUCE

  • Appréhender les principes de base
  • Découvrir la fonction map()
  • Utiliser la fonction reduce()
  • Concevoir un MapReduce
  • Développer le mapper
  • Développer le reducer
  • Créer un jeu de données
  • Créer le driver
  • Lancer un MapReduce en Java
  • Suivre l’évolution du MapReduce
  • Développer un MapReduce en PHP
  • Lancer des MapReduce avec Hadoop Streaming
  • Principes de base de MapReduce
  • Architecture MapReduce
  • Fonction map()
  • Fonction reduce()
  • Conception d’un MapReduce
  • Développer le mapper
  • Développer le reducer
  • Création d’un jeu de données
  • Création d’un driver
  • Lancer un MapReduce en Java
  • Suivi de l’évolution du MapReduce
  • Développement d’un MapReduce en PHP
  • Lancement des MapReduce avec Hadoop Streaming
  • TP : Fonctionnement de MapReduce

SECTION 5 : BASE DE DONNÉES NOSQL HBASE

  • Identifier les cas d’utilisation de HBase
  • Comprendre le modèle Hbase
  • Administrer HBase
  • Appréhender les opérations HBase
  • Gérer les services avec des interfaces web
  • Lancer des commandes HBase dans le terminal
  • Filtrer les résultats d’un scan
  • Utiliser HBase en Java
  • Utiliser HBase dans les MapReduce
  • Définition de Hbase
  • Hbase avec Hadoop
  • Cas d’utilisation de HBase
  • Comprendre le modèle Hbase
  • Installation de Hbase
  • Architecture
  • Composants Hbase (Region, Region Server, Region Split)
  • Lecture et écriture dans Hbase
  • API Shell
  • API Java
  • TP : Base de données NoSQL HBase
Jour 3

SECTION 6 : APACHE OOZIE -ORDONNANCEUR DE WORKFLOW

  • Définition de Oozie
  • Caractéristiques Oozie
  • Fonctionnement de Oozie
  • Actions Oozie
  • Oozie Job
  • Oozie workflow
  • Coordinateur Oozie
  • Paramètre Oozie
  • Monitoring Oozie
  • Packaging et déploiement d’une application de workflow Oozie

SECTION 7 : COLLECTE DE DONNÉES AVEC APACHE SQOOP

  • Introduire scoop anglais
  • Importer les données avec scoop
  • Définition de Sqoop
  • Cible des imports dans le cluster
  • Architecture de Sqoop
  • Fonctionnement de Sqoop
  • Exemple d’import vers HDFS
  • Exemples d’import vers Hive
  • Exemple d‘exports

 

SECTION 8 : TRAVAUX PRATIQUES: DÉVELOPPEMENT D’UNE APPLICATION BIG DATA AVEC HADOOP

Développement d’une application Big Data avec Hadoop

  • Mission 1: Conception de l’application
  • Découper l’application
  • Exploiter les données
  • Concevoir la base de données HBase
  • Parser le fichier d’entrée dans un mapper
  • Écrire dans HBase avec un reducer
  • Mettre en place des clés composites
  • Utiliser les clés composites
  • Lancer un modèle MapReduce d’import
Jour 4

MISSION 2 : DÉVELOPPEMENT DES MODÈLES MAPREDUCE

  • Lire les données de HBase dans un mapper
  • Agréger les données dans un reducer
  • Suivre les modèles MapReduce
  • Déboguer les modèles MapReduce
  • Explorer les sources d’Hadoop
  • Réaliser des jointures de données
  • Résoudre le problème du secondary sort
  • Optimiser ses modèles MapReduce

MISSION 3 : DÉVELOPPEMENT DES MODÈLES MAPREDUCE

  • Mettre en place un workflow Oozie
  • Lancer un workflow Oozie
  • Filtrer les données de HBase
  • Exporter dans MySQL grâce à Sqoop
  • Lancer son workflow avec l’API HTTP REST
  • Coupler l’application avec une interface web

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS