4 jours (28 heures)
Formation certifiante - Code CNCP : 2234 - Certif Info : 93835
- Présentiel
- Blended - Learning
- FOAD / E-learning tutoré
Objectifs
- Connaître toutes les notions liées à Apache Hadoop et de ses principaux composants
- Comprendre l’architecture Hadoop (HDFS et MapReduce)
- Avoir une vue d’ensemble des possibilités de développement offerts par les composants Hadoop.
- Maîtriser l’installation de Hadoo,
- Comprendre le rôle de chacun des composants et leurs interactions
- Connaître HDFS, YARN, MapReduce, Oozie, Flume, Zookeeper, Pig, Hive, HBase
- Comprendre les principes de l’informatique parallèle
- Avoir une vue d’ensemble de la mise en œuvre d’une infrastructure Hadoop et de son administration et exploitation
- Utiliser des outils Big Data supplémentaires (Pig, Hive, HBase, etc.)
Prérequis
Les prérequis nécessaires pour la formation APACHE HADOOP sont :
- Posséder des connaissances de base en commandes Unix/Linux.
- Connaissance de Java ou avoir suivi la formation (formation Cegefos : » Java : les fondamentaux » )
- Avoir de bonne connaissance sur Hbase
Vous n’avez pas les prérequis nécessaires pour la formation Apache Hadoop ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.
Intervenants
Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).
PROGRAMME DE FORMATION APACHE HADOOP
SECTION 1 : INTRODUCTION À L’ÉCOSYSTÈME HADOOP
- Aborder cette formation
- Découvrir NoSQL
- Définir le Big Data
- Comprendre l’histoire d’Hadoop
- Parcourir l’écosystème Hadoop
- Différencier les distributions Hadoop
- Comprendre le NoSQL
- Définition du Big Data
- Architecture de Hadoop
- L’Écosystème de Hadoop
- Rôle des différents composants de l’écosystème Hadoop
- Rôle des collecteurs de données
- Distributions d’Hadoop
SECTION 2 : INSTALLATION DE L’ENVIRONNEMENT HADOOP
- Installation de l’environnement Hadoop VM Ubuntu
- Installation de l’environnement Hadoop sur Windows
- Différencier les distributions Hadoop
- Découvrir Cloudera Hadoop
- Démarrer une QuickStart VM
- Travaux pratique: Installation Hadoop
SECTION 3 : HDFS – LA COUCHE DE STOCKAGE
- Comprendre le HDFS
- Découvrir HadoopFS
- Assimiler les principes du HDFS
- Appréhender les services HDFS
- Comprendre les opérations HDFS
- Configuration de HDFS
- Demarrage de HDFS
- Administrer le cluster HDFS
- Découvrir la gestion des services HDFS
- 0Manipuler les fichiers en ligne de commande
- Exécuter des opérations en Java
- Utiliser les InputStream Java
- Accéder à HDFS avec WebHDFS
- Caractéristiques de HDFS
- Architecture de HDFS
- Rôle de HDFS
- Opérations HDFS
- Listing des fichiers dans HDFS
- Insertion des données dans HDFS
- Extraction des données du HDFS
- Arrêt du HDFS
SECTION 4 : FONCTIONNEMENT DE MAPREDUCE
- Appréhender les principes de base
- Découvrir la fonction map()
- Utiliser la fonction reduce()
- Concevoir un MapReduce
- Développer le mapper
- Développer le reducer
- Créer un jeu de données
- Créer le driver
- Lancer un MapReduce en Java
- Suivre l’évolution du MapReduce
- Développer un MapReduce en PHP
- Lancer des MapReduce avec Hadoop Streaming
- Principes de base de MapReduce
- Architecture MapReduce
- Fonction map()
- Fonction reduce()
- Conception d’un MapReduce
- Développer le mapper
- Développer le reducer
- Création d’un jeu de données
- Création d’un driver
- Lancer un MapReduce en Java
- Suivi de l’évolution du MapReduce
- Développement d’un MapReduce en PHP
- Lancement des MapReduce avec Hadoop Streaming
- TP : Fonctionnement de MapReduce
SECTION 5 : BASE DE DONNÉES NOSQL HBASE
- Identifier les cas d’utilisation de HBase
- Comprendre le modèle Hbase
- Administrer HBase
- Appréhender les opérations HBase
- Gérer les services avec des interfaces web
- Lancer des commandes HBase dans le terminal
- Filtrer les résultats d’un scan
- Utiliser HBase en Java
- Utiliser HBase dans les MapReduce
- Définition de Hbase
- Hbase avec Hadoop
- Cas d’utilisation de HBase
- Comprendre le modèle Hbase
- Installation de Hbase
- Architecture
- Composants Hbase (Region, Region Server, Region Split)
- Lecture et écriture dans Hbase
- API Shell
- API Java
- TP : Base de données NoSQL HBase
SECTION 6 : APACHE OOZIE -ORDONNANCEUR DE WORKFLOW
- Définition de Oozie
- Caractéristiques Oozie
- Fonctionnement de Oozie
- Actions Oozie
- Oozie Job
- Oozie workflow
- Coordinateur Oozie
- Paramètre Oozie
- Monitoring Oozie
- Packaging et déploiement d’une application de workflow Oozie
SECTION 7 : COLLECTE DE DONNÉES AVEC APACHE SQOOP
- Introduire scoop anglais
- Importer les données avec scoop
- Définition de Sqoop
- Cible des imports dans le cluster
- Architecture de Sqoop
- Fonctionnement de Sqoop
- Exemple d’import vers HDFS
- Exemples d’import vers Hive
- Exemple d‘exports
SECTION 8 : TRAVAUX PRATIQUES: DÉVELOPPEMENT D’UNE APPLICATION BIG DATA AVEC HADOOP
Développement d’une application Big Data avec Hadoop
- Mission 1: Conception de l’application
- Découper l’application
- Exploiter les données
- Concevoir la base de données HBase
- Parser le fichier d’entrée dans un mapper
- Écrire dans HBase avec un reducer
- Mettre en place des clés composites
- Utiliser les clés composites
- Lancer un modèle MapReduce d’import
MISSION 2 : DÉVELOPPEMENT DES MODÈLES MAPREDUCE
- Lire les données de HBase dans un mapper
- Agréger les données dans un reducer
- Suivre les modèles MapReduce
- Déboguer les modèles MapReduce
- Explorer les sources d’Hadoop
- Réaliser des jointures de données
- Résoudre le problème du secondary sort
- Optimiser ses modèles MapReduce
MISSION 3 : DÉVELOPPEMENT DES MODÈLES MAPREDUCE
- Mettre en place un workflow Oozie
- Lancer un workflow Oozie
- Filtrer les données de HBase
- Exporter dans MySQL grâce à Sqoop
- Lancer son workflow avec l’API HTTP REST
- Coupler l’application avec une interface web
Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.
POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS