Apache Spark - KALEO Formation

3 jours (21 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

Comprendre le besoin de Spark dans le traitement des données.
Comprendre l’architecture Spark et comment elle distribue des calculs aux nœuds du cluster.
Se familiariser avec l’installation / configuration / mise en page de Spark.
Utiliser Spark pour des opérations interactives et ponctuelles.
Utiliser Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées.
Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
Comprendre la mise en cache des données de Spark et son utilisation
Comprendre les implications et les optimisations de performance lors de l’utilisation de Spark
Connaître Spark Graph Processing et l’apprentissage par machine Spark ML

Prérequis

Connaissance des langages Scala et Python est un plus et également des connaissances en SQL.

Vous n’avez pas les prérequis nécessaires pour la formation Apache Spark ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION APACHE SPARK

Jour 1

Introduction à Apache Spark
Apache Spark
MapReduce VS Spark
Caractéristiques d’Apache Spark
Architecture d’Apache Spark
Anatomie d’une application Spark
Interaction avec Spark
Spark sur Hadoop
Composants de Spark

Atelier pratique

Installation de Spark

Préparation d’une VM Linux
Télécharger Apache Spark
Installation d’Apache Spark : redhat /CentOS
Installation d’Apache Spark : Windows
Installation d’Apache Spark : Mac OS
Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Jour 2

Resilient Distributed Datasets ( RDDs )

Introduction aux RDDs (Resilient Distributed Datasets)
Exemple d’un RDD
Caractéristiques des RDDs
Liaison avec Spark (Scala/Java/Python)
Création d’un RDD
Opérations RDD
Actions RDD
Transformation RDD

Atelier pratique

Spark streaming

Définition
Exemple Scala, Java et Python
Concepts de base
Initialisation de StreamingContext
Flux discrétisés (DStreams)

Atelier pratique

Jour 3

Spark SQL

Caractéristiques de Spark SQL
Architecture Spark SQL
Appréhender les abstractions de données de Spark
Exploiter la Spark Session
Créer un Data Frame
Manipuler le DataFrame
Comprendre les formats de stockage
Construire un jeu de données
Importer un fichier Avro
Joindre des DataFrames
Sauvegarder au format Parquet
Employer la syntaxe select
Utiliser un Dataset
Exécuter un programme avec spark-submit
Choisir une distribution Spark
Conclure sur Apache Spark

Atelier pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS

CONTACTEZ-NOUS