3 jours (21 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

  • Comprendre le besoin de Spark dans le traitement des données.
  • Comprendre l’architecture Spark et comment elle distribue des calculs aux nœuds du cluster.
  • Se familiariser avec l’installation / configuration / mise en page de Spark.
  • Utiliser Spark pour des opérations interactives et ponctuelles.
  • Utiliser Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées.
  • Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  • Comprendre la mise en cache des données de Spark et son utilisation
  • Comprendre les implications et les optimisations de performance lors de l’utilisation de Spark
  • Connaître Spark Graph Processing et l’apprentissage par machine Spark ML

Prérequis

Connaissance des langages Scala et Python est un plus et également des connaissances en SQL.

Vous n’avez pas les prérequis nécessaires pour la formation Apache Spark ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION APACHE SPARK

Jour 1
  • Introduction à Apache Spark
  • Apache Spark
  • MapReduce VS Spark
  • Caractéristiques d’Apache Spark
  • Architecture d’Apache Spark
  • Anatomie d’une application Spark
  • Interaction avec Spark
  • Spark sur Hadoop
  • Composants de Spark

Atelier pratique

Installation de Spark

  • Préparation d’une VM Linux
  • Télécharger Apache Spark
  • Installation d’Apache Spark : redhat /CentOS
  • Installation d’Apache Spark : Windows
  • Installation d’Apache Spark : Mac OS
  • Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Jour 2

Resilient Distributed Datasets ( RDDs )

  • Introduction aux RDDs (Resilient Distributed Datasets)
  • Exemple d’un RDD
  • Caractéristiques des RDDs
  • Liaison avec Spark (Scala/Java/Python)
  • Création d’un RDD
  • Opérations RDD
  • Actions RDD
  • Transformation RDD

Atelier pratique

Spark streaming

  • Définition
  • Exemple Scala, Java et Python
  • Concepts de base
  • Initialisation de StreamingContext
  • Flux discrétisés (DStreams)

Atelier pratique

Jour 3

Spark SQL

  • Caractéristiques de Spark SQL
  • Architecture Spark SQL
  • Appréhender les abstractions de données de Spark
  • Exploiter la Spark Session
  • Créer un Data Frame
  • Manipuler le DataFrame
  • Comprendre les formats de stockage
  • Construire un jeu de données
  • Importer un fichier Avro
  • Joindre des DataFrames
  • Sauvegarder au format Parquet
  • Employer la syntaxe select
  • Utiliser un Dataset
  • Exécuter un programme avec spark-submit
  • Choisir une distribution Spark
  • Conclure sur Apache Spark

Atelier pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS