3 jours (21 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

  • 3 Jours II Code CNCP : 2234 II Certif Info : 93835
  • Maîtriser l’installation de Spark
  • Connaître l’architecture d’Apache Spark
  • Comprendre les concepts d’Apache Spark
  • Maîtriser le processus de chargement de données dans Spark
  • Utiliser DataFrames pour organiser la structure de ses données
  • Maîtriser la préparation des données
  • Connaître les types d’algorithmes d’apprentissage automatique les plus couramment utilisés: clustering, classification, régression et recommandations

Prérequis

  • Connaissance des langages Python est un plus et également des connaissances en SQL
  • Posséder des connaissances de base des commandes Unix/Linux

Vous n’avez pas les prérequis nécessaires pour la formation Spark pour Machine Learning ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION SPARK POUR MACHINE LEARNING

Jour 1

Introduction à Spark Mlib

  • Introduction à Spark
  • Architecture d’Apache Spark
  • Concept du RDD
  • SparkSession
  • DataFrame
  • Dataset
  • Étapes du processus d’apprentissage automatique
  • Installation de Spark
  • Organisation des données dans DataFrames
  • Composants de Spark Mllib

Préparation et transformation des données

  • Introduction au prétraitement
  • Normalisation les données numériques
  • Standardisation des données numériques
  • Organisation des donnée numériques dans des buckets
  • Tokenization des données textuelles
  • TF-IDF (Term frequency – Inverse Document Frequency)
  • Résumé du prétraitement
Jour 2

Clustering

  • Introduction au clustering
  • K-means clustering
  • Classification hiérarchique
  • Résumé des techniques de clustering

Classification

Introduction à la classification

  • Prétraitement de l’ensemble de données Iris
  • Classement Naïve Bayes
  • Classification du perceptron multicouche
  • Classification des arbres de décision
  • Résumé des algorithmes de classification
Jour 3

Régression

  • Introduction à la régression
  • Prétraitement des données de régression
  • Régression linéaire
  • Régression d’arbre de décision
  • Régression arborescente augmentée par gradient
  • Résumé des algorithmes de régression

Recommandations

  • Comprendre les systèmes de recommandation
  • Filtrage collaboratif

Atelier pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS