3 jours (21 heures)
Formation certifiante - Code CNCP : 2234 - Certif Info : 93835
- Présentiel
- Blended - Learning
- FOAD / E-learning tutoré
Objectifs
- 3 Jours II Code CNCP : 2234 II Certif Info : 93835
- Maîtriser l’installation de Spark
- Connaître l’architecture d’Apache Spark
- Comprendre les concepts d’Apache Spark
- Maîtriser le processus de chargement de données dans Spark
- Utiliser DataFrames pour organiser la structure de ses données
- Maîtriser la préparation des données
- Connaître les types d’algorithmes d’apprentissage automatique les plus couramment utilisés: clustering, classification, régression et recommandations
Prérequis
- Connaissance des langages Python est un plus et également des connaissances en SQL
- Posséder des connaissances de base des commandes Unix/Linux
Vous n’avez pas les prérequis nécessaires pour la formation Spark pour Machine Learning ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.
Intervenants
Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).
PROGRAMME DE FORMATION SPARK POUR MACHINE LEARNING
Introduction à Spark Mlib
- Introduction à Spark
- Architecture d’Apache Spark
- Concept du RDD
- SparkSession
- DataFrame
- Dataset
- Étapes du processus d’apprentissage automatique
- Installation de Spark
- Organisation des données dans DataFrames
- Composants de Spark Mllib
Préparation et transformation des données
- Introduction au prétraitement
- Normalisation les données numériques
- Standardisation des données numériques
- Organisation des donnée numériques dans des buckets
- Tokenization des données textuelles
- TF-IDF (Term frequency – Inverse Document Frequency)
- Résumé du prétraitement
Clustering
- Introduction au clustering
- K-means clustering
- Classification hiérarchique
- Résumé des techniques de clustering
Classification
Introduction à la classification
- Prétraitement de l’ensemble de données Iris
- Classement Naïve Bayes
- Classification du perceptron multicouche
- Classification des arbres de décision
- Résumé des algorithmes de classification
Régression
- Introduction à la régression
- Prétraitement des données de régression
- Régression linéaire
- Régression d’arbre de décision
- Régression arborescente augmentée par gradient
- Résumé des algorithmes de régression
Recommandations
- Comprendre les systèmes de recommandation
- Filtrage collaboratif
Atelier pratique
Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.
POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS