2 jours (14 heures)
Formation certifiante - Code CNCP : 2234 - Certif Info : 93835
- Présentiel
- Blended - Learning
- FOAD / E-learning tutoré
Objectifs
- Découvrir et appliquer le langage R dans le cadre de la data science
- Importer et exporter des données
- Appréhender l’utilisation de bibliothèques externes
- Comprendre la manipulation des données avec dplyr et data.table
- Comprendre la transformation des données avec caret
- Effectuer des représentations graphiques avancées avec ggplot2
- Choisir entre la régression et la classification
- Concevoir des modèles de machine learning
- Construire un tableau de bord web interactif en utilisant Shiny
Prérequis
Maîtriser l’algorithmique, avoir des connaissances de base en statistiques ainsi qu’en programmation R
Vous n’avez pas les prérequis nécessaires pour la formation R pour la data science ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.
Intervenants
Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).
PROGRAMME DE FORMATION R pour la data science
Introduction
- Importance de la data science
- Explication du choix de R
- Téléchargement et installation
- Comment trouver la documentation
Manipuler les jeux de données avec dplyr et data.table
- Installer les packages
- Transformer un data frame
- Afficher un résumé et les données d’un data frame
- Sélectionner des colonnes
- Trier des colonnes
- Grouper des données avec des statistiques simples
- Renommer des colonnes
- Changer le typage d’une colonne
- Utiliser des fonctions de calcul intégrées
- Nettoyer des lignes
- Filtrer et remplacer des données
- Créer des jointures simples
- Fusionner des jeux de données
- Fusionner des données ensemble
Transformer les données avec Caret
- Comprendre le prétraitement des données
- Comprendre l’importance de la mise à l’échelle
- Mettre à l’échelle vos données
- Utiliser le package caret
- Transformer les distributions de données
- Combler les valeurs manquantes
Atelier Pratique
Graphiques R avancés : ggplot2
- Système graphique de base en R
- Scatterplots, histogrammes, barcharts, …
Étiquettes, légendes, titres, axes - ggplot2 et la grammaire des graphiques
- ggplot2 et la grammaire des graphiques
- Étendre ggplot2
- Combiner plusieurs graphiques
- Graphiques interactifs
- lattice : graphiques et formules
Appréhender la data mining et le machine learning
- Échantillonner les données
- Partitionner les données
- Effectuer des régressions linéaires et multiples
- Corréler un système de recommandations
- Tirer parti de l’algorithme OneR
- Effectuer du clustering avec ID3
- Comprendre la classification ascendante hiérarchique
- Partitionner avec k-means
- Partitionner avec k-medoids
- Partitionner avec k-NN
- S’initier à la classification bayésienne naïve
- Découvrir la classification SVM
- Traiter de gros jeux de données
Produire des tableaux avec Shiny
- Découvrir Shiny
- Démarrer avec le template
- Découvrir la structure d’une application R-shiny
- Créer l’architecture – UI
- S’initier aux Inputs
- S’initier aux Outputs
- Shiny – Exemples d’applications
Atelier Pratique
Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.
POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS