2 jours (14 heures)

Formation certifiante - Code CNCP : 2234 - Certif Info : 93835

Objectifs

  • Découvrir et appliquer le langage R dans le cadre de la data science
  • Importer et exporter des données
  • Appréhender l’utilisation de bibliothèques externes
  • Comprendre la manipulation des données avec dplyr et data.table
  • Comprendre la transformation des données avec caret
  • Effectuer des représentations graphiques avancées avec ggplot2
  • Choisir entre la régression et la classification
  • Concevoir des modèles de machine learning
  • Construire un tableau de bord web interactif en utilisant Shiny

Prérequis

Maîtriser l’algorithmique, avoir des connaissances de base en statistiques ainsi qu’en programmation R

Vous n’avez pas les prérequis nécessaires pour la formation R pour la data science ? Contactez nous pour étudier ensemble un parcours sur mesure et garantir ainsi la réussite de votre projet.

Intervenants

Les contenus pédagogiques sont synchronisés sur les évolutions techniques grâce à notre équipe d’intervenant experts et professionnels du secteur enseigné. Les formateurs qui interviennent pour animer les formations ont une double compétence : compétence informatique et compétence métier (Banque, Assurance, Administration, Santé, Transport).

PROGRAMME DE FORMATION R pour la data science

Jour 1

Introduction

  • Importance de la data science
  • Explication du choix de R
  • Téléchargement et installation
  • Comment trouver la documentation

Manipuler les jeux de données avec dplyr et data.table

  • Installer les packages
  • Transformer un data frame
  • Afficher un résumé et les données d’un data frame
  • Sélectionner des colonnes
  • Trier des colonnes
  • Grouper des données avec des statistiques simples
  • Renommer des colonnes
  • Changer le typage d’une colonne
  • Utiliser des fonctions de calcul intégrées
  • Nettoyer des lignes
  • Filtrer et remplacer des données
  • Créer des jointures simples
  • Fusionner des jeux de données
  • Fusionner des données ensemble

Transformer les données avec Caret

  • Comprendre le prétraitement des données
  • Comprendre l’importance de la mise à l’échelle
  • Mettre à l’échelle vos données
  • Utiliser le package caret
  • Transformer les distributions de données
  • Combler les valeurs manquantes

Atelier Pratique

Jour 2

Graphiques R avancés : ggplot2

  • Système graphique de base en R
  • Scatterplots, histogrammes, barcharts, …
    Étiquettes, légendes, titres, axes
  • ggplot2 et la grammaire des graphiques
  • ggplot2 et la grammaire des graphiques
  • Étendre ggplot2
  • Combiner plusieurs graphiques
  • Graphiques interactifs
  • lattice : graphiques et formules

Appréhender la data mining et le machine learning

  • Échantillonner les données
  • Partitionner les données
  • Effectuer des régressions linéaires et multiples
  • Corréler un système de recommandations
  • Tirer parti de l’algorithme OneR
  • Effectuer du clustering avec ID3
  • Comprendre la classification ascendante hiérarchique
  • Partitionner avec k-means
  • Partitionner avec k-medoids
  • Partitionner avec k-NN
  • S’initier à la classification bayésienne naïve
  • Découvrir la classification SVM
  • Traiter de gros jeux de données

Produire des tableaux avec Shiny

  • Découvrir Shiny
  • Démarrer avec le template
  • Découvrir la structure d’une application R-shiny
  • Créer l’architecture – UI
  • S’initier aux Inputs
  • S’initier aux Outputs
  • Shiny – Exemples d’applications

Atelier Pratique

Une attestation d’assiduité sera délivrée après la validation de toutes les compétences de ce module.

POUR TOUTE DEMANDE DE RENSEIGNEMENT OU DE DEVIS