www.aliquote.org [Teaching Material]

Apprentissage artificiel et fouille de données avec le logiciel R

Ce cours consiste en une présentation du logiciel R pour l'apprentissage articificiel ("machine learning") et la fouille de données ("data mining").

Organisation

Vous pouvez télécharger une machine virtuelle Ubuntu 32 bits, avec R, Python et sed/awk pré-installés, sur le site Software Carpentry. RStudio devra être installé séparément. Les logiciels suivants pourront également être installés : Weka, csvkit (nécessite Python), jq, Vowpal Wabbit (nécessite les libraries boost). Une brève présentation de ces logiciels sera donnée en fonction du temps disponible et de l'état d'avancement du cours.

Documents de cours

Voici une présentation générale du cours (format imprimable).

  1. Introduction au langage R, screen | print (2x2 BW)
    Ressources : rstudio.pdf
  2. Rappels de statistiques inférentielles, screen | print (2x2 BW)
    Ressources : lwb_explained.pdf, lwb.R
  3. Apprentissage artificiel, screen | print (2x2 BW) (cours 3 + 4)
    Ressources : leukemia.class.txt, leukemia.data.txt, titanic.dat
  4. Méthodes non-supervisées et fouille de données, screen | print (2x2 BW)
    Ressources : pg100.txt, shakespeare.r

Projets

Les projets sont à rendre pour le 10/04. Voici le descriptif des projets disponibles et les consignes pour le rendu électronique (m'adresser une archive zip depuis GitHub par mail). Les fichiers de données et packages/sources R sont disponibles dans le répertoire projets.

Ressources

Les deux ouvrages suivants servent de support pour les cours 3 et 4.

Last updated on 2015/03/29, 8:55pm