lundi 6 avril 2015

Programmation R sous Hadoop

L’objectif de ce tutoriel est de montrer, in fine, la programmation sous R de l’algorithme de comptage de mots – le fameux « wordcount » – à partir d’un ensemble de fichiers stockés sur HDFS.

L’exemple « wordcount » fait référence. Il est décrit partout sur le web. Mais, à bien y regarder, les tutoriels qui le reprennent sont (très) rarement reproductibles. Les fichiers de travail ne sont pas disponibles. On ne voit pas vraiment comment on y accède avec R lorsqu’ils sont stockés sur le système de fichier HDFS. Bref, on ne peut pas faire tourner les programmes et se rendre compte réellement de leur mode de fonctionnement.

Nous allons reprendre tout cela étape par étape. Nous décrirons avec force détails chaque stade de processus, en partant de l’installation d’ un cluster hadoop mono-nœud sur une machine virtuelle jusqu’à la programmation sous R, en passant par l’installation de R et de l’environnement de programmation client – serveur RStudio Server.

Les étapes et, par conséquent les sources d’erreurs, sont nombreuses. Nous utiliserons moults copies d’écran pour appréhender concrètement chaque opération. D’où ce format de présentation inhabituel pour un tutoriel.

Mots-clés :  big data, big data analytics, mapreduce, package rmr2, package rhdfs, hadoop, rhadoop, logiciel R, rstudio, rstudio server, cloudera, langage R
Didacticiel : fr_Tanagra_Hadoop_with_R.pdf
Fichiershadoop_with_r.zip
Références :
Hugh Devlin, "Mapreduce in R", Jan. 2014.
Tutoriel Tanagra, "MapReduce avec R", février 2015.
Tutoriel Tanagra, "Programmation R sous Spark avec SparkR", mai 2016.