R (langage de programmation et environnement statistique)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir R.
R
Logo.

Date de première version Voir et modifier les données sur Wikidata
Auteur Ross Ihaka et Robert Gentleman
Développeurs Projet GNU
Dernière version stable 3.2.2 ()
Paradigmes Programmation multi-paradigmes : orientée objet, impérative, fonctionnelle, procédurale, réflexive
Influencé par S, Scheme
Système d'exploitation Multiplate-forme
Licence GPLv2 (d)Voir et modifier les données sur Wikidata
Licences GNU GPL
Site web (en) Site officiel

R est un logiciel libre de traitement des données et d'analyse statistiques mettant en œuvre le langage de programmation S. C'est un projet GNU fondé sur l'environnement développé dans les laboratoires Bell par John Chambers et ses collègues. Depuis plusieurs années, deux nouvelles versions apparaissent au printemps et à l'automne. Il dispose de nombreuses fonctions graphiques.

Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows.

Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[1].

Ancien logo

Paquets[modifier | modifier le code]

Si R dispose dans sa version de base de la plupart des fonctionnalités utiles pour la statistique courante, ses possibilités s'élargissent dès que l'on utilise les paquets (ou « extensions »), souvent écrits en R et mis librement à disposition. Ces paquets couvrent un très large champ et vont de la statistique multivariée aux méthodes de ré-échantillonnage, de l'économétrie à la biométrie, de l'analyse des graphes au traitement des images, des modèles de régression sur séries chronologiques ou les modèles à équations simultanées, en passant par l'analyse de données écologiques (ade4), sans oublier l'approche bayésienne.

Face au nombre toujours croissant de paquets (on comptait près de 80 nouveaux paquets d'octobre à décembre 2007[2]), une page offre des regroupements des paquets selon les domaines abordés[3].

Parmi ces extensions, on peut également citer celles qui permettent d'interfacer directement R avec des bases de données comme PostgreSQL (via le langage procédural PL/R) et MySQL ou des SIG comme GRASS, celles qui permettent d'exporter ses résultats en LaTeX ou OpenDocument, ou encore celles regroupant des fonctions décrites dans des ouvrages de référence, telles MASS, UsingR ou ISwR.

L'installation des extensions se fait de la manière suivante :

install.packages("nom_du_paquet")

Pour pouvoir l'utiliser, il suffit ensuite d'exécuter :

library(nom_du_paquet)

Interface graphique[modifier | modifier le code]

R dans un Terminal sous Linux.
R avec l'environnement de développement intégré RStudio.

Il existe des interfaces graphiques pour R, comme

Certains éditeurs de texte proposent également des modes pour R :

  • Tinn-R, un éditeur de texte orienté R sur Windows,
  • Emacs ESS (Emacs speaks statistics) Un mode pour GNU Emacs dédié (entre autres) à R.
  • LyX inclut un module Sweave, outil d'insertion de code R dans les documents LaTeX.

Il est également possible d'exécuter des fonctions R directement sur le Web, sans installer le logiciel.

  • R Web,
  • Le logiciel SAS interface également les fonctions R depuis SAS/IML Studio 3.2, assurant l'interopérabilité entre SAS et R, comme le portage de R sur de grosses volumétries de données et le calcul distribué[4].
  • Le projet R for MediaWiki qui permet de faire tourner R sur des wikis (mais pas encore sous Wikipedia), voir un exemple.
  • R est présent dans l'interface de Sage, un logiciel libre de mathématiques diffusé sous la licence GPL.

Éléments permettant la réalisation technique du logiciel R[modifier | modifier le code]

Les sources du logiciel R sont disponibles dans le dépôt R sources[5]. Il est codé dans les langages C, C++, Fortran et Java. Avant de penser à le recompiler, il faut donc installer un certain nombre de composants.

Sous Windows, la plupart des outils ont été regroupés dans un seul exécutable qui s'appelle R-tools[6]. De plus, pour travailler sur la documentation du logiciel, il faut installer le compilateur de fichiers d'aide Microsoft[7]. Il faut aussi l'outil LaTeX (MiKTeX). Enfin pour la création de l'exécutable d'installation, on utilise Inno Setup.

Bibliographie[modifier | modifier le code]

  • (en) Hadley Wickham, ggplot2 : Elegant Graphics for Data Analysis, Springer, coll. « Use R »,‎
  • (en) Hadley Wickham, Advanced R, Chapman & Hall/CRC, coll. « The R Series », 1e éd. (lire en ligne)
  • (en) Hadley Wickham, R Packages : Organize, Test, Document, and Share Your Code, O'Reilly Media,‎ (lire en ligne)
  • Millot Gaël, Comprendre et réaliser les tests statistiques à l'aide de R, Éditions De Boeck,‎ , 806 p. (présentation en ligne)

Références[modifier | modifier le code]

  1. (en) David Smith, « R users: Be counted in Rexer's 2013 Data Miner Survey », Revolution Analytics Blog,‎ (lire en ligne).
  2. Rnews Volume 7/3, décembre 2007, disponible sur le site CRAN sous « Newsletter ».
  3. Voir sous [1] puis « Task View ».
  4. SAS IML Studio
  5. R sources.
  6. R-tools.
  7. HTML Help Workshop 1.32.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Sur les autres projets Wikimedia :