Tanagra (logiciel)

Un article de Wikipédia, l'encyclopédie libre.
Tanagra

Description de cette image, également commentée ci-après
Capture d'écran du logiciel Tanagra
Informations
Développé par Université Lumière-Lyon-IIVoir et modifier les données sur Wikidata
Dernière version 1.4.50 ()Voir et modifier les données sur Wikidata
Dépôt tanagra-machine-learning.blogspot.comVoir et modifier les données sur Wikidata
Écrit en DelphiVoir et modifier les données sur Wikidata
Système d'exploitation Microsoft WindowsVoir et modifier les données sur Wikidata
Type Science
Exploration de donnéesVoir et modifier les données sur Wikidata
Licence Source ouverteVoir et modifier les données sur Wikidata
Site web tanagra-machine-learning.blogspot.comVoir et modifier les données sur Wikidata

Tanagra est un logiciel gratuit d'exploration de données destiné à l’enseignement et à la recherche. Il implémente une série de méthodes de fouille de données issues du domaine de la statistique exploratoire (en), de l'analyse de données, de l’apprentissage automatique et des bases de données[1].

C'est un projet ouvert au sens qu'il est possible à tout chercheur d'accéder au code, d'ajouter ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifié. Outre la disponibilité du code source, ce logiciel se démarque des autres logiciels de fouille de données comparables en performance de traitement, par une interface sobre, des méthodes statistiques clairement identifiées, une documentation complète en français et anglais[2],[3],[4].

Tanagra est un projet académique, il est largement reconnu dans le monde universitaire, il fait partie des logiciels référencés pour l'enseignement de la statistique dans les départements STID des IUT (2011)[5]. Tanagra est régulièrement cité dans les études réelles[6],[7] et dans les articles de comparaison de logiciels de data mining[8],[9].

Historique[modifier | modifier le code]

Tanagra, créé initialement par Ricco Rakotomalala[10] est diffusé depuis . Il fait suite à la version 3 de Sipina[4], un logiciel de data mining gratuit réalisé par le même auteur. Sipina est destiné à l’apprentissage supervisé, plus particulièrement à la construction interactive des arbres de décision. Il est encore en ligne aujourd’hui, il est maintenu bien que ses fonctionnalités évoluent peu ces dernières années.

La conception de Tanagra intègre une plus large panoplie de techniques issues des statistiques, de l’analyse de donnée et du data mining. Le mode opératoire du logiciel s’inscrit dans le standard du domaine. L’utilisateur spécifie les traitements et leurs enchaînements à l’aide d’un diagramme qu’il définit interactivement[2],[3].

À partir de 2006, Tanagra est devenu un projet éducatif plus large. Il s’accompagne maintenant d’une documentation importante, sous forme d’ouvrages, de supports de cours et de tutoriels, tous gratuits et accessibles librement sans inscription préalable. Cette activité prend une place particulièrement importante dans l’évolution du projet.

Description[modifier | modifier le code]

Le logiciel a été réalisé pour un environnement WIN32. Il s'exécute donc sous Windows, ou sous Linux via WINE[11].

Tanagra fonctionne par diagramme de traitements. Ce mode opératoire a été initié et popularisé par le logiciel SPAD au début des années 1990. La « filière » permet de définir les analyses statistiques et leur enchaînement sous forme graphique avec une succession d’icônes reliées entre elles. De nombreux outils libres et commerciaux ont adopté ce mode de présentation aujourd’hui (Dataiku, Knime, RapidMiner, Neural Designer, SAS Entreprise Miner, IBM SPSS Modeler). Tanagra simplifie cependant la représentation en utilisant un diagramme arborescent. Il est possible de définir plusieurs types de traitements à partir d’une seule source de données.

Tanagra intègre une large panoplie de techniques issues de la statistique (tests paramétriques, tests non paramétriques), de l’analyse de données (analyse factorielle, classification automatique), de l’apprentissage automatique (arbres de décision, machines à vaste marge, forêts aléatoires), et de l’économétrie (régression linéaire).

Tanagra peut s’intégrer dans les tableurs des principales suites bureautiques (Excel de Microsoft Office, Calc d’Open Office et LibreOffice) via une macro-complémentaire. Cette fonctionnalité a beaucoup contribué à la diffusion et à l’utilisation du logiciel.

Références[modifier | modifier le code]

  1. (en) Y. Ramamohan, K. Vasantharao, C. Kalyana Chakravarti et A.S.K.Ratnam, « A Study of Data Mining Tools in Knowledge Discovery Process : V. Tanagra Tool », International Journal of Soft Computing and Engineering (IJSCE), vol. 2,‎ , p. 192 (ISSN 2231-2307, lire en ligne)
  2. a et b Vincent Isoz, « Éléments de data-mining avec Tanagra »
  3. a et b « Tanagra », sur Université Lyon II
  4. a et b Stéphane Tufféry, Data mining et statistique décisionnelle : L'intelligence des données, Éditions Technip, (lire en ligne), p. 115-123, 289
  5. G. Grégoire, F.X. Jollois, J.F. Petiot, A. Qannari, S. Sabourin, P. Swertwaegher, J.C Turlot, V. Vandewalle, S. Viguier-Pla, "Les logiciels et l'enseignement de la statistique dans les départements Statistique et Informatique Décisionnelle (STID) des IUT", in Statistique et Enseignement, Numéro spécial "Des logiciels au service de l'enseignement de la statistique", 2(2), pages 5-24, 2011.
  6. S.G. Jacob and R.G. Ramani, “Evolving Efficient Clustering and Classification Patterns in Lymphography Data through Data Mining Techniques”, in International Journal on Soft Computing (IJSC), 3(3), 119-132, 2012.
  7. E. Kirkos, C. Spathis, A. Nanopoulos, Y. Manolopoulos, “Identifying Qualified Auditor's Opinions: A Data Mining Approach”, in Journal of Emerging Technologies in Accouting, 4(1), 183-197, 2007.
  8. R.M. Rahman and F. Afroz, “Comparison of Various Classification Techniques Using Different Data Mining Tools for Diabete Diagnosis”, in Journal of Software Engineering and Applications, 6, 85-97, 2013.
  9. H. Solanki “Comparative Study of Data Mining Tools and Analysis with Unified Data Mining Theory”, in International Journal of Computer Applications, 75(16), 23-28, 2013.
  10. (en) Thaveeporn Pulket, Universal Prediction Model for Construction Litigation, ProQuest, (lire en ligne)
  11. https://eric.univ-lyon2.fr/ricco/tanagra/fichiers/fr_Tanagra_under_Linux.pdf

Bibliographie[modifier | modifier le code]

Liens externes[modifier | modifier le code]