Analyse de données textuelles

Un article de Wikipédia, l'encyclopédie libre.

L'analyse de données textuelles (ou ADT) est une approche des sciences humaines qui envisage les textes comme des données organisées qui, constituées en corpus, peuvent être analysées indépendamment de leur énonciataire, voire de leur énonciation. Le développement des outils informatiques a donné une impulsion indéniable à cette approche.

L'analyse de données textuelles, qui est inspirée par la linguistique structurelle et l'analyse de discours, est autant qualitative que quantitative. Elle cherche à qualifier les éléments des textes à l'aide de catégories et à les quantifier en analysant leur répartition statistique. L'approche a été très inspirée par les travaux de Jean-Paul Benzécri et a été utilisée dès les années 1960 sur des corpus de textes littéraires ou de textes politiques.

Terminologie[modifier | modifier le code]

Appliquée strictement au lexique, l'ADT est parfois appelée lexicométrie ; appliquée au texte, elle est parfois appelée textométrie ; appliquée de manière générale au discours, elle est parfois appelée logométrie.

Les JADTs[modifier | modifier le code]

Depuis 1992, la communauté des chercheurs en analyse de données textuelles se réunit en congrès tous les deux ans lors de Journées internationales d'analyse statistique de données textuelles (JADT) : 1992 Barcelone ; 1994 Montpellier ; 1996 Rome ; 1998 Nice ; 2000 Lausanne ; 2002 Saint-Malo ; 2004 Louvain-la-Neuve ; 2006 Besançon ; 2008 Lyon ; 2010 Rome ; 2012 Liège ; 2014 Paris ; 2016 Nice ; 2018 Rome ; 2020 Toulouse ; 2022 Naples ; 2024 Bruxelles). Les actes sont publiées et accessibles en ligne sur le site Lexicométrica[1].

Logiciels[modifier | modifier le code]

Nom Date de lancement Coût Client Web App. Windows App. MacOS App. Linux Services Développement
Alceste 1979 payant Max Reinert, société Image
Aquad 1987 gratuit Tübingen Universität (Günter L. Huber)
Atlas.ti 1993 payant Technische Universität Berlin (Thomas Muhr)
Analyse SHS 2012 gratuit AFC, ACP, Classification ascendante hiérarchique Pôle Informatique de Recherche et d'enseignement en Histoire de l'Université de Paris-I (« Panthéon-Sorbonne »)
DTM gratuit L. Lebart, ENST
GarganText 2013 gratuit équipe “Digital Humanities”, ISC-PIF, CNRS
Hyperbase 1989 gratuit Université de Nice et CNRS
IRaMuTeQ 2009 gratuit Université de Toulouse
Le Trameur 2014 gratuit CLESTHIA - Langage, systèmes, discours - EA 7345 U. de Paris-III Sorbonne-Nouvelle
Lexico 1994 gratuit fréquences des mots, contexte des termes, mesure du caractère non aléatoire de l'apparition de mots ou de suites de mots dans un corpus distribué en fonction de variables connues André Salem (ENS Fontenay-Saint-Cloud, université de Paris-III Sorbonne Nouvelle)
NooJ 2004 gratuit Max Silberztein, Université de Franche-Comté
NVivo 1981 payant Tom & Lyn Richards
Prospéro 2011 gratuit association Doxa
QDA Miner freemium
R.TeMiS 2016 gratuit Milan Bouchet-Valat (Ined), Gilles Bastin (Sciences Po Grenoble, Pacte), Bénédicte Garnier (Ined), Antoine Chollet (ENSAI)
SATO 2004 gratuit et payant Université du Québec à Montréal (François Daoust)
Sémato 2007 gratuit et payant Université du Québec à Montréal (Pierre Plante, Lucie Dumas, André Plante)
Statistica Text Miner (StatSoft) 1993 payant société TIBCO Software Inc. (1997)
Taltac (en italien) 2000 gratuit Sergio Bolasco, Francesco Baiocchi e Adolfo Morrone
TXM 2010 gratuit École normale supérieure de Lyon, université de Franche-Comté
T-Lab
Tropes 1994 gratuit Pierre Molette, Agnès Landré, Rodolphe Ghiglione
Sphinx Quali
Voyant Tools 2021 gratuit Université McGill, Montréal (Stéfan Sinclair, Geoffrey Rockwell)
WordStat 1998 gratuit

Notes et références[modifier | modifier le code]

  1. « Lexicometrica », sur univ-paris3.fr (consulté le ).

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]