Thésaurus

Un article de Wikipédia, l'encyclopédie libre.

Voir « thésaurus » sur le Wiktionnaire.

Un thésaurus est un type de langage documentaire qui consiste en une liste de termes constituant un vocabulaire normalisé sur un domaine de connaissances, reliés entre eux par des relations synonymiques, hiérarchiques et associatives. C'est une sorte de dictionnaire hiérarchisé ; cependant, un thésaurus ne fournit qu'accessoirement des définitions, les relations des termes et leur sélection l'emportant sur la description des significations.

Avec l'élaboration de normes et d'applications informatiques spécialisées, comme dans le domaine voisin des ontologies, une convergence des problématiques (ressources, hiérarchie, réutilisation, etc.) a rapproché les thésaurus des ontologies alors qu'ils demeurent avant tout complémentaires, ainsi que le souligne le langage SKOS (2007...).

Sommaire

[modifier] Étymologie, orthographe et histoire

Thésaurus est un emprunt au grec ancien θησαυρός « trésor » via le latin thesaurus


Il désignait au départ, à côté du mot trésor lui-même, un dictionnaire de langue ancienne à but philologique ou archéologique tel le Thesaurus numismatique ou le Thesaurus des Antiquités chrétiennes , ou le Thesaurus étrusque de Pallotino.HOMONYMIE - Ce mot était couramment employé dès la fin du Moyen -Age pour designer les livres ( codex) , à savoir des encyclopédies ou des recueils dans toute sorte de domaines, notamment médecine et pharmacie , mais aussi chimie et alchimie ( exemple franciscain Robert Bacon " Thesaurus chimicus " recueil de écrits de Robert Bacon en chimie , 1603) , astronomie, botanique ( Pritzel ) etc... Sens actuel dérivé  : Cet emploi au sens de "recueil" de textes connaissances en documentation subsiste mais très rarement de nos jours , comme " banque de données "( exemple "Thesaurus Diplomaticus", banque de données , base de données textuelles et d'images contenant l'analyse d'environ 12.800 documents diplomatiques des VIIe au XIIIe siècles, le texte complet de 6.000 chartes latines de la même période et une documentation iconographique (enluminures). ou le TML Thesaurus Musicarum Latinarum ) mais très rarement.

L' emploi premier du terme est dû peut - être bien à l'origine à la pensée biblique médiévale (Livre de la Sagesse, Bible) que la Sagesse était un Trésor de connaissances de même qu'un Miroir ( Speculum ) ou une Image ( Imago) . Un très ancien dictionnaire de synonymes de Ninive ( bibliothèque du Roi Assurbanipal) , mentionne un mot WU signifiant à la fois en sumérien, or, argent, et sagesse, comme une métaphore très ancienne TRESOR - SAGESSE [1]

A la Renaissance qui est celui du renouveau des études grecques et latines ,et aussi des langues vernaculaires, il fut employé dans un tout autre sens, celui de dictionnaire , Trésor ( "La langue est un Trésor de mots" , Hésiode) comme le Trésor de la Langue Française de Jean Nicot ou le Thesaurus Polyglotte au 16 siècle, de Hieronymus Megiser, slovene - latin allemand - ou Illyrien, Teutonique, et en langues anciennes par exemple les frères Estienne ont fait un thesaurus de la langue grecque( Thesaurus Graecae Lingae ) et de la langue latine ( Thesaurus Linguae Latinae, 1531, Robert Estienne) celui ci est parfois cité comme étant le premier usage du mot " thesaurus " , mais en realité, c'est un dictionnaire , sens encore employé jusque de nos jours (exemple "Thesaurus Tenda", dialecte africain -CNRS , 1973 , ou "Thesaurus du Slang ", ou " Trésor du breton parlé " ) .On trouve dans tout fond ancien de bibliothèque ces deux types de thesauri.

Le mot " Thésaurus " a réemployé en documentation d'après beaucoup de personnes à cause du Rodget's Thesaurus qui était un dictionnaire anglais de synonymes destiné aux étudiants afin d'élargir leur vocabulaire . Après la guerre de 39- 45 le developpement des Sciences et Techniques en documentation a nécessité de nouveaux outils de recherche en Information Retrieval . Ce mot thésaurus fut alors utilisé simultanément par Hans - Peter Luhn ( Suisse) et par Crane, E. J., and Bernier, Charles. L., .aux USA , et utilisé la première fois publiquement en documentation par Hélène Louise Brownson en 1957 à la Conférence de Dorking [1] . Danielle Degez rapporte au sujet de ce mot nouveau en documentation une réflexion de Jean Claude Gardin : il aurait fallut appeller cela un "Terminibus", pas un "Thesaurus" ! en effet le premier thesaurus français est celui des Termes de la Chimie en 1959 ( E.I.DuPont de Nemours). Le thésaurus documentaire à double entrée hierarchique et alphabetique n'est ni une encyclopedie ni un dictionnaire de mots ni un lexique il sert à l'organisation des connaissance, relier le mot - clef à la connaissance contenue dans les documentations, livres, articles banques de données infomatiques etc...ceci en vue de l'indexation puis de la recherche de documents, en anglais Information Retrieval. Le thesaurus documentaire devint lui aussi " multilingue ". EUROPE - En Angleterre, Karen Sparck Jones ( Cambridge Language Research Unit ) , en France Jean Claude Gardin (Syntol) , Danielle Degez , Eric de Grolier , en Belgique le Bureau Van Dijck ( Thesauri à schemas fléchés ) , en Allemagne I. Dahlberg , ont travaillé sur les langages classificatoires, et la classification , les thesauri .Bibliographie élémentaire sur ce sujet Norman Roberts, THE PRE-HISTORY OF THE INFORMATION RETRIEVAL THESAURUS , Journal of Documentation, Volume 40, Number 4, 1984 , pp. 271-285(15) Brian Vickery, THESAURUS — A NEW WORD IN DOCUMENTATION Journal of Documentation, Volume 16, Number 4 , 1960 , pp . 181 - 189 H. P. Luhn: Pioneer of Information Science: Seleeted Works. 1968. Edited by Claire. K. Schultz. Spar- tan Press, New York, N.Y International Classification and Indexing Bibliography, 1950-1982: Classification Systems and Thesauri v. 1 (Broché) de Ingetraut Dahlberg (Sous la direction de)

D'après une source internet, l'appendice de la thèse de Karen Spark Jones, Synonymy and. Semantic Classification ( Université de Cambridge, 1968) , contiendrait une longue histoire du thesaurus .


[2] Les deux orthographes thesaurus et thésaurus sont admises par les dictionnaires : la première est un xénisme qui reprend directement la forme latine, la seconde en est une francisation et semble la plus fréquente dans la littérature. Le pluriel latin thesauri est quelquefois employé, mais passe pour une forme désuète ou un anglicisme (l'anglais employant le pluriel latin). La cohérence veut qu'on écrive soit un thesaurus, des thesauri, soit un thésaurus, des thésaurus.

[modifier] Outil d'indexation et outil de recherche

Un thésaurus est un type particulier de langage documentaire. Il est constitué d'un ensemble structuré de termes pouvant être utilisé pour l'indexation de documents dans une banque de données bibliographiques ou dans un catalogue de centre de documentation. Deux types de termes composent un thésaurus :

  • les descripteurs utilisés pour indexer un document ;
  • les non-descripteurs qui ne peuvent pas être employés pour indexer un document, et qui renvoient au descripteur à utiliser. Ils sont utilisés à la recherche.

Pour l'utilisateur d'un catalogue électronique ou d'une base de données bibliographique, le thésaurus peut constituer un instrument de recherche. L'utilisateur peut formuler des requêtes en ayant recours à des descripteurs ou un non descripteur (dans ce cas le système le renvoie au descripteur), ce qui peut, dans une certaine mesure, limiter le bruit et le silence documentaire.

[modifier] Constitution d'un thésaurus

Un thésaurus s'élabore comme un sous-ensemble du vocabulaire usuel et d'au moins un vocabulaire spécialisé. Il s'agit d'un vocabulaire contrôlé puisqu'il résulte d'un long processus de tri des mots, appellations et expressions utilisés de manière informelle dans un domaine particulier. Il s'agit d'une démarche pragmatique et continue de rationalisation des termes descriptifs. Un nouveau thesaurus ou une nouvelle version doit généralement subir une phase de validation par la communauté concernée.

Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques.

En vue de la meilleure adéquation au domaine considéré, les termes sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s'appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d'emploi. La hiérarchie des termes peut tout-à-fait être différente d'un thesaurus à un autre et même sous réserve d'incohérence dans un usage ou un autre du même thesaurus.

Finalement, en partant du niveau le plus haut et correspondant au domaine du thésaurus, on trouve d'abord les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommés microthesaurus, puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Un thésaurus peut aussi concerner plusieurs domaines.

Il demeure toujours une dimension arbitraire dans la hiérarchie d'un thésaurus, soit dans le choix des termes, soit dans leur position hiérarchique.

Il existe des normes pour l'élaboration des thesaurus :

  • Norme ISO 2788-1986 : Principes directeurs pour l'établissement et le développement des thésaurus monolingues.
  • Norme ISO 5964-1985 : Principes directeurs pour l'établissement et le développement des thésaurus multilingues.
  • SKOS : Spécification en langage RDF développé par le W3C, pour la publication et l'utilisation des thésaurus dans le cadre du Web sémantique

[modifier] Les relations entre les termes

Les termes d'un thésaurus sont organisés hiérarchiquement (à l'intérieur de microthesaurus souvent classés alphabétiquement). Cette hiérarchie permet de régler la précision de l'indexation ou de l'interrogation. L'indexation s'appuiera autant que possible sur l'identification des termes spécifiques (donc du niveau le plus bas possible), alors que la recherche selon les cas pourra faire appel aux termes génériques pour augmenter le nombre de réponses.

Les relations des termes sont de trois types :

  • relation hiérarchique stricto sensu (entre descripteurs), base de la hiérarchie du thésaurus ;
  • relation d'équivalence (entre descripteurs et non-descripteurs), base de l'univocité ;
  • relation d'association (entre descripteurs), enrichissement sémantique ; sujets connexes.

Tout thésaurus comporte au moins trois catégories de termes : les termes génériques et les termes spécifiques qui doivent être utilisés comme descripteurs ; les termes équivalents qui sont considérés comme non-descripteurs selon les conventions du thésaurus.

  • Les termes génériques sont repérés généralement par le sigle TG ; ils désignent les entités ou concepts principaux en référence aux autres termes et au domaine considéré ;
  • Les termes spécifiques sont repérés généralement par le sigle TS ; ils précisent et identifient les entités ou concepts particuliers à l'intérieur du champ sémantique d'un terme générique donné ;
  • Les termes équivalents sont repérés généralement par le sigle EP comme abréviation de Employé Pour ; ce sont des variantes des termes spécifiques (synonymie ou quasi-synonymie). Ils sont donc équivalents dans le langage courant, mais donnés pour subsidiaires dans l'emploi du thesaurus. Le terme à préférer au terme Employé Pour est indiqué par le symbole EM ou EMP comme abréviation de Employer.

On trouve aussi très généralement les termes associés identifiés par TA (relation d'association : causalité, localisation, relations de nature temporelle, composition, etc). Étant eux-mêmes des descripteurs, ces termes connexes permettent au chercheur de modifier progressivement son interrogation ou de l'élargir sans faire appel aux termes génériques.

Divers types de relations et rubriques complémentaires peuvent être adjoints à cette structure de base pour enrichir le thésaurus ou améliorer son usage. On peut notamment prévoir des équivalents linguistiques pour des thésaurus multilingues ainsi que des passerelles avec d'autres thésaurus du même domaine ou de domaines différents.

[modifier] Exemple de thésaurus élémentaire

Soient les rubriques principales d'un micro-thesaurus sur un système informatique collaboratif :

  • Individus >
  • Logiciel >
  • Réseau >
  • Ressources >

La rubrique Individus se composerait par exemple de :

  • Lecteur (TG) ;
  • Participant (TG) ; Auteur (EP) ; Contributeur (EP) ;
    • Éditeur non-inscrit (TS)  ; Anonyme (EP) ; Adresse IP (forme métaphorique à éviter) ;
    • Éditeur inscrit (TS) ;
  • Participant mandaté (TG) ;
    • Administrateur (TS) ; Sysop (terme usuel dans la communauté)
    • Gestionnaire (TS) ;
    • Représentant (TS) (chargé des relations extérieures) ;
  • Utilisateur (terme imprécis : à proscrire) ; Internaute (imprécis : à proscrire).

Le responsable de toute contribution pourrait ainsi être spécifié par au moins un terme descriptif choisi parmi les cinq termes spécifiques (TS) ou parmi les trois termes génériques (TG), selon les besoins. Les termes (EP) seront par principe évités dans l'indexation, mais pourront être utilisés ultérieurement pour exploiter exclusivement tel ou tel type de contribution sans employer rigoureusement les termes propres de la description initiale.

[modifier] Les modes de présentation

Quel que soit son support, un thésaurus utilise habituellement des présentations par classement alphabétique de ses termes ; premier stade avant la présentation des relations hiérarchiques. Ainsi, l'utilisateur peut-il être dérouté dans un premier temps par l'absence d'un terme dans une liste, alors qu'une autre modalité d'usage du thésaurus lui révèlera que ce terme est bien pris en compte mais par relation à un des termes privilégiés. Des présentations sous forme de graphes et cartes permettent des explorations plus complexes.

L'utilisation ou exploration d'un thésaurus peut se faire habituellement à l'aide de plusieurs modes de présentation :

  • Liste(s) alphabétique(s) des termes ; pour une approche globale ou la recherche d'un terme particulier ;
  • Liste(s) hiérarchique(s) des termes ; pour l'approfondissement d'une notion ;
  • Liste(s) d'occurrences (liste permutée) ; pour la vérification de la pertinence d'un élément d'une expression utilisée comme descripteur ;

On peut trouver dans ces listes le symbole 'MT indiquant le microthesaurus dont relève le terme.

[modifier] Éléments optionnels d'un thésaurus

On trouve associées aux descripteurs, des définitions (cas d'homonymie), des notes assistant l'utilisateur (notices), des liens de toute nature, etc.

[modifier] Annexes

[modifier] Notes et références

  1. référence, citation ou lien
  2. (fr) Définitions lexicographiques et étymologiques de thésaurus du CNRTL.

[modifier] Articles connexes

[modifier] Liens externes

Ce document provient de « http://fr.wikipedia.org/wiki/Th%C3%A9saurus ».
Créer un livre