Vocabulaire contrôlé

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Un vocabulaire contrôlé est un lexique dont le but est de rendre possible l'organisation des connaissances afin d'optimiser la recherche d'information. Le vocabulaire contrôlé est utilisé dans les schémas servant à l'indexation sujet, les vedettes-matières, les thésaurus et les taxinomies[1],[2]. Un vocabulaire contrôlé impose l'utilisation de termes prédéfinis, qui ont été présélectionnés par le concepteur du vocabulaire. Ils s'opposent donc au langage naturel, où aucune restriction n'existe quant au choix du vocabulaire.

Fonctions des vocabulaires contrôlés[modifier | modifier le code]

Les vocabulaires contrôlés sont conçus afin d'organiser l'information et d'apporter une terminologie pour cataloguer et récupérer l'information. En plus, de reconnaître les différentes variantes d'un même terme, les vocabulaires contrôlés favorisent l'uniformité dans les les termes privilégiés et l'assignation de ces mêmes termes à du contenu similaire.

Les fonctions les plus importantes du vocabulaire contrôlé sont d'assembler une variante de termes et de synonymes à des concepts et de lier ensuite ces concepts soit dans un ordre logique ou selon un classement par catégories. Les liens et les relations au sein d'un vocabulaire contrôlé permettent d'assurer que ces connexions soient définies et maintenues autant pour le catalogage que pour la récupération de données[3].

Les différents types de vocabulaires contrôlés[modifier | modifier le code]

Listes de sujet d'en-tête

Les sujets d'en-tête sont des mots ou des phrases destinés à être assignées à des livres, des articles ou autres documents dans le but de décrire un sujet ou un thème de textes et d'ainsi les regrouper avec d'autres textes comportant des sujets similaires.

Les sujets d'en-tête les plus utilisés dans les librairies aux États-Unis sont ceux de la Bibliothèque du Congrès (LCSH) qui forment une liste complète de termes favoris souvent de références multiples. Les Medical Subject Headings (MeSH) sont aussi un autre type d'en-tête connu, utilisé pour indexer des articles de presse et des livres sur la sciences médicale.

De manière général, les sujets d'en-tête sont classés par ordre alphabétique avec plusieurs références entre les favoris, les non favoris et les autres en-tête en relation. Ils peuvent combiner plusieurs concepts uniques au sein d'une même chaîne. Par exemple, l'en-tête sur un récipient en bronze de la période médiévale est associé à la fois à une période, un matériau et un type de travail dans un seul même en-tête. D'autres types d'en-têtes peuvent aussi être utilisés afin d'identifier ou de clarifier une entrée de vocabulaire d'une autre. Ce qui veut dire que l'enregistrement d'un vocabulaire représente une personne, une place ou une chose, mais qu'en plus de cela le nom est affiché avec une information en supplément du nom. Par exemple, une courte notice pourrait accompagner le nom d'un personnage[3].

Les listes contrôlées

Utilisée afin de contrôler la terminologie, une liste contrôlée bien établie comprend: des termes uniques, sans chevauchement de signification entre les termes, les termes sont tous membre de la même classe, ils sont égaux en granularité (niveau d'explication est le même) ou en spécificité, ils sont aussi classés par ordre alphabétique ou selon un ordre logique afin de les manier plus facilement. De façon général, les listes contrôlées sont construites pour répondre à une base de données ou une situations très spécifique[3].

Boucles de synonymie

Les boucles de synonymie sont un ensemble de termes considérés comme équivalent aux visées de la récupération de données. Même si cet ensemble de termes est classé comme un vocabulaire contrôlé, il est presque toujours appliqué dans la récupération de données. Ils sont utilisés pour élargir la recherche (expansion de requête). Ils peuvent ainsi contenir des synonymes de significations identiques ou apparentées plutôt que de se restreindre seulement aux termes comportant une véritable synonymie[3].

Les fichiers d'autorité

Les fichiers d'autorité sont un ensemble de noms ou d'en-têtes et de références multiples au formulaire favoris à partir de variantes ou de formes alternatives. Les fichiers d'autorité les plus communs sont les fichiers d'autorité de nom et les fichiers d'autorité de titre d'objets. Presque tous les types de vocabulaires contrôlés peuvent être utilisé comme fichier d'autorité à l'exception des boucles de synonymie[3].

Exemples de fichiers d'autorité:

  • Autorité BNF
  • IDREF, Référentiel des autorités Sudoc
  • VIAF, Fichier d’autorité international virtuel
  • Domain Name Système (DNS)
  • Fichier d’autorité Banq
  • Dictionnaire de Biographique du Canada[4]

Taxonomies

Une taxonomie est une classification ordonnée pour un domaine défini. Il comprend des termes de vocabulaire contrôlé (en général que des termes favoris) organisés selon une structure hiérarchique.

La taxonomie peut aussi se référer à toute classification ou placement de termes ou d'en-têtes au sein de catégories, en particulier un vocabulaire contrôlé utilisé à des fins de structure de navigation pour un site web[3].

En sciences de l'information[modifier | modifier le code]

En sciences de l'information et des bibliothèques, un vocabulaire contrôlé est une liste de mots et d'expressions soigneusement choisis, utilisés pour étiqueter des documents, de manière à ce qu'ils soient plus facilement repérables lors d'une recherche[5]. Les vocabulaires contrôlés permettent de résoudre les problèmes liés à l'homographie, la polysémie et la synonymie, par une relation bijective entre les concepts et les termes acceptés. En bref, les vocabulaires contrôlés réduisent l'ambiguïté inhérente au langage humain naturel, où différents noms peuvent être attribués à un même concept, assurant du coup une meilleure cohérence[6].

Ainsi, cela peut améliorer de manière significative les résultats de recherche, car puisque les ordinateurs sont plus efficaces avec l'assortiment de mots, de caractère par caractère, ils sont en l’occurrence moins performant pour ce qui concerne la compréhension des synonymes. Dépourvue d'un contrôle terminologique de base, des métadonnées incohérentes ou inexactes peuvent affaiblir de manière importante la qualité des résultats de recherche. Par exemple, sans l'utilisation d'un vocabulaire contrôlé, les termes "bonbon" et "sucreries" seraient référés au même concept. Les vocabulaires contrôlés peuvent aussi diminuer les possibles erreurs d'épellation[7].

Cependant, l'utilisation d'un vocabulaire contrôlé comporte plusieurs obstacles. Le principal étant le coût, son utilisation nécessite un organe administratif pour le réviser, le mettre à jour et le disperser. Par exemple, le Library of Congress Subject Headings (LCSH) et le US Natonal Library of Medical Subject Headings (MeSH) forment des vocabulaires formels qui sont essentiels pour chercher des collections durement cataloguées. Néanmoins, ces deux vocabulaires sont contraint à un support important des deux organismes. D'autres coûts considérables sont engendrés dans l'entrainement de chercheurs et créateurs de métadonnées afin qu'ils saisissent bien, par exemple, qu'en utilisant le MeSH il est mieux d'employer "myocardial infarction" au lieu de l'expression familière "heart attack" (crise cardiaque).

La manière la plus efficace de faire usage d'un vocabulaire contrôlé est par l'intermédiaire des qualificatifs[7]. (en anglais)

Bibliothèque de l'Université de Laval[modifier | modifier le code]

Le Répertoire de vedettes-matière de l'Université Laval est un exemple de vocabulaire contrôlé[8]. Les termes acceptés ― les vedettes-matières ― sont choisis parmi les différentes graphies d'un même concept ("clés" est employé pour "clefs"), les termes scientifiques et populaires ("Grande marguerite" est employé pour "Leucanthemum vulgare") ou les synonymes d'un même concept ("forêts" est employé pour "boisés").

À titre d'exemple d'application, les vedettes suivantes exécutent une recherche correspondante dans le catalogue de la Bibliothèque de l'Université Laval. Ces vedettes se retrouvent telles quelles dans le champ sujet des notices de chacune des recherches.

Bibliothèque du Congrès[modifier | modifier le code]

Aux États-Unis, les sujets d'en-tête de la Bibliothèque du Congrès (LCSH), ont été mis au point comme un vocabulaire contrôlé pour l'indexation du sujet et de la forme des livres et des périodiques dans la collection de la Bibliothèque du Congrès.

Aujourd'hui, la plupart des bibliothèques aux États-Unis ont adopté le système de notice d'autorité de la Bibliothèque du Congrès. À l'origine, le LCSH a été développé pour du matériel d'impression. Mais il est aussi principalement utilisé par des bibliothèques d'art ou des bibliothécaires en ce qui concerne des images animés, des objets d'art et d'architecture.

Le système de notice d'autorité de la Bibliothèque du Congrès contient approximativement quatre cent mille enregistrements de notices d'autorité maintenu par la Bibliothèque du Congrès [3].

Bibliothèque et Archives du Canada[modifier | modifier le code]

Les ressources d'information au gouvernement du Canada utilisent aussi plusieurs vocabulaires contrôlés. Pour autant que les moteurs de recherche acceptent les métadonnées, l'emploie de différents types de vocabulaires contrôlés, au sein de la description des ressources d'information sur le Web, va permettre de trouver plus facilement et efficacement l'information recherchée[9].

La Bibliothèque et Archives Canada s'est engagée de manière active au sein du développement, de la gestion et de l’utilisation de vocabulaires contrôlés pour la description des ressources Web du gouvernement du Canada. Cet engagement se présente principalement par :

  • Le développement et la mise à jour du Thésaurus des sujets de base du gouvernement du Canada
  • Le maintien du Registre des vocabulaires contrôlés du gouvernement du Canada[9]

Voir Aussi[modifier | modifier le code]

Références[modifier | modifier le code]

  1. « QUT | FIT | Controlled Vocabularies », (consulté le 17 novembre 2017)
  2. « Agricultural Information Management Standards Web site », (consulté le 17 novembre 2017)
  3. a, b, c, d, e, f et g (en) Patricia Harping, Introduction to Controlled Vocabularies: Terminologies for Art, Architecture, and Other Cultural Works, Getty, (ISBN 978-1-60606-027-8), p. 22 à 23
  4. Arlette Boulogne, Vocabulaire de la documentation, Paris, ADBS, , 334 p. (ISBN 9782843650710)
  5. (en) « Lexonomy | A Taxonomy Primer », sur www.ischool.utexas.edu (consulté le 17 novembre 2017)
  6. (en) Fred Leise, « What Is A Controlled Vocabulary? », boxesandarrows,‎ (lire en ligne)
  7. a et b « Guide d'utilisation du Dublin Core », sur www.bibl.ulaval.ca (consulté le 17 novembre 2017)
  8. « Répertoire de vedettes-matière (RVM) - Bibliothèque », sur www.bibl.ulaval.ca (consulté le 17 novembre 2017)
  9. a et b Gouvernement du Canada, « Vocabulaires contrôlés- Bibliothèque et Archives Canada », Site web,‎ (lire en ligne)