WordNet

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

WordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton depuis une vingtaine d'année[1]. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise. Des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complète à ce jour.[citation nécessaire]

La base de données ainsi que des outils sont disponibles pour téléchargement gratuit[2]. Par rapport aux outils fournis, un développeur peut aussi accéder la base de données à partir des interfaces disponibles pour de nombreux langages de programmation[Lesquels ?].

WordNet est distribué sous une licence libre[3], permettant de l'utiliser commercialement ou à des fins de recherche.

La dernière version distribuée en avril 2013 est la 3.1[2]. Cette version est par ailleurs consultable en ligne[4].

Les synsets[modifier | modifier le code]

La composante atomique sur laquelle repose le système entier est le synset (synonym set), un groupe de mots interchangeables, dénotant un sens ou un usage particulier. La version 1.7 de WordNet définit ainsi le nom commun anglais car à l'aide de cinq synsets :

  1. car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle; usually propelled by an internal combustion engine; he needs a car to get to work)
  2. car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the rails of railroad; three cars had jumped the rails)
  3. car, gondola -- (car suspended from an airship and carrying personnel and cargo and power plant)
  4. car, elevator car -- (where passengers ride up and down; the car was on the top floor)
  5. cable car, car -- (a conveyance for passengers or freight on a cable railway; they took a cable car to the top of the mountain)

Chaque synset dénote une acception différente du mot car, décrite par une courte définition. Une occurrence particulière de ce mot dénotant par exemple le premier sens (le plus courant), dans le contexte d'une phrase ou d'un énoncé, serait ainsi caractérisée par le fait qu'on pourrait remplacer le mot polysémique par l'un ou l'autre des mots du synset sans altérer la signification de l'ensemble.

Les ontologies et les relations sémantiques[modifier | modifier le code]

À l'instar d'un dictionnaire traditionnel, WordNet offre ainsi, pour chaque mot, une liste de synsets correspondant à toutes ses acceptions répertoriées. Mais les synsets ont également d'autres usages : ils peuvent représenter des concepts plus abstraits, de plus haut niveau que les mots et leurs sens, qu'on peut organiser sous forme d'ontologies. Une ontologie est un système de catégories permettant de classifier les éléments d'un univers. Le système de catégorisation correspond aux relations sémantiques. Ceci permet de regrouper de manière cohérente toutes les composantes d'un univers linguistique telles que les mots, les sens ou bien les concepts.

La relation sémantique servant de critère pour l'agrégation d'un groupe de concepts définira le type de l'ontologie. WordNet répertorie ainsi une grande variété de relations sémantiques permettant d'organiser le sens des mots (et donc par extension les mots eux-mêmes) en des systèmes de catégories qu'on peut consulter de manière cohérente et uniforme. On pourra ainsi interroger le système quant aux hyperonymes d'un mot particulier. À partir par exemple du sens le plus commun du mot car (correspondant au synset 1. car, auto...) la relation d'hyperonymie définit un arbre de concepts de plus en plus généraux :

  1. car, auto, automobile, machine, motorcar
    • motor vehicle, automotive vehicle
      • vehicle
        • conveyance, transport
          • instrumentality, instrumentation
            • artifact, artefact
              • object, physical object
                • entity, something

Dans cet exemple, le dernier concept, « entité, quelque chose », est le plus général, le plus abstrait. Il pourrait ainsi être le super-concept d'une multitude de concepts plus spécialisés.

On peut également interroger le système quant à la relation inverse de l'hyperonymie, l'hyponymie. WordNet offre en fait une multitude d'autres ontologies, faisant usage de relations sémantiques plus spécialisées et restrictives. On peut ainsi interroger le système quant aux méronymes d'un mot ou d'un concept, les parties constitutives d'un objet (HAS-PART). Les méronymes associés au sens car, auto... du mot car sont :

  1. car, auto, automobile, machine, motorcar
    • HAS PART: accelerator, accelerator pedal, gas pedal, gas, throttle, gun
    • HAS PART: air bag
    • HAS PART: auto accessory
    • HAS PART: automobile engine
    • HAS PART: automobile horn, car horn, motor horn, horn
    • (...)

On peut aussi consulter le système quant à la relation inverse, l'holonymie, ou encore pour les relations de synonymie et d'antonymie.

Structure[modifier | modifier le code]

Le lexique de WordNet est séparé en quatre grandes super-catégories lexicales : les noms, les verbes, les adjectifs et les adverbes. Les noms sont ainsi classés en un système de catégories complet et précis comprenant plusieurs niveaux d'imbrication. On retrouve notamment certaines sections de cette ontologie où la profondeur dépasse 10 niveaux.

Limitations[modifier | modifier le code]

On retrouve en revanche un système de classification beaucoup moins élaboré pour les verbes, qui sont organisés en un système hiérarchique beaucoup plus « plat » avec moins de niveaux d'imbrication, où on passe très rapidement d'un concept spécialisé (le sens operate, run du verbe running, par exemple) à un concept très général (control, command).

Si on examine par conséquent l'ontologie générée par la relation d'hyperonymie, il est notable qu'elle est la plus complète dans son embranchement nominal.[réf. nécessaire]

À ce jour[Quand ?], il n'y a aucune catégorisation hiérarchique définie pour les embranchements des adjectifs et des adverbes. Ce déséquilibre potentiellement problématique se retrouve à l'intérieur même des super-catégories, où il est beaucoup plus apparent dans la branche nominale : certains mots[Lesquels ?] sont ainsi liés à une grande chaîne de concepts finement graduée, tandis que d'autres sont très proches des concepts les plus généraux.

Les usages[modifier | modifier le code]

Les ressources WordNet (dont la ressource originale anglaise fait partie) jouissent d'une bonne popularité auprès de la communauté scientifique et des industriels du traitement de la langue. La Global Wordnet Conference (GWC)[5], organisée tous les deux ans, vise à rassembler les personnes de ces deux communautés afin de partager sur les avancées des Wordnet à travers le monde.

La richesse et la précision de Wordnet en font un outil de choix, susceptible d'être mis à profit par une multitude de techniques et de théories diverses[Lesquelles ?].

Son utilisation fait en sorte de procurer aux algorithmes et applications une importante plateforme de connaissances a priori du langage et du monde dans lequel il s'articule.

Métriques heuristiques[modifier | modifier le code]

Un exemple particulièrement représentatif et ingénieux de son utilisation est donné par les métriques heuristiques de « distance sémantique » entre les concepts d'une ontologie particulière, basées sur la distance à parcourir dans le graphe. Cette distance peut permettre de quantifier par exemple la similarité de deux concepts. Elle peut également servir à faire de la désambigüisation.

État[modifier | modifier le code]

WordNet est un système d'une étonnante ampleur : la version 2.1 répertorie plus de 200 000 mots de classes ouvertes, pour lesquelles l'ajout d'éléments lexicaux est possible, ainsi que plus de 115 000 synsets. Pourtant, son statut de projet « en développement »[citation nécessaire] implique toutefois que certaines de ses composantes sont incomplètes. À chaque nouvelle version, le lexique s'enrichit de nouveaux mots, et des relations sémantiques sont ajoutées, modifiées, ou encore rendues désuètes.[réf. souhaitée]

WordNet étant un logiciel libre, celui-ci comprend, outre les définitions des mots, l’ensemble des sources utiles pour l’accès aux données du dictionnaire.

Dans d'autres langues[modifier | modifier le code]

Il existe des projets similaires pour d'autres langages.

Langue française[modifier | modifier le code]

Le Wordnet Libre du Français (WOLF) est une ressource linguistique généraliste libre pour le français issue d'une traduction automatique de Wordnet 3 (depuis la version 0.2.5[6]). Il a été initié le 15 février 2008[7] et est à ce jour encore en version bêta (version 1.0 bêta publiée en octobre 2012)[8]. Il est à noter que ce projet bénéficie à présent d'une validation manuelle partielle des littéraux qu'il contient[9].

Langues européennes[modifier | modifier le code]

Le projet EuroWordnet développé entre 1996 et 1999[10] a permis la constitution de ressources "Wordnet" pour l'anglais (extension de Wordnet 1.5), le hollandais, l'italien, l'espagnol, l'allemand, le français, le tchèque et l'estonien. Il est à noter que ces "Wordnet" ne sont pas libres et leurs licences sont payantes : l'ELDA/ELRA se charge de les commercialiser [11].

Autres Langues[modifier | modifier le code]

La Global Wordnet Association (GWA) recense au total une petite centaine de "Wordnet" dans différentes langues à travers le monde [12].

Nous citerons ainsi le projet BalkaNet [13] qui a permis la construction de six "Wordnet" pour le bulgare, le tchèque, le grec, le roumain, le turque et le serbe.

Notes et références[modifier | modifier le code]

  1. George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41
  2. a et b http://wordnet.princeton.edu/wordnet/download/
  3. http://wordnet.princeton.edu/wordnet/license/
  4. http://wordnetweb.princeton.edu/perl/webwn
  5. http://www.globalwordnet.org/gwa/gwa_conferences.html
  6. https://gforge.inria.fr/frs/shownotes.php?release_id=7689
  7. Sagot Benoît et Fišer Darja (2008). Construction d'un wordnet libre du français à partir de ressources multilingues. In TALN 2008, Avignon, France
  8. https://gforge.inria.fr/projects/wolf/
  9. https://gforge.inria.fr/frs/shownotes.php?release_id=7690
  10. http://www.illc.uva.nl/EuroWordNet/
  11. http://www.elda.org/catalogue/fr/text/M0015.html
  12. http://globalwordnet.org/?page_id=38
  13. http://www.dblab.upatras.gr/balkanet/index.htm

Liens externes[modifier | modifier le code]