Extraction terminologique

Un article de Wikipédia, l'encyclopédie libre.

L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.

Applications[modifier | modifier le code]

Les termes extraits par l'extracteur de termes peuvent être utilisés de plusieurs façons :

  • Terminologie assistée par ordinateur : Dans ce cas, l'extracteur de termes aide le terminologue dans sa tâche en lui "prémâchant" le travail. On parle alors de candidats-termes et non de termes. Le/la terminologue dépouille la liste de candidats-termes (phase dite de dépouillement terminologique) proposés par l'extracteur et sélectionne les termes qu'il ou elle souhaite ajouter à la terminologie en cours de construction.
  • Création de ressources bilingues : Une fois extraits, les termes peuvent être alignés avec leurs traductions. Ceci permet de créer des dictionnaires spécialisés/glossaires/terminologies bilingues utiles pour la traduction humaine et la traduction automatique
  • Création d'index thématiques : Les termes peuvent être utilisés comme entrées d'un index thématique que ce soit pour un livre, un manuel ou pour un site web (ex.: nuages de mots clés). Dans ce cas, ils aident le lecteur/l'internaute à s'orienter dans le document, en lui donnant un accès direct aux thématiques traitées.

Indices pour l'identification automatique des termes[modifier | modifier le code]

Les indices utilisés pour l'identification automatique de termes sont de trois sortes :

  • Spécificité du terme : Le terme est bien plus courant dans le corpus spécialisé qu'il ne l'est dans un corpus de langue générale.
  • Forme : Le termes sont bien souvent des syntagmes nominaux mais peuvent aussi être des syntagmes verbaux ou adjectivaux. Dans tous les cas, on s'attachera à reconnaître un syntagme bien formé, le plus souvent en s'appuyant sur des patrons morpho-syntaxiques.
  • Cohésion : Si le terme est composé de plusieurs mots, ceux-ci montrent un fort degré de cohésion, c'est-à-dire qu'ils apparaissent fréquemment ensemble (on dit qu'ils cooccurrent fréquemment).

Généralement, l'extracteur de termes prend en entrée un corpus pré-traité : les textes du corpus ont été découpés en phrases, les phrases sont découpées en mots et les mots ont été étiquetés.

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Sites traitant de l'extraction terminologique[modifier | modifier le code]

Quelques extracteurs[modifier | modifier le code]

Extracteurs plutôt destinés à l'indexation[modifier | modifier le code]

Extracteurs plutôt destinés à la terminologie assistée par ordinateur[modifier | modifier le code]