Extraction terminologique
L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.
Applications[modifier | modifier le code]
Les termes extraits par l'extracteur de termes peuvent être utilisés de plusieurs façons :
- Terminologie assistée par ordinateur : Dans ce cas, l'extracteur de termes aide le terminologue dans sa tâche en lui "prémâchant" le travail. On parle alors de candidats-termes et non de termes. Le/la terminologue dépouille la liste de candidats-termes (phase dite de dépouillement terminologique) proposés par l'extracteur et sélectionne les termes qu'il ou elle souhaite ajouter à la terminologie en cours de construction.
- Création de ressources bilingues : Une fois extraits, les termes peuvent être alignés avec leurs traductions. Ceci permet de créer des dictionnaires spécialisés/glossaires/terminologies bilingues utiles pour la traduction humaine et la traduction automatique
- Indexation automatique (Voir l'article dédié): Les termes extraits peuvent être utilisés comme descripteur ou mot-clé pour indexer des documents de façon qu'ils soient accessibles via un moteur de recherche.
- Création d'index thématiques : Les termes peuvent être utilisés comme entrées d'un index thématique que ce soit pour un livre, un manuel ou pour un site web (ex.: nuages de mots clés). Dans ce cas, ils aident le lecteur/l'internaute à s'orienter dans le document, en lui donnant un accès direct aux thématiques traitées.
Indices pour l'identification automatique des termes[modifier | modifier le code]
Les indices utilisés pour l'identification automatique de termes sont de trois sortes :
- Spécificité du terme : Le terme est bien plus courant dans le corpus spécialisé qu'il ne l'est dans un corpus de langue générale.
- Forme : Le termes sont bien souvent des syntagmes nominaux mais peuvent aussi être des syntagmes verbaux ou adjectivaux. Dans tous les cas, on s'attachera à reconnaître un syntagme bien formé, le plus souvent en s'appuyant sur des patrons morpho-syntaxiques.
- Cohésion : Si le terme est composé de plusieurs mots, ceux-ci montrent un fort degré de cohésion, c'est-à-dire qu'ils apparaissent fréquemment ensemble (on dit qu'ils cooccurrent fréquemment).
Généralement, l'extracteur de termes prend en entrée un corpus pré-traité : les textes du corpus ont été découpés en phrases, les phrases sont découpées en mots et les mots ont été étiquetés.
Voir aussi[modifier | modifier le code]
Liens externes[modifier | modifier le code]
Sites traitant de l'extraction terminologique[modifier | modifier le code]
Quelques extracteurs[modifier | modifier le code]
Extracteurs plutôt destinés à l'indexation[modifier | modifier le code]
Extracteurs plutôt destinés à la terminologie assistée par ordinateur[modifier | modifier le code]
- Yatea
- BioTex, application d'extraction automatique de termes biomédicaux.
- Acabit
- TranslatedLabs