Étiquetage morpho-syntaxique

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En linguistique, l'étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l'aide d'un outil informatique[1],[2].

Exemple[modifier | modifier le code]

Texte original 
Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique.
Texte étiqueté 
Nous/PRO:PER sommes/VER:pres allées/VER:pper en/PRP/en Bretagne/NAM contempler/VER:infi de/PRP magnifiques/ADJ allées/NOM couvertes/VER:pper du/PRP:det Néolithique/NAM ./SENT

Logiciels[modifier | modifier le code]

Les étiqueteurs grammaticaux sont très nombreux pour les langues saxonnes mais plus rares pour le français. Quelques étiqueteurs sont accessibles avec un modèle pour le français prêt à l'emploi comme le TreeTagger, LIA Tagg du Laboratoire Informatique d'Avignon, Cordial Analyseur de Synapse Développement ou le Stanford Tagger de l'Université Stanford (attention les modèles peuvent être sous licence). De nombreux autres logiciels peuvent fonctionner pour le français mais doivent être entraînés sur un corpus français pré-étiqueté : le French Treebank[3] ou le corpus Sequoia[4] peuvent être utilisés dans ce sens.

Notes et références[modifier | modifier le code]

  1. Valli A., Véronis J. Étiquetage grammatical des corpus de parole : problèmes et perspectives. Revue française de linguistique appliquée, Vol. 4, No. 2. (1999), pp. 113-133
  2. Adda, G., Mariani, J., Paroubek, P., Rajman, M., & Lecomte, J. (1999). L'action GRACE d'évaluation de l'assignation des parties du discours pour le français. Langues, 2(1), 119-129
  3. http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php
  4. https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=CorpusSequoia

Liens externes[modifier | modifier le code]