Étiquetage morpho-syntaxique

Un article de Wikipédia, l'encyclopédie libre.
C’est une image en language italien

En linguistique, l'étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l'aide d'un outil informatique[1],[2].

Exemple[modifier | modifier le code]

  • Texte original : Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique.
  • Texte étiqueté : Nous/PRO:PER sommes/VER:pres allées/VER:pper en/PRP/en Bretagne/NAM contempler/VER:infi de/PRP magnifiques/ADJ allées/NOM couvertes/VER:pper du/PRP:det Néolithique/NAM ./SENT

Logiciels[modifier | modifier le code]

Les étiqueteurs grammaticaux sont très nombreux pour les langues saxonnes mais plus rares pour le français. Quelques étiqueteurs sont accessibles avec un modèle pour le français prêt à l'emploi comme le TreeTagger, LIA Tagg du Laboratoire informatique d'Avignon, Cordial Analyseur de Synapse Développement ou le Stanford Tagger de l'Université Stanford. De nombreux autres logiciels peuvent fonctionner pour le français mais doivent être entraînés sur un corpus français pré-étiqueté : le French Treebank[3] ou le corpus Sequoia[4] peuvent être utilisés dans ce sens. C'est le cas du logiciel Talismane, proposant une analyse morpho-syntaxique avec des modèles entrainés sur le French Treebank[5].

Notes et références[modifier | modifier le code]

  1. Valli A., Véronis J. Étiquetage grammatical des corpus de parole : problèmes et perspectives. Revue française de linguistique appliquée, Vol. 4, No. 2. (1999), pp. 113-133
  2. Adda, G., Mariani, J., Paroubek, P., Rajman, M., & Lecomte, J. (1999). L'action GRACE d'évaluation de l'assignation des parties du discours pour le français. Langues, 2(1), 119-129
  3. « Corpus arboré pour le français », sur cnrs.fr (consulté le ).
  4. (en) « Site web Alpage : CorpusSequoia », sur inria.fr (consulté le ).
  5. « REDAC : Talismane », sur redac.univ-tlse2.fr (consulté le )

Liens externes[modifier | modifier le code]