Segmentation (linguistique)

Un article de Wikipédia, l'encyclopédie libre.

La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer.

Le principe est de segmenter une chaîne de caractères en mots (ou éléments sémantiques). Cette opération est très sensible car une mauvaise segmentation entraine des problèmes d'interprétation du document, notamment si certains mots ne sont pas correctement indexés voire perdus. Dans la langue française, bien que les espaces, apostrophes et signes de ponctuation délimitent souvent des mots aisément identifiables, certains types de mots peuvent poser problème :

  • Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "}
  • Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes
  • Les formes contractés : " M'sieur " etc.

Chaque langue a ainsi ses spécificités à prendre en compte. Pour l'allemand, ce sera le fait que les noms composés s’écrivent sans espaces et donc complexifie l'étape de segmentation. Pour les langues chinoises, le défi est d'autant plus grand qu'il n'y a aucun espace entre les caractères pour faciliter cette segmentation (qui est actuellement un défi majeur pour réussir une indexation efficace, la méthode la plus utilisée étant la séparation en groupe de caractères[1], qui reste une méthode grandement améliorable).

Bibliographie[modifier | modifier le code]

Massih-Reza AMINI - Éric GAUSSIER, Recherche d'information : Applications, modèles et algorithmes, Paris, Eyrolles, , 256 p. (ISBN 978-2-212-13532-9, lire en ligne), page 10-12

Liens externes[modifier | modifier le code]

« TreeTagger - a language independent part-of-speech tagger » - Lien vers TreeTagger, un outil permettant la segmentation d'un texte.

Notes et références[modifier | modifier le code]