Entité nommée

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Une entité nommée est une expression linguistique référentielle[1], souvent associée aux noms propres et aux descriptions définies.

Cet objet du langage a émergé avec le besoin d'applications de recherche d'information, en particulier lors des campagnes MUC financées par la DARPA, dans les années 90 aux États-Unis[2]. Dans ce contexte, les entités nommées peuvent être considérées comme ayant une visée essentiellement applicative[3]. Elles peuvent être objet de traitements à divers degrés de finesse[4] (détection, extraction, reconnaissance, liaison) et nécessitent généralement d'importante ressources (par exemple des bases lexicales). Elles sont l'objet d'une tâche du Traitement automatique du langage naturel appelée Reconnaissance d'entités nommées.

Appréhension historique[modifier | modifier le code]

Dans le cadre des travaux en recherche d'information, la capacité pour une machine de comprendre et d'indexer correctement un document est devenu un enjeu majeur. Parmi les objets du langage particulièrement sollicités figurent :

  • Les personnes (ou anthroponymes) : entités humaines, réelles ou fictives, contemporaines ou historiques,
  • Lieux (ou toponymes) : entités localisées géographiquement,
  • Organisations (ou ergonymes) : sociétés, institutions, gouvernements, etc.

Traitement et difficultés[modifier | modifier le code]

Exploiter les entités nommées est maintenant devenu un élément incontournable d'un grand nombre de processus impliquant le traitement automatique du langage naturel ou la fouille de textes[5]. Cela nécessite généralement d'utiliser des base lexicales volumineuses, aussi exhaustives que possible, des entités à référencer, de concert avec des méthodes contextuelles permettant de déterminer quelle entité est mentionnée dans un texte donné.

Les entités nommées sont sujettes, entre autres, à trois phénomènes compliquant leur reconnaissance et leur liaison : la synonymie (il peut y avoir de nombreuses expressions pour une entité donnée), l'homonymie (une expression linguistique donnée peut être associée à des entités distinctes selon le contexte) et la métonymie (une expression linguistique, dans un contexte donnée, peut être associée à une entité différente ce celle qu'elle désigne habituellement).

Par ailleurs, les entités nommées sont réputées être une classe ouverte : il est impossible d'en faire une liste complète, et de nouvelles entités (ou dénomination d'entités) sont continuellement crées. Leur traitement est ainsi d'autant plus difficile que l'on cherche à reconnaître des entités rares ou nouvelles (donc absentes de la base lexicales). Ceci explique que les exemples pédagogiques ne puissent rendre pas compte de la difficulté de la tâche lorsque l'on sort du domaine général.

Les dernières évolutions en matière de traitement des entités nommées se tournent vers la liaison de ces dernières à un référentiel (par exemple dbpedia) : il s'agit non seulement de déterminer quelle est la catégorie d'une expression linguistique, mais également quel individu d'une base de connaissances est mentionné (ce qui résout le cas particulier des homonymes).

Notes et références[modifier | modifier le code]

  1. Michel Charolles, La référence et les expressions référentielles en français, Ophrys, (ISBN 9782708010147, lire en ligne)
  2. (en) Ralph Grishman et Beth Sundheim, « Design of the MUC-6 evaluation », Tipster'96 Proceedings,‎
  3. Maud Ehrmann, Les entités nommées, de la linguistique au TAL : statut théorique et méthodes de désambiguïsation,
  4. Damien Nouvel, Maud Ehrmann et Sophie Rosset, Les entités nommées pour le traitement automatique des langues (ISBN 978-1-78405-104-4)
  5. Damien Nouvel, Reconnaissance des entités nommées par exploration de règles d'annotation,