Reconnaissance d'entités nommées

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Ne doit pas être confondu avec Annotation sémantique.

La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.

Principe[modifier | modifier le code]

À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC:

Henri a acheté 300 actions de la société AMD en 2006
<ENAMEX TYPE="PERSON">Henri</ENAMEX> a acheté <NUMEX TYPE="QUANTITY">300</NUMEX> actions de la société <ENAMEX TYPE="ORGANIZATION">AMD</ENAMEX> en <TIMEX TYPE="DATE">2006</TIMEX>.

Le texte de cet exemple est étiqueté avec des balises XML, respectant le standard d'étiquetage ENAMEX.

La plupart des systèmes d'étiquetages utilisent des grammaires formelles associées à des modèles statistiques, éventuellement complétées par des bases de données (listes de prénoms, de noms de villes ou de pays par exemple). Dans les grandes campagnes d'évaluation, les systèmes à bases de grammaires rédigées manuellement obtiennent les meilleurs résultats. L'inconvénient est que les systèmes de ce type requièrent parfois des mois de travail de rédaction[1].

Les systèmes statistiques actuels utilisent pour leur part une grande quantité de données pré-annotées pour apprendre les formes possibles des entités nommées. Il n'est plus nécessaire ici de rédiger de nombreuses règles à la main, mais d'étiqueter un corpus qui servira d'outil d'apprentissage. Ces systèmes sont donc eux aussi très coûteux en temps humain. Pour résoudre ce problème, récemment, des initiatives telles que DBpedia ou Yago cherchent à fournir des corpus sémantiques susceptibles d'aider à concevoir des outils d'étiquetage. Dans le même esprit, certaines ontologies sémantiques telles que NLGbAse sont largement orientées vers l'étiquetage.

Depuis 1998, l'annotation des entités nommées dans des textes rencontre un intérêt croissant. De nombreuses applications y font appel, pour la recherche d'information ou plus généralement la compréhension de documents textuels. En France, des programmes de recherche y ont été dédié, comme ESTER et plus récemment ETAPE. L'extension des entités nommées à diverses expressions linguistiques (hors noms propres) en fait un champ actif de recherches [2],[3].

Normes d'étiquetage[modifier | modifier le code]

Il n'existe pas à proprement parler de normes d'étiquetage. Les étiquettes sont largement orientées en fonction du besoin applicatif : on retrouvera généralement les classes d'étiquettes racines de type Personne, Organisation, Produit, Lieux, auxquelles s'ajoutent les étiquettes des durée et de quantité (time et amount).

Un second niveau hiérarchique est ensuite adjoint à ces entités racine : Organisation.Commerciale et Organisation.Non-profit par exemple, permettent d'affiner la description des entités.

Dans les campagnes récentes (Ester 2 et Automatic Content Extraction (ACE) on trouve 5 à 6 classes racines, et un total de 40 à 50 classes avec les sous-sections d'étiquetage. Certains systèmes de moteurs de question réponse (qui utilisent les entités nommées) peuvent recourir à plusieurs centaines de classes.

Évaluation[modifier | modifier le code]

L'évaluation des systèmes est réalisée dans le cadre de campagnes scientifiques majoritairement Nord Américaines. On citera la Message Understanting Conference, la campagne Automatic Content Extraction (ACE) organisées par le NIST, et les campagnes DUC en Europe.

En France, la campagne de référence est la campagne scientifique ESTER: les éditions 1 et 2 de ces campagnes comportent des sections relatives aux entités nommées. Elles ont pour particularité de proposer un étiquetage en partie sur des sorties de systèmes de transcription audio en text (Broadcat News) bruitées et non préparées. La tâche est donc plus complexe puisqu'un certain nombre d'éléments (les majuscules des noms propres par exemple) n'existent plus et ne peuvent donc plus être utilisés pour repérer des entités.

Le principe de ces campagnes est de fournir un corpus d'entraînement pour adapter le système à la tâche d'étiquetage, et un corpus de test pour mesurer ses performances. Dans ces campagnes, les systèmes obtiennent régulièrement des scores F-Mesure (voir Précision et rappel) supérieurs à 90 % (de l'ordre de 95 % lors des campagnes récentes), alors que les annotateurs humains obtiennent des scores supérieurs ou proches de 97 %.

On doit néanmoins considérer ce niveau de performance avec recul : les tâches d'évaluation proposées sont fermées et spécialisées. Les systèmes d'étiquetage automatisés et capables d'étiqueter avec fiabilité n'importe quel corpus avec un faible temps d'apprentissage et d'intervention humaine restent à inventer.

Dans des conditions ouvertes (n'importe quel document fourni à un étiqueteur sans apprentissage), les meilleurs systèmes sont rarement au-dessus de 50 % de performances.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens Internes[modifier | modifier le code]

Campagnes d'évaluation

Liens externes[modifier | modifier le code]

Campagnes d'évaluation

Outils et logiciels d'étiquetage libres[modifier | modifier le code]

Logiciels
  • Stanford NER Logiciel d'étiquetage open source en JAVA à base de CRF pour l'anglais.
  • LIA_NE Logiciel d'étiquetage open source à base de CRF pour l'anglais et le français.
  • Synapse Développement Bibliothèque d'étiquetage pour le français et anglais.
  • mXS Système d'annotation des entités nommées (par règles d'annotation automatiquement extraites et paramétrées)
API
  • Wikimeta Api et interfaces en ligne d'un étiqueteur d'entités nommées anglais, français et espagnol.
  • OpenCalais Api de l'étiqueteur en anglais de Thomson Reuters.
  • démo français Démo et Api de l'étiqueteur en français de CELI.

Notes et références[modifier | modifier le code]

  1. Lire (fr) Évaluation des systèmes d'extraction d'information : une expérience sur le français, Thierry Poibeau, Document Thomson-CSF/LCR, pp. 4-5.
  2. Lire (fr) Les Entités Nommées, de la linguistique au TAL, Maud Ehrmann, Thèse de doctorat
  3. Lire (fr) Reconnaissance des entités nommées par exploration de règles d'annotation., Damien Nouvel, Thèse de doctorat.