Évaluation des systèmes de transcription enrichie d'émissions radiophoniques

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Page d'aide sur l'homonymie Pour les articles homonymes, voir Ester (homonymie).

ESTER est une campagne d'évaluation scientifique francophone organisée depuis 2005. Ce projet, initialement connu sous le nom EVALDA / ESTER a été mis en place en France par l'AFCP (Association française de la communication parlée), la Délégation générale pour l'Armement et la European Language Resources Association.

Contexte[modifier | modifier le code]

La transcription de flux audios (enregistrements radiophoniques, de réunions) en textes écrits est un enjeu important pour le domaine de l'archivage, de la recherche d'information, mais aussi dans un contexte d'enquêtes judiciaires ou de contre-espionnage. Pendant longtemps, cette activité du domaine du traitement et analyse de la langue orale et écrite s'est heurté à un manque de capacité de calculs des systèmes d'information. Mais dès les années 90, la performance des systèmes informatiques a rendu envisageable l'automatisation de ce type de tâches.

Aux États-Unis, dès 1996, le DARPA, relayé par NIST, ont rapidement organisé une évaluation annuelle des systèmes de transcription d'émissions pour inciter les laboratoires à s'investir dans cette activité, et créer une communauté de chercheurs.

Plus récemment (1999-2002), ces campagnes ont été complétées par des évaluations annuelles de méthodes d'extraction automatique de contenu qui incluent notamment la détection des entités nommées dans des transcriptions automatiques d'émissions (campagnes ACE du National Institute of Standards and Technology notamment). Le National Institute of Standards and Technology a par ailleurs organisé des campagnes concernant la vérification du locuteur et la segmentation de données audio selon le locuteur depuis 1996, et plus récemment des campagnes d'évaluation pour la détection de langue.

Cet ensemble d'axes de recherche a des applications directes immédiates dans le domaine militaire, policier et de renseignement, et à terme dans des applications dédiées à un plus large public.

Ces deux familles de campagnes, menées principalement avec des données en langue anglaise, puis ultérieurement avec d'autres langages (espagnol, arabe), par leur unicité, ont pendant longtemps servi de référence aux laboratoires de recherches français. C'est pour offrir à ces derniers une campagne et des matériaux de recherche francophones, que les campagnes ESTER ont été lancées.

Objectifs[modifier | modifier le code]

Pour maintenir et stimuler une communauté de chercheurs francophones actifs dans ces domaines, le projet EVALDA / ESTER a été mis en place en France par l'AFCP (Association française de la communication parlée, qui regroupe des chercheurs de tous les laboratoires publics en pointe sur ce domaine tels que le LIMSI ou le LIA) et la Délégation générale pour l'Armement[1]. Un troisième partenaire, the European Language Resources Association (ELRA), assure la prise en charge des aspects liés à la distribution des ressources et des métriques utilisées dans cette campagne.

Les campagnes ESTER - reprenant le modèle des évaluations NIST - visent à mesurer plusieurs points des systèmes de transcription et d'étiquetage de corpus audio numériques. Des heures d'enregistrement radiophoniques sont complétées par un ensemble d'informations complémentaires telles qu'une transcription manuelle en texte (à des fins de vérification des systèmes) et annexes, telles que le découpage automatique en tours de paroles, le marquage des entités nommées. Sont mesurées:

Pour les systèmes proposés par les laboratoires ou des entreprises, cette campagne permet d'obtenir une référence des niveaux de performances actuels de chacune des composantes d'un système d'indexation, tout en donnant une idée des performances du système complet.

Campagnes[modifier | modifier le code]

ESTER 1[modifier | modifier le code]

La première campagne, ESTER 1, a été financé par le Ministère de la Recherche dans le cadre du projet EVALDA. Organisée en deux phases, cette première campagne s'est terminée par une campagne de test menée en janvier 2005.

ESTER 2[modifier | modifier le code]

La deuxième campagne ESTER, a démarré fin janvier 2008, et s'est achevée en avril 2009. Son premier objectif était de mesurer les progrès effectués depuis ESTER 1 et de lancer de nouveaux axes de recherche. L'accent a en particulier mis sur la tâche d'étiquetage par entités nommées. Cette campagne était organisée par la Direction Générale à l'Armement, l'Association Francophone de la Communication Parlée, et l'ELDA.

Liens externes[modifier | modifier le code]

  • [1] Site officiel de la campagne ESTER

Références[modifier | modifier le code]