Wikimeta

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Wikimeta

Informations
Dernière version 1.8 ()
Environnement Service Web, Java (langage), Perl (langage)
Type Web sémantique, Web des données (Linked Data)
Site web www.wikimeta.com/fr

Wikimeta est un outil d'annotation de texte compatible avec le Web sémantique utilisant les ressources de DBpedia en tant que liens documentaires. Il est disponible exclusivement en tant que service Web, non libre mais gratuitement accessible pour les chercheurs. C'est également un système d'annotation offrant des fonctionnalités de traitement automatique du langage tels que les entités nommées ou l'étiquetage grammatical[1].

Historique[modifier | modifier le code]

Wikimeta est une plateforme d'annotation sémantique dont le développement a commencé en 2008 au Laboratoire Informatique d'Avignon. L'origine du projet repose sur l'élaboration d'une ontologie statistique dérivée de Wikipédia intitulée NLGbAse et dont la finalité est d'aider à la mise au point de système de désambiguïsation pour l'étiquetage d'entités nommées[1]. Un système d'étiquetage d'entités nommées fut mis au point et présenté lors de la campagne Ester[2]. Ce système fut ensuite complété par un étiqueteur sémantique compatible avec les formats et standards du Web sémantique. Une preuve de concept fut présentée à la conférence TALN en 2011[3]. Le développement d'une plateforme d’annotation sémantique complète fut ensuite réalisé. Cette plateforme d'annotation repose largement sur l'ontologie NLGbAse. Actuellement cette plateforme est maintenue par un laboratoire de recherche privé. Si le projet n'est pas libre, ses revenus sont néanmoins utilisés pour fournir des accès gratuits aux étudiants ainsi qu'assurer la maintenance et l'hébergement de l'ontologie NLGbAse qui elle demeure intégralement libre[1].

Technologie[modifier | modifier le code]

Article connexe : annotation sémantique.

La plateforme repose sur l'utilisation d'un détecteur d'entités nommées reconnaissant les entités de la campagne Ester. Les étiquettes consistent en des références à des classes d'entités nommées (normalisées d'après la taxonomie Ester). Ce premier niveau d'étiquetage permet de localiser dans le texte les noms de personnes de lieu ou encore de produits (étiquettes ORG, LOC, PERS).

La plateforme fournit également en sortie des étiquettes grammaticales. Elle permet donc de procéder à du forage de texte en détectant dans par exemple les verbes, les adjectifs, etc. Le jeu d'étiquetage utilisé répond au standard du Pen TreeBank[4].

Dans un second temps, le système fait entrer en jeu ses capacités sémantiques en associant aux étiquettes d'entités nommées une URI pointant vers un dépôt du web sémantique. L'annotation sémantique exploite l'ontologie libre de désambiguïsation NLGbAse. Ce choix permet d'apposer des liens sémantiques vers les ressources de DBpedia ainsi que vers des ressources du réseau Linked Data du Web de données. Ces ressources complémentaires sont notamment World Factbook de la CIA ainsi que GeoNames [1],[5].

Langues supportées[modifier | modifier le code]

Le système est prévu pour traiter nativement des textes en français, anglais et espagnol, avec des modèles de désambiguïsation spécifiquement calculés pour chaque langue, en utilisant les dumps des éditions correspondantes de Wikipédia[1].

Accès et formats[modifier | modifier le code]

La plateforme est fournie sous la forme d'un service web accessibles via des appels en Java, Perl, Php ou Python. Les annotations apposées sur le texte (entités nommées, étiquettes grammaticales, liens sémantiques) sont retournées au format JSon ou XML[6]. Issue du milieu académique, la plateforme offre un accès gratuit et illimité pour les étudiants et les travaux de laboratoire.

L'ontologie de désambiguïsation qu'elle utilise est entièrement libre, diffusée sous licence Creative Commons[7].

Usages[modifier | modifier le code]

L'annotateur peut être utilisé pour ses capacités sémantiques ou de traitement automatique du langage. Il a notamment fait l'objet d'un développement primé intitulé Zone Project consistant à enrichir de contenus sémantiques des flux RSS[8].

Références[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Voir aussi[modifier | modifier le code]