Web sémantique

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Logo du W3C pour le Web sémantique

Le Web sémantique, ou toile sémantique[1], est un mouvement collaboratif mené par le World Wide Web Consortium (W3C)[2] qui favorise des méthodes communes pour échanger des données.

Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà[3].

Selon le W3C, « le Web sémantique fournit un Modèle qui permet aux données d'être partagées et réutilisées entre plusieurs applications, entreprises et groupes d'utilisateurs »[3].

L'expression a été inventée par Tim Berners-Lee[4], l'inventeur du World Wide Web et directeur du World Wide Web Consortium (« W3C »), qui supervise le développement des technologies communes du Web sémantique. Il définit le Web sémantique comme « un web de données qui peuvent être traitées directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances ».

Alors que ses détracteurs ont mis en doute sa faisabilité, ses promoteurs font valoir que les recherches dans l'industrie, la biologie et les sciences humaines ont déjà prouvé la validité du concept original. Les chercheurs ont exploré le potentiel sociétal du web sémantique dans l'industrie et le secteur de la santé[5]. L'article original de Tim Berners-Lee en 2001 dans le Scientific American a décrit une évolution attendue du Web existant vers un Web sémantique[6], mais cela n'a pas encore eu lieu. En 2006, Tim Berners-Lee et ses collègues ont déclaré : « Cette idée simple… reste largement inexploitée. »[7]

Historique[modifier | modifier le code]

Le concept du « modèle de réseau sémantique » a été inventé dans les années 1960 par le chercheur en sciences cognitives Allan Collins (en), le linguiste Ross Quillian (en) et la psychologue Elizabeth Loftus, et exposé dans diverses publications[8], [9],[10], [11], [12], comme manière de représenter des connaissances structurées. Ce modèle étend le réseau de liens hypertextes des pages Web lisibles humainement par l'insertion de métadonnées lisibles par la machine sur les pages et la manière dont ils sont liés les uns aux autres, permettant à des agents d'accéder au Web de manière plus intelligente et effectuer des tâches pour le compte d'utilisateurs.

L'expression « Web sémantique » a été inventée par Tim Berners-Lee[4], l'inventeur du World Wide Web et directeur du World Wide Web Consortium (« W3C »), qui supervise le développement des recommandations du Web sémantique.

La plupart des technologies proposées par le W3C existaient déjà avant. Celles-ci sont utilisées dans des contextes différents, en particulier celles relatives à l'information qui englobe un domaine limité et défini, et où le partage de données est une nécessité commune, tels que la recherche scientifique ou l'échange de données entre les entreprises. En outre, d'autres technologies ayant des objectifs similaires ont vu le jour, telles que les microformats.

Objectif[modifier | modifier le code]

Le but principal du Web sémantique est d'orienter l'évolution du Web pour permettre aux utilisateurs sans intermédiaires de trouver, partager et combiner l'information plus facilement. Les êtres humains sont capables d'utiliser le Web pour effectuer des tâches telles que trouver le mot Paris pour réserver un livre à la bibliothèque, trouver un plan et réserver son billet de transport. Cependant, les machines ne peuvent pas accomplir toutes ces tâches sans direction humaine, parce que les pages web sont conçues pour être lues uniquement par des personnes et non par des machines. Le Web sémantique est une vision de l'information qui permet d'être lisible par les humains et par les machines. Cela permettra d'effectuer les travaux fastidieux et répétitifs dans le domaine de la recherche d'information par des machines tout en améliorant et consolidant l'information sur le Web pour ses utilisateurs.

Le Web sémantique, comme prévu initialement, est un système qui permet aux machines de « comprendre » et de répondre aux demandes complexes de l'homme en fonction du sens de ces demandes. Une telle « compréhension » exige que les sources d'information pertinentes aient été sémantiquement structurées au préalable.

Tim Berners-Lee à l'origine exprimait la vision du Web sémantique comme suit :

I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web — the content, links, and transactions between people and computers. A “Semantic Web”, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The “intelligent agents” people have touted for ages will finally materialize.

— Tim Berners-Lee, Weaving the Web[13]

« J'ai fait un rêve pour le Web [dans lequel les ordinateurs] deviennent capables d'analyser toutes les données sur le Web — le contenu, les liens, et les transactions entre les personnes et les ordinateurs. Un « Web Sémantique », qui devrait rendre cela possible, n'a pas encore émergé, mais quand ce sera fait, les mécanismes d'échange au jour le jour, de bureaucratie et de nos vies quotidiennes seront traités par des machines dialoguant avec d'autres machines. Les « agents intelligents » qu'on nous promet depuis longtemps vont enfin se concrétiser. »

— Weaving the Web[13]

Le Web sémantique est considéré comme une passerelle pour accéder aux données entre différentes applications et systèmes. Les applications sont nombreuses dans l'édition, les blogs, et de nombreux autres domaines.

Souvent, les expressions « sémantique », « métadonnée », « ontologies » et « Web sémantique » sont utilisées de manière incohérente. En particulier, ces expressions sont utilisées tous les jours par les chercheurs et les praticiens dont la terminologie couvre un vaste paysage de technologies, de concepts et de domaines d'application. En outre, il y a une confusion entre les technologies envisagées pour le mettre en œuvre et le mouvement du Web sémantique. Dans un document présenté par Gerber, Barnard et Van der Merwe[14] le paysage du Web sémantique est tracé et un bref résumé des termes connexes et des technologies génériques sont présentés. Le modèle architectural proposé par Tim Berners-Lee est utilisé comme base pour représenter l'état des technologies actuelles et émergentes[15].

Limites du HTML[modifier | modifier le code]

Beaucoup de fichiers sur un ordinateur peuvent plus ou moins être classés en deux catégories : les documents lisibles par l'homme et les données lisibles par la machine. Des documents comme des courriers électroniques, rapports ou brochures sont lisibles pour les humains. Par contre, les données contenues dans des calendriers, carnets d'adresses, listes de lecture ou feuilles de calcul sont lisibles à condition d'utiliser une application qui permet de les lire, les fouiller et les transformer de différentes manières.

Actuellement, le World Wide Web est basé principalement sur des documents écrits en un langage de balisage hypertexte (HTML), c'est-à-dire une convention de balisage qui est utilisée pour coder un texte parsemé d'objets multimédias tels que des images et des formulaires interactifs. Les balises de métadonnées fournissent une méthode par laquelle les ordinateurs peuvent catégoriser le contenu des pages web ; par exemple :

<meta name="keywords" content="computing, computer studies, computer" />
<meta name="description" content="Cheap widgets for sale" />
<meta name="author" content="John Doe" />

Avec le HTML et un outil pour l'afficher (pouvant être un navigateur web ou un autre « agent utilisateur »), on peut créer et présenter une page qui affiche des articles à vendre. Le HTML d'une page d'un catalogue peut se faire simplement, le document contenant des affirmations telles que « le titre de ce document est “Supermarché de Gadgets” », mais le code HTML est incapable d'affirmer sans ambiguïté que, par exemple, l'article numéro X586172 est une table avec un prix de 199 €, ni qu'il s'agit d'un produit de consommation. Le HTML peut seulement dire que la plage de texte « X586172 » est quelque chose qui doit être positionné à proximité de « Meuble » et de « 199 € », etc. Il n'y a pas moyen de dire que « ceci est une page de catalogue », ni encore de dire que « Meuble » est une sorte de titre, ni même de savoir que « 199 € » est un prix. Il n'y a aucun moyen d'exprimer que ces morceaux d'information sont liés entre eux pour décrire un élément discret, distinct des autres articles qui peuvent être listés sur une même page.

HTML sémantique fait référence à l'utilisation de balises HTML pour insérer des informations supplémentaires dans le document. Par exemple, l'utilisation de l'élément HTML del désignant un contenu supprimé plutôt que strike qui se contente d'afficher un texte barré et qui ne spécifie que sa mise en forme[16]. Le HTML sémantique laisse la mise en page au navigateur en y ajoutant des feuilles de style en cascade. Mais cette pratique atteint ses limites quand il s'agit de spécifier la sémantique des objets tels que des articles à vendre.

Les microformats sont des tentatives officieuses visant également à étendre la syntaxe HTML pour qu'une machine puisse lire le balisage sémantique à propos d'objets dans un document tels que des articles à vendre ou des contacts (exemple avec hcard).

Les solutions du Web sémantique[modifier | modifier le code]

Le Web sémantique propose des langages spécialement conçus pour les données : RDF (Resource Description Framework), OWL (Ontology Web Language), et XML (eXtensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.

Ces technologies sont combinées afin de fournir des descriptions qui complètent ou remplacent le contenu des documents Web. Ainsi, le contenu peut se manifester sous forme de données descriptives stockées dans des bases de données accessibles sur le Web[17] ou à travers des balises dans les documents (via HTML ou sa variante XHTMLXML HTML —). Ces données peuvent être alors entrecoupées de XML, ou parfois publiées uniquement en XML, avec une mise en page et des données stockées séparément. Les descriptions lisibles par une machine permettent aux gestionnaires de contenu d'ajouter du sens à leurs contenus, c'est-à-dire de décrire la structure des connaissances au sein du contenu. De cette manière, une machine peut :

Voici un exemple de balise qui serait utilisé dans une page web non sémantique :

<item>cat</item>

Le codage d'informations similaires dans une page web sémantique pourrait ressembler à ceci :

<item rdf:about="http://dbpedia.org/resource/Cat">Cat</item>

Tim Berners-Lee pousse à l'émergence d'un réseau de données liées (linked data, en anglais), ou Web des données (en français), pour obtenir le Graphe Globale Géant, contrairement au Web qui est une toile mondiale basée sur des pages HTML. Tim Berners-Lee pose comme principe que si, par le passé, on partageait des documents, alors, dans l'avenir, nous partagerons des données. Sa réponse à la question « comment ? » repose sur trois piliers. Un, une URL doit pointer vers les données. Deux, n'importe qui accédant à l'URL doit pouvoir récupérer des données. Trois, les relations dans les données doivent pointer vers d'autres URL avec des données[18].

Web 3.0[modifier | modifier le code]

Article détaillé : Web 3.0.

Tim Berners-Lee a décrit le web sémantique comme une composante du Web 3.0[19] :

People keep asking what Web 3.0 is. I think maybe when you've got an overlay of scalable vector graphics — everything rippling and folding and looking misty — on Web 2.0 and access to a semantic Web integrated across a huge space of data, you'll have access to an unbelievable data resource.

— Tim Berners-Lee, A 'more revolutionary' Web, 2006, Victoria Shannon[19]

« Les gens demandent tout le temps ce qu'est le Web 3.0. Je suppose que lorsque vous aurez une superposition de dessins vectoriels — toute en vagues et en plis brumeux — décrivant le Web 2.0 et l'accès à un Web sémantique intégré dans un immense espace de données, vous aurez accès à une incroyable ressource de données. »

— A 'more revolutionary' Web, 2006, Victoria Shannon[19]

« Web sémantique » est parfois utilisé comme synonyme de « Web 3.0 », bien que la définition de chaque expression varie.

Les défis[modifier | modifier le code]

Quelques-uns des défis du Web sémantique sont l'immensité, l'imprécision, l'incertitude, l'incohérence, et la tromperie. Les systèmes de raisonnement automatisé devront faire face à toutes ces questions, afin d'être à la hauteur de la promesse du Web sémantique.

  • Immensité : Le World Wide Web contient plusieurs milliards de pages[20]. L'ontologie de la terminologie médicale SNOMED CT contient à elle seule 370 000 noms de classes, et aucune technologie existante n'a été encore en mesure d'éliminer tous les doublons du point de vue sémantique de cette ontologie. À l’avènement du Web sémantique, tous les systèmes de raisonnement automatisé devront alors gérer une quantité de paramètres vraiment énormes.
  • Imprécision : Il existe des notions imprécises comme « jeune » ou « grand ». Ceci découle de l'imprécision des requêtes des utilisateurs qui s'alignent sur les termes utilisés par les fournisseurs de contenu. Les fournisseurs ayant des bases de connaissances qui se chevauchent, recréent cependant différents concepts avec des différences subtiles. La logique floue est la technique la plus courante pour faire face à l'imprécision.
  • Incertitude : Ce sont des concepts précis avec des valeurs incertaines. Par exemple, un patient peut présenter un ensemble de symptômes qui correspondent à un certain nombre de diagnostics différents, chacun avec une probabilité différente. Les techniques de raisonnement probabiliste sont généralement employés pour traiter l'incertitude.
  • Incohérence : Ce sont des contradictions logiques qui surgiront inévitablement au cours du développement des grandes ontologies, et quand les ontologies à partir de sources distinctes seront combinées. Le raisonnement déductif échouera face à cette incohérence parce que d'une contradiction on peut en déduire n'importe quoi (principe d'explosion). Le raisonnement révisable (en) et le raisonnement paraconsistant (en) sont deux techniques qui peuvent être utilisés pour faire face à l'incohérence.
  • Tromperie : Cela arrive quand le producteur d'une information désire volontairement tromper le consommateur de ce type d'information. les techniques de cryptographie sont actuellement utilisées pour remédier à cette menace et ainsi veiller à l'intégrité des données.

Cette liste de défis est plus illustrative qu'exhaustive car elle se concentre sur les défis de la couche de « logique d'unification » et de « preuve » pour la mise en œuvre du Web sémantique[21]. La plupart des techniques mentionnées ici devront étendre le langage OWL (Web Ontology Language) par exemple pour annoter la probabilité conditionnelle d'une information. Il s'agit d'un domaine de recherche actif[22].

Spécifications[modifier | modifier le code]

La normalisation du Web sémantique est encadrée par le W3C[23].

Cadre de référence[modifier | modifier le code]

L'expression « Web sémantique » est souvent utilisée plus spécifiquement pour désigner des formats et des technologies qui lui permettront d'exister[3]. La collecte, la structuration et la récupération des données reliées fonctionneront à l'aide des technologies qui fourniront une description formelle des concepts, termes et relations au sein d'un domaine de connaissances donné. Voici quelques-unes des technologies déjà spécifiées et standardisées sur lesquelles le Web sémantique s’appuiera :

La Semantic Web Stack est une illustration pour représenter l'architecture du Web sémantique. Les fonctions et les relations des composants peuvent être résumées comme suit[24] :

  • Le XML fournit une syntaxe élémentaire, pour la structure du contenu dans les documents, mais il ne décrit pas la sémantique du document. XML n'est pas à l'heure actuelle une composante nécessaire des technologies du Web sémantique dans la plupart des cas, comme syntaxes alternatives il existe Turtle. Turtle est un standard de facto car moins verbeux que XML, mais n'a pas été choisi à travers un processus de normalisation formelle.
  • Le XSD est un langage de description de format de document XML permettant de définir la structure et le type de contenu d'un document XML. Cette définition permet notamment de vérifier la validité de ce document.
  • Le RDF est un langage simple pour exprimer des modèles de données sous forme d'objets (« ressources ») et de leurs relations. Un modèle basé sur RDF peut être représenté à travers plusieurs syntaxes d'échanges, par exemple, RDF/XML, N3, Turtle, et RDFa[25]. RDF est une norme fondamentale du Web sémantique[26],[27],[28].
  • RDF Schema étend le RDF et son vocabulaire pour pouvoir structurer les propriétés et les classes au sein d'une ressource décrite en RDF.
  • OWL ajoute plus de vocabulaire pour décrire les propriétés et les classes : comme avec les relations entre les classes, la cardinalité (par exemple « exactement un »), l'égalité, le typage des propriétés, les caractéristiques de propriétés (par exemple la symétrie), etc.
  • SPARQL (prononcé sparkle ; en anglais : « étincelle »[29]) est un langage de requête et un protocole qui permettra de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles dans le Web à travers l'Internet.

État d'avancement[modifier | modifier le code]

Les standards du Web sémantique passent le processus de ratification du groupe de travail du W3C (World Wide Web Consortium). Cela signifie que chaque standard a été soumis à une revue publique et aux membres de l'organisation W3C[30]. Le but est de standardiser les technologies pour construire un « Web sémantique ». Vous pouvez voir dans le tableau suivant la maturité des standards du Web sémantique :

Voici les standardisations actives en cours :

Par contre, de nombreuses étapes pour mettre en œuvre un « Web sémantique » sont encore à imaginer, clarifier et spécifier. Tim Berners-Lee à travers sa Semantic Web Stack résume ces étapes à travers les couches suivantes :

  • Couche de logique d'unification
  • Couche de preuve
  • Couche de confiance / intégrité
  • Couche de cryptographie

En attendant que toutes ces couches soient mises en œuvre, les technologies déjà disponibles, comme SPARQL, permettent déjà d'offrir une interopérabilité avec une meilleure granularité sur les données que celle qu'offrent les services Web (le W3C a d'ailleurs retiré la standardisation des services Web de ses priorités[réf. nécessaire]).

Ce « Web sémantique pas encore fini mais un peu quand même » a été nommé le Web des données (ou en anglais « linked data ») pour en faciliter l'adoption par le public. Le Web des données est l'une des principales technologies utilisées dans le mouvement « open data » en Angleterre qui vise à partager de manière massive les données publiques pour ainsi accélérer la recherche et le commerce dans ce domaine. L’émergence du Web sémantique est considéré par certains comme la prochaine rupture technologique et donc économique qu'ils nomment déjà le Web 3.0.[réf. nécessaire]

Le but sera ainsi dans l'avenir d'améliorer l’accès et l'utilité du Web et des ressources interconnectées à travers lui comme :

  • Les serveurs qui exposent des données en utilisant le RDF et SPARQL. Plusieurs convertisseurs RDF existent pour diverses applications. Par exemple, un serveur peut convertir les données contenu dans une base de données relationnelle sans affecter son fonctionnement et mettre ainsi à disposition des données en RDF et répondre à des requêtes SPARQL.
  • Les documents « tagués » avec des informations sémantiques (une extension des balises <meta> HTML utilisée dans les pages Web permet de fournir des informations aux moteurs de recherche Web à l'aide de robots d'indexation [réf. souhaitée]). Le contenu contient ainsi une information lisible par une machine en rapport avec le document telle que le créateur, titre, description, etc. Ces informations peuvent également contenir des métadonnées représentant un ensemble de faits (tels que les autres ressources et services en relation avec le site). Notez que tout peut être identifié à travers un URI (Uniform Resource Identifier) et ainsi pourra être décrit, pour permettre au web sémantique de raisonner sur les animaux, les personnes, les lieux, les idées, etc. Ces balises ou tags sémantiques sont souvent générés automatiquement, plutôt que manuellement.
  • Le vocabulaire partagé des métadonnées (ontologies) est un référentiel entre ce vocabulaire qui permet aux créateurs de documents de savoir comment marquer leurs documents sémantiquement afin que les agents puissent utiliser les informations contenues dans les métadonnées fournies.
  • Les agents automatisés qui effectuent les tâches des utilisateurs du web sémantique en utilisant ces données structurées et disponibles.
  • Les services Web (souvent à leur propres agents[Quoi ?]) fourniront des informations précises aux agents, par exemple, un service de réputation qui a un agent peut se demander si certains magasins en ligne ont une bonne ou mauvaise réputation et la vérifier.

Observations sceptiques[modifier | modifier le code]

Faisabilité pratique[modifier | modifier le code]

Les principales critiques[31] portent sur la faisabilité complète ou même partielle du Web sémantique. La critique de Cory Doctorow qu'il nomme « metacrap » (un mot-valise constitué des mots metadata et crap, qu'on peut essayer de traduire en français courant en « métamerde ») est une critique qui repose sur l'observation sarcastique du comportement humain[32]. Par exemple, les gens peuvent inclure des microdonnées parasites dans des pages Web pour tromper les moteurs du Web sémantique qui « naïvement » mettront la véracité de toutes les données sur un même pied d'égalité. Ce phénomène est bien connu pour tromper : les moteurs d'indexation, comme Google, cherchent à détecter ce type de manipulation. Peter Gärdenfors (en) et Timo Honkela (en) avaient remarqué que la logique des technologies du Web sémantique ne couvre qu'une fraction des phénomènes qui impacteront la sémantique du Web[33],[34].

En 2001, Cory Doctorow a fait une liste des sept obstacles[32] prétendument insurmontables pour obtenir des métadonnées fiables pour faire fonctionner un possible Web sémantique. Selon lui :

  1. Les gens mentent.
  2. Les gens sont paresseux.
  3. Les gens sont stupides.
  4. Il est difficile de se décrire soi-même.
  5. Les classifications ne sont pas neutres.
  6. L'unité de mesure retenue influence les résultats.
  7. Il y a plusieurs façons de décrire une même chose.

Il inclut également d'autres raisons qui peuvent rendre les métadonnées obsolètes :

  1. Les données peuvent devenir fausses au fil du temps.
  2. Les données ne peuvent pas intégrer de nouvelles idées.

Cory Doctorow en déduit que les recherches sur un tel système ne pourraient renvoyer que des données obsolètes et incorrectes en partie ou totalement.

L'architecture, les outils et les concepts mêmes du Web sémantique ont été souvent critiqués. Cependant, les technologies du web sémantique ont été adoptées au sein des communautés spécialisées dans la mise en œuvre de système d'information mais principalement dans des systèmes fermés (exemple : intranet)[35], comme dans une entreprise ou une bibliothèque. La raison est que les technologies ou processus pour maintenir la qualité des données, insérées par des êtres humains et donc des êtres faillibles, ne peuvent pas encore fonctionner à l'échelle du Web[36]. Ces limites sont autant de nouveaux problèmes que la recherche tente actuellement de résoudre à travers les défis du Web sémantique. Science Web (en) est la dénomination qu'on donne à la « discipline »[37] qui a pour objectif de résoudre les nouveaux problèmes scientifiques qu'a fait émerger le Web.

La censure et la vie privée[modifier | modifier le code]

L'enthousiasme sur le Web sémantique pourrait être tempéré par des considérations comme la censure et la vie privée. Par exemple, on peut actuellement facilement contourner les analyseurs de texte en utilisant d'autres mots, des métaphores, ou en utilisant des images à la place de mots. Il est beaucoup plus simple pour les gouvernements de visualiser et donc de contrôler la création de l'information en ligne qui utilise une structure sémantique. L'information sera beaucoup plus facile à interpréter et un système automatisé pourra plus facilement la bloquer. En outre, la question a également été soulevée de l'utilisation de méta-données telles que FOAF ou encore d'API de géolocalisation (en), qui remettent en cause l'anonymat sur le World Wide Web. Ces préoccupations font de la sécurité des données personnelles un sujet de recherche actif, comme dans le projet « Policy Aware Web »[38].

Doubler les formats en sortie[modifier | modifier le code]

Une autre critique est que le temps de créer et de publier du contenu va augmenter car on sera obligé d'en faire deux versions : une pour la visualisation par les êtres humains et une autre pour les machines. Cependant, beaucoup d'applications web font déjà face à ce problème en créant un format lisible pour un navigateur Web ou à la demande d'un lecteur RSS comme pour un blog. Le développement des microformats a été une réaction à ce genre de critique. Pour sa défense, le Web sémantique va probablement faire baisser les tâches de recherche d'informations et ainsi compenser le coût supplémentaire qu'impose la mise à disposition d'un format compatible pour les machines.

L'une des premières solutions a été d'utiliser le langage GRDDL qui est un mécanisme qui utilise uniquement le contenu déjà présent dans une page HTML (avec des microformats potentiellement) pour en extraire du RDF. Cependant, la multiplicité, l'instabilité des microformats et la difficulté de créer le convertisseur XSLT pour GRDDL ont poussé à spécifier RDFa à intégrer simplement et explicitement du RDF au sein des pages HTML. La méthode RDFa va d'ailleurs être intégrée directement dans le standard HTML5 à travers les microdonnées, ce qui va encore simplifier l'insertion de données RDF dans un document.

Projets[modifier | modifier le code]

Cette section énumère quelques-uns des nombreux projets et des outils qui existent au sein du mouvement Web sémantique[39].

AKSW[modifier | modifier le code]

AKSW (Agile Knowledge Engineering and Semantic Web) est un groupe de recherche qui est hébergé par la chaire de Betriebliche Informationssysteme (BIS) de l'Institut für Informatik (IFI) de l'université de Leipzig ainsi que par l'Institut pour l'Informatique Appliquée (InfAI)[40]. Le groupe de recherche AKSW a lancé un certain nombre de projets comme DBpedia.

DBpedia et SemanticPedia[modifier | modifier le code]

DBpedia est un effort pour publier des données structurées extraites de Wikipédia : les données sont publiées en RDF et mises à disposition sur le Web des données via SPARQL sous la licence GFDL[41].

SemanticPedia est une plate-forme de publication de données issues des différents projets Wikimedia en français portée par le Ministère de la Culture et de la Communication, Inria et Wikimedia France. Une version en français de DBpedia, dont les données alimente également fr.dbpedia.org, a été développée par l'équipe Wimmics du centre de recherche d'Inria Sophia Antipolis. La Ministre de la Culture, Aurélie Flippetti, a annoncé le 19 novembre 2012 que le chantier suivant concernerait le Wiktionnaire et ses deux millions de termes.

Projet Data.bnf.fr de la Bibliothèque nationale de France[modifier | modifier le code]

La Bibliothèque nationale de France s'introduit dans la Web Sémantique à travers son projet data.bnf.fr[42]. Ce projet intègre des données produites dans des formats divers, notamment Intermarc, XML-EAD, et Dublin Core pour la bibliothèque numérique. Les données sont modélisées et regroupées par des traitements automatiques et publiées dans divers standards RDF : RDF-XML, RDF-N3, et RDF-NT. Il existe aussi une publication de donnés en JSON. Le projet utilise la plateforme de développement sémantique CubicWeb.

En 2013 le projet partage avec Gallica le Stanford Prize for Innovation in Research Libraries (SPIRL)[43].

Wikidata[modifier | modifier le code]

Wikidata publie certaines données, dites objectives sous divers formats (XML, JSON...). Une entité (un article de Wikipédia par exemple) est composée de plusieurs propriétés possédant une à plusieurs valeurs. Ces entités et propriétés sont marquées d'un identifiant unique ce qui permet de rendre la base indépendante de la langue utilisée. La valeur de ces propriétés peut être des autres entités mais aussi des chaines, nombres, dates, etc.

ERCIM[modifier | modifier le code]

L'avancement du Web sémantique dans le monde est suivi par le W3C dans le cadre d'un projet Semantic Web Advanced Deployment (SWAD). Le projet SWAD-Europe s'est déroulé de mai 2002 à octobre 2004.

L'organisme européen hôte des projets W3C et qui suit l'avancement du Web sémantique est ERCIM (European Research Consortium for Informatics and Mathematics).

Les projets d'ontologies[modifier | modifier le code]

FOAF[modifier | modifier le code]

FOAF (Friend Of A Friend) est un vocabulaire qui utilise RDF pour décrire les relations que les gens ont avec d'autres personnes et les « choses » autour d'eux. FOAF est un exemple de tentatives du Web sémantique de faire usage des relations au sein d'un contexte social.

Semantically-Interlinked Online Communities (SIOC)[modifier | modifier le code]

Autres[modifier | modifier le code]

Le Web des données offre le développement de nouveaux usages qui rendent concrète la notion d'intelligence collective comme :

Notes et références[modifier | modifier le code]

  1. Terme recommandé par la Commission générale de terminologie et de néologie, et publié au Journal officiel de la République française le 27 décembre 2009 ; Cf. portail FranceTerme.
  2. (en) « XML and Semantic Web W3C Standards Timeline » [PDF],‎ 4 février 2012
  3. a, b et c (en) « W3C Semantic Web Activity », World Wide Web Consortium (W3C),‎ 7 novembre 2011 (consulté le 26 novembre 2011).
  4. a et b (en) Tim Berners-Lee, « The Semantic Web », Scientific American Magazine,‎ 17 mai 2001 (lire en ligne).
  5. (en) Lee Feigenbaum, « The Semantic Web in Action », Scientific American,‎ 1er mai 2007 (consulté le 24 février 2010).
  6. (en) Berners-Lee, Tim, « The Semantic Web », Scientific American,‎ 1er mai 2001 (consulté le 13 mars 2008).
  7. (en) Nigel Shadbolt, Wendy Hall, Tim Berners-Lee, « The Semantic Web Revisited », IEEE Intelligent Systems,‎ 2006 (consulté le 13 avril 2007).
  8. (en) A Allan M. Collins, « Retrieval time from semantic memory », Journal of verbal learning and verbal behavior, vol. 8, no 2,‎ 1969, p. 240–247 (PMID 615603750, DOI 10.1016/S0022-5371(69)80069-1)
  9. (en) A Allan M. Collins, « Does category size affect categorization time? », Journal of verbal learning and verbal behavior, vol. 9, no 4,‎ 1970, p. 432–438 (DOI 10.1016/S0022-5371(70)80084-6)
  10. (en) Allan M. Allan M. Collins, « A spreading-activation theory of semantic processing », Psychological Review, vol. 82, no 6,‎ 1975, p. 407–428 (DOI 10.1037/0033-295X.82.6.407)
  11. (en) MR Quillian, « Word concepts — A theory and simulation of some basic semantic capabilities », Behavioral Science, vol. 12, no 5,‎ 1967, p. 410–430 (PMID 6059773, DOI 10.1002/bs.3830120511)
  12. (en) Semantic memory |book:Marvin Minsky (editor): Semantic information processing, MIT Press, Cambridge, Massachusetts,‎ 1988
  13. (en) Tim Berners-Lee, Fischetti, Mark, Weaving the Web, HarperSanFrancisco,‎ 1999 (ISBN 978-0-06-251587-2)
  14. (en) Gerber, AJ, Barnard, A, & Van der Merwe, Alta (2006) « A Semantic Web Status Model, Integrated Design & Process Technology » Special Issue : IDPT 2006.
  15. (en) Gerber, Aurona ; Van der Merwe, Alta ; Barnard, Andries (2008) « A Functional Semantic Web architecture » European Semantic Web Conference 2008 ESWC’08, Tenerife, juin 2008.
  16. (en) Alignment, font styles, and horizontal rules, HTML 4.01 Specification, 24 décembre 1999.
  17. (en) Artem Chebotko et Shiyong Lu, « Querying the Semantic Web: An Efficient Approach Using Relational Databases », LAP Lambert Academic Publishing, ISBN 978-3-8383-0264-5, 2009.
  18. « Blog de Tim Berners Lee »
  19. a et b (en) Victoria Shannon, « A 'more revolutionary' Web », International Herald Tribune,‎ 26 juin 2006 (consulté le 24 mai 2006).
  20. http://www.worldwidewebsize.com
  21. (en) « Uncertainty Reasoning for the World Wide Web », sur www.w3.org, Incubator Group for Uncertainty Reasoning for the World Wide Web (URW3‑XG),‎ 2008 (consulté le 1er juillet 2012).
  22. (en) Thomas Lukasiewicz, Umberto Straccia, « Managing uncertainty and vagueness in description logics for the Semantic Web »
  23. Semantic Web Standards published by the W3C
  24. (en) « OWL Web Ontology Language Overview », World Wide Web Consortium (W3C),‎ 10 février 2004 (consulté le 26 novembre 2011).
  25. (en) « RDF tutorial », Dr Leslie Sikos (consulté le 5 juillet 2011).
  26. (en) « Resource Description Framework (RDF) », World Wide Web Consortium
  27. (en) « Standard websites », Dr Leslie Sikos (consulté le 5 juillet 2011).
  28. (en) Allemang, D., Hendler, J., RDF —The basis of the Semantic Web ; in : Semantic Web for the Working Ontologist (2e éd.), Morgan Kaufmann,‎ 2011 (DOI 10.1016/B978-0-12-385965-5.10003-2).
  29. (en) Jim Rapoza, « SPARQL Will Make the Web Shine », eWeek (en),‎ 2 mai 2006 (consulté le 17 janvier 2007).
  30. The designation “W3C Recommendation” signifies that a document has been subjected to a public review and that it has been circulated amongst W3C member organizations for review.
  31. (en) Which Semantic Web?
  32. a et b (en) Cory Doctorow, « Metacrap: Putting the torch to seven straw-men of the meta-utopia », www.well.com,‎ 2001 [last update] (consulté le 29 janvier 2012).
  33. (en) Peter Gärdenfors, How to make the Semantic Web more semantic, IOS Press,‎ 2004
  34. (en) Timo Honkela, Ville Könönen, Tiina Lindh-Knuutila and Mari-Sanna Paukkeri, « Simulating processes of concept formation and communication », Journal of Economic Methodology,‎ 2008
  35. (en) Ivan Herman, « State of the Semantic Web », Semantic Days 2007,‎ 2007 (consulté le 26 juillet 2007).
  36. « « L'ontologie est surfaite », par Clay Shirky, traduction par Christophe Ducamp » (ArchiveWikiwixArchive.isGoogleQue faire ?). Consulté le 2013-03-30
  37. (en) James Hendler, Nigel Shadbolt, Wendy Hall, Tim Berners-Lee, et Daniel Weitzner. 2008. « Web science : an interdisciplinary approach to understanding the web » Communication ACM 51, 7 (juillet 2008), 60-69. DOI:10.1145/1364782.1364798.
  38. www.policyawareweb.org
  39. Voir, par exemple : (en) Michael K. Bergman, « Sweet Tools », AI3 ; Adaptive Information, Adaptive Innovation, Adaptive Infrastructure (consulté le 5 janvier 2009).
  40. AKSW (Agile Knowledge Engineering and Semantic Web)
  41. Exemple de requêtes SPARQL avec DBpedia
  42. http://data.bnf.fr/semanticweb
  43. http://library.stanford.edu/projects/stanford-prize-innovation-research-libraries-spirl/2013-spirl-winners

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]