Triplet RDF

Un article de Wikipédia, l'encyclopédie libre.

Le triplet RDF est la plus petite structure de description de ressources du modèle RDF[1]. C’est une déclaration ou assertion sur une ressource[2]. Cette déclaration RDF est appelée triplet, car elle suit la structure : « sujet - prédicat - objet »[3].

Ainsi, la déclaration RDF Mona Lisa a pour créateur Léonard de Vinci est un triplet :

Sujet Prédicat Objet
Mona Lisa a pour créateur Léonard de Vinci


Description : sujet, prédicat, objet[modifier | modifier le code]

Le triplet RDF comprend trois éléments, sujet, prédicat, objet, conventionnellement écrits dans cet ordre[4].

Sujet → Prédicat → Objet
Schéma du triplet RDF.

Le sujet et l'objet du triplet RDF[modifier | modifier le code]

  • Le sujet représente la ressource ou l'identificateur de la ressource à décrire[5]. Les ressources peuvent être quelconques, notamment des documents, des personnes, des objets physiques ou des concepts abstraits[6]. Le sujet et l'objet, dans le cas où ce sont des ressources, peuvent être identifiés par un URI ou être des nœuds anonymes.

On distingue deux sortes de littéraux : les littéraux ordinaires (chaîne de caractères non typée) et les littéraux typés pour qualifier une chaîne de caractères (couple formé d'une chaîne de caractère à une référence URI qui identifie un type de données particulier)[8]. Un littéral est typé par un URI pour exprimer la nature de la chaîne de caractère. Cet URI peut être simplifié. Par exemple, pour indiquer que la chaîne de caractère est un âge, on qualifie le littéral par l'URI abrégé xsd:integer ou http://www.w3.org/2001/XMLSchema#integer[9].

Le prédicat du triplet RDF[modifier | modifier le code]

  • Le prédicat représente un type de propriété applicable à cette ressource. Il est lui-même une ressource [10]. Il est nécessairement identifié par un URI. Une propriété permet d’exprimer les relations entre deux ressources ou entre une ressource et un littéral[11]. On distingue les propriétés d’objet, qui expriment une relation entre deux ressources (object property) et les propriétés de types de données (datatype property) qui relient une ressource à un littéral. Dans ce cas, le triplet donne une information sur cette ressource ou en décrit ses caractéristiques[12].

URIs, préfixes et vocabulaires RDF[modifier | modifier le code]

En RDF, toutes les ressources sont identifiées et nommées par des URIs (Universal Resource Identifier) de façon unique et pérenne.

Ainsi, les ressources des triplets « Mona Lisa a pour créateur Léonard de Vinci » et « Mona Lisa a pour lieu le Musée du Louvre » peuvent être nommées par des URIs extraits du référentiel Wikidata.

Sujet Prédicat Objet
Mona Lisa a pour créateur Léonard de Vinci
<http://www.wikidata.org/entity/Q12418> <http://www.wikidata.org/prop/direct/P170> <http://www.wikidata.org/entity/Q762>
Mona Lisa a pour lieu Musée du Louvre
<http://www.wikidata.org/entity/Q12418> <http://www.wikidata.org/entity/P276> <http://www.wikidata.org/entity/Q19675>

Les préfixes et vocabulaires RDF[modifier | modifier le code]

La notation des URIs est simplifiée par des préfixes. Les préfixes désignent un espace de noms (espace de nommage ou namespace), c’est-à-dire un ensemble de termes se rapportant au même vocabulaire RDF (ontologies RDF, schéma RDFS, langage OWL). Ces vocabulaires RDF fournissent les URIs qui identifient les propriétés des triplets RDF et les classes (ou catégories) des ressources décrites dans les triplets RDF.

Dans le référentiel Wikidata, le préfixe <wd:> est associé au début d'URI <http://www.wikidata.org/entity/> pour nommer une ressource (sujet ou objet du triplet) et le préfixe <wdt:> est associé au début d’URI <http://www.wikidata.org/prop/direct/> pour nommer la ressource prédicat ou propriété du triplet.

Ainsi, les URIs des ressources des deux triplets RDF Mona Lisa a pour créateur Léonard de Vinci et Mona Lisa a pour lieu le Musée du Louvre sont notés de la façon simplifiée suivante :

Sujet Prédicat Objet
Mona Lisa a pour créateur Léonard de Vinci
<wd:Q12418> <wdt:P170> <wd:Q762>
Mona Lisa a pour lieu Musée du Louvre
<wd:Q12418> <wdt:P276> <wd:Q19675>

Ces deux triplets RDF ayant le même sujet, Mona Lisa, identifiée par l'URI <wd:Q12418> forment un graphe.

Des triplets sous forme d'un graphe[modifier | modifier le code]

Fig. 1 Graphe RDF (Dublin Core Metadata Initiative)

Par convention, RDF propose de représenter les triplets sous la forme d'un graphe :

  • Un ovale ou ellipse représente une ressource (avec à l’intérieur de cet ovale l’URI de la ressource),
  • Un arc orienté (flèche) représente un prédicat (le nom du prédicat se trouve sur l’arc)
  • Un rectangle représente une valeur (précisée à l’intérieur de ce rectangle)[13].

Ainsi, un triplet RDF est un graphe orienté[14].

La figure 1 est un graphe RDF représentant la déclaration « La ressource http://example.org/123 a son titre "Learning Biology" en anglais ». Ce graphe utilise les propriétés de l'ontologie Dublin Core, selon les recommandations de la Dublin Core Metadata Initiative[15].

Fig. 2 Graphe de deux triplets RDF qui ont pour sujet Mona Lisa

La figure 2 représente le graphe des deux triplets qui ont pour sujet commun Mona Lisa, identifiée par l'URI <wd:Q12418>. Cette ressource forme un nœud qui relie les deux triplets.

Fig.3 Graphe de trois triplets RDF avec littéraux

La figure 3 représente les graphes de trois triplets dont l'objet de l'un est une ressource et l'objet des deux autres un littéral (chaîne de caractères). Les trois triplets sont reliés entre eux par un nœud On the Origin of Species, identifié par l'URI <wd:Q20124>, qui est le sujet des trois triplets.


Sujet Prédicat Objet
De l'origine des espèces a pour auteur Charles Darwin
<wd:Q20124> <wdt:P50> <wd:Q1035>
De l'origine des espèces a pour titre On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life (English)
<wd:Q20124> <wdt:P1476> "On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life"
De l'origine des espèces a pour date de publication 24 November 1859
<wd:Q20124> <wdt:P577> "1859-11-24"

Une même ressource peut donc être sujet, prédicat ou objet de plusieurs triplets. L’ensemble de ces triplets, reliés les uns aux autres par les URI des ressources qu’ils ont en commun, forme un graphe.

Cette notion de graphe implique que des triplets concernant une même ressource, par exemple Mona Lisa ou On the Origin of Species peuvent faire partie de graphes différents, reliés par un URI commun, <wd:Q12418> ou <wd:Q20124>.

Il est donc possible de créer des liens entre graphes isolés, représentant des jeux de données différents, à partir de référentiels communs à ces jeux de données. Ces référentiels fournissent des réservoirs d’URI, grâce auxquels il est possible de naviguer d’un graphe à l’autre, d’un jeu de données à l’autre, suivant le principe de l’hypertexte. Les URI vont être des points de contact entre ces graphes isolés et les transformer en un graphe global géant. En novembre 2007, Tim Berners-Lee utilise l'expression « Giant Global Graph » pour désigner la somme de l'ensemble des triplets disponibles sur le Web[16].

Les syntaxes de sérialisation des triplets[modifier | modifier le code]

Le modèle de graphe est un modèle abstrait qu’il faut doter d’une syntaxe concrète, si l’on veut pouvoir le représenter en machine. La description des triplets est appelée sérialisation et les syntaxes sont aussi appelés formats ou langages.

Il y a plusieurs syntaxes de sérialisation des graphes RDF : RDF/XML, N-Triples, Turtle et N3, JSON-LD, RDFa. Ce sont tous des langages textuels car on peut les décrire par un éditeur de texte. Ils se différencient par leur lisibilité par les humains.

La première famille de syntaxes comprend N3, N-Triples et Turtle.[modifier | modifier le code]

La syntaxe Turtle (Terse RDF Triple language), normalisée par le W3C dans le cadre des travaux RDF 1.1[17], est la plus lisible pour les humains. Ces syntaxes reposent sur un principe : un triplet correspond à une phrase qui se termine par un point .. Le sujet, le prédicat et l’objet sont séparés par des espaces et chacun d'eux peut être une URI ou un littéral.

Par convention, les URI sont représentés entre <chevrons> ; les littéraux sont représentés entre "guillemets", éventuellement suffixés par ^^ et l'URI indiquant explicitement son type et la syntaxe permettant une interprétation de façon non ambiguë et par @ suivi d'un code de langue IETF (BCP 47).

La syntaxe Turtle permet des simplifications permettant de considérablement compresser le fichier ou en améliorer la présentation pour un humain :

  • Les blancs (espaces, tabulations, et sauts de ligne) sont facultatifs avant ou après les signes séparateurs et peuvent être librement répétés pour l'indentation, ils ne sont pas significatifs en terme de données représentées.
  • Si les triplets qui se suivent ont le même sujet, celui-ci n’est pas répété et un point virgule ; sépare l’objet du premier triplet et le prédicat du second.
  • Si les triplets ont le même sujet et le même prédicat, ceux-ci ne sont pas répétés et une virgule , sépare les objets.
  • Dans toutes les valeurs du sujet, du prédicat ou de l'objet, les URI peuvent être abrégées au moyen de préfixes courts pouvant remplacer une l'URI de base commune à de nombreuses URI et tenant lieu d'espace de noms.
  • Si les URI ainsi réduites se limitent à un préfixe suivant d'un identifiant simple, on peut ôter les chevrons qui l'encadrent.

Le fichier Turtle comprend donc généralement deux parties :

  • la première partie déclare sur une ligne les préfixes et espaces de noms utilisés pour abréger les URI. Chacune des lignes est un triplet dont le sujet est la directive @prefix spécialement réservée, et où le prédicat est le préfixe défini (un identifiant terminé par un :) et où l'objet est l'URI de base associée à ce préfixe.
  • la deuxième partie représente les triplets RDF de données.

Exemples de triplets ayant pour sujet l'entité du référentiel Wikidata De l’origine des espèces suivant la syntaxe Turtle :

  • En première partie du fichier texte, les préfixes utilisés sont déclarés.
  • Dans la deuxième partie, l'ordre des triplets n'est pas significatif ; pour les triplets ayant tous le même sujet, celui-ci n’est pas répété, les triplets sont alors séparés par un point-virgule.
  • Les triplets 1, 6 et 7 expriment le tableau d’exemples ci-dessus et le graphe correspondant (fig.2) au sujet de De l’origine des espèces qui a pour auteur Charles Darwin. Les valeurs données comme objet des triplets 6 et 7 montrent des exemples de valeurs littérales explicitement qualifiées par un type de donnée ou par un code de langue IETF.
  • Les autres triplets relient la ressource en créant des liens entre les jeux de données qui utilisent ces référentiels aux URI indiquées.
@prefix wd: <http://www.wikidata.org/entity/> .
@prefix wdt: <http://www.wikidata.org/prop/direct/> .
 
wd:Q20124 wdt:P50 wd:Q1035 ;
    wdtn:P214 <http://viaf.org/viaf/313683363> ;
    wdtn:P227 <https://d-nb.info/gnd/4303201-1> ;
    wdtn:P244 <https://id.loc.gov/authorities/names/n81105854> ;
    wdtn:P268 <http://data.bnf.fr/ark:/12148/cb122870840#about> ;
    wdt:P577 "1859-11-24T00:00:00Z"^^xsd:dateTime ;
    wdt:P1476 "On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life"@en ;
    wdtn:P269 <http://www.idref.fr/031705685/id> ;
    wdtn:P5331 <http://worldcat.org/entity/work/id/3901191602> .

La deuxième syntaxe utilisée pour sérialiser les triplets est RDF/XML.[modifier | modifier le code]

Un document RDF/XML a obligatoirement un élément racine <rdf:RDF> qui déclare que ce document XML est un document RDF[18]. Cette racine comprend des pseudo-attributs xmlns: pour déclarer les espaces de noms pour RDF lui-même, ainsi que pour les balises de prédicats de l'ensemble de triplets et pour les contenus des objets de l'ensemble de triplets.

La balise XML principale est <rdf:description> : elle permet de décrire un ensemble de triplets dont l’URI de la ressource en sujet est représenté par la valeur de l’attribut rdf:about :

  • si l’objet du triplet est une URI, celui-ci est indiqué par l’attribut rdf:ressource et la balise d'ouverture n'ayant aucun contenu est elle-même fermée immédiatement ;
  • si l’objet du triplet est un littéral, il est indiqué dans le contenu entre la balise d'ouverture <prédicat ... > et la balise de fermeture </prédicat> et le type de donnée est qualifié par la valeur donnée à l’attribut rdf:datatype[19].

Exemples de triplets ayant pour sujet l'entité du référentiel Wikidata De l’origine des espèces suivant la syntaxe XML/RDF à partir du téléchargement du fichier texte de la page d’informations sur l’entité Q20124 pour représenter les trois triplets du tableau et du graphe de la fig. 2 et les relations avec les identifiants des autres référentiels :

<rdf:RDF
  xmlns:rdf="..."

  xmlns:wd="http://www.wikidata.org/entity/"
  xmlns:wdt="http://www.wikidata.org/prop/direct/"
>
  <rdf:Description rdf:about="http://www.wikidata.org/entity/Q20124">
    <wdt:P50 rdf:resource="http://www.wikidata.org/entity/Q1035"/>
    <wdtn:P214 rdf:resource="http://viaf.org/viaf/313683363"/>
    <wdtn:P227 rdf:resource="https://d-nb.info/gnd/4303201-1"/>
    <wdtn:P244 rdf:resource="https://id.loc.gov/authorities/names/n81105854"/>
    <wdtn:P268 rdf:resource="http://data.bnf.fr/ark:/12148/cb122870840#about"/>
    <wdt:P577 rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">1859-11-24T00:00:00Z</wdt:P577>
    <wdt:P1476 xml:lang="en">On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life</wdt:P1476>
    <wdtn:P269 rdf:resource="http://www.idref.fr/031705685/id"/>
    <wdtn:P5331 rdf:resource="http://worldcat.org/entity/work/id/3901191602"/>
  </rdf:Description>
</rdf:RDF>

Deux autres syntaxes de description JSON-LD et RDFa[modifier | modifier le code]

  • Syntaxe JSON-LD (JavaScript Object Notation - Linked Data) reconnu dans la dernière version RDF [20][Ref.] . Ce format orienté machine est très difficilement lisible par les humains, mais adapté au traitement informatique.
  • Syntaxe RDFa pour décrire directement des triplets à l’intérieur d’une page HTML.

Triplets RDF et données des bibliothèques[modifier | modifier le code]

L’objectif de la transition bibliographique est de rendre plus visible les données des catalogues de bibliothèques dans le web.

Dans ce but, les catalogues des bibliothèques doivent adopter les principes du web de données :

  • identifier leurs données par des URI, exploitables par des machines,
  • décrire leurs données en suivant le modèle RDF pour établir des liens sémantiques entre elles, c’est-à-dire sous forme de triplets RDF.

Dans les catalogues de bibliothèques, ces données décrites dans les triplets RDF sont les entités que l’on a définies dans le modèle IFLA LRM (res, œuvre, expression, manifestation, item, agent, personne, groupe, lieu, laps de temps, nomen)[21].

L’enjeu pour les catalogues est de créer, grâce à leur intégration dans un graphe global d’information, le web de données, et à l’usage de référentiels communs, un cadre d’interopérabilité entre ces catalogues.

L'Incubator Group du W3C (LLD XG)[22] a été créé par le W3C en 2010 pour étudier l’adoption du Web de données en bibliothèque. Il a relié les notions du domaine des bibliothèques à celles de la communauté du web de données et a classé ces référentiels communs (jeu de données réutilisables et échangeables) en 3 catégories :

Des ontologies (vocabulaires RDF) appliquées aux données des bibliothèques[modifier | modifier le code]

  • l’ontologie SKOS (Simple Knowledge Organization System) a été créée pour décrire les thésaurus et les vocabulaires contrôlés. Elle sert à représenter Rameau ou les LCSH (en). Les autorités Rameau sont décrites sous format RDF dans data.bnf.fr grâce à cette ontologie.
  • l’ontologie FOAF sert à décrire les personnes et les organisations,
  • l’ontologie Dublin Core metadata terms sert à décrire les documents,
  • des ontologies RDF servent aussi à exprimer les règles de catalogage RDA et le modèle IFLA LRM.

SKOS, ontologie pour décrire les thésaurus et vocabulaires contrôlés[modifier | modifier le code]

SKOS est un vocabulaire RDF dont l’objet est de fournir un modèle commun pour la description des thésaurus, systèmes de classifications et de lier ces référentiels. Des triplets RDF créent des alignements d’une autorité Rameau de la BnF avec d’autres référentiels (Wikidata, Library of Congress Subject Headings, Schlagwortnormdatei (de)). Ils décrivent aussi les liens hiérarchiques des notices d’autorité ou les notes de contenu.

Les données de référence du Répertoire d'autorité RAMEAU sont disponibles sur data.bnf.fr depuis février 2012[23]. Ainsi, dans la notice Nom Commun Culture , des exemples de triplets d’alignements, de déclaration de hiérarchie et de note de contenu, à l'aide des propriétés de l'ontologie SKOS, peuvent être extraits :

  • Trois triplets déclarant des alignements entre référentiels Rameau, Schlagwortnormdatei, Wikidata, Library of Congress Subject Headings, à l’aide des propriétés skos:closeMatch ou skos:exactMatch :
Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:closeMatch <http://d-nb.info/gnd/4125698-0>
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:exactMatch <http://wikidata.org/entity/Q11042>
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:closeMatch <http://id.loc.gov/authorities/subjects/sh85034755>
  • Triplets déclarant un lien hiérarchique à l’aide de la propriété skos:narrower (relation Terme spécifique) et la note de contenu à l’aide de la propriété skos:scopeNote :
Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:narrower <https://data.bnf.fr/ark:/12148/cb11965560j>
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:scopeNote "Sous cette vedette, on trouve les documents sur l'ensemble des valeurs, des fa\u00E7ons de vivre et de penser qui peuvent \u00EAtre acquises, apprises et transmises et qui d\u00E9finissent un groupe, une soci\u00E9t\u00E9 par rapport \u00E0 un autre. Les documents sur les cultures (au sens de plantes et terres cultiv\u00E9es) se trouvent sous les vedettes commen\u00E7ant par Cultures ; Agriculture ; etc."

SKOS est un modèle générique de représentation de vocabulaires contrôlés. Pour décrire des relations plus spécifiques (subdivision, vedettes construites), il faut faire appel à d’autres ontologies comme MADS/RDF (en), FRAD, FRSAD et les métadonnées de RDA.

Référentiels d'autorité et interopérabilité[modifier | modifier le code]

Il existe deux modèles structurels d’interopérabilité pour les vocabulaires contrôlés : pivot et paire. L’alignement de référentiels par paire concerne les référentiels des vedettes matières des bibliothèques (Rameau, LCSH, GND allemandes)[24],[25].

Dans le référentiel VIAF[26], le modèle d’alignement est celui de la roue et de l’essieu (hub and spoke) : un point central (essieu ou pivot) consolide les données d’autorité des bibliothèques (roue): un référentiel sert de pivot.

VIAF relie tous les identifiants des autorités des bibliothèques et d’autres référentiels (ISNI, DBpedia) par la relation d’équivalence schema:sameAs de l’ontologie schema.org. Cette ontologie a été définie en 2011 par Google, Bing et Yahoo ! pour disposer d’informations structurées et permettre de mieux répondre aux questions posées par les internautes.

Triplet déclarant l’équivalence entre l’identifiant VIAF et l’identifiant ISNI de l’autorité « Hugo, Víctor, 1802-1885 » dans la notice VIAF affichée en RDF :

Sujet Prédicat Objet
<http://viaf.org/viaf/9847974> schema:sameAs <http://isni.org/isni/0000000121200982>

Dans les notices d’autorité des bibliothèques nationales ou collectifs (Sudoc), la relation d’équivalence avec l’identifiant VIAF est empruntée au langage de description des ontologies OWL qui peut déclarer des ressources équivalentes grâce à la propriété owl:sameAs, préfixe de <http://www.w3.org/2002/07/owl#sameAs>. Ce langage de description des ontologies OWL joue un rôle important dans le web sémantique et le web de données, car il permet l’alignement des données d’autorité de jeux de données différents.

Triplet déclarant l’équivalence entre l’identifiant de data.bnf.fr de l’autorité « Hugo, Víctor, 1802-1885 » et l’identifiant VIAF dans la notice d’autorité de data.bnf.fr affichée en RDF/XML :

Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb11907966z#about> owl:sameAs <http://viaf.org/viaf/9847974>

Triplet déclarant l’équivalence entre l’identifiant d’idref.fr de l’autorité « Hugo, Víctor, 1802-1885 » et l’identifiant VIAF dans la notice d’autorité d’idref.fr exportée en RDF :

Sujet Prédicat Objet
<http://www.idref.fr/026927608/id> owl:sameAs <http://viaf.org/viaf/9847974>

Jeux de données de référence en France : data.bnf.fr et data.idref.fr[modifier | modifier le code]

En France, des jeux de données de référence (data.bnf.fr, data.idref.fr) permettent d’intégrer les données des catalogues dans le web de données.

Data.bnf.fr[modifier | modifier le code]

Créé  en  2011  par  la  Bibliothèque  nationale  de  France  (BnF), Data.bnf.fr expose les données de la BnF en RDF, pour améliorer leur visibilité sur le web en adoptant les principes du web sémantique : structure des données en triplets RDF et identification de celles-ci par de URI [27].

Les entités du modèle FRBR sont reliées par des triplets RDF. Les URI des ressources sont les liens pérennes ark. Une partie des données est alignée à des jeux de données ou référentiels extérieurs : VIAF, Idref, Wikidata.

Un schéma permet de visualiser le modèle de données RDF de data.bnf.fr[28].

Le modèle de données de data.bnf.fr

Il présente des triplets RDF pour décrire les relations entre les entités œuvre, auteur, manifestation, expressions, concept, lieu, date, spectacle. Les propriétés sont décrites en empruntant à l’ontologie Dublin Core ou au vocabulaire RDF associé aux règles de catalogage RDA[29]. Suivant le formalisme graphique de RDF, les ressources sont ces entités désignées par des URI. Les entités ressources sont représentées par des ovales, les littéraux par des rectangles. Les ontologies sont utilisées pour décrire les autorités personnes et organisations (FOAF), sujets (SKOS), les œuvres, expressions, manifestations, items (rdaregistry). Les jeux de données sont désignés par des rectangles fléchés et les préfixes utilisés pour décrire les URI indiqués en bas du modèle.

Triplet dans une notice d’œuvre On the origin of the species by means of natural selection de Charles Darwin de data.bnf.fr :

Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb122870840#about> dcterms:creator <https://data.bnf.fr/ark:/12148/cb11898689q#about>
Le Sudoc en RDF[modifier | modifier le code]

Depuis octobre 2010, les notices d'autorité d'IdRef sont accessibles sur le Web de données en RDF[30],[31].

Des triplets sont extraits d'une notice IdRef : http://www.idref.fr/026927608.rdf

· Le premier triplet indique que la ressource identifiée par l'URI http://www.idref/026927608/id est de type Personne.

· Le suivant contient le nom et le prénom de cette personne[32].

Sujet Prédicat Objet
<http://www.idref.fr/026927608/id> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person>
<http://www.idref.fr/026927608/id> <http://xmlns.com/foaf/0.1/name> "Hugo, Victor"

Les notices bibliographiques du Sudoc sont accessibles depuis 2011 sur le Web de données en RDF[33].

Triplets dans une notice Sudoc sous format RDF/XML :

Sujet Prédicat Objet
< http://www.sudoc.fr/139579370/id> <http://purl.org/dc/elements/1.1/title> « Le roman de la rose Tome I, [Texte imprimé] / Guillaume de Lorris et Jean de Meun ; publié par Félix Lecoy»
< http://www.sudoc.fr/139579370/id> <http://www.loc.gov/loc.terms/relators/aut> <http://www.idref.fr/02665976X/id>

Ces deux triplets ont pour même sujet le document Le roman de la Rose de Jean de Meung, identifié par son URI <http://www.idref.fr/02665976X/id>[1]. Le premier triplet a pour objet le titre du document. Le second triplet a pour objet l'auteur du document.

Sujet Prédicat Objet
<http://www.idref.fr/02665976X/id> <http://xmlns.com/foaf/0.1/name> "Jean de Meung (124.?-1304?)"

Ces trois triplets forment donc un graphe.

Graphe de triplets RDF
Le triplestore data.idref.fr[modifier | modifier le code]

Le triplet est l'unité de données la plus petite contenue dans un graphe de type RDF (Resource Description Framework) au sein d'une base de données de type triplestore.

Depuis janvier 2019, l'ABES propose un nouveau service le Triplestore data.idref.fr. Il permet d'interroger, via une interface web, les données IdRef et les références bibliographiques liées en provenance du Sudoc, exposées sous forme de triplets.

En 2020, le triple store data.idref.fr expose environ 165 millions de triplets RDF : 4 millions de notices d’autorités reliées par des liens diversifiés aux 13 millions de références bibliographiques Sudoc[34].

Dans le triple store d'IdRef, les notices d’autorité IdRef et les références bibliographiques liées, en provenance du Sudoc, sont converties sous la forme de triplets RDF. Tous les types de notices d'autorité sont présents : Personnes, Collectivités, Noms Communs (Rameau et FMeSH), Noms géographiques, Familles et Titres.

Les références bibliographiques se présentent sous la forme d’URI : http://www.sudoc.fr/PPN/id. Ces références bibliographiques pointent vers les autorités. Cela signifie que les triplets des liens bibliographiques ont pour « sujet » les URI des références Sudoc et pour « objet » les URI des autorités IdRef[35].

Les déclarations RDF suivantes sont modélisés dans la notice RDF, la date et le titre étant des littéraux :

On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,...  a pour auteur <Charles Darwin>, 
On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,...  a pour date "1859".
On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,...  a pour titre "On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,..."
Sujet Prédicat Objet
<https://www.sudoc.fr/237242338/id > marcrel:aut <http://www.idref.fr/026812304/id>
<https://www.sudoc.fr/237242338/id > dc:date "1859"
<https://www.sudoc.fr/237242338/id > dc:title "On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,..."
Les règles de conversion ou mapping[modifier | modifier le code]

Des règles de conversion ou mapping permettent de convertir les données des catalogues au format MARC en RDF. Des tableaux font la correspondance entre les zones MARC et les propriétés des vocabulaires RDF utilisés dans le modèle de données.

Dans le modèle de données du Sudoc en RDF, des tableaux font la correspondance Unimarc-RDF entre les zones Unimarc et les propriétés des vocabulaires RDF utilisés dans le modèle.

Notes et références[modifier | modifier le code]

  1. F. Gandon, C. Faron-Zucker, O. Corby, Le web sémantique : comment lier les données et les schémas sur le web ?, Paris, Dunod, , 206 p. (ISBN 978-2-10-057294-6), p. 29
  2. « Spécification du modèle et la syntaxe du cadre de description des ressources (Resource Description Framework ou RDF) : Recommandation du W3C 22 février 1999, Annexe A. Glossaire, Triplet », (consulté le )
  3. « Initiation à RDF, § 2. Faire des déclarations à propos des ressources », (consulté le )
  4. (en) « Resource Description Framework (RDF): Concepts and Abstract Syntax : W3C Recommendation 10 February 2004, 6.1 RDF Triples », (consulté le )
  5. Karl Dubost (traducteur), « Spécification du modèle et la syntaxe du cadre de description des ressources (Resource Description Framework ou RDF) : Recommandation du W3C 22 février 1999 », (consulté le )
  6. Antoine Zimmermann, « Initiation à RDF 1.1 : note de groupe de travail du W3C du 24 juin 2014 (traduite le 28 août 2018) », sur W3C, (consulté le )
  7. « Initiation à RDF », sur www.yoyodesign.org, (consulté le )
  8. « Initiation à RDF. Recommandation du W3C du 10 février 2004 », (consulté le )
  9. « « Initiation à RDF. Recommandation du W3C du 10 février 2004, figure 8 », (consulté le )
  10. Séminaire Inria, Le document numérique à l’heure du web de données, Paris, ADBS éditions, , 255 p. (ISBN 978-2-84365-142-7), p.57
  11. Emmanuelle Bermès ; avec la collaboration d'Antoine Isaac et Gautier Poupeau, Le web sémantique en bibliothèque, Paris, Éditions du Cercle de la Librairie, , 171 p. (ISBN 978-2-7654-1417-9), p. 45
  12. Emmanuelle Bermès et avec la collaboration d'Antoine Isaac et Gautier Poupeau, Le web sémantique en bibliothèque, Paris, Éditions du Cercle de la Librairie, , 171 p. (ISBN 978-2-7654-1417-9), p.76
  13. Delestre, Nicolas, Nicolas Malandain, et Michel Bussi., Du web des documents au web sémantique, Bois-Guillaume, Éditions KLOG, , p. 93
  14. « Le thésaurus W et le Web de données », sur data.culture.fr (consulté le )
  15. Mikael Nilsson et Andy Powel, « Expressing Dublin Core metadata using the Resource Description Framework (RDF) » [« Expression des métadonnées Dublin Core avec le cadre de description de ressource (RDF) »], sur www.yoyodesign.org, (consulté le )
  16. « Le thésaurus W et le Web de données », sur data.culture.fr (consulté le )
  17. « RDF 1.1 Turtle », w3c recommendation 25 february 2014 (consulté le )
  18. F. Gandon, C. Faron-Zucker, O. Corby, Le web sémantique : comment lier les données et les schémas sur le web ?, Dunod, , p. 37-41.
  19. Nicolas Delestre et Nicolas Malandan ; préface de Michel Bussi, Du web de documents au web sémantique, Klop édition, p. 105
  20. « JSON-LD 1.1 : A JSON-based Serialization for Linked Data », w3c recommendation 16 july 2020 (consulté le )
  21. Emmanuelle Bermès, « Vers de nouveaux catalogues ? Propos introductif », dans Vers de nouveaux catalogues, Éditions du Cercle de la Librairie, (lire en ligne), p. 9
  22. (en) « Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets », sur www.w3.org (consulté le )
  23. « RAMEAU subject headings as SKOS linked data », sur www.cs.vu.nl (consulté le )
  24. Emmanuelle Bermès, Antoine Isaac et Gautier Poupeau, Le Web sémantique en bibliothèque, Éditions du Cercle de la Librairie, (ISBN 978-2-7654-1417-9, lire en ligne), p. 109
  25. British Standards Institution., Structured vocabularies for information retrieval : guide. Part 4:Interoperability between vocabularies, Londres, BSI, (OCLC 803954372, lire en ligne)
  26. Fichier d’autorités international virtuel ou Virtual International Authority File - service d’OCLC, créé en mai 2012.
  27. « Présentation générale du projet data.bnf.fr », sur data.bnf.fr, (consulté le )
  28. « Web sémantique et modèle de données », sur data.bnf.fr (consulté le )
  29. « RDA Registry », last updated 22 july 2021 (consulté le )
  30. « Les notices d'autorité en RDF », sur documentation.abes.fr (consulté le )
  31. François Mistral et Yann Nicolas, « IdRef, les autorités en conquête et en partage », Autorités, identifiants, entités, no 85,‎ , p. 8–9 (ISSN 2108-7016 et 1269-0589, DOI 10.35562/arabesques.213, lire en ligne, consulté le )
  32. « Les notices d'autorité en RDF », sur documentation.abes.fr (consulté le )
  33. « Le Sudoc en RDF », sur documentation.abes.fr (consulté le )
  34. « data.idref.fr - Réseau Autorités », sur abes.fr (consulté le )
  35. « Data IdRef - IdRef en métadonnées », sur data.idref.fr (consulté le )

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]