Aller au contenu

BiblioML

Un article de Wikipédia, l'encyclopédie libre.

BiblioML (Bibliographic Markup Language) est un langage de balisage fondé sur la syntaxe XML, conçu pour représenter les notices bibliographiques au format UNIMARC dans un environnement structuré et interopérable.

Il s'agit d'un langage informatique composé de mots-clés, de noms ou de balises facilement compréhensibles qui aident à formater la vue globale d'une page et les données qu'elle contient.

Description

[modifier | modifier le code]

BiblioML n'est pas un langage de programmation. Ce sont des marqueurs spéciaux entrecoupés de texte brut qui, lorsqu'ils sont supprimés ou ignorés, laissent tout le texte brut. Alternativement, vous pouvez interpréter ces marqueurs d'une manière définie (mettre ce texte en gras, faire de ce texte une liste numérotée). Cela améliorera votre présentation à vos lecteurs. Le texte en clair, en revanche, peut (et fait souvent) partie d'un programme informatique. Cependant, l'expression diffère selon le langage de programmation et le style d'écriture du programmeur. Il est important de noter qu'une fois que tous les composants non clairs d'un programme informatique ont été supprimés, le texte clair restant n'est plus complet et ordonné correctement. Par exemple, le code HTML qui compose ce site Web est un bon exemple de balisage. Les balises HTML indiquent comment les éléments de texte du contenu sont affichés dans votre navigateur Web. Cependant, si le HTML, le CSS et le JavaScript sont supprimés, la plupart du texte restera et sera lisible par l'homme. Cependant, comme tous les langages de balisage, HTML se limite à créer des comportements interactifs, dynamiques ou informatiques. Pour créer un site Web qui exécute des fonctions plus complexes (par exemple, la recherche), un langage de programmation, tel que JavaScript, Perl ou PHP est requis.

Contrairement à un langage de programmation, BiblioML ne contient pas d’instructions exécutables : il sert uniquement à structurer et à échanger des données bibliographiques. Sa DTD (Document Type Definition, ou définition de type de document) décrit la structure du format, en précisant quels éléments et attributs peuvent être utilisés pour représenter une notice bibliographique. Par exemple, une notice peut être organisée à l’aide d’éléments comme <BiblioRecord> (enregistrement bibliographique), <Title> (titre), <Author> (auteur) ou <Publication> (informations de publication)[1].

La structure de BiblioML est directement inspirée du format UNIMARC, utilisé dans les bibliothèques pour le catalogage des documents. Chaque champ et sous-champ d’UNIMARC correspond à un élément ou un attribut dans BiblioML. Cette correspondance permet de convertir aisément des notices créées en UNIMARC vers le format XML de BiblioML, tout en conservant la hiérarchie et la signification des données[2].

Par exemple, le champ 200 d’UNIMARC (titre et mention de responsabilité) peut être représenté en BiblioML par un élément <Title> pour le titre et un élément <Author> pour l’auteur. Grâce à cette modélisation, BiblioML facilite l’échange de données entre systèmes documentaires différents et leur exploitation sur le Web[3].

BiblioML permet ainsi de convertir des notices UNIMARC en XML afin de faciliter leur traitement par des systèmes informatiques ou leur diffusion sur le web, tout en préservant la structure logique des données d’origine.

Le projet BiblioML (Bibliographic Markup Language) a été lancé à la fin des années 1990 par le Ministère de la Culture et de la Communication (Mission de la recherche et de la technologie) afin de définir une DTD XML permettant de représenter les notices du format UNIMARC dans un environnement XML[1]. Environ en 1999 la version initiale (par exemple version 0.3) recensait 224 éléments et 2 entités, et utilisait comme élément racine <code>BiblioRecord</code>[3].

La DTD permit des conversions de notices UNIMARC vers XML et fut utilisée dans des projets de diffusion de catalogues français. Par exemple, elle figure dans l’un des schémas référencés pour les schémas XML de l’administration française[4].

Toutefois, avec la montée des formats internationaux comme MARCXML ou le modèle BIBFRAME orienté données liées (linked data), BiblioML est resté majoritairement un format de transition, plus utilisé localement (en France) qu’à l’échelle internationale[5].

Bien que la DTD BiblioML ait constitué une étape importante dans l’adaptation du format UNIMARC à l’environnement XML, son usage est resté principalement limité à la sphère française.

Usage et portée

[modifier | modifier le code]

Markup signifie comment vous pouvez structurer ou formater le contenu. HTML est appelé "Markup Language " car il permet aux utilisateurs d'organiser l'apparence et la présentation de tout le contenu qui apparaîtra sur une page Web. Il indique au navigateur Web comment afficher les mots et les images sur la page à l'utilisateur.

L’usage de BiblioML est resté principalement centré sur la France, notamment dans le cadre du programme de transition bibliographique de la France[6]. Le langage a été conçu pour accompagner la conversion des notices UNIMARC dans des formats structurés afin d’améliorer leur réutilisation dans des systèmes informatiques et des catalogues en ligne.

À l’international, d’autres standards XML issus du format MARC ont été privilégiés. Le plus répandu est MARCXML, développé par la Library of Congress, aligné sur le format MARC 21 utilisé en Amérique du Nord et au Canada[7].

Depuis les années 2010, le modèle BIBFRAME (Bibliographic Framework Initiative), développé par la Library of Congress, a ouvert une nouvelle étape dans la modélisation bibliographique. Ce modèle vise à remplacer les formats MARC traditionnels par un schéma basé sur les données liées (Linked Data) et le Web sémantique.

Ainsi, BIBFRAME tend progressivement à supplanter les solutions XML comme BiblioML et MARCXML, en offrant une meilleure interopérabilité entre catalogues et plateformes numériques.

XML est Markup Language basé sur Standard Generalized Markup Language (SGML) utilisé pour définir Markup Language. La fonction principale de XML est de créer des formats de données qui sont utilisés pour encoder des informations pour des documents, des enregistrements de base de données, des transactions et de nombreux autres types de données[8].

L'objectif principal de XML, cependant, est de stocker des données d'une manière qui peut être facilement lue et partagée entre les applications logicielles. Étant donné que son format est normalisé, XML peut être partagé entre des systèmes ou des plates-formes, à la fois localement et sur Internet, et le destinataire pourra toujours analyser les données[9].

XML est l'un des formats les plus largement utilisés pour le partage d'informations structurées aujourd'hui: entre programmes, entre personnes, entre ordinateurs et personnes, à la fois localement et sur un réseau. Si vous êtes familier avec HTML, vous trouverez peut-être que XML est très similaire[10].

Développement et évolution

[modifier | modifier le code]

BiblioML est resté un format de transition dans le paysage des normes bibliographiques. Sa structure, entièrement décrite en DTD XML, a inspiré plusieurs initiatives ultérieures, notamment les modèles de conversion automatique entre UNIMARC et MARCXML.

Bien qu’il ne soit plus activement développé, BiblioML est encore cité dans la littérature professionnelle pour son rôle historique dans la diffusion de l’UNIMARC vers le Web et comme première tentative française d’adaptation du MARC à XML[11].

Depuis les années 2020, la tendance générale des bibliothèques françaises et canadiennes s’oriente vers l’adoption de modèles de données plus ouverts et compatibles avec le Web sémantique, tels que BIBFRAME, Schema.org ou les ontologies RDF pour les métadonnées.

Dans ce contexte, BiblioML conserve surtout une valeur patrimoniale et pédagogique: il témoigne des efforts de normalisation et de modernisation du traitement des données bibliographiques à la charnière entre les formats MARC et les technologies XML.

Langage d'écriture

[modifier | modifier le code]

Chaque fichier XML a un élément racine, qui contient tous les autres éléments enfants. L'élément racine est écrit sous la déclaration. Dans cet exemple de fichier, "<root_element>" est la balise de début de l'élément racine et "</root_element>" est l'élément de fermeture. Tous les autres éléments iront entre ces balises[9].

Extensibles Markup Language (XML) est un dialecte extrêmement simple de SGML, conçu pour permettre au SGML générique d'être distribué, reçu et traité sur le Web d'une manière qui est actuellement possible avec HTML. XML est conçu pour être facile à déployer et interopérable avec SGML et HTML. Cette page fournit des liens vers deux sections différentes du projet de norme XML actuel[12].

Un ensemble extrêmement complet de liens pour Standard Generalized Markup Language (SGML). Il comprend des informations générales relatives à la norme, des pointeurs vers des sites Web hébergés par SGML sur Internet, vers des catégories liées à SGML, vers divers consortiums SGML, des groupes d'utilisateurs et des groupes d'intérêts spéciaux, des nouvelles spéciales et de groupe, des informations sur la conférence, le domaine public et des informations commerciales. Logiciels, projets et applications SGML utilisant SGML et de nombreuses normes connexes.

BiblioML, ou Bibliographic Markup Language, est une DTD XML (XML Schema depuis la version 0.6 (actuellement en version alpha)) créée en 1999[13] sous l’égide de la Mission de la recherche et de la technologie du Ministère de la Culture français qui souhaitait mettre en place un outil commun de gestion des références bibliographiques de ses applications XML (dossiers d'inventaire, dossiers d'artistes, rapports de fouilles, etc.).

BiblioML permet la conversion au format XML de notices bibliographiques ou d'autorité saisies en format UNIMARC. Les champs et sous-champs de BiblioML correspondent à ceux d'UNIMARC. BiblioML comporte 224 éléments (BiblioRecord étant celui de plus haut niveau), 2 entités (BooleanAttribute et DataContent) mais aucune notation.

La Bibliographie nationale française (en ligne depuis ) est un exemple d'utilisation de BiblioML. Les notices bibliographiques sont d'abord cataloguées en Intermarc puis extraites en Unimarc, et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation produit enfin des pages HTML pour publication sur le Web.

Python prend en charge de nombreux modules différents pour travailler avec différents types de balisage de données structurées. Cela inclut des modules pour travailler avec Markup Language commun standard (SGML) et le langage de balisage hypertexte (HTML), ainsi que plusieurs interfaces pour travailler avec le langage Openable Markup Language (XML)[14].

Notes et références

[modifier | modifier le code]
  1. a et b Jean-Marie CHAUVET, « De XML aux services Web pour les entreprises », Documents numériques Gestion de contenu,‎ (DOI 10.51257/a-v2-h2910, lire en ligne, consulté le )
  2. Mirjana Jakšić, « Mapping of bibliographical standards into XML », Software: Practice and Experience, vol. 34, no 11,‎ , p. 1051–1064 (ISSN 0038-0644 et 1097-024X, DOI 10.1002/spe.603, lire en ligne, consulté le )
  3. a et b « UNIMARC and XML », dans UNIMARC & Friends: Charting the New Landscape of Library Standards, Walter de Gruyter – K. G. Saur, , 83–98 p. (ISBN 978-3-598-24279-3, DOI 10.1515/9783598440342.2.83, lire en ligne)
  4. « Répertoire des schémas XML de l'administration », sur gilles-hunault.leria-info.univ-angers.fr (consulté le )
  5. Gilles DUCHEMIN, « Maintenance des machines et des moteurs », Machines hydrauliques, aérodynamiques et thermiques,‎ (DOI 10.51257/a-v2-bm4188, lire en ligne, consulté le )
  6. « La « transition bibliographique » en France : à qui profite le changement ? », Association pour l’avancement des sciences et techniques de la documentation (ASTED)
  7. (en) « Comprendre le format MARC bibliographique », Bibliothèque et Archives Canada
  8. (en) « What is XML (Extensible Markup Language)? », sur WhatIs.com (consulté le )
  9. a et b (en) « XML Files: What They Are & How to Open Them », sur blog.hubspot.com (consulté le )
  10. « XML Essentials - W3C », sur www.w3.org (consulté le )
  11. « Vers la convergence des formats bibliographiques »
  12. (en) admin, « Standardized Handling of Digital Resources: An Annotated Bibliography », sur Association for Library Collections & Technical Services (ALCTS), (consulté le )
  13. « BiblioML | Glossaire CRFCB » (consulté le )
  14. « Structured Markup Processing Tools — Python 3.11.0 documentation », sur docs.python.org (consulté le )

Liens externes

[modifier | modifier le code]