HTML sémantique

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Le HTML sémantique est l'utilisation du balisage HTML visant à renforcer le sémantisme (la signification) des informations contenues dans les pages web, c'est-à-dire leur sens, plutôt que de se borner à définir leur présentation (ou apparence). Le HTML sémantique est traité par les navigateurs courants, mais aussi par de nombreux autres agents utilisateurs. Le langage CSS est utilisé pour suggérer la forme sous laquelle il sera présenté aux utilisateurs humains.

Par exemple, les spécifications HTML récentes déconseillent[1] l'utilisation de la balise <i>, qui indique un style de police italique, au profit de balises sémantiquement plus précises, telles que <em>, qui indique une mise en valeur. C'est la feuille de style CSS qui spécifie ensuite si cette mise en valeur est représentée par un style italique, un style gras, un soulignement, une prononciation plus lente ou plus forte, etc. L'utilisation de l'italique ne se limite en effet pas à la mise en valeur. Il est également utilisé pour citer des sources, et pour cela, le HTML 4 propose la balise <cite>[2]. L'italique peut également être utilisé pour les mots ou expressions en langue étrangère, ainsi que les emprunts. Les concepteurs de sites web peuvent utiliser les attributs intégrés au langage XHTML[3] ou spécifier leur propre balisage sémantique en choisissant des noms appropriés pour la valeur de l'attribut class des éléments HTML (par exemple, class="emprunt"). Le fait de baliser la mise en valeur, les citations et les emprunts de manière différente permet aux agents Web (ou user-Agent) tels que les moteurs de recherche et autres logiciels d'évaluer précisément l'importance du texte.

Histoire[modifier | modifier le code]

HTML inclut des balises sémantiques depuis sa création[4]. Dans un document HTML, l'auteur peut, entre autres choses, «commencer avec un titre; ajouter des paragraphes et signatures; mettre de l'emphase sur le texte; ajouter des images et des liens vers d'autres pages; et utiliser différents types de listes"[5]. À un moment donné, HTML a inclus des balises de présentation textuel, telles que <font>, <i> et <center>. Il y a aussi de balises neutres sémantiquement : <div> et <span>. Depuis les années 1990, lorsque CSS a apparu dans la plupart des navigateurs, les concepteurs de sites web ont été encouragés à éviter l'utilisation de balises HTML de présentation, en vue de la séparation de la présentation et le contenu[6].

La langue de cette portion d’article est : en   ⇔  En 2001, Tim Berners-Lee a participé à une discussion sur le Web sémantique, où il a été proposé que des «agents» d'intelligence artificielle pourraient un jour automatiquement chercher sur le Web et trouver, filtrer et mettre en corrélation des faits diverses publiés pour le bénéfice des utilisateurs humains. Même maintenant, ces agents n'existent pas, mais quelques-unes des idées du Web 2.0, Application composite et les sites Comparateur de prix peut être à venir à proximité. La principale différence, entre ces hybrides d'applications web et des agents sémantiques de Berners-Lee, réside dans le fait que l'agrégation d'information et l'hybridation actuelle sont généralement conçu par développeurs web qui connaissent déjà les lieux web et la sémantique API spécifiques qu'ils souhaitent à écraser, comparer et combiner. Un type important d'agent Web qui lit des pages web automatiquement, sans connaissance préalable de ce qu'il pourrait trouver, c'est le Robot d'indexation du moteurs de recherche. Ces agents logiciels dépendent de la clarté sémantique des sites Web qu'ils trouvent, car ils utilisent différentes techniques et algorithmes pour lire et indexer des millions de sites web par jour.

Pour qualifier le sens des textes dans les documents HTML, et aussi pour d’applications composites ainsi que d'autre agents, les structures sémantiques doivent être appliquées de manière uniforme[7].

La langue de cette portion d’article est : en   ⇔  Alors que le Web sémantique peut dépendre de l'ontologie de RDF et du Métadonnées complexes, tous les documents HTML apporte sa contribution au Web par l'utilisation correcte des titres, listes, et autres balisages sémantiques. L'utilisation correcte des balises dans le Web 2.0 crée des folksonomies qui peuvent être très significatives dans certains cas[7]. Le HTML5 créera de nouvelles balises sémantiques, par exemple article, footer, progress, et nav qui seront d'usage courant sur les sites Web de l'avenir.

La langue de cette portion d’article est : en   ⇔  Les balises de présentation ne sont pas obsolètes au courant HTML (4.01) et XHTML, mais sont pas recommandées. En HTML 5 certains de ces éléments, tel que <i>[8] et <b>[9] conservent leur sens, mais ont été définis "à être stylistiquement pas relevante par rapport à la prose ordinaire, sans importance supplémentaire".

Contre-partie[modifier | modifier le code]

Dans l'éventualité où un document nécessiterait une sémantique plus précise que celle incluse dans le seul HTML, des parties du document peuvent inclure des éléments span ou div, complétés par des classes aux noms pertinents. Ces noms de classes sont au mieux suggestifs plutôt qu'indicatifs, à moins qu'ils ne soient préalablement partagés par le créateur et le consommateur du contenu, tels que <span class="author"> et <div class="invoice">. Lorsque ces noms de classes coinstituent également une partie identificatrice au sein d'un schéma, ils peuvent référer à une signification plus précise. Les Microformats formalisent cette approche de la sémantique dans le HTML.

Une restriction importante de cette approche s'impose : un tel balisage fondé sur l'inclusion d'éléments doit remplir les conditions de La langue de cette portion d’article est : en   ⇔  rectitude du HTML. L’architecture principale des ces documents (en arborescence) implique que seuls les parties équilibrées en provenance d'une sous-arborescence peuvent être balisées de cette manière[10]. Un des moyens de baliser n'importe quelle section du HTML requerrait un mécanisme indépendant de la structure de balisage elle-même, tel que XPointer.

Le bon emploi du HTML sémantique permet aussi d'améliorer l'accessibilité des documents sur Internet. Par exemple, lorsqu'un lecteur d'écran ou un navigateur audio peut correctement établir la structure d'un document, ils ne gaspilleront pas le temps des utilisateurs à la vue amoindrie en lisant des informations non pertinentes ou répétitives si elles ont déjà été balisées correctement.

Les « extraits enrichis » de Google[modifier | modifier le code]

En 2010, Google a indiqué que ses systèmes utiliseront à l'avenir trois formes de metadonnées structurées pour trouver du contenu sémantique structuré dans les pages Web. Ces informations, lorsqu'elles porteront sur des articles, des profils, des listes professionnelles ou des évènements, seront utilisées par Google pour enrichir les extraits apparaissant sous le titre des pages données en résultat. Google a annoncé que ces données peuvent être fournies sous forme de microdonnées, de mots-clés en microformat ou à l'aide de la syntaxe RDFa[11]. Les microdonnées sont spécifiées dans les attributs itemtype et itemprop ajoutés aux éléments HTML existants ; les mots-clés en microformat sont ajoutés dans les attributs class comme expliqué précédemment ; et le RDFa fait appel aux attributs rel, typeof et property ajoutés aux éléments existants[12]. Pour contrôler la validité du balisage, google a mis en place un outil appelé "Rich Snippet Tool" [13]

Références[modifier | modifier le code]

  1. (en) « Spécification HTML 4.01 - Les polices », W3C,‎ 2000, révisé en 2002 (consulté le 6 juillet 2012)
  2. (en) « Spécification HTML 4.01 - Le texte », W3C,‎ 1999 (consulté le 6 juillet 2012)
  3. (en) « Spécification XHTML 1.0 - Les attributs lang et xml:lang », W3C,‎ 2000, révisé en 2002 (consulté le 6 juillet 2012)
  4. (en) Tim Berners-Lee et Mark Fischetti, Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor, San Francisco, Harper,‎ 2000 (ISBN 978-0062515872)
  5. (en) Dave Raggett, « Getting started with HTML », World Wide Web Consortium,‎ 24 April 2005
  6. (en) Dave Raggett, « Adding a touch of style », World Wide Web Consortium,‎ 8 April 2002 (consulté le 8 December 2010) Cet article note que le balisage HTML de présentation peut être utile lorsqu'on cible les navigateurs Netscape 4.0 et Internet Explorer 4.0, qui ont tous deux été introduit en 1997.
  7. a et b [PDF] (en) Nigel Shadbolt, « The Semantic Web Revisited », IEEE Intelligent Systems,‎ May/June 2006
  8. (en) « HTML5 », World Wide Web Consortium
  9. (en) « HTML5 », World Wide Web Consortium
  10. (en) « Well-Formed XML Documents », Extensible Markup Language (XML) 1.1, W3C
  11. (en)« Rich snippets (microdata, microformats, and RDFa) », Google,‎ 19 mars 2012
  12. (en)« Rich snippets - Organizations », Google,‎ 8 mars 2012
  13. (fr) «  » (ArchiveWikiwixArchive.isGoogleQue faire ?). Consulté le 2013-04-14

Article en relation[modifier | modifier le code]