Entité de caractère

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Une entité de caractère, ou référence de caractère, est un code SGML qui référence un caractère de la norme ISO/CEI 10646. Elle permet d'afficher des caractères indépendamment du jeu du document.

On utilise généralement des entités dans les documents HTML et XHTML (car XML est basé sur SGML).

Références numériques[modifier | modifier le code]

Afin de contourner les limitations des encodages, SGML est conçu de telle manière qu'il est possible de représenter les caractères de l'intégralité d'Unicode à l'intérieur d'un document HTML en utilisant une référence de caractère numérique : une séquence de caractères qui épelle explicitement le numéro du point de code Unicode du caractère à représenter. Une référence numérique prend la forme

&#N;,

N est soit un nombre décimal, soit un nombre hexadécimal, auquel cas il est préfixé par x. Les caractères autorisés pour être référencés par un nombre sont tous les caractères Unicode, moins la plupart des caractères de commande et les non-caractères[1].

Par exemple, un point de code Unicode comme U+266B (9835), qui correspond à deux croches liées, doit être précédé par & et suivi de ;, comme cela : ♫, ce qui produit ceci : ♫.

Le support d'hexadécimaux dans ce contexte est plus récent ; par conséquent les navigateurs web plus anciens peuvent avoir des problèmes pour afficher les caractères référencés avec des nombres hexadécimaux – mais de toute façon, ils auront aussi des problèmes pour afficher des caractères Unicode dont le point de code est supérieur à 255. Pour assurer une meilleure compatibilité avec des navigateurs plus anciens, il est commun de convertir les points de code hexadécimaux en valeurs décimales (par exemple ♫ au lieu de ♫).

Références nommées (entités de caractères)[modifier | modifier le code]

En SGML, il existe un jeu standard de 252 entités de caractère nommées pour des caractères qui sont soit absents de certains encodages, soit sensibles au balisage dans certains contextes (par exemple les chevrons et esperluettes). Bien que n'importe quel caractère Unicode puisse être référencé par la valeur numérique de son point de code, certains auteurs de documents HTML préfèrent utiliser ces entités nommées à la place, si possible, car elles sont plus intuitives, notamment pour les anglophones, et étaient mieux supportées sur les navigateurs plus anciens.

Une entité de caractère prend la forme : &NomEntité;, où NomEntité est le nom de l'entité. Par exemple, – se réfère à – ou – et représente U+2013, le tiret demi-cadratin – comme ceci.

Notes et références[modifier | modifier le code]

  1. (en)4.1 Character and Entity References, Extensible Markup Language (XML) 1.0 (Fifth Edition), Recommandation W3C du 26 novembre 2008.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]