Caractère précomposé

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Un caractère précomposé (ou caractère composite ou caractère décomposable) est une entité Unicode qui peut aussi être définie comme une combinaison de plus de deux caractères. Un caractère précomposé peut typiquement représenter une lettre surplombée d'un accent, comme é (Lettre e avec accent aigu). Techniquement, é (U+00E9) est un caractère qui peut être décomposé en son équivalent unicode à base de la lettre e (U+0065) et du caractère combinant accent aigu (U+0301). De même les ligatures sont des précompositions des lettres ou graphèmes les constituants.

Les caractères précomposés sont un palliatif de représentation des caractères spécifiques par des systèmes et logiciels dépourvus de mécanismes de composition. En Unicode, ils continuent de permettre l'utilisation de ces caractères sur des logiciels prenant en charge Unicode de manière incomplète.

Caractères précomposés et décomposés[modifier | modifier le code]

Les exemples suivants se basent sur le patronyme Åström commun en suédois qui peut s'écrire avec chacune de ces deux conventions. Ici, les caractères précomposés sont Å (U+00C5) et ö (U+00F6), et les décomposés sont A (U+0041) avec anneau en chef (U+030A) et o (U+006F) avec tréma (U+0308). Pour illustrer la différence, les caractères précomposés sont ici affichés en vert et les caractères décomposés en noir en fonction du navigateur les accents décomposés peuvent apparaître en orange ou en noir.

  1. Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Mis à part pour les couleurs, les deux solutions sont équivalentes et devraient s'afficher de manière identique. En pratique cependant, certaines mises en œuvre d'Unicode gèrent difficilement les caractères décomposés. Dans le pire des cas, les diacritiques ne sont pas affichés ou pas affichés convenablement.

L'exemple suivant montre la reconstruction en proto-indo-européen du mot français chien :

  1. ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

Dans certaines situations, les lettres précomposées vertes k, u et o avec accent peuvent apparaître sous forme d'autres caractères, ou leur apparence typographique être très différente de la lettre finale n sans diacritique. Dans la deuxième ligne, les lettres devraient au moins être affichées correctement même si les diacritiques combinants ne sont pas gérés correctement.

Voir aussi[modifier | modifier le code]

Sources[modifier | modifier le code]

Liens externes[modifier | modifier le code]

  • (de) Free Idg Serif, une police basée sur Free Serif à laquelle ont été ajoutées des déclarations de caractère précomposés.