Aller au contenu

Caractère précomposé

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 20 janvier 2022 à 18:08 et modifiée en dernier par Sheiden (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

Un caractère précomposé ou caractère composite ou caractère décomposable est une entité Unicode qui peut aussi être définie comme une séquence d'un ou de plusieurs autres caractères. Un caractère précomposé peut typiquement représenter une lettre surmontée d'un accent, comme é (lettre e avec accent aigu). Techniquement, é (U+00E9) est un caractère qui peut être décomposé en son équivalent Unicode à partir de la lettre e (U+0065) et du caractère combinant (en) accent aigu (U+0301). De même les ligatures sont des précompositions des lettres ou graphèmes les constituant.

Les caractères précomposés sont un palliatif de représentation des caractères spécifiques par des systèmes et logiciels dépourvus de mécanismes de composition. En Unicode, ils servent à permettre l'utilisation de ces caractères dans les systèmes et logiciels prenant en charge les caractères décomposés équivalents de façon incomplète.

Caractères précomposés et décomposés

Les exemples suivants se basent sur le patronyme Åström — commun en suédois — qui peut s'écrire avec chacune de ces deux conventions. Ici, les caractères précomposés sont Å (U+00C5) et ö (U+00F6), et les décomposés sont A (U+0041) avec rond en chef (U+030A) et o (U+006F) avec tréma (U+0308). Pour illustrer la différence, les caractères précomposés sont ici affichés en vert et les caractères décomposés en noir. Selon le navigateur, les accents décomposés peuvent apparaître en orange ou en noir.

  1. Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Mis à part pour les couleurs, les deux solutions sont équivalentes et devraient s'afficher de manière identique. En pratique cependant, certaines mises en œuvre d'Unicode gèrent difficilement les caractères décomposés. Dans le pire des cas, les diacritiques ne sont pas affichés ou pas affichés convenablement.

L'exemple suivant montre la reconstruction en indo-européen commun du mot français chien :

  1. ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

Dans certaines situations, les lettres précomposées vertes k, u et o avec accent peuvent apparaître sous forme d'autres caractères, ou leur apparence typographique être très différente de la lettre finale n sans diacritique. Dans la deuxième ligne, les lettres devraient au moins être affichées correctement même si les diacritiques combinants ne sont pas gérés correctement.

Voir aussi

Sources

Liens externes