Duplication de caractères Unicode

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Unicode permet une duplication de certains caractères de façon à permettre la conversion des anciens codages vers l'Unicode sans perte d'information. Ces caractères sont parfois affichés de manière identique, mais peuvent l'être avec une taille ou un style différent, de manière à satisfaire les attentes des anciens systèmes.

Codes CJC (en anglais CJK) en pleine largeur[modifier | modifier le code]

En encodage CJC traditionnel les caractères prennent en général soit un seul octet (demi-largeur) soit deux (pleine largeur). Les caractères qui ne prennent qu'un seul octet étaient généralement affichés à la moitié de la largeur de ceux qui étaient codés sur deux octets. Certains caractères, par exemple ceux de l'alphabet latin étaient disponibles à la fois en demi et pleine largeur. Comme les versions en pleine largeur étaient plus fréquemment utilisées, elles ont généralement été affectées aux codes standards de ces caractères. Pour conserver la distinction entre demi et pleine largeur, une section séparée était donc nécessaire pour les versions en pleine largeur.

Grec[modifier | modifier le code]

Beaucoup de lettres grecques sont utilisées comme symboles techniques. Toutes les lettres grecques sont encodées dans la section grecque d'Unicode mais beaucoup sont encodées une seconde fois sous le nom du symbole technique qu'elles représentent. Parmi ces lettres, on peut citer le symbole micro qui se situe dans la plage ISO/CEI 8859-1, et beaucoup d'autres qui sont dans la plage des symboles lettrés (letterlike). La position du symbole micro (U+00B5, µ) est clairement héritée du codage ISO/CEI 8859-1, mais l'origine des autres est moins claire..

Numération romaine[modifier | modifier le code]

Unicode possède certains caractères spécifiquement conçus pour la numération romaine, dans la plage des formes numérales entre U+2160 et U+2183. Par exemple, MCMLXXXVIII pourrait alternativement être écrit comme ⅯⅭⅯⅬⅩⅩⅩⅧ. Cette plage inclut à la fois les nombres en bas et haut de casse, ainsi que les glyphes pré-combinés pour les nombres jusqu'à 12 (Ⅻ (en 1 caractère) ou ⅩⅠⅠ (en 3 caractères). Ces derniers sont essentiellement destinés aux fabricants d'horloges, pour compatibilité avec les encodages autres qu'ouest-européens. Les glyphes pré-combinés devraient uniquement être utilisés que pour représenter les nombres individuels où l'utilisation d'une combinaison de glyphes indépendants n'est pas voulue, et pas pour remplacer les nombres composés. De façon similaire, des glyphes pré-combinés pour 5000 et 10000 existent.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Homoglyphe

v · m Unicode
Jeux de caractères de base	UCS (ISO/CEI 10646) Table des caractères Unicode ISO/CEI 646, ASCII ISO/CEI 8859-1 WGL4 Unihan
Codification de fichiers et protocoles	UTF-8 UTF-16 UTF-32 CESU-8 UTF-7 BOCU-1 SCSU BOM
Adaptations de référence	UTF-EBCDIC (Amérique, Europe occidentale) ISO/CEI 8859-11 (ou TIS-620) (Thaïlande) ISCII (Inde) SLS 1326 (ou TSCII) (Sri Lanka) Shift-JIS (Japon) GB 18030 (Chine) HKSCS (Hong Kong)
Équivalences standards	NFC (forme précomposée, recommandée) NFD (forme décomposée) NFKC (forme précomposée de compatibilité) NFKD (forme décomposée de compatibilité)
Propriétés et algorithmes	Texte bidirectionnel Casse Ordonnancement UCA
Transformations	Stringprep Punycode
Standards et normes liés	BCP 47 (étiquettes IETF d’identification de langues) ISO 639 (codes pour la représentation des noms de langues ou groupes de langues) ISO 15924 (codes pour la représentation des noms d’écritures) ISO 3166-1 (codes pour la représentation des noms de pays ou régions du monde) ISO 4217 (codes pour la représentation des noms de devises monétaires)
Mises en œuvre et applications	ICU CLDR IDN IRI Entités de caractère XLM et HTML OpenType Uniscribe Courriel et Unicode