UTF-8

UTF-8 est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un à six octets (il n'existe pas actuellement de caractères codés avec plus de 4 octets).

Quand le caractère est codé avec 1 octet, il commence avec le premier bit à 0. Sinon, le premier octet débute avec 11 le nombre de bit à 1 indiquant le nombre d'octets et les octets suivants débutent avec 10. L'encodage est résumé ci-dessous :

0vvvvvvv, 1 octet il s'agit du codage de l'ASCII,
110vvvvv 10vvvvvv, 2 octets
1110vvvv 10vvvvvv 10vvvvvv, 3 octets
...
1111110v 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv, 6 octets

Ainsi en se plaçant n'importe où dans un document encodé en UTF8, il est aisé de savoir si on est au début ou au milieu d'un caractère et de retrouver le début du caractère.

Avec un afficheur/éditeur ne comprenant pas l'encodage UTF8, les caractères ASCII d'un document ainsi encodé s'affichent toujours correctement.

Le codage est défini dans le rapport technique 17 de la norme.

Voir aussi

UTF-16, UTF-32, Wikipédia:Caractères spéciaux.