Texte bidirectionnel

Certains systèmes d’écritures, tels que l’alphabet arabe et hébreu, s’écrivent de droite à gauche (Right-To-Left, RTL, en anglais). Dans ce cas, le texte commence du côté droit de la page et se termine du côté gauche, au contraire du sens d’écriture occidental de gauche à droite (Left-To-Right, LTR) des langues utilisant l’alphabet latin (telles que le français). Lorsqu’un texte LTR est mélangé avec un texte RTL dans le même paragraphe, chaque type de texte doit être écrit dans son propre sens, phénomène connu sous le nom de texte bidirectionnel.

Systèmes d’écriture[modifier | modifier le code]

Cela peut devenir relativement complexe, lorsque plusieurs niveaux de citations sont utilisés. La plupart des systèmes d’écriture originaires de Moyen-Orient sont de cette nature. Par exemple, le nom hébreu Sarah (שרה) doit être épelé shin (ש), resh (ר), heh (ה) de droite à gauche.

Très peu d’écritures peuvent être écrites dans les deux sens. C’était le cas des hiéroglyphes égyptiens, où l’on employait un hiéroglyphe « tête », orientée dans le sens de lecture, marquant le début d’une ligne, et un hiéroglyphe « queue » pour marquer la fin. L’orientation des hiéroglyphes renseigne sur le sens de lecture : les figures (par exemple les oiseaux) « regardent » en effet vers le début de la ligne.

Certaines inscriptions grecques, touaregs, et runiques hongroises ont utilisé un système original, appelé boustrophédon, dans lequel le sens de lecture est inversé à chaque ligne.

Prise en charge de l’écriture bidirectionnelle[modifier | modifier le code]

La prise en charge de l’écriture bidirectionnelle (en anglais bidirectional script support) est la capacité d’un logiciel à afficher correctement le texte bidirectionnel. Dans le jargon informatique, on abrège ce terme par BiDi ou bidi. Peu de logiciels affichent correctement les textes bidirectionnels. Certains navigateur web peuvent afficher le texte hébreu de cet article en sens inverse.

Les premiers systèmes informatiques étaient conçus pour ne prendre en charge qu’un unique sens d’écriture, en particulier le sens LTR (ainsi qu’une unique fonte basée sur l’ASCII et l’alphabet latin). L’ajout de nouveaux jeux de caractères et d’encodages a permis le support d’autres écritures de gauche à droite, mais peu aisément de droite à gauche, par exemple pour l’arabe ou l’hébreu, et le mélange des deux irréalisable. Le support bidirectionnel a permis d’utiliser les deux sens d’écriture dans une même page, voire dans un même paragraphe.

En particulier, le standard Unicode fournit des bases pour un support BiDi complet, avec des règles détaillées définissant comment doivent être enchaînés les textes de droite à gauche et de gauche à droite pour leur codage et affichage. En codage Unicode, tous les caractères sont stockés dans l’ordre d’écriture, et le logiciel trouve dans quelle direction le texte doit être affiché.

Subtilités techniques en Unicode[modifier | modifier le code]

Les niveaux[modifier | modifier le code]

Les morceaux de textes sont numérotés en fonction de leur niveau d’imbrication. Le niveau 0 est celui de l’écriture du texte dans sa langue principale depuis le début du texte, par exemple en français écrit de gauche à droite, le niveau 1 est du simple texte quand son écriture doit changer de direction (par exemple passer du français à l'arabe), possiblement embarqué à l’intérieur de texte français de niveau 0. Le niveau 2 est quand le texte embarqué à l’intérieur de texte arabe de niveau 1 s'écrit à nouveau dans la direction initiale, et ainsi de suite.

Sauf exceptions, le texte et les nombres français seront toujours d’un niveau pair ; les textes arabes (à l’exception des nombres) seront d’un niveau impair.

Par exemple, en notant par des lettres latines majuscules le texte de droite à gauche (ÉCRIT EN ARABE) et par des minuscules le texte de gauche à droite (comme du français ou du catalan écriture latine), sans tenir compte de la casse du texte réel :

Représentation mémoire	un texte ÉCRIT EN ARABE et en français
Types des caractères	LL-LLLLL-RRRRR-RR-RRRRR-LL-LL-LLLLLLLL
Niveau	00000000011111111111111000000000000000
Ordonnancement final	un texte EBARA EN TIRCÉ et en français

Les caractères neutres (espaces) entre les caractères écrits dans la même direction (dans « un texte » ou dans « ÉCRIT EN ARABE » ou dans « et en français ») prennent par défaut le niveau des caractères les entourant. Quand des caractères neutres figurent entre des caractères de direction différente, ils adoptent la direction des caractères de niveau inférieur.

Caractères en miroir[modifier | modifier le code]

Certains caractères apparaissent dans leur forme miroir lorsqu’ils sont écrits de droite à gauche.

Par exemple, la parenthèse gauche U+0028 qui est interprétée par le standard Unicode comme une parenthèse ouvrante apparaît comme « ( » quand elle est résolue en tant que paire, et comme son glyphe miroir « ) », lorsqu’elle est considérée comme impaire.

Contrôle de la direction d'écriture[modifier | modifier le code]

Des marques directionnelles peuvent être ajoutées autour des caractères neutres, afin d’en changer leur effet : par exemple pour forcer un caractère à prendre une direction donnée, ou pour marquer explicitement le début et la fin d'une séquence encapsulée qui doit conserver sa direction interne propre, indépendamment de la direction du texte placé avant ou après : de tels textes encapsulés sont appelés des « isolats bidirectionnels »), le texte écrit après n'est pas altéré par le texte encapsulé (notamment les caractères pouvant être écrits en miroir, ou les ponctuations séparatrices d'éléments dans une liste dont les éléments inclus peuvent être dans des écritures différentes et ne doivent pas être réordonnés en plusieurs parties).

Alors que le sens d’écriture est le plus souvent détecté automatiquement, des marques de contrôle sont prévues afin de pouvoir changer le sens d’écriture.

Le marqueur de gauche à droite (abrégé LRM en anglais) a le code hexadécimal U+200E pour indiquer la direction des caractères suivants de direction neutre (il n'a aucun effet si le caractère suivant a une autre direction bien définie ; il a le même effet que l’attribut dir="ltr" d’un élément HTML quelconque, c’est un simple indicateur suggérant la direction par défaut à adopter pour la suite.
Le marqueur de droite à gauche (abrégé RLM en anglais) a le code hexadécimal U+200F pour indiquer la direction des caractères suivants de direction neutre (il n'a aucun effet si le caractère suivant a une autre direction bien définie ; il a le même effet que l’attribut dir="rtl" d’un élément HTML quelconque, c’est un simple indicateur suggérant la direction par défaut à adopter pour la suite.
Les marqueurs de forçage de gauche à droite (abrégé LRO en anglais) U+202D et de forçage de droite à gauche (abrégé RLO en anglais) U+202E ont le même effet, mais forcent la direction de tous les caractères qui suivent (à moins que ce texte soit interrompu par un contrôle directionnel).
Les marqueurs d’enchâssement de gauche à droite (abrégé LRE en anglais) U+202A et d’enchâssement de droite à gauche (abrégé RLE en anglais) U+202B ont le même effet, mais incrémentent le niveau vers le niveau suivant ayant la parité souhaitée et le marqueur de dépilement de forçage U+202C permet de rétablir le niveau initial avant l'enchâssement (cependant la direction de la fin du texte enchâssé avant le dépilement s'applique encore après, pour les caractères ayant une direction neutre comme s'ils faisaient partie intégrante du texte enchâssé).
Les marqueurs d’isolat de gauche à droite (abrégé LRI en anglais) U+2066 et d’isolat de droite à gauche (abrégé RLI en anglais) U+2067 ont le même effet, mais incrémentent le niveau vers le niveau suivant ayant la parité souhaitée et le marqueur de dépilement d'isolat U+2069 permet de rétablir le niveau initial avant l'isolat (mais cette fois la direction de la fin du texte isolé ne s'applique plus pour les caractères ayant une direction neutre). Le marqueur d’isolat à direction indéterminée (abrégé FSI en anglais) U+2068 a le même effet que les deux premiers marqueurs d'isolat, mais cependant ne fournit aucune direction par défaut pour le texte inclus au début de l'isolat, dont la direction sera déterminée automatiquement par le premier caractère inclus ayant une direction bien définie.

Généralement, le forçage ou l'enchâssement de direction n'est pas recommandé et on lui préfère le plus souvent les isolats directionnels, notamment dans les listes d'éléments dont les écritures sont variables (ou encore pour encapsuler un texte écrit dans une langue quelconque), mais qui doivent préserver un même ordre logique pour la liste complète et pour éviter des coupures indésirables (par exemple dans des noms propres de personnes, des toponymes, des marques commerciales ou des noms d'œuvre).

Le même effet peut aussi être induit dans des textes en balisage enrichi, par exemple en HTML au moyen d'éléments comme <bdi>... </bdi> (pour encapsuler un isolat bidirectionnel, pris en charge depuis HTML5) ou bien <bdo>... </bdo> (pour marquer un forçage de direction au début du texte encapsulé, mais la direction induite pour le texte situé après est induite de la direction du dernier caractère visible dans le texte encapsulé; l'élément de forçage directionnel est cependant à éviter dans la plupart des cas, sauf pour les navigateurs anciens ne prenant pas en charge les isolats directionnel). L'utilisation des marques de contrôle au sein du texte n'est pas recommandé en HTML, qui leur préfère les éléments de balisage.

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

(en) Unicode Standards Annex #9 - The Bidirectional Algorithm
(en) W3C guidelines on authoring techniques for bi-directional text - includes examples and good explanations
(en) GNU FriBiDi - An implementation of the Unicode bidirectional algorithm
(en) International Components for Unicode (ICU) contains an implementation of the bidirectional algorithm — along with other internationalization services
(en) UCData : "Pretty Good Bidi Algorithm Library" A small and fast bidirectional reordering algorithm that works pretty good, but not necessarily compliant to the Unicode algorithm
(en) Bidirectional Scripts in Desktop Software Working group for supporting BiDi in Free Software. Contains several links to readings and implementation regarding BiDi in computer systems.
(en) Another Wiki about BiDi

Articles connexes[modifier | modifier le code]

v · m Unicode
Jeux de caractères de base	UCS (ISO/CEI 10646) Table des caractères Unicode ISO/CEI 646, ASCII ISO/CEI 8859-1 WGL4 Unihan
Codification de fichiers et protocoles	UTF-8 UTF-16 UTF-32 CESU-8 UTF-7 BOCU-1 SCSU BOM
Adaptations de référence	UTF-EBCDIC (Amérique, Europe occidentale) ISO/CEI 8859-11 (ou TIS-620) (Thaïlande) ISCII (Inde) SLS 1326 (ou TSCII) (Sri Lanka) Shift-JIS (Japon) GB 18030 (Chine) HKSCS (Hong Kong)
Équivalences standards	NFC (forme précomposée, recommandée) NFD (forme décomposée) NFKC (forme précomposée de compatibilité) NFKD (forme décomposée de compatibilité)
Propriétés et algorithmes	Texte bidirectionnel Casse Ordonnancement UCA
Transformations	Stringprep Punycode
Standards et normes liés	BCP 47 (étiquettes IETF d’identification de langues) ISO 639 (codes pour la représentation des noms de langues ou groupes de langues) ISO 15924 (codes pour la représentation des noms d’écritures) ISO 3166-1 (codes pour la représentation des noms de pays ou régions du monde) ISO 4217 (codes pour la représentation des noms de devises monétaires)
Mises en œuvre et applications	ICU CLDR IDN IRI Entités de caractère XLM et HTML OpenType Uniscribe Courriel et Unicode

v · m Systèmes d’écriture
Alphabets	Adlam Albanien Arménien Bactrien Bassa Bamoun (ou bamoum) Bopomofo Borama Braille Carien Copte Cyrillique Elbasan Étrusque (ou ancien italique) Garay Géorgien Glagolitique Grec Gotique Gupta Hangeul Italiques Latin (et extensions) Mandchou Mandéen Mongol N’ko Ogham Oïrat Orkhon Osmanya Persan cunéiforme Runique Runes hongroises Santali Tifinagh Yézidi
Alphabets consonantiques (ou abjads)	Arabe (et adaptations) Araméen Démotique Hébreu Manichéen Nabatéen Ouïghour Ougaritique Pehlevi Phénicien Protosinaïtique Punique Safaïtique Samaritain Sogdien Sudarabique Syriaque Tifinagh
Alphasyllabaires (ou abugidas)	Âhom Balinais Batak Baybayin (ou tagalog) Bengali Birman Brahmî Cingalais Dévanâgarî Éthiopien (ou guèze) Grantha Gujarati Gurmukhī Hanifi (rohinga) Inuktitut Javanais Kaïthî Kannara (ou Kannada) Kawi Kharoshthi Khmer Lao (ou laotien) Lepcha Lontara Malayalam Meitei mayek Méroïtique Miao (ou Pollard) Modi Mwangwego (en) Nouveau taï-lue Ojhapath Odia (ou oriya) Pallava Phags-pa Ranjana (ou kutila, lantsa, wartu) Redjang (ou rejang) Rencong Sharda Siddham Soyombo Tagbanoua Taï-le Taï-noï (en) Taï tham (ou lanna) Taï viêt Tamoul Télougou Thaï Tibétain Tirhuta Vatteluttu Zanabazar quadratique (en)
Syllabaires	Afaka Bété Chérokie Chypro-minoen Hiragana Inuktitut Katakana Kpèllé Linéaire A Linéaire B Mandombé Masaba (ou bambara) Mendé kikakui Nüshu Syllabaires autochtones canadiens Vaï Yi
Écritures logographiques ou apparentées	Adinkra Aztèque Cunéiforme Daba Dongba Hiératique égyptienne Hiéroglyphes égyptiens Hiéroglyphes hittites Hiéroglyphes linéaires Hiéroglyphes mayas Hiéroglyphes micmacs Hiéroglyphes olmèques Nsibidi Ossécaille Shuishu Sinogrammes Tangoute
Ductus	Bidirectionnel Boustrophédon Césure Chasse Cursif Gras Italique (incliné) Justification Ponctuation Spéculaire (en miroir)
Normes et standards techniques	BCP 47 ISO/CEI 10646 et Unicode ISO 15924 OpenType et TrueType
Voir aussi : Braille Calligraphie Écriture Linguistique Notation musicale Police d'écriture Sténographie Système de numération Typographie