Aller au contenu

Utilisateur:A2/html

Une page de Wikipédia, l'encyclopédie libre.

À la base je cherche à savoir ce que AWB modifie avec l’option Unicodify qui est peu documentée : « Unicodify whole Page — Replaces wiki like ° with its unicode equivalent, °. Note that for symbols which could be easily confused with others, the conversion is not applied (for example: ′ ″ and × which map to ′, ″, and × and could be confused with symbols like ', ", and x.) »

Quitte à regarder pour l’HTML autant faire un tableau avec les valeurs décimale et hexadécimale. Premier résultats, l'HTML ' pour l’apostrophe est le seul qui n’est pas rendu par mediawiki. L’affichage des pages est donc correct avec ou sans Unicodify.

L’article en:List of XML and HTML character entity references#Character entity references in HTML donne 252 HTML entity references plus ' qui n’est pas supporté au rendu mw et laissé comme tel. 221 sont « unicodifié par AWB » (ainsi que leur point de code decimaux/hexadecimaux). Au moins 25 entrées se comportent différement, en rouge les « codes non unicodifié » par AWB :

c deci hexa html unicode nom
' ' ' ' U+0027 APOSTROPHE
[ [ [ [ U+005B LEFT SQUARE BRACKET
] ] ] ] U+005D RIGHT SQUARE BRACKET
` ` ` ` U+0060 GRAVE ACCENT
{ { { { U+007B LEFT CURLY BRACKET
| | | | U+007C VERTICAL LINE
} } } } U+007D RIGHT CURLY BRACKET
‘ ‘ ‘ U+2018 LEFT SINGLE QUOTATION MARK
‹ ‹ ‹ U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK
“ “ “ U+201C LEFT DOUBLE QUOTATION MARK
› › › U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
– – – U+2013 EN DASH
— — — U+2014 EM DASH
        U+00A0 NON-BREAKING SPACE
      U+2009 THIN SPACE
< &#60; &#x3C; &lt; U+003C LESS-THAN SIGN
> &#62; &#x3E; &gt; U+003E GREATER-THAN SIGN
­ &#173; &#xAD; &shy; U+00AD SOFT HYPHEN
× &#215; &#xD7; &times; U+00D7 MULTIPLICATION SIGN
&#8194; &#x2002; &ensp; U+2002 EN SPACE
&#8195; &#x2003; &emsp; U+2003 EM SPACE
&#8206; &#x200E; &lrm; U+200E LEFT-TO-RIGHT MARK
&#8207; &#x200F; &rlm; U+200F RIGHT-TO-LEFT MARK
&#8242; &#x2032; &prime; U+2032 PRIME
&#8243; &#x2033; &Prime; U+2033 DOUBLE PRIME
&#8722; &#x2212; &minus; U+2212 MINUS SIGN
= &#61; &#x3D; = U+003D EQUALS SIGN
~ &#126; &#x7E; ~ U+007E TILDE
&#8465; &#x2111; &image; U+2111 BLACK-LETTER CAPITAL I
&#8472; &#x2118; &weierp; U+2118 SCRIPT CAPITAL P
&#8476; &#x211C; &real; U+211C BLACK-LETTER CAPITAL R
&#8482; &#x2122; &trade; U+2122 TRADE MARK SIGN