Utilisateur:A2/html
À la base je cherche à savoir ce que AWB modifie avec l’option Unicodify qui est peu documentée : « Unicodify whole Page — Replaces wiki like ° with its unicode equivalent, °. Note that for symbols which could be easily confused with others, the conversion is not applied (for example: ′ ″ and × which map to ′, ″, and × and could be confused with symbols like ', ", and x.) »
Quitte à regarder pour l’HTML autant faire un tableau avec les valeurs décimale et hexadécimale. Premier résultats, l'HTML ' pour l’apostrophe est le seul qui n’est pas rendu par mediawiki. L’affichage des pages est donc correct avec ou sans Unicodify.
L’article en:List of XML and HTML character entity references#Character entity references in HTML donne 252 HTML entity references plus ' qui n’est pas supporté au rendu mw et laissé comme tel. 221 sont « unicodifié par AWB » (ainsi que leur point de code decimaux/hexadecimaux). Au moins 25 entrées se comportent différement, en rouge les « codes non unicodifié » par AWB :
c | deci | hexa | html | unicode | nom | ||
---|---|---|---|---|---|---|---|
' | ' | ' | ' | U+0027 | APOSTROPHE | ||
[ | [ | [ | [ | U+005B | LEFT SQUARE BRACKET | ||
] | ] | ] | ] | U+005D | RIGHT SQUARE BRACKET | ||
` | ` | ` | ` | U+0060 | GRAVE ACCENT | ||
{ | { | { | { | U+007B | LEFT CURLY BRACKET | ||
| | | | | | | | U+007C | VERTICAL LINE | ||
} | } | } | } | U+007D | RIGHT CURLY BRACKET | ||
‘ | ‘ | ‘ | ‘ | U+2018 | LEFT SINGLE QUOTATION MARK | ||
‹ | ‹ | ‹ | ‹ | U+2039 | SINGLE LEFT-POINTING ANGLE QUOTATION MARK | ||
“ | “ | “ | “ | U+201C | LEFT DOUBLE QUOTATION MARK | ||
› | › | › | › | U+203A | SINGLE RIGHT-POINTING ANGLE QUOTATION MARK | ||
– | – | – | – | U+2013 | EN DASH | ||
— | — | — | — | U+2014 | EM DASH | ||
  |   | | U+00A0 | NON-BREAKING SPACE | |||
  |   |   | U+2009 | THIN SPACE | |||
< | < | < | < | U+003C | LESS-THAN SIGN | ||
> | > | > | > | U+003E | GREATER-THAN SIGN | ||
| ­ | ­ | ­ | U+00AD | SOFT HYPHEN | ||
× | × | × | × | U+00D7 | MULTIPLICATION SIGN | ||
  |   |   | U+2002 | EN SPACE | |||
  |   |   | U+2003 | EM SPACE | |||
| ‎ | ‎ | ‎ | U+200E | LEFT-TO-RIGHT MARK | ||
| ‏ | ‏ | ‏ | U+200F | RIGHT-TO-LEFT MARK | ||
′ | ′ | ′ | ′ | U+2032 | PRIME | ||
″ | ″ | ″ | ″ | U+2033 | DOUBLE PRIME | ||
− | − | − | − | U+2212 | MINUS SIGN | ||
= | = | = | = | U+003D | EQUALS SIGN | ||
~ | ~ | ~ | ~ | U+007E | TILDE | ||
ℑ | ℑ | ℑ | ℑ | U+2111 | BLACK-LETTER CAPITAL I | ||
℘ | ℘ | ℘ | ℘ | U+2118 | SCRIPT CAPITAL P | ||
ℜ | ℜ | ℜ | ℜ | U+211C | BLACK-LETTER CAPITAL R | ||
™ | ™ | ™ | ™ | U+2122 | TRADE MARK SIGN |