Taux d'erreur de mots

Le taux d'erreur de mots, ou word error rate (WER) en anglais, est une unité de mesure classique pour mesurer les performances d'un système de reconnaissance de la parole.

Le WER est dérivé de la distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Plus le taux est faible (minimum 0.0) plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.0 en cas de très mauvaise reconnaissance s'il y a beaucoup d'insertions.

Après avoir aligné de manière optimale la référence avec le texte reconnu grâce à un algorithme de programmation dynamique, le taux d'erreur de mots est donné par :

$WER={\frac {S+D+I}{N}}$

où :

$N$ est le nombre de mots de référence,
$S$ est le nombre de substitutions (mots incorrectement reconnus),
$D$ est le nombre de suppressions (mots omis),
$I$ est le nombre d'insertions (mots ajoutés),
$H$ est le nombre de mots correctement reconnus.

Le taux de reconnaissance de mots, ou word accuracy (WAcc) en anglais, est défini ainsi :

$WAcc=1-WER={\frac {N-S-D-I}{N}}={\frac {H-I}{N}}$

Ce taux de reconnaissance peut être négatif.

Références

Portail de l’informatique