BLEU (algorithme)

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

BLEU (bilingual evaluation understudy) est un algorithme d’évaluation de la qualité du texte qui a été traduit mécaniquement d’une langue naturelle à une autre. La qualité est considérée comme la correspondance entre la production d’une machine et celle d’un humain : « plus une traduction automatique est proche d’une traduction humaine professionnelle, mieux c’est » - c’est l’idée centrale derrière BLEU. BLEU a été l’une des premières métriques à revendiquer une corrélation élevée avec les jugements humains de qualité, et reste l’une des métriques automatisées les plus populaires et les moins couteuses.

Les notes sont calculées pour chaque segment traduit - généralement des phrases - en les comparant avec un ensemble de traductions de référence de bonne qualité. La moyenne de ces notes est ensuite calculée sur l’ensemble du corpus pour obtenir une estimation de la qualité globale de la traduction. L’intelligibilité ou l’exactitude grammaticale ne sont pas prises en compte.

La sortie de BLEU est toujours un nombre compris entre 0 et 1, qui indique dans quelle mesure le texte candidat est similaire aux textes de référence, les valeurs plus proches de 1 représentant des textes plus similaires. Peu de traductions humaines atteindront une note de 1, car cela indiquerait que le candidat est identique à l’une des traductions de référence. Pour cette raison, il n’est pas nécessaire d’obtenir un score de 1, car il y a plus de possibilités d’appariement, l’ajout de traductions de référence supplémentaires augmentera le score BLEU.

Notes et références[modifier | modifier le code]