BLEU (algorithme) — Wikipédia

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Certaines informations figurant dans cet article ou cette section devraient être mieux reliées aux sources mentionnées dans les sections « Bibliographie », « Sources » ou « Liens externes » (août 2018).

Vous pouvez améliorer la vérifiabilité en associant ces informations à des références à l'aide d'appels de notes.

BLEU (bilingual evaluation understudy) est un algorithme d’évaluation de la qualité du texte qui a été traduit mécaniquement d’une langue naturelle à une autre. La qualité est considérée comme la correspondance entre la production d’une machine et celle d’un humain : « plus une traduction automatique est proche d’une traduction humaine professionnelle, mieux c’est » - c’est l’idée centrale derrière BLEU. BLEU a été l’une des premières métriques à revendiquer une corrélation élevée avec les jugements humains de qualité, et reste l’une des métriques automatisées les plus populaires et les moins couteuses.

Les notes sont calculées pour chaque segment traduit - généralement des phrases - en les comparant avec un ensemble de traductions de référence de bonne qualité. La moyenne de ces notes est ensuite calculée sur l’ensemble du corpus pour obtenir une estimation de la qualité globale de la traduction. L’intelligibilité ou l’exactitude grammaticale ne sont pas prises en compte.

La sortie de BLEU est toujours un nombre compris entre 0 et 1, qui indique dans quelle mesure le texte candidat est similaire aux textes de référence, les valeurs plus proches de 1 représentant des textes plus similaires. Peu de traductions humaines atteindront une note de 1, car cela indiquerait que le candidat est identique à l’une des traductions de référence. Pour cette raison, il n’est pas nécessaire d’obtenir un score de 1, car il y a plus de possibilités d’appariement, l’ajout de traductions de référence supplémentaires augmentera le score BLEU.

Les valeurs BLEU peuvent varier grandement en fonction des paramètres et du pré-traitement. Afin d'atténuer ce problème, l'implémentation recommandée est sacreBLEU.

Il est à noter que le score BLEU est souvent rapporté en pourcentage, soit en 0 et 100%, plutôt qu'entre 0 et 1.

Notes et références

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Bibliographie

Kishore Papinemi, Salim Roukos, Todd Ward et Wei-Jing Zhu, « BLEU: a Method for Automatic Evaluation of Machine Translation », Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL),‎ 2002, p. 311-318 (lire en ligne, consulté le 15 mars 2020).

Matt Post, « A Call for Clarity in Reporting BLEU Scores », Proceedings of the Third Conference on Machine Translation: Research Papers,‎ 2018, p. 186-191} (lire en ligne, consulté le 15 mars 2020)

Portail de la linguistique