Évaluation des résultats de la traduction: WER, SER et BLEU

By 25 June 2012

Évaluation des résultats – Chapitre 6

Les algorithmes de recherche constituent une partie cruciale de la traduction automatique probabiliste. Leur performance affecte directement la qualité de la traduction. Sans un décodeur fiable et efficace, un système de traduction automatique statistique peut manquer la traduction d’une phrase source, même si elle était une phrase du corpus d’entraînement.

Il existe plusieurs questions que l’on doit étudier lorsqu’on réalise un décodeur :

1- Optimalité : L’algorithme de décodage peut-il trouver la traduction optimale au sens du modèle?
2- Rapidité : En combien de temps la traduction est-elle proposée?

Il est à noter qu’un bon décodeur, c’est-à-dire celui qui propose rapidement la traduction optimale au sens des modèles, n’est appréciable à l’utilisateur que dans la limite où les modèles sont bons. Nous étudions dans ce chapitre le comportement des décodeurs que nous avons implémentés.

L’évaluation humaine est une méthode pour déterminer la performance d’un système de traduction. Les évaluations humaines de la traduction automatique s’intéressent à plusieurs aspects de la traduction, comme l’adéquation, la fidélité, et la maîtrise de la traduction. L’évaluation humaine est très discutée, en témoigne le nombre des travaux sur le sujet ([White et al, 1994]). En fait, il y a plus de publications sur l’évaluation que sur la modélisation de la traduction.

Le problème majeur de l’évaluation humaine (nous faisons abstraction ici des nombreux protocoles d’évaluation proposés) est le temps qu’elle nécessite. Elle correspond donc d’avantage à une situation où l’on souhaite évaluer un système stable. En phase de développement, on souhaite cependant appliquer des protocoles plus rapides au sacrifice éventuel de leur précision. L’idée étant de vérifier rapidement la validité d’une hypothèse faite dans le processus de développement.

Dans ce travail, on utilise deux méthodes d’évaluation bien connues dans le monde de la traduction automatique WER et BLEU. Ces métriques sont indépendantes de paires de langues étudiées (dans la limite de l’existence de la notion de mots). L’idée est d’utiliser une ou plusieurs traductions de référence auxquelles on compare la traduction produite automatiquement.

L’acuité des ces métriques est très discutable, l’on peut argumenter que les valeurs moyennes, mesurées sur de gros corpus de tests, sont indicateurs suffisants pour valider comparativement plusieurs approches.

Nous décrivons l’essence de ces deux métriques et les appliquons pour évaluer les décodeurs décrits dans le chapitre précédent. Nous contrastons de plus les valeurs observées par une évaluation humaine d’un sous-ensemble de traduction produite par chaque système.

6.1 WER et SER

WER et SER sont deux métriques souvent utilisées pour l’évaluation de traductions automatiques. On évalue la performance en terme de taux d’erreur mesurés au niveau de la phrase (SER Sentence Error Rate) et des mots (WER Word Error Rate).

Le premier taux (SER) mesure le pourcentage de phrases pour lesquelles la traduction n’était pas exactement celle de la référence. Cette méthode est sévère car une traduction peut-être bonne sans pour autant être identique à la référence. Considérer plusieurs traductions de référence permet de limiter jusqu’à un certain point le problème.

Le second taux (WER) est calculé par une distance de Levenstein qui comptabilise le nombre minimal d’opérations qu’il faut effectuer pour passer de la traduction produite à la traduction de référence. Les trois opérations considérées ici sont l’insertion, la suppression et la substitution qui reçoivent toutes le même poids.

Exemple :

Dans ces exemples les traductions sont du français vers l’anglais. On désigne par SRC la phrase source à traduire, REF la traduction de référence (humaine) et CAN la traduction candidate c’est-à-dire la traduction obtenue par le système de traduction que l’on souhaite évaluer automatiquement.

1) SRC : friday , march 15 , 2002

REF : le vendredi 15 mars 2002
CAN: le vendredi 15 mars 2002

insertion:0 deletion:0 substitution:0 exact:5 WER=0.00% ; SER=0.00%

Les deux phrases sont parfaitement identiques.

2) SRC: business of the house

REF: les travaux de la chambre
CAN: travaux de la chambre

insertion:0 deletion:1 substitution:0 exact:4 WER=20.00%; SER=100.00%

Élimination de les.

3) SRC: it is clearly wrong .

REF: c’ est clairement répréhensible .
CAN: ce qui est clairement .

insertion:1 deletion:1 substitution:1 exact:3 WER=50.00%; SER=100.00%

Il faut insérer le mot qui dans REF, substituer c’ par ce et supprimer répréhensible

4) SRC: canada

REF: canada
CAN: les canadiens

insertion: 1 deletion: 0 substitution: 1 exact: 0 WER=100.00%; SER=100.00%

On doit substituer le mot canada par les dans REF et insérer canadiens.

On remarque que SER est trop sévère parce que cette métrique accorde un taux d’erreur aux phrases qui ne sont parfaitement pas exactes (les exemples 2 et 3) cependant WER était moins sévère et elle accorde un taux d’erreur de 20% et 50% respectivement aux exemples précédents. De ce fait, WER est plus efficace que SER.

6.2 BLEU

[Papineni et al, 2001] ont présenté une méthode d’évaluation pour la traduction automatique (Bleu BiLingual Evaluation Understudy).

L’idée de Bleu est de comparer les phrases (traduction, référence) en se basant sur les séquences de mots (n-gram). Une traduction est d’autant meilleure qu’elle partage un grand nombre de n-gram avec une ou plusieurs traductions de référence.

Nous utilisons dans notre travail un package à la disposition de NIST, qui organise des compagnes d’évaluation sur la traduction automatique.

Exemple 1 :
Supposons que deux systèmes de traduction traduisent une telle phrase source par ces deux phrases anglaises Candidat1 et candidat2.

Candidat 1 : It is a guide to action which ensures that the military always obeys the commands of the party
Candidat 2: It is to insure the troops forever hearing the activity guidebook that party direct
Référence: It is a guide to action that ensures that the military will forever heed party commands

Pour le candidat 1 : La précision uni-gram = 14/18.
La précision bi-gram = 8/17.

Pour le candidat 2: La précision uni-gram = 8/14.
La précision bi-gram = 1/13.

Bleu donne un score entre 0 et 1 où 0 est le score des phrases complètement différentes des références.

[Papineni et al, 2001] ont montré que l’évaluation de BLEU est cohérente avec celle des évaluateurs humains.

Lire le mémoire complet ==> (Les techniques de décodage pour la traduction probabiliste)
Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique
Université de Montréal – Département d’Informatique et de Recherche Opérationnelle