Évaluations humaine et comparaison des décodeurs de traduction

By 25 June 2012

6.3 Évaluations et comparaison des décodeurs

Nous mesurons la performance des algorithmes de recherche que nous avons décrits dans le chapitre précédent.

On utilise ici deux corpus de test. Chacun contient 1210 phrases françaises dont la longueur maximale est de 20 mots. L’un présent dans le corpus d’entraînement et l’autre est constitué de phrases qui n’ont jamais été vues à l’entraînement. Les deux corpus sont extraits des textes Hansard. Aucune stratégie particulière n’a été appliquée dans le but de sélectionner, dans le second corpus, des phrases proches des phrases vues à l’entraînement. Les mots inconnus, c’est-à-dire que le modèle de traduction n’a pas ces mots parmi ses vocabulaires, sont remplacés par UNK. (Le premier corpus contient 23 mots inconnus tandis que le second contient 197 mots inconnus)

Les métriques décrites dans les sections précédentes sont utilisées sur nos corpus et montrées dans la table 16. On observe que DP obtient la meilleure performance (pour les 3 scores).

Modèle Corpus Nb de phrases Bleu WER SER Traductions parfaites
DP test 1210 0.19 58.7% 96.8% 39
entraînement 1210 0.31 52.4% 90.1% 120
Greedy test 1210 0.15 62.8% 98.1% 22
entraînement 1210 0.25 54.8% 91.9% 98
Greedy+ test 1210 0.17 60.2% 97.2% 34
entraînement 1210 0.28 53.5% 90.7% 112

Tableau 16: Les résultats de l’évaluation des décodeurs.

Nous en déduisons que DP, qui parcourt une partie de l’espace de recherche plus grande que la partie parcourue par greedy, est garant de meilleures traductions. Le décodeur greedy+ améliore les résultats au sens des modèles mais en pratique les traductions s’éloignent des traductions humaines (la référence). De ce fait, les métriques automatiques notent une baisse de qualité par rapport à DP.

On remarque également sans surprise que les taux observés sur le corpus d’entraînement sont nettement supérieurs à ceux observés sur le corpus de test. Une raison qui explique les taux élevés d’erreur du corpus test est la présence de mots hors vocabulaire. De manière prévisible, la présence de mots inconnus a un impact direct sur les performances et en particulier, sur la couverture du vocabulaire actif à partir duquel les traductions sont construites. Et une autre raison est que les modèles utilisés ne sont pas parfaits.

Le décodeur DP a pris 34 216 secondes pour traduire le corpus de test (en moyenne 28 secondes par phrase), alors que greedy a traduit le corpus en 1574 secondes (en moyenne 1.3 secondes par phrase). Dans cette expérience, on a observé que le temps moyen de traduction d’une phrase de 20 mots avec le décodeur DP est 40 secondes (le temps accroît exponentiellement) cependant le temps avec le décodeur greedy ne dépasse pas 3 secondes (croissance linéaire). On observe une grande différence de temps et la raison majeure de cette marge de temps est le nombre d’alignements considérés.

Selon les métriques, il semble donc préférable d’utiliser l’algorithme DP, et c’est essentiel car les algorithmes considérés sont beaucoup plus nombreux que ceux que Greedy observe. En revanche, il est clair que greedy est de l’air plus rapide. Nous avons donc voulu voir si la différence de qualité mise en évidence ici était vraiment confirmée par des évaluations humaines.

6.4 Évaluation humaine

Un corpus de test formé de 50 phrases, a été à cet effet constitué de 35 phrases non vues à l’entraînement prises au hasard du Hansard, et 15 autres phrases prises d’une toute autre source. On associe à ces paires de traductions la phrase traduite par un traducteur humain, donc supposée correcte (la référence.) Ces phrases sont présentées à plusieurs évaluateurs (6 personnes bilingues qui travaillent dans le domaine du traitement des langues), et les traductions automatiques sont présentées au hasard de façon à ce que les évaluateurs n’en sachent pas la provenance. La phrase source est clairement indiquée ainsi que la traduction de référence.

Les évaluateurs comparent les traductions automatiques, et indiquent celle qu’ils préfèrent. Lors du calcul des scores, une préférence se traduit par un score de 1. Le score 0 indique que les systèmes sont équivalents ou bien qu’aucune préférence n’existe.

Les proportions d’acceptabilité de traduction des évaluateurs pour chaque décodeur
Figure 36: Les proportions d’acceptabilité de traduction des évaluateurs pour chaque décodeur.

Les évaluateurs n’ont pas trouvé une traduction acceptable dans 12% des cas, parmi les traductions proposées par les trois décodeurs (figure 36). Les traductions proposées par greedy ont été sélectionnées dans 29% des cas et les traductions des greedy+ et DP sont préférées dans 59%. 11% des évaluateurs ont jugé acceptables les traductions fournies par DP et greedy+ à la fois (i.e. le décodeur greedy+ n’a pas pu améliorer les traductions de 14 phrases ainsi les traductions de ces 14 phrases sont les communes entre DP et greedy+). 37% des évaluateurs ont trouvé que greedy+ est le meilleur décodeur parmi les trois algorithmes, cependant DP occupe le second rang par un pourcentage de 33%. (tableau 17)

Une contradiction entre l’évaluation automatique qui préfère DP et l’humaine qui préfère greedy+ est peut-être expliquée par le fait que les évaluations automatiques ont besoin de plusieurs références pour bien déterminer les préférences mais de toute façon DP et greedy+ avec les deux évaluations se sont proches l’un de l’autre.

Modèle Personne1 Personne2 Personne3 Personne4 Personne5 Personne6 %
Greedy 8 15 17 18 17 13 29%
DP 8 14 15 11 9 8 22%
Greedy+ 8 13 12 15 16 13 26%
DP et Greedy+ 4 8 6 6 5 4 11%
Aucun 22 0 0 0 3 12 12%

Tableau 17: Les choix des évaluateurs et ses différents avis avec les pourcentages.

Le tableau 17 montre que les évaluateurs humains aussi n’ont pas le même jugement (dans 20% des cas, tous les évaluateurs sont d’accord, 22% des cas, cinq évaluateurs sont d’accord). Mais tous les évaluateurs préfèrent greedy+ (37%).

Toutes les phrases avec les évaluations humaines de ces expériences sont présentées dans l’annexe1.

Lire le mémoire complet ==> (Les techniques de décodage pour la traduction probabiliste)
Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique
Université de Montréal – Département d’Informatique et de Recherche Opérationnelle