Comparaison entre RMTTK et GIZA, logiciels de la traduction

By 24 June 2012

4.7 Une comparaison entre RMTTK et GIZA.

Pour mettre à l’épreuve notre modèle, nous le comparons avec RMTTK (RALI Machine Translation Toolkit), un package offrant l’entraînement des modèles 1 et 2 implémenté au RALI depuis quelques années. Ainsi, nous avons exécuté les 2 logiciels du RMTTK et GIZA sur le même corpus d’environ 1.4 millions paires de phrases.

On présente brièvement les temps d’exécution, les résultats et enfin quelques distributions obtenues par les deux programmes. Le temps d’exécution des entraînements sous GIZA et RMTTK sont très différents (voir tableau 7). Pour le modèle 1, RMTTK est environ deux fois plus rapide. Pour le modèle 2, RMTTK est de 8 fois plus rapide. On a lancé les deux programmes sur deux machines clac (tableau 7).

GIZA RALI
Modèle Temps en minutes Modèle Temps en minutes
IBM 1 270 min IBM 1 86 min~ 1:26h
IBM 2 861 min IBM 2 82 min~1:21h

Tableau 7: Les temps d’exécution d’un entraînement avec GIZA et RMTTK.

Noter qu’on n’a pas implémenté le modèle 3 au RALI jusqu’à présent.

L’espace mémoire requis par RMTTK est également moindre que celui nécessaire à GIZA, comme on a déjà expliqué 993MO pour le modèle 1 et cela implique une vitesse lente. Cependant RMTTK réserve seulement 559 MO de la mémoire pendant l’exécution. Une raison qui peut provoquer la grande différence entre ces deux outils d’entraînement est que RMTTK a de meilleures structures de données.

On présente maintenant une brève comparaison des modèles IBM2 obtenus par les deux systèmes d’entraînement en terme du nombre de paramètres, des probabilités, et quelques exemples de mots. RMTTK a un nombre de paramètres de 34 969 331, supérieur à celui de GIZA (8,846,847). Ce n’est pas un avantage pour lui, car dès que le nombre de paramètres augmente, alors les probabilités de transfert diminuent du fait que la somme de probabilités vaut 1.

RMTTK offre cependant un mécanisme qui permet de filtrer ces paramètres en fonction de leur gain estimé à la prédiction d’un corpus de test. Nous n’avons pas testé ce mécanisme dans notre travail.

Exemples :

La table 8 représente deux mots pris au hasard, on voit que les 10 premiers mots sont vraiment très proches. Les associations les plus probables obtenues par les deux packages sont assez proches. En revanche, les modèles obtenus divergent rapidement sur les probabilités les plus faibles. Ici, étant la résultante du seuillage effectuée par GIZA, que RMTTK n’effectue pas.

Compute Message
RMTTK GIZA RMTTK GIZA
Nombre de mots associés
126 34 5582 408
Mot et probabilité
calculer 0.16 calculer 0.179 message 0.59 message 0.6
concordent 0.083 concordent 0.093 le 0.035 le 0.0305
comptabiliser 0.042 inventer 0.046 transmettre 0.025 transmettre 0.023
instaurant 0.042 comptabiliser 0.046 comprendre 0.022 comprendre 0.021
pleine 0.042 dus 0.046 transmis 0.016 transmis 0.015
volonté 0.042 volonté 0.046 compris 0.013 compris 0.0136
colle 0.042 colle 0.0466 clair 0.012 clair 0.012
dus 0.042 parfait 0.04664 que 0.01 nous 0.0083
inventer 0.042 correspond 0.0463 nous 0.0091 entendre 0.007
compter 0.041 tels 0.0454 entendre 0.0085 dire 0.0073

Tableau 8: Deux mots exemples de RMTTK et GIZA, on a seulement pris les dix premières probabilités pour chaque mot.

4.8 Conclusion :

Nous avons montré que GIZA, bien que plus gourmand en temps et en espace mémoire étant un package viable pour l’entraînement de modèles IBM. Des paramètres obtenus par GIZA sont légèrement différents de ceux obtenus par le package RMTTK, ce qui est la résultante du filtrage opéré par GIZA.

La performance, la simplicité, l’accès simple et rapide aux paramètres d’un modèle de traduction sont des facteurs principaux cherchés par les programmeurs ayant pour objectif de concevoir un algorithme efficace et performant qui traduit rapidement. D’après nos expériences, nous avons montré que GIZA répond à ces préoccupations. Nous utilisons donc les paramètres obtenus par l’entraînement de cet outil afin de développer nos décodeurs.

Lire le mémoire complet ==> (Les techniques de décodage pour la traduction probabiliste)
Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique
Université de Montréal – Département d’Informatique et de Recherche Opérationnelle