Comparaison entre RMTTK et GIZA, logiciels de la traduction

Comparaison entre RMTTK et GIZA, logiciels de la traduction

4.7 Une comparaison entre RMTTK et GIZA

Pour mettre à l’épreuve notre modèle, nous le comparons avec RMTTK (RALI Machine Translation Toolkit), un package offrant l’entraînement des modèles 1 et 2 implémenté au RALI depuis quelques années. Ainsi, nous avons exécuté les 2 logiciels du RMTTK et GIZA sur le même corpus d’environ 1.4 millions paires de phrases.

On présente brièvement les temps d’exécution, les résultats et enfin quelques distributions obtenues par les deux programmes. Le temps d’exécution des entraînements sous GIZA et RMTTK sont très différents (voir tableau 7).

Pour le modèle 1, RMTTK est environ deux fois plus rapide. Pour le modèle 2, RMTTK est de 8 fois plus rapide. On a lancé les deux programmes sur deux machines clac (tableau 7).

GIZARALI
ModèleTemps en minutesModèleTemps en minutes
IBM 1270 minIBM 186 min~ 1:26h
IBM 2861 minIBM 282 min~1:21h

Tableau 7: Les temps d’exécution d’un entraînement avec GIZA et RMTTK.

Noter qu’on n’a pas implémenté le modèle 3 au RALI jusqu’à présent.

L’espace mémoire requis par RMTTK est également moindre que celui nécessaire à GIZA, comme on a déjà expliqué 993MO pour le modèle 1 et cela implique une vitesse lente.

Cependant RMTTK réserve seulement 559 MO de la mémoire pendant l’exécution. Une raison qui peut provoquer la grande différence entre ces deux outils d’entraînement est que RMTTK a de meilleures structures de données.

On présente maintenant une brève comparaison des modèles IBM2 obtenus par les deux systèmes d’entraînement en terme du nombre de paramètres, des probabilités, et quelques exemples de mots. RMTTK a un nombre de paramètres de 34 969 331, supérieur à celui de GIZA (8,846,847).

Ce n’est pas un avantage pour lui, car dès que le nombre de paramètres augmente, alors les probabilités de transfert diminuent du fait que la somme de probabilités vaut 1.

RMTTK offre cependant un mécanisme qui permet de filtrer ces paramètres en fonction de leur gain estimé à la prédiction d’un corpus de test. Nous n’avons pas testé ce mécanisme dans notre travail.

Exemples :

La table 8 représente deux mots pris au hasard, on voit que les 10 premiers mots sont vraiment très proches. Les associations les plus probables obtenues par les deux packages sont assez proches.

En revanche, les modèles obtenus divergent rapidement sur les probabilités les plus faibles. Ici, étant la résultante du seuillage effectuée par GIZA, que RMTTK n’effectue pas.

ComputeMessage
RMTTKGIZARMTTKGIZA
Nombre de mots associés
126345582408
Mot et probabilité
calculer 0.16calculer 0.179message 0.59message 0.6
concordent 0.083concordent 0.093le 0.035le 0.0305
comptabiliser 0.042inventer 0.046transmettre 0.025transmettre 0.023
instaurant 0.042comptabiliser 0.046comprendre 0.022comprendre 0.021
pleine 0.042dus 0.046transmis 0.016transmis 0.015
volonté 0.042volonté 0.046compris 0.013compris 0.0136
colle 0.042colle 0.0466clair 0.012clair 0.012
dus 0.042parfait 0.04664que 0.01nous 0.0083
inventer 0.042correspond 0.0463nous 0.0091entendre 0.007
compter 0.041tels 0.0454entendre 0.0085dire 0.0073

Tableau 8: Deux mots exemples de RMTTK et GIZA, on a seulement pris les dix premières probabilités pour chaque mot.

4.8 Conclusion

Nous avons montré que GIZA, bien que plus gourmand en temps et en espace mémoire étant un package viable pour l’entraînement de modèles IBM. Des paramètres obtenus par GIZA sont légèrement différents de ceux obtenus par le package RMTTK, ce qui est la résultante du filtrage opéré par GIZA.

La performance, la simplicité, l’accès simple et rapide aux paramètres d’un modèle de traduction sont des facteurs principaux cherchés par les programmeurs ayant pour objectif de concevoir un algorithme efficace et performant qui traduit rapidement.

D’après nos expériences, nous avons montré que GIZA répond à ces préoccupations. Nous utilisons donc les paramètres obtenus par l’entraînement de cet outil afin de développer nos décodeurs.

Pour citer ce mémoire (mémoire de master, thèse, PFE,...) :
📌 La première page du mémoire (avec le fichier pdf) - Thème 📜:
Comparaison de deux techniques de décodage pour la traduction probabiliste
Université 🏫: Université de Montréal - Faculté des études supérieures - Faculté des arts et des sciences
Auteur·trice·s 🎓:
Ali Awdé

Ali Awdé
Année de soutenance 📅: Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique - 10 juillet 2003
Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top