Comparaison de deux techniques de décodage pour la traduction probabiliste

Ali Awdé

Comparaison entre RMTTK et GIZA, logiciels de la traduction

Table des matières

4.7 Une comparaison entre RMTTK et GIZA

Pour mettre à l’épreuve notre modèle, nous le comparons avec RMTTK (RALI Machine Translation Toolkit), un package offrant l’entraînement des modèles 1 et 2 implémenté au RALI depuis quelques années. Ainsi, nous avons exécuté les 2 logiciels du RMTTK et GIZA sur le même corpus d’environ 1.4 millions paires de phrases.

On présente brièvement les temps d’exécution, les résultats et enfin quelques distributions obtenues par les deux programmes. Le temps d’exécution des entraînements sous GIZA et RMTTK sont très différents (voir tableau 7).

Pour le modèle 1, RMTTK est environ deux fois plus rapide. Pour le modèle 2, RMTTK est de 8 fois plus rapide. On a lancé les deux programmes sur deux machines clac (tableau 7).

GIZA	RALI
Modèle	Temps en minutes	Modèle	Temps en minutes
IBM 1	270 min	IBM 1	86 min~ 1:26h
IBM 2	861 min	IBM 2	82 min~1:21h

Tableau 7: Les temps d’exécution d’un entraînement avec GIZA et RMTTK.

Noter qu’on n’a pas implémenté le modèle 3 au RALI jusqu’à présent.

L’espace mémoire requis par RMTTK est également moindre que celui nécessaire à GIZA, comme on a déjà expliqué 993MO pour le modèle 1 et cela implique une vitesse lente.

Cependant RMTTK réserve seulement 559 MO de la mémoire pendant l’exécution. Une raison qui peut provoquer la grande différence entre ces deux outils d’entraînement est que RMTTK a de meilleures structures de données.

On présente maintenant une brève comparaison des modèles IBM2 obtenus par les deux systèmes d’entraînement en terme du nombre de paramètres, des probabilités, et quelques exemples de mots. RMTTK a un nombre de paramètres de 34 969 331, supérieur à celui de GIZA (8,846,847).

Ce n’est pas un avantage pour lui, car dès que le nombre de paramètres augmente, alors les probabilités de transfert diminuent du fait que la somme de probabilités vaut 1.

RMTTK offre cependant un mécanisme qui permet de filtrer ces paramètres en fonction de leur gain estimé à la prédiction d’un corpus de test. Nous n’avons pas testé ce mécanisme dans notre travail.

Exemples :

La table 8 représente deux mots pris au hasard, on voit que les 10 premiers mots sont vraiment très proches. Les associations les plus probables obtenues par les deux packages sont assez proches.

En revanche, les modèles obtenus divergent rapidement sur les probabilités les plus faibles. Ici, étant la résultante du seuillage effectuée par GIZA, que RMTTK n’effectue pas.

Compute	Message
RMTTK	GIZA	RMTTK	GIZA
Nombre de mots associés
126	34	5582	408
Mot et probabilité
calculer 0.16	calculer 0.179	message 0.59	message 0.6
concordent 0.083	concordent 0.093	le 0.035	le 0.0305
comptabiliser 0.042	inventer 0.046	transmettre 0.025	transmettre 0.023
instaurant 0.042	comptabiliser 0.046	comprendre 0.022	comprendre 0.021
pleine 0.042	dus 0.046	transmis 0.016	transmis 0.015
volonté 0.042	volonté 0.046	compris 0.013	compris 0.0136
colle 0.042	colle 0.0466	clair 0.012	clair 0.012
dus 0.042	parfait 0.04664	que 0.01	nous 0.0083
inventer 0.042	correspond 0.0463	nous 0.0091	entendre 0.007
compter 0.041	tels 0.0454	entendre 0.0085	dire 0.0073

Tableau 8: Deux mots exemples de RMTTK et GIZA, on a seulement pris les dix premières probabilités pour chaque mot.

4.8 Conclusion

Nous avons montré que GIZA, bien que plus gourmand en temps et en espace mémoire étant un package viable pour l’entraînement de modèles IBM. Des paramètres obtenus par GIZA sont légèrement différents de ceux obtenus par le package RMTTK, ce qui est la résultante du filtrage opéré par GIZA.

La performance, la simplicité, l’accès simple et rapide aux paramètres d’un modèle de traduction sont des facteurs principaux cherchés par les programmeurs ayant pour objectif de concevoir un algorithme efficace et performant qui traduit rapidement.

D’après nos expériences, nous avons montré que GIZA répond à ces préoccupations. Nous utilisons donc les paramètres obtenus par l’entraînement de cet outil afin de développer nos décodeurs.

Pour citer ce mémoire (mémoire de master, thèse, PFE,...) :

📌 La première page du mémoire (avec le fichier pdf) - Thème 📜:
Comparaison de deux techniques de décodage pour la traduction probabiliste

Université 🏫: Université de Montréal - Faculté des études supérieures - Faculté des arts et des sciences

Auteur·trice·s 🎓:

Ali Awdé

Année de soutenance 📅: Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique - 10 juillet 2003

Rechercher

Télécharger ce mémoire en ligne PDF (gratuit)

Lire aussi :

Vous pouvez consulter tous les pages de ce mémoire ici.

Télécharger le mémoire Comparaison de deux techniques de décodage pour la traduction probabiliste pdf

Si le bouton de téléchargement ne répond pas, vous pouvez télécharger ce mémoire en PDF à partir cette formule ici.

Comparaison entre RMTTK et GIZA, logiciels de la traduction

4.7 Une comparaison entre RMTTK et GIZA

4.8 Conclusion

Laisser un commentaire Annuler la réponse

Commencez à saisir du texte et appuyez sur Entrée pour rechercher