Le nombre d’itérations et les temps de traduction, Greedy

Le nombre d’itérations et les temps de traduction, Greedy

5.2.5 Le nombre d’itérations et les temps de traduction

Nous avons utilisé notre algorithme pour traduire 2376 phrases dont la longueur n’excédait pas 30 mots (français). La figure 33 montre le nombre d’itérations (moyen) effectué en fonction du nombre de mots de la phrase à traduire. L’accroissant du nombre d’itérations suit une courbe linéaire.

La moyenne d’itérations, le nombre de substitutions et permutations augmentent linéairement avec la longueur de la phrase à traduire

Figure 33: La moyenne d’itérations, le nombre de substitutions et permutations augmentent linéairement avec la longueur de la phrase à traduire.

On observe, d’après la figure 33 que la plupart des itérations sont des substitutions (72%), viennent au deuxième rang les permutations (19%); cependant les deux autres opérations s’appliquent moins souvent (6% pour l’opération de la fertilité et 3% pour l’insertion).

Par exemple, une phrase française de dix mots est traitée par notre algorithme en 5 itérations (en moyenne). 4 de ces itérations font intervenir une substitution. (Figure 34)

La distribution du nombre d’itérations et de substitutions

Figure 34: La distribution du nombre d’itérations et de substitutions.

L’expérience sur un sous-ensemble du corpus précédent de 66 phrases (figure 34) dont les phrases françaises sont de 10 mots, montre que la moyenne du nombre d’itérations est 5, que l’algorithme itère au moins deux fois et que le nombre maximal d’itérations est 9. Pour la substitution, l’opération la plus fréquente, est appliquée au moins deux fois.

L’entraînement du modèle 3 qui intègre la notion de la fertilité montre que 90% des mots anglais ont de fertilité 1 alors ceci explique que les opérations de fertilité et d’insertion de mots spurious s’appliquent rarement (9%). D’autre part, la position de l’adjectif en français est après le nom cependant en anglais c’est l’inverse.

De ce fait, on comprend pourquoi la permutation est assez fréquente. Le fait que chaque mot anglais possède différentes traductions explique de manière naturelle que les substitutions soient nombreuses.

D’après l’expérience sur le même corpus de 2376 phrases dont les phrases françaises sont constituées d’au plus 30 mots, on observe que la traduction des phrases de longueur d’au plus 10 mots sources prend au plus une seconde; les phrases constituées de 10 à 20 mots prennent entre une et deux secondes et les phrases dont les longueurs plus de 20 mots prennent au plus 4 secondes.

Ces temps sont inférieurs à ceux de l’algorithme DP décrits dans la section (5.1). À titre d’exemple, traduire une phrase de 10 mots prenait avec cet algorithme environ 9 secondes. (la différence sur des phrases plus longues serait encore plus parlante).

5.2.6 Exemples de résultats obtenus

Nous reportons ici quelques exemples de traductions produites par notre algorithme pour des phrases du Hansard non présentes dans le corpus d’entraînement.

PhrasemotsLes phrases sources et les traductions
Source5Le jeudi 17 avril 1986
Décodeur5On february 17 april 1986
Humain6thursday , april 17 , 1986
Source7La charte canadienne des droits et libertés
Décodeur7the canadian charter of rights and freedoms
Humain6Canadian charter of rights and freedoms
Source12m. nunziata : monsieur le président , j’ invoque le règlement .
Décodeur12mr. nunziata : mr. speaker , i rise to of order .
Humain12mr. nunziata : mr. speaker , on a point of order .
Source17les pétitionnaires demandent que la loi canadienne sur la santé soit inscrite dans la constitution canadienne .
Décodeur17the petitioners ask that the bill on canadian health to be placed in the canadian constitution .
Humain16these petitioners ask that the canada health act be enshrined in the constitution of canada .
Source20ils doivent engager des frais importants pour assister et participer aux audiences de l’ office national de l’ énergie .
Décodeur20they must commit some important tuition to attend and participate the hearings of the board of national the energy .
Humain17they are faced with substantial costs to attend and to participate in national energy board hearings .
Source19je n’ ai pas l’ intention de faire une longue déclaration , mais je voudrais faire valoir quelques points .
Décodeur20i have listened not the intention of doing a long statement , but i would make points few points .
Humain19i do not want to make a long statement but i would like to make a few points .
Source19cependant , en tant que membre de ce comité , je ne m’opposerais pas à réexaminer cet usage .
Décodeur20however , in both the member of this committee , i cannot convince me not to review this practice .
Humain17as one member of the committee i would certainly not object to revisiting that particular rule .
Source17La douleur doit être encore plus vive lorsque l’ enfant a été victime d’un meurtre.
Décodeur17the pain will be even more intense when the child has been victims of a murder .
Humain19the pain these parents feel is even greater knowing they have lost a child as a murder victim .
Source19étant moi-même mère , je peux imaginer à quel point cela doit être dur de perdre un enfant .
Décodeur19having myself mother , i can imagine at what point that must be tough to lose a child .
Humain16as a parent I can imagine how difficult it would be to lose a child .

Tableau 15: Exemples de traduction, extraits d’un corpus test (N=10). Humain est la traduction produite par un traducteur.

5.3 Greedy initialisé par la traduction produite par DP

On a vu dans les sections précédentes que le décodeur DP est lent mais qu’il parcourt une portion importante de l’espace de recherche.

Néanmoins, il y a des filtres pour rendre les temps de réponse « acceptables ». Nous avons voulu voir si le greedy ne pouvait pas éventuellement trouver une solution meilleure que celle de DP en étant initialisée par DP. Dans ce but, on propose dans cet algorithme que la solution initiale du greedy soit la solution obtenue par le décodeur DP.

Les paramètres des hypothèses de l’algorithme DP (la fertilité, la position source) sont réutilisés pour le décodeur greedy et les mêmes opérations sont appliquées sur les résultats de DP. Nous appelons cette variante de l’algorithme greedy+.

L’expérience lancée sur un corpus de 2376 phrases a pris 218 secondes pour tout le corpus. Une partie de corpus de 403 phrases (~ 17%), aucune itération n’a été possible et la plupart de phrases non modifiées sont les phrases courtes (longueur inférieure à 10 mots).

Les nombres de phrases itérées par greedy+

Figure 35: Les nombres de phrases itérées par greedy+.

La figure 35 montre que 62% des alignements optimaux sont atteints après au plus 3 itérations. Pour 16 phrases seulement, l’algorithme produit une solution après 8 itérations. Les opérations appliquées sont des substitutions.

Les critères de filtrage ne permettent donc pas d’atteindre toujours l’optimum au sens des modèles (dans 83% des cas). Donc on filtre trop.

Nous discutons d’une façon détaillée les performances des décodeurs et nous présentons la perte de qualité de la traduction provoquée par le filtrage dans le chapitre 6 mais nous présentons dans la section suivante des exemples pour argumenter les résultats.

5.3.1 Exemples de résultats obtenus

On prend quelques exemples pour commenter les résultats.

1)

  • Source : le jeudi 17 avril 1986
  • DP : thursday , april 17 , 1986
  • Greedy+:: thursday , april 17 , 1986
  • Humain : thursday , april 17 , 1986

Dans cet exemple, on remarque que le décodeur greedy+ ne peut pas améliorer la traduction de DP alors il n’y a pas de perte au sens des modèles causée par le filtrage.

2)

  • Source : adoption des motions portant présentation et première lecture .
  • DP : concurrence motions for introduction and first reading .
  • Greedy+: concurrence motions introduction and first reading .
  • Humain : motions for introduction and first reading deemed adopted .

Le décodeur greedy+ donne une fertilité 2 à motions (élimination du mot for) de la traduction produite par DP. Dans cet exemple, la traduction produite par greedy+ éloigne de la traduction humaine (en terme de nombre des mots communs entre la référence et la traduction) mais s’améliore au sens des modèles.

3)

  • Source : je dépose aujourd’hui une autre pétition qui porte des centaines de signatures.
  • DP : i now table another petition which concerns hundred of signatures .
  • Greedy+: i present another petition which concerns hundred of signatures .
  • Humaine:i would like to introduce another with several hundred signatures today .

Les évaluateurs humains trouvent que la traduction produite par DP est meilleure que celle produite par greedy+. Cependant au sens des modèles, la traduction de greedy+ est la meilleure.

4)

  • Source : il ne désigne pas nécessairement un homme .
  • DP : he does not necessarily signal a man .
  • Greedy+: it does not necessarily signal a man .
  • Humaine: it does not refer to a man .

Dans cet exemple, geedy+ améliore la traduction au sens des modèles d’autant plus que cette traduction au point de vu humain est la meilleure. Ainsi le filtrage du DP avait de mauvais effet sur la traduction.

Nous l’avons vu sur ces exemples, chaque algorithme propose sa traduction. Il arrive que les traductions soient les mêmes et peut-être non, dans ce dernier cas, il n’est pas facile de choisir la meilleure traduction : un meilleur score d’alignement n’est pas nécessairement garant d’une meilleure traduction (ceci traduit les faiblesses des modèles sous-jacents utilisés). Nous aborderons dans le chapitre suivant les problèmes d’évaluation.

Pour citer ce mémoire (mémoire de master, thèse, PFE,...) :
📌 La première page du mémoire (avec le fichier pdf) - Thème 📜:
Comparaison de deux techniques de décodage pour la traduction probabiliste
Université 🏫: Université de Montréal - Faculté des études supérieures - Faculté des arts et des sciences
Auteur·trice·s 🎓:
Ali Awdé

Ali Awdé
Année de soutenance 📅: Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique - 10 juillet 2003
Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top