Le nombre d’itérations et les temps de traduction, Greedy

By 25 June 2012

5.2.5 Le nombre d’itérations et les temps de traduction.

Nous avons utilisé notre algorithme pour traduire 2376 phrases dont la longueur n’excédait pas 30 mots (français). La figure 33 montre le nombre d’itérations (moyen) effectué en fonction du nombre de mots de la phrase à traduire. L’accroissant du nombre d’itérations suit une courbe linéaire.

La moyenne d’itérations, le nombre de substitutions et permutations augmentent linéairement avec la longueur de la phrase à traduire
Figure 33: La moyenne d’itérations, le nombre de substitutions et permutations augmentent linéairement avec la longueur de la phrase à traduire.

On observe, d’après la figure 33 que la plupart des itérations sont des substitutions (72%), viennent au deuxième rang les permutations (19%); cependant les deux autres opérations s’appliquent moins souvent (6% pour l’opération de la fertilité et 3% pour l’insertion). Par exemple, une phrase française de dix mots est traitée par notre algorithme en 5 itérations (en moyenne). 4 de ces itérations font intervenir une substitution. (Figure 34)

La distribution du nombre d’itérations et de substitutions
Figure 34: La distribution du nombre d’itérations et de substitutions.

L’expérience sur un sous-ensemble du corpus précédent de 66 phrases (figure 34) dont les phrases françaises sont de 10 mots, montre que la moyenne du nombre d’itérations est 5, que l’algorithme itère au moins deux fois et que le nombre maximal d’itérations est 9. Pour la substitution, l’opération la plus fréquente, est appliquée au moins deux fois.

L’entraînement du modèle 3 qui intègre la notion de la fertilité montre que 90% des mots anglais ont de fertilité 1 alors ceci explique que les opérations de fertilité et d’insertion de mots spurious s’appliquent rarement (9%). D’autre part, la position de l’adjectif en français est après le nom cependant en anglais c’est l’inverse. De ce fait, on comprend pourquoi la permutation est assez fréquente. Le fait que chaque mot anglais possède différentes traductions explique de manière naturelle que les substitutions soient nombreuses.

D’après l’expérience sur le même corpus de 2376 phrases dont les phrases françaises sont constituées d’au plus 30 mots, on observe que la traduction des phrases de longueur d’au plus 10 mots sources prend au plus une seconde; les phrases constituées de 10 à 20 mots prennent entre une et deux secondes et les phrases dont les longueurs plus de 20 mots prennent au plus 4 secondes. Ces temps sont inférieurs à ceux de l’algorithme DP décrits dans la section (5.1). À titre d’exemple, traduire une phrase de 10 mots prenait avec cet algorithme environ 9 secondes. (la différence sur des phrases plus longues serait encore plus parlante).

5.2.6 Exemples de résultats obtenus

Nous reportons ici quelques exemples de traductions produites par notre algorithme pour des phrases du Hansard non présentes dans le corpus d’entraînement.

Phrase mots Les phrases sources et les traductions
Source 5 Le jeudi 17 avril 1986
Décodeur 5 On february 17 april 1986
Humain 6 thursday , april 17 , 1986
Source 7 La charte canadienne des droits et libertés
Décodeur 7 the canadian charter of rights and freedoms
Humain 6 Canadian charter of rights and freedoms
Source 12 m. nunziata : monsieur le président , j’ invoque le règlement .
Décodeur 12 mr. nunziata : mr. speaker , i rise to of order .
Humain 12 mr. nunziata : mr. speaker , on a point of order .
Source 17 les pétitionnaires demandent que la loi canadienne sur la santé soit inscrite dans la constitution canadienne .
Décodeur 17 the petitioners ask that the bill on canadian health to be placed in the canadian constitution .
Humain 16 these petitioners ask that the canada health act be enshrined in the constitution of canada .
Source 20 ils doivent engager des frais importants pour assister et participer aux audiences de l’ office national de l’ énergie .
Décodeur 20 they must commit some important tuition to attend and participate the hearings of the board of national the energy .
Humain 17 they are faced with substantial costs to attend and to participate in national energy board hearings .
Source 19 je n’ ai pas l’ intention de faire une longue déclaration , mais je voudrais faire valoir quelques points .
Décodeur 20 i have listened not the intention of doing a long statement , but i would make points few points .
Humain 19 i do not want to make a long statement but i would like to make a few points .
Source 19 cependant , en tant que membre de ce comité , je ne m’opposerais pas à réexaminer cet usage .
Décodeur 20 however , in both the member of this committee , i cannot convince me not to review this practice .
Humain 17 as one member of the committee i would certainly not object to revisiting that particular rule .
Source 17 La douleur doit être encore plus vive lorsque l’ enfant a été victime d’un meurtre.
Décodeur 17 the pain will be even more intense when the child has been victims of a murder .
Humain 19 the pain these parents feel is even greater knowing they have lost a child as a murder victim .
Source 19 étant moi-même mère , je peux imaginer à quel point cela doit être dur de perdre un enfant .
Décodeur 19 having myself mother , i can imagine at what point that must be tough to lose a child .
Humain 16 as a parent I can imagine how difficult it would be to lose a child .

Tableau 15: Exemples de traduction, extraits d’un corpus test (N=10). Humain est la traduction produite par un traducteur.

5.3 Greedy initialisé par la traduction produite par DP

On a vu dans les sections précédentes que le décodeur DP est lent mais qu’il parcourt une portion importante de l’espace de recherche. Néanmoins, il y a des filtres pour rendre les temps de réponse « acceptables ». Nous avons voulu voir si le greedy ne pouvait pas éventuellement trouver une solution meilleure que celle de DP en étant initialisée par DP. Dans ce but, on propose dans cet algorithme que la solution initiale du greedy soit la solution obtenue par le décodeur DP.

Les paramètres des hypothèses de l’algorithme DP (la fertilité, la position source) sont réutilisés pour le décodeur greedy et les mêmes opérations sont appliquées sur les résultats de DP. Nous appelons cette variante de l’algorithme greedy+.

L’expérience lancée sur un corpus de 2376 phrases a pris 218 secondes pour tout le corpus. Une partie de corpus de 403 phrases (~ 17%), aucune itération n’a été possible et la plupart de phrases non modifiées sont les phrases courtes (longueur inférieure à 10 mots).

Les nombres de phrases itérées par greedy+
Figure 35: Les nombres de phrases itérées par greedy+.

La figure 35 montre que 62% des alignements optimaux sont atteints après au plus 3 itérations. Pour 16 phrases seulement, l’algorithme produit une solution après 8 itérations. Les opérations appliquées sont des substitutions.

Les critères de filtrage ne permettent donc pas d’atteindre toujours l’optimum au sens des modèles (dans 83% des cas). Donc on filtre trop. Nous discutons d’une façon détaillée les performances des décodeurs et nous présentons la perte de qualité de la traduction provoquée par le filtrage dans le chapitre 6 mais nous présentons dans la section suivante des exemples pour argumenter les résultats.

5.31 Exemples de résultats obtenus

On prend quelques exemples pour commenter les résultats.

1)
Source : le jeudi 17 avril 1986
DP : thursday , april 17 , 1986
Greedy+:: thursday , april 17 , 1986
Humain : thursday , april 17 , 1986

Dans cet exemple, on remarque que le décodeur greedy+ ne peut pas améliorer la traduction de DP alors il n’y a pas de perte au sens des modèles causée par le filtrage.

2)
Source : adoption des motions portant présentation et première lecture .
DP : concurrence motions for introduction and first reading .
Greedy+: concurrence motions introduction and first reading .
Humain : motions for introduction and first reading deemed adopted .

Le décodeur greedy+ donne une fertilité 2 à motions (élimination du mot for) de la traduction produite par DP. Dans cet exemple, la traduction produite par greedy+ éloigne de la traduction humaine (en terme de nombre des mots communs entre la référence et la traduction) mais s’améliore au sens des modèles.

3)
Source : je dépose aujourd’hui une autre pétition qui porte des centaines de signatures.
DP : i now table another petition which concerns hundred of signatures .
Greedy+: i present another petition which concerns hundred of signatures .
Humaine:i would like to introduce another with several hundred signatures today .

Les évaluateurs humains trouvent que la traduction produite par DP est meilleure que celle produite par greedy+. Cependant au sens des modèles, la traduction de greedy+ est la meilleure.

4)
Source : il ne désigne pas nécessairement un homme .
DP : he does not necessarily signal a man .
Greedy+: it does not necessarily signal a man .
Humaine: it does not refer to a man .

Dans cet exemple, geedy+ améliore la traduction au sens des modèles d’autant plus que cette traduction au point de vu humain est la meilleure. Ainsi le filtrage du DP avait de mauvais effet sur la traduction.

Nous l’avons vu sur ces exemples, chaque algorithme propose sa traduction. Il arrive que les traductions soient les mêmes et peut-être non, dans ce dernier cas, il n’est pas facile de choisir la meilleure traduction : un meilleur score d’alignement n’est pas nécessairement garant d’une meilleure traduction (ceci traduit les faiblesses des modèles sous-jacents utilisés). Nous aborderons dans le chapitre suivant les problèmes d’évaluation.

Lire le mémoire complet ==> (Les techniques de décodage pour la traduction probabiliste)
Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de Maître ès sciences (M.Sc) en informatique
Université de Montréal – Département d’Informatique et de Recherche Opérationnelle