Évaluation de la contribution d’un utilisateur à Wikipédia

By 27 February 2013

5.4 Scénario 2 : Évaluation de la contribution d’un utilisateur à Wikipédia

Dans cette section nous présentons une structure d’événements et une politique de confiance dont l’objectif est d’aider à l’évaluation des contributions des utilisteurs aux articles de Wikipédia. Un des principaux problème de Wikipédia est de maintenir un niveau de qualité suffisant aux articles de l’encyclopédie et donc de savoir comment faire confiance aux contributions des utilisateurs.

Le site web Wikipédia est une encyclopédie qui évolue selon un modèle collaboratif. Tout le monde peut y créer ou modifier des articles pour en améliorer les contenus et y faire partager ses connaissances. Wikipédia a une audience mondiale, elle dispose d’un très grand nombre2 d’articles consultés et modifiés par un très grand nombre d’utilisateurs; la question de la gestion de leur intégrité, de leur qualité est très importante pour continuer à assurer le succès de l’encyclopédie.

Chaque utilisateur qui modifie ou publie un article de Wikipédia est identifié soit par son identifiant s’il dispose d’un compte déjà enregistré, soit par son adresse IP. Tous les utilisateurs pouvant modifier un article, on peut donc obtenir deux résulats : une contribution si la modification proposée est utile à l’article ou un dommage si cette modification introduit des erreurs ou est un acte de vandalisme. Un utilisateur peut donc détériorer un article, mais quelqu’un d’autre peut contribuer à le corriger et ainsi de suite. Un article sur Wikipédia peut donc être vu comme une succession de contributions qui peuvent être positives ou négatives.

Les utilisateurs de Wikipédia sont tous égaux, mais certain d’entre eux se sont spécialisés dans la vérification des modifications récentes : les patrouilleurs. Leur activité consiste à déterminer si une modification est un acte de vandalisme et si c’est le cas, à annuler au plus tôt les modifications apportées à l’article.

Chaque article a un historique qui est composé de la liste des modifications, où à chaque modification sont associés la date, l’identifiant de l’auteur, le type (discussion ou contribution) et le moyen de consulter et de défaire cette modification.

À chaque utilisateur est associé l’historique de ses contributions. Chaque élément de cette liste contient la date de modification, le nom de l’article modifié et en quoi consistait la modification, sous la forme de la différence entre la version antérieure et la version modifiée.

Les données d’historique concernant l’utilisateur et l’article constituent une bonne source d’informations pour les analyses du patrouilleur sur les modifiations apportées. Il peut déterminer un niveau de réputation de l’utilisateur en se basant sur le nombre de contributions utiles qu’il a apportées. L’historique de l’article donne des informations sur l’ensemble des comportements de l’utilisateur. En combinant ces résultats avec sa politique et son expérience (historique personnel), il peut prendre une décision sur l’action de l’utilisateur.

Il semble donc que tout mécanisme soit le bienvenu pour aider les patrouilleurs dans leur tâche. Un système de gestion de la confiance dédié à l’observation des modifications permettrait aux patrouilleurs de décider de l’annulation ou non d’une modification d’un utilisateur sur un article. Cette aide pourrait tirer parti des historiques associés aux utilisateurs et aux documents mais aussi de l’expérience du patrouilleur.

5.4.1 Modélisation

Nous considérons les interactions entre deux entités : un utilisateur qui a effectué une modification sur un article et un patrouilleur qui cherche à identifier des actions de vandalisme.

Une session complète concernant la modification d’un article peut se dérouler de la manière suivante :
-l’utilisateur effectue une modification sur un article;
-le patrouilleur analyse la modification en utisant ses données d’historique concernant cet utilisateur;
-le patrouilleur annule la modification s’il détecte un acte de vandalisme.

Le patrouilleur utilise l’identifiant de l’utilisateur et son historique des modifications pour déterminer s’il a déjà effectué des actes de vandalisme.

Le patrouilleur peut annuler des modifcations de l’utilisateur dont l’adresse IP est dans une liste noire, ou dont le compte est considéré comme appartenant à un spammer dans la communauté Wikipédia.

En utilisant l’historique des modifications d’un utilisateur, le patrouilleur peut estimer une valeur de réputation (en calculant le pourcentage de contribution considérées comme pertinentes par exemple). Cette valeur permettra de lui accorder un niveau de réputation : elevé, moyenne ou faible.

Le patrouilleur peut aussi prendre en compte les modifications que l’utilisateur a apporté à l’article pour savoir si la contribution est positive (par exemple, il doit avoir fait au moins une modification pertinente).

5.4.2 Structure d’événements

Un contributeur de Wikipédia est identifié par son adresse IP ou par un nom. Nous définissons les événements suivants :

-auth, anonym : l’utilisateur est authentifié ou anonyme (adresse IP);
-modif : il s’agit d’une modification d’un utilisateur;
-revoque, ignore : le patrouilleur annule (ou non) la modification. Une annulation est aussi une modification;
-high_rep, medium_rep, low_rep : réputation de l’utilisateur, respectivement bonne, moyenne ou mauvaise, pour ses activités sur Wikipédia. Ces valeurs de réputation sont calculées en utilisant l’historique de ses activités.

La structure d’événements observée par le patrouilleur est présentée figure 5.4.

Structure d’événements d’un patrouilleur
Fig. 5.4 Structure d’événements d’un patrouilleur

5.4.3 Politique

Pour porter un jugement sur l’activité de modification d’un utilisateur, le patrouilleur peut proposer des politiques. Le but est de supprimer des modifications qui sont susceptibles d’être du vandalisme.

-Annuler immédiatemet la modification d’un utilisateur qui n’est pas authentifié et dont la réputation est mauvaise ou dont toutes les modification précédentes sur cet article ont été annulées :
ψ1 : [G−1 (modif ∧ revoque) ∨ (anonym ∧ low_rep)] → revoque

-La contribution est acceptée (le patrouilleur ne l’annule pas) si l’utilisateur est authentifié, s’il a déjà effectué des modifications pertinentes sur l’article ou si sa réputation n’est pas mauvaise :
ψ2 : (auth ∨ F −1(modif ) ∨ ¬low_rep) → ignore

La politique globale du patrouilleur est ψP ≡ ψ1 ∧ ψ2

5.4.4 Historique et vérification

Voici quelques exemples d’historiques d’un patrouilleur concernant un utilisateur particulier. Ces informations sont utilisées par l’algorithme qui vérifie la satisfaction de la politique et dont le résultat permet au patrouilleur de prendre la décision d’annuler ou non une contribution.

Supposons que le patrouilleur ait l’historique suivant pour un utilisateur :

HP ={modif, anonym, low_rep revoque}
{modif, auth, low_rep, ignore}
{modif, anonym, high_rep, ignore}
{modif, auth, high_rep, ignore}

Considérons que chaque modification que l’utilisateur apporte à l’article soit considérée comme une session. Soit xi la session courante :

1. xi = {modif, auth, medium_rep}. L’utilisation de la politique ψP et de l’historique (HP .xi ) nous permet de déterminer que l’événement ignore est un candidat satisfaisant. Le patrouilleur n’annule pas cette modification.

2. x2 = {modif, anonym, low_rep}. L’événement revoque satisfait la politique. La modification est annulée.

5.4.5 Discussion

Dans ce scénario, nous nous sommes seulement intéressés à déterminer si la contribution d’un utilisateur était succeptible d’être un acte de vandalisme. Les données que nous utilisons sont uniquement l’historique des modifications de l’utilisateur et son identifiant.

5.5 Synthèse

Ce chapitre présente notre modèle de gestion de la confiance et l’utilisation qui est faite du modèle de la structure d’événements. Nous y présentons les éléments principaux : la formalisation des événements, la structure d’événements, la spécification de la politique et le modèle de vérification.

Dans la deuxième partie du chapitre, nous avons présenté deux exemples d’applications de gestion de la confiance qui utilisent notre approche : un système de commerce en ligne et le module de gestion de la confiance pour l’encyclopédie Wikipédia.

Lire le mémoire complet ==> (Infrastructure de gestion de la confiance sur Internet )
Thèse pour obtenir le grade de Docteur – Spécialité : Informatique
École Nationale Supérieure des Mines de Saint-Étienne