Comportement des utilisateurs sur le Web et Processus en WUM

By 4 May 2013

Web Usage Mining, Etat de l’art et Problématique – Chapitre 3 :

3.1 Introduction

Le Web a ouvert, depuis son apparition, plusieurs directions de recherche dans différentes disciplines. Il peut être considéré comme un laboratoire distribué et énorme permettant la capture, l’étude et l’analyse du comportement humain dans un environnement numérique virtuel (Baldi et al., 2003). D’un point de vue analyse de données, le Web offre des opportunités riches pour le recueil à grande échelle des données d’observations et de leur utilisation pour la construction, le test et la réfutation de modèles relatifs à l’attitude des hommes en face du Web (Baldi et al., 2003). De l’angle des sciences humaines et sociales, on désire comprendre et mesurer l’impact social et psychologique de l’utilisation du Web sur l’individu (ou des groupes d’individus).

Le WUM, comme mentionné déjà, est une branche du WM qui se centre sur l’analyse de l’usage du Web. Il est utilisé de plus en plus par de nombreuses entreprises et par les propriétaires de sites, afin de mesurer leurs fréquentations, suivre (tracker) leurs utilisateurs, anticiper leurs besoins, et offrir des contenus adaptés.

3.2 Etude du comportement des utilisateurs sur le Web

La majorité des travaux dans le WUM (usage, interaction, navigation…) tirent leur origine des nombreux travaux réalisés auparavant sur les hypermédia, en particulier dans le champ des sciences cognitives. Ces travaux portaient principalement sur la modélisation de l’utilisateur à travers l’étude de ses parcours dans un système hypermédia donné. Les applications sont alors tournées vers la mise en place d’hypermédia adaptatifs1. Aux coté des recherches orientées vers la modélisation de l’utilisateur, le champ du WUM a vu se développer un courant plutôt centré sur l’analyse de données de trafic proprement dites. Ces travaux constituent donc une deuxième approche, qui se distingue de la première du fait qu’elle soit descriptive et pragmatique, et vise à chercher des motifs dans l’ensemble des traces observées, mais sans les relier à de quelconques modèles mentaux ou psychologique (Beauvisage, 2004).

L’étude du comportement des utilisateurs sur le Web est un domaine de recherche relativement nouveau où différentes stratégies et méthodes sont utilisées. Dans (Kellar, 2007), trois méthodes sont généralement appliquées dans ce domaine.

La première approche, communément utilisée, est un ensemble de méthodes qualitatives, qui englobe l’observation en environnement naturel, les questionnaires et les interviews. Ces méthodes offrent l’intérêt d’explorer une compréhension plus détaillée des tâches de l’utilisateur, sa satisfaction et sa motivation dans l’accomplissement de tâches. Dans cette approche, on procède à l’enregistrement vidéo par des caméras, des actions des utilisateurs et du contenu de leurs écrans. Les séquences vidéo sont enrichies par des commentaires que les utilisateurs sont invités à donner pendant qu’ils naviguent, ou par des données recueillies à l’aide de questionnaires ou d’interviews (Byrne et al., 1999).

En dépit des détails qu’elle offre, cette méthode présente plusieurs inconvénients. Outre qu’elle est très intrusive, elle rompt le principe de la situation naturelle, car elle influence le comportement des utilisateurs observés. De plus, elle est très difficile à mener durant une longue période, ou pour un nombre important d’utilisateurs vu le temps important qu’elle occupe, les ressources qu’elle mobilise, et le fait qu’elle soit exposée à une très forte subjectivité (Kellar et al., 2005).

1 Les hypermédias se différencient des hypertextes par le contenu des nœuds. Les nœuds ne contiennent plus seulement des données textuelles, mais peuvent être composés de média divers.

La deuxième approche est quantitative et basée sur la collecte des données d’interaction ou d’usage du Web archivées par différents outils logiciels de datalogging. Elle présente l’avantage de permettre la collecte automatique et discrète des données horodatées d’usage du Web, qui ne nécessite aucune intervention explicite de la part de l’utilisateur, qui peut être dans certain cas inconscient du pistage opéré en tâche de fond.

Si cette seconde approche offre le recueil simple et à grande échelle de données d’usage, la portée du comportement qu’elle permet d’analyser demeure limitée. En effet, les outils de cette méthode tracent uniquement les pages visitées et non pas l’interaction avec le navigateur1. De plus, elle ne peut renseigner sur le comportement effectif et le contexte de l’utilisateur, tel que son intention, la description des tâches effectuées, sa (on) (in)satisfaction, ou son milieux (domicile, école, travail) (Kellar et al., 2005).

D’autres recherches et études ont choisi des approches combinant les deux précédentes. Elles exploitent les données archivées issues des fichiers log, qu’elles associent à d’autres informations fournies par les utilisateurs. En somme, chaque approche a ses avantages et ses inconvénients, et le choix est édicté par les objectifs de l’étude, son environnement ou les conditions de l’observation.

Par la suite, nous nous situons donc dans le cadre d’un WUM, pour l’étude de traces de navigation, en se basant sur une approche descriptive et pragmatique utilisant des dispositifs logiciels de datalogging pour le recueil de traces.

3.3 Processus standardisé en WUM

La chaîne de traitement de tout projet de WUM est similaire à celle standardisée en fouille de données. Elle hérite donc les principales phases de préparation de données, de fouille de données, et d’analyse des résultats.

1 Certaines méthodes de cette approche opérant sur la couche application peuvent communiquer et intercepter ses événements.

(Srivastava et al., 2000) décomposent le processus WUM en trois phases que nous avons précitées. Nous ajoutons une autre étape implicite de recueil de données effectuée en amont du processus, elle n’est pas citée dans ces travaux travaillant du coté serveur, où le recueil est disponible automatiquement. La figure suivante adaptée de (Cooley, 2000) schématise l’enchaînement de ces phases.

Processus standard de haut niveau en WUM
Figure 5. Processus standard de haut niveau en WUM

3.3.1 Définitions

Avant d’entamer les détails des choix technologiques possibles et nécessaires à l’implémentation des différentes phases, nous présentons les définitions suivantes jugées indispensables tirées de (Lavoie et al., 1999) et de la spécification du protocole http défini dans le RFC 1945 (Berners-Lee et al., 1996).

URI : Uniform Ressource Identifier, est une chaîne de caractères utilisée pour identifier une ressource physique ou abstraite.
Ressource : est un objet ou un service pouvant être identifié par un URI.
Connexion : un circuit virtuel s’appuyant sur une couche de transport pour la communication d’informations entre deux applications.
Message : l’unité de base d’une communication http, consistant en une séquence structurée d’octets transmis via la connexion.
Requête : un message de requête http initié par un client Web pour une ressource Web. Elle peut être explicite initiée par l’utilisateur, ou implicite initiée par le client Web.
Client : un programme applicatif dont la fonction principale est d’émettre des requêtes, il peut être un navigateur, un éditeur, un spider ou tout autre utilitaire.
Utilisateur : la personne exploitant un navigateur Web.
Serveur Web : un programme applicatif acceptant des connexions d’accès à ses ressources dans le but de traiter des requêtes en délivrant une réponse.
Page Web : l’ensemble des informations consistant en une ou plusieurs ressources Web identifiées par un seul URI.
Vue de page : (page view) est l’interprétation visuelle (ou affichage) d’une page Web dans un environnement client spécifié à un moment précis.
Session utilisateur : ensemble délimité de requêtes explicites d’un utilisateur sur un ou plusieurs serveurs Web.
Visite : un sous-ensemble de vues de pages consécutives d’une session utilisateur sur un ou plusieurs serveurs Web.
Episode : ou transaction est un sous-ensemble de clics d’une visite ayant un rapport entre eux.
Proxy : un programme intermédiaire qui cumule les fonctions de serveur et de client. Les requêtes sont soit traitées en interne ou répercutées, éventuellement converties, sur d’autres serveurs. .

Lire le mémoire complet ==> (Prétraitement & Extraction de Connaissances en Web Usage Mining)
S2WC2 : un WUM Framework Centré Utilisateur
Mémoire En vue de l’obtention du diplôme de Magister – Option : Informatique et Communication Electronique
Département des Mathématiques et d’Informatique – Spécialité : Informatique
Université Kasdi Merbah de Ouargla – Faculté des Sciences et Sciences de l’Ingénieur