Le formatage et l’intégration d’autres données d’usage

By 4 May 2013

3.5.3 Formatage

Le formatage quant à lui, constitue l’étape finale du processus de prétraitement en WUM (Facca et al., 2005), durant laquelle les données d’usage collectées et préparées dans les étapes précédentes vont être transcrites et structurées dans une forme persistante.

Bien qu’il soit possible de travailler sur les formats plats des fichiers logs, les bases de données relationnelles fournissent indiscutablement un mode de stockage adapté à ce type de données volumineuses, car elles en permettent une exploitation et une interrogation plus efficaces. C’est ainsi qu’elles ont été utilisées dans de nombreux travaux de WUM (Beauvisage, 2004), (Tanasa, 2005).

Les entrepôts de données sont une forme relationnelle plus élaborée employée dans ce cadre. A titre d’exemple, (Zaiane et al., 1998) stocke les données d’usage d’un système d’enseignement à distance1 dans une structure de cube de données multidimensionnelles, en vue d’offrir différents niveaux et angles d’analyse.

D’autres travaux modélisent les logs selon des structures de données d’arbres compactés afin de faciliter et permettre le développement de nouveaux algorithmes efficaces de fouille de logs, tels que WAP-tree (Web Access Pattern Tree) introduit dans (Pei et al., 2000).

3.5.4 Intégration d’autres données

Il est évident que se limiter seulement aux données d’usage pures est insuffisant pour comprendre et étudier plus en profondeur les comportements de navigation des visiteurs des sites web. C’est ainsi que les travaux en WUM, en particulier ceux centrés serveur, incluaient en plus une phase de préparation des données relatives aux contenu et la structure du site à analyser. Cette préparation, dont le degré de difficulté est fonction de la technologie de construction du site, est généralement effectuée en même temps et de façon similaire avant la phase d’extraction de connaissances (Cooley, 2000).

Le prétraitement du contenu d’un site consiste à transformer les données de contenu des différents types de pages qu’il fournit, telles que les textes, les images, les scripts et les fichiers multimédia, à une forme plus appropriée au processus de WUM projeté. Il s’agit souvent de réaliser des tâches de classification/segmentation sur ces données, un travail complexe relevant donc du WCM, qui constitue à lui seul, comme nous l’avons vu, une branche à part du WM. C’est pourquoi, l’exploitation des données de contenu des sites se limite dans le cadre du WUM à supporter certaines formes de filtrages opérer en amont ou en aval sur les entrées ou les résultats des techniques d’extraction de connaissances (Srivastava et al., 2000).

Il est aussi envisageable l’intégration si disponibles de données démographiques sur les utilisateurs (age, sexe, région, niveau…etc.). L’association de ces dernières informations avec les données d’usage, de contenu, ou de structure permettra d’entreprendre en toute aisance la phase de découverte de connaissances qui succède.

1 Il s’agit de Virtual-U un environnement collaboratif d’apprentissage et d’enseignement basé sur le web développé à l’université de Simon Fraser (Canada).

.

Lire le mémoire complet ==> (Prétraitement & Extraction de Connaissances en Web Usage Mining)
S2WC2 : un WUM Framework Centré Utilisateur
Mémoire En vue de l’obtention du diplôme de Magister – Option : Informatique et Communication Electronique
Département des Mathématiques et d’Informatique – Spécialité : Informatique
Université Kasdi Merbah de Ouargla – Faculté des Sciences et Sciences de l’Ingénieur