Category Archives: Informatique et Télécommunications

Extraction de connaissances en WUM et applications

3.6 Extraction de connaissances et applications Une fois les données brutes d’usage préparées et formatées dans la phase précédente, elles seront prêtes à l’application des techniques de fouille de données en vue d’en extraire des motifs de navigation intéressants. Cette phase de découverte de connaissances est la plus favorite et préférée par les acteurs de… Read More »

Le formatage et l’intégration d’autres données d’usage

3.5.3 Formatage Le formatage quant à lui, constitue l’étape finale du processus de prétraitement en WUM (Facca et al., 2005), durant laquelle les données d’usage collectées et préparées dans les étapes précédentes vont être transcrites et structurées dans une forme persistante. Bien qu’il soit possible de travailler sur les formats plats des fichiers logs, les… Read More »

Reconstruction des sessions et Processus de prétraitement en WUM

3.5.2 Reconstruction de sessions Afin d’aboutir au fichier des sessions et après la phase de nettoyage des données d’usage, le processus de prétraitement en WUM inclut une étape de reconstruction des sessions. Cette dernière est en réalité constituée de trois sous tâches. Elle comprend l’identification des utilisateurs, l’identification des sessions et la complétude des parcours… Read More »

Le processus de prétraitement en WUM : le nettoyage des données

3.5 Prétraitement Comme nous l’avons vu dans le chapitre précédent, les indicateurs de métrologie relative au Web montrent une évolution exponentielle de celui-ci. Ainsi, et l’instar des données de contenu du Web, les données de son usage collectées dans des fichiers logs ont atteint à leur tour des dimensions colossales. A titre indicatif, la taille… Read More »

Recueil de données : coté serveur, coté Proxy et coté client

3.4 Recueil de données Dans cette phase, différentes sortes de données sont collectées. Les plus communément exploitées sont les fichiers log enregistrés selon la position des dispositifs de collecte dans le réseau, les données issues des procédures d’inscription si disponibles, et les données sur la structure et le contenu des sites (Markov et al., 2007).… Read More »

Comportement des utilisateurs sur le Web et Processus en WUM

Web Usage Mining, Etat de l’art et Problématique – Chapitre 3 : 3.1 Introduction Le Web a ouvert, depuis son apparition, plusieurs directions de recherche dans différentes disciplines. Il peut être considéré comme un laboratoire distribué et énorme permettant la capture, l’étude et l’analyse du comportement humain dans un environnement numérique virtuel (Baldi et al.,… Read More »

Le Web mining et les domaines associés : RI, BDD, AGENTS et WS

2.4 Web mining et domaines connexes Nous avons montré qu’avec le développement du Web, les études sur l’analyse des données qu’offre ce média, sur le plan des contenus, des structures et des usages ont suscité l’intérêt de plusieurs communautés de recherche issues d’origines diverses. Dans les paragraphes suivants, nous essayons de donner les points d’intersection… Read More »

Web structure mining : PageRank, HITS et Web usage mining

2.3.2 Web structure mining Le Web Structure Mining (WSM) se focalise sur l’analyse de la structure des liens entre les pages ou les sites Web, qui constitue une source riche d’information. Les recherches consacrées à cette branche du WM sont inspirées des travaux sur l’étude des réseaux sociaux (réseaux entre des groupes de personnes ou… Read More »

Web content mining : Extraction, sélection et prétraitement

2.3 Taxonomie pour le Web mining La première utilisation du terme Web mining (WM) est attribuée à Oren Etzioni dans un article consacré à l’étude de l’applicabilité de la technologie du data mining sur le Web. Dans ce papier originel (Etzioni, 1996), il définit le Web mining comme étant l’application des techniques du data mining… Read More »

De la fouille de données à la fouille du Web : les propriétés

De la fouille de données à la fouille du Web – Chapitre 2 : 2.1 Préambule Depuis son apparition vers la fin des années 1980, comme le fruit des travaux menés par Tim Berners Lee1 au sein du CERN (Centre Européen pour la Recherche Nucléaire), le Word Wide Web, désigné par l’acronyme WWW ou Web… Read More »