Mémoires de licence : Informatique et Télécommunications

Web content mining : Extraction, sélection et prétraitement

2.3 Taxonomie pour le Web mining La première utilisation du terme Web mining (WM) est attribuée à Oren Etzioni dans un article consacré à l’étude de l’applicabilité de la technologie du data mining sur le Web. Dans ce papier originel (Etzioni, 1996), il définit le Web mining comme étant l’application des techniques du data mining pour l’extraction d’informations pertinentes à partir des ressources disponibles dans le Web, une ressource Web peut être un document ou un service Web1. 1 La definition du W3C d’un service web est la suivante : “ a software application identified by a URI, whose interfaces and binding are capable of being defined, described and discovered by XML artifacts and supports direct interactions with other software applications using XML based messages [...]




De la fouille de données à la fouille du Web : les propriétés

De la fouille de données à la fouille du Web – Chapitre 2 : 2.1 Préambule Depuis son apparition vers la fin des années 1980, comme le fruit des travaux menés par Tim Berners Lee1 au sein du CERN (Centre Européen pour la Recherche Nucléaire), le Word Wide Web, désigné par l’acronyme WWW ou Web ou encor W3 en abrége, a connu en l’espace de quelque années un succès important et remarquable. Ce nouveau média est considéré comme l’entrepôt de connaissances le plus gigantesque de l’histoire. Il emmagasine d’immenses informations variées relatives à l’activité humaine. Que nous soyons des entreprises industrielles ou commerciales, des établissements d’enseignement ou de formation, des gouvernements, des organisations, des associations ou tout simplement des individus, le Web a révolutionné notre [...]

Les techniques de fouille de données et ses limites

1.4 Principales techniques de fouille de données Plusieurs techniques ont été élaborées pour la recherche de connaissances utiles à partir de données, les toutes premières sont simples et issues, dans la majorité, de la statistique et de l’analyse de données. Cependant il a été vite constaté que les méthodes statistiques classiques sont souvent limitées, car on ne peut étudier simultanément que quelques variables (1 à 2) (Besse, 2005). En effet, dès que le modèle à découvrir est complexe et met en œuvre plusieurs variables d’autres méthodes doivent alors être utilisées, on fait recours donc à d’autres techniques et algorithmes sophistiqués. Présentons dans les points suivants une sélection de ces méthodes. 1.4.1 Techniques statistiques et probabilistes 1.4.1.1 La régression linéaire simple, multiple et logistique La régression [...]

Le processus d’extraction de connaissances ECD en WUM

1.3 Processus d’extraction de connaissances L’ECD est un processus homme-machine interactif et itératif, composé de plusieurs phases (Fayyad et al., 1996). Il est communément admis que c’est un processus partiellement automatique, où l’interaction de l’homme est primordiale. Il est itératif, dans le sens où l’utilisateur peut à tout moment revenir à l’une des étapes, afin par exemple de sélectionner ou enrichir les données, intégrer d’autres données, affiner ou changer l’algorithme de fouille, améliorer la présentation ou les mesures d’évaluation des résultats…etc. La méthodologie générale d’un projet d’extraction de connaissances est illustrée dans la figure suivante adaptée de (Gardarin, 1999) et (Zaïane, 1999). Détaillons, dans les points suivants, les trois importantes phases de ce processus : à savoir la préparation de données, la fouille de données [...]

Les tâches en fouille de données

1.2.2 Les tâches en fouille de données La fouille de données est en fait un ensemble de techniques dédiées à différentes tâches groupées généralement en deux grandes catégories : des tâches descriptives et autres prédictives (Fayyad et al., 1996). Les tâches de la première catégorie ont pour objectifs de décrire des phénomènes ou des tendances gisant dans les données, alors que celles de la deuxième classe s’intéressent à l’estimation de valeurs futures de variables en prenant en considération d’autres valeurs historisées. Présentons, dans les points suivants, les principales tâches que le DM est amené à accomplir, que nous avons résumé de (Fayyad et al., 1996), (Zaïane, 1999), (Gardarin, 1999), (Gilleron et al., 2000) et (Larose, 2005). 1.2.2.1 La description Cette tâche permet de résumer les [...]