La fouille de données : concepts et facteurs d’émergence

By 3 May 2013

Fouille de données concepts et terminologie – Chapitre 1 :

1.1 Facteurs d’émergence

Les volumes de données, de toute nature, produits et stockés chaque jour, dans les différents secteurs d’activité, sont sans cesse en constante évolution. Par exemple, une estimation de cette évolution dans (Lyman & al., 2003) a été de l’ordre de 30% chaque année entre 1999 et 2002, d’autres statistiques montrent que la masse de données collectées double tous les vingt mois, et récemment des observateurs confirment que cette duplication est réalisée déjà tous les ans1.

Ce phénomène d’explosion de données a été atteint grâce à la prolifération des ordinateurs et, en général, des équipements numériques d’acquisition, de traitement, de stockage et de diffusion de données. En effet, les progrès technologiques enregistrés sur le plan du hardware ont permis l’introduction dans le marché de machines sophistiquées offrant un rapport puissance/coût qui ne faisait que s’améliorer avec le temps. Cette conjoncture favorable a incité les individus et principalement les entreprises, de différentes tailles, de se doter de ce type de matériel afin de gérer leur patrimoine informationnel.

Parallèlement, des recherches dans le domaine du logiciel ont abouti aux systèmes de gestion de bases de données (SGBD). Ces systèmes ont connu un succès indéniable dans la gestion de masses importantes de données, et particulièrement dans la recherche et l’accès à l’information désirée stockée dans ces bases. Cependant, les SGBD ont contribués d’avantage à la génération d’informations opérationnelles, hétérogènes et dispersées qui sont souvent simplement archivées dans un but de traçabilité.

1 Gérard Tanchon responsable commercial chez Exalead, un nouveau moteur de recherche en pleine expansion, stipule en janvier 2007 que le volume d’information stocké dans les systèmes d’information double tous les 9 à 12 mois. Dans : interface de gestion centralisée et unifiée de l’information, G. Tanchon, Exalead, 2007

La multiplication des données amassées à des facteurs faramineux est donc une réalité évidente. Néanmoins, une question capitale est à poser : qu’apprend-on de ces données ? Et quelles connaissances vont en être tirées ?

Ainsi, dans le monde des affaires, et bien dans d’autres, et notamment ceux industriels ou commerciaux qui connaissent une concurrence plus pressante, les acteurs sont contraints de valoriser les données « dormantes » qu’ils possèdent afin d’améliorer la productivité et l’efficacité de leurs entreprises. Autrement dit, il s’avère donc important de puiser dans ces volumes colossaux de données disponibles dans ces organisations afin d’en dégager des connaissances, ou des conclusions utiles préalablement cachées, et de les exploiter dans le processus de prise de décision, en vue de mieux répondre aux attentes des clients, de se positionner dans le marché et de garantir par conséquent la suprématie de l’entreprise.

Motivé par l’accroissement dramatique des données recueillies et des besoins de prise de décisions pertinentes en temps opportun, il s’est développé à partir des milieux des années 1990 un nouveau champ de recherche qui s’intéresse à l’extraction et la découverte des connaissances à partir de gros ensembles de données. Ce domaine connu sous le terme « Extraction de Connaissances à partir de Données (ECD) » ou « Knowledge Discovery in Databases (KDD) » en anglais, avait pour objectif de développer des théories et des outils, sous forme d’algorithmes et de techniques, afin d’assister les utilisateurs (humains) pour tirer de l’information utile, i.e. des connaissances (information de haut niveau) à partir de flux grandissants de données (information de bas niveau) (Fayyad et al., 1996).

Pour dire vrai, l’idée de l’analyse et de l’exploration des données n’est pas nouvelle, l’informatique décisionnelle (par opposition à celle transactionnelle ou de production) permettait depuis les années 1970 d’accomplir certaines tâches afférentes à l’analyse de données, mais que se limitaient à l’édition de rapports, de statistiques et de certaines formes de simulation et d’optimisation (Gilleron et al., 2000).

Avant les travaux sur l’ECD, des procédés classiques d’exploitation de données et de leur transformation en connaissances reposaient généralement sur une analyse et une interprétation manuelle (Fayyad et al., 1996). En effet, dans plusieurs domaines d’application les analystes procèdent à l’édition périodique de rapports et de statistiques et à leur exploitation par des spécialistes du domaine. Dans d’autres secteurs, cette transformation et assurée par des personnes chevronnées qui examinent, parfois seulement au visu, les donnes pour en extraire des résultats et des tendances.

Avec l’évolution vertigineuse des données, il est évident que l’exploitation et l’analyse manuelles des données sont devenues inadaptées et archaïques. Cette manière de procéder est entachée de lenteur, de subjectivité et induit, en outre, des coûts non négligeables. Le recours à l’automatisation, même partielle, de la tâche d’exploration des données est donc indispensable, tant dans le monde professionnel que scientifique (Fayyad et al., 1996).

1.2 Fouille de données et extraction de connaissances

L’ECD est un domaine de recherche pluridisciplinaire au confluent, entre autres disciplines, des mathématiques notamment la statistique et la théorie des probabilités, de l’intelligence artificielle particulièrement l’apprentissage automatique et la reconnaissance des formes, des bases de données et des techniques de visualisation…etc.

Actuellement, les projets d’ECD sont peu ou prou standardisés. Ils consistent en un processus à plusieurs phases. Pour aboutir aux connaissances, ce processus comprend des étapes de définition du problème : en délimitant le champ de l’étude et fixant les objectifs à atteindre, de préparation des données : par l’application d’une série d’opérations sur les données telles que le nettoyage, la sélection et la transformation, de fouille proprement dite et en fin d’évaluation et de validation des résultats obtenus.

L’étape de fouille de données (ou Data Mining en anglais abrégé en DM) constitue le cœur du processus d’ECD, au stade où on confond même dans la littérature les deux termes (Gardarin, 1999),(Zaïane, 1999). Nous adoptons alors, dans ce mémoire, la même attitude et nous utilisons interchangeablement les deux abréviations, ECD et DM et la traduction française fouille de données.

Historiquement, même si certains considèrent que la fouille de données a commencé en 1989 quand Gregory-Shapiro organisa le premier workshop sur l’ECD, le démarrage effectif de ce domaine de recherche remonte seulement à 1995, année de la tenue de la première conférence internationale sur l’ECD à Montréal (Canada). Il est à noter que le terme Data Mining tire son origine de l’analogie avec l’exploration minière. En effet, dans les deux branches, mine et informatique, on fait recours à des moyens sophistiqués (matériels dans le premier, et algorithmes dans le second) afin de déterminer ou se situe les objets précieux (Zaïane, 1999). La métaphore du DM signifie qu’il y’a des trésors (pépites) cachés sous des « montagnes de données» que l’on peut découvrir avec des outils spécialisés (Saporta, 2004).

1.2.1 Définitions de la fouille de données :

Dans (Larose, 2005) et selon le magazine ZDNET News, le DM est prédit comme étant un des développements technologiques les plus révolutionnaires des dix prochaines décennies. De même, le MIT Technology Review l’a choisi comme l’une des dix technologies émergentes qui vont changer le monde. Ce champ a suscité un intérêt grandissant des chercheurs de plusieurs disciplines, des travaux actifs ont alors été menés tant sur les aspects théoriques que pratiques. En ce qui concerne la définition, et du fait des origines diverses de ce domaine, de multiples définitions ont été présentées pour déterminer l’essence du DM. Nous donnons les trois définitions suivantes.

1.2.1.1 Définition 1

Cette définition est due à U.M. FAYYAD l’un des pionniers du DM, elle est communément admise.

« Le DM est un processus non trivial d’extraction, à partir de gros ensembles de données de l’information valide, compréhensible, préalablement inconnue et potentiellement utile pour l’utilisateur ». (Fayyad et al., 1996)

1.2.1.2 Définition 2

(Hand et al., 2001) est une référence consacrée au DM d’un point de vue statistique, le DM y défini ainsi :

« Le DM est l’analyse d’un ensemble, souvent important, d’observations qui a pour but de trouver des relations insoupçonnées et résumer les données d’une nouvelle manière, de façon qu’elles soient plus compréhensibles et utiles pour leurs détenteurs».

1.2.1.3 Définition 3

Le groupe Garthner (visitez son site : http://www.gartner.com) est un leader américain en consulting dans le domaine des technologies de l’information. Sa définition pour le DM est la suivante :

« La fouille de données est le processus de découverte de corrélations, formes et tendances nouvelles et significatives en passant au crible de grandes quantités de données stockées dans des bases patrimoniales et en utilisant la technologie de reconnaissance de formes conjointement aux techniques statistiques et mathématiques » (Larose, 2005).

Si nous tentons d’analyser les définitions précédentes, nous pouvons relever les aspects importants suivants :

Le DM est un processus non trivial : ce n’est pas une analyse simple, dans la mesure où il opère sur des ensembles de données très volumineuses, et que, bien évidemment, l’analyse de petites bases de données ne nécessite pas le DM. Si ce n’est pas le cas, le recours aux outils d’interrogation (exemple SQL) et de la statistique est possible et préféré, car plus rigoureux que les méthodes du DM entachées généralement d’une certaine incertitude.
Au démarrage du processus les connaissances sont inconnues : ces connaissances, qui peuvent avoir la forme de règles, de modèles ou encore de motifs, sont nouvelles et doivent être découvertes. En DM on ne vérifie pas des hypothèses préalablement posées par l’utilisateur, mais le système l’extrait à partir des données disponibles (l’investissement dans l’information connue est inutile).
Les connaissances obtenues doivent être validées : afin d’éviter des résultats non pertinents ou insignifiants, les informations extraites doivent être vérifiées et évaluées par l’utilisateur ou l’expert.
Les informations découvertes devaient être utiles : c’est-à-dire qu’elles soient compréhensibles et applicables, et doivent supporter et aider dans le processus de prise de décision.

La fouille de données vise donc l’extraction de modèles à partir d’importants volumes de données, afin de décrire le comportement actuel et/ou prédire le comportement futur d’un système. Son application n’est pas spécifique à un type de données, mais il peut être mis en œuvre avec n’importe quelle source de données : fichiers plats, binaires ou textuels, tables de bases de données, fichiers multimédia, séries temporelles le Web…etc. Ses enjeux sont de plus en plus importants, il est réputé bien accueilli dans les domaines suivants (la liste n’est pas exhaustive) (Gardarin, 1999) :

Grande distribution et vente par correspondance : dans l’analyse de comportement des consommateurs, la prédiction des taux de réponse en marketing et dans l’optimisation des (ré)approvisionnement…etc.

Banques et assurance : dans la recherche de critères explicatifs de risque, et pour la détection de différentes formes de fraudes.
Télécommunication, eau et énergie : dans la simulation de tarification, la détection d’attitudes de consommation frauduleuses et la prédiction des recettes.
Bioinformatique et pharmacie : pour la modélisation comportementale, la prédiction de médication et l’analyse de génomes.
Sécurité informatique : dans l’implémentation de filtres anti-spam au sein des systèmes de messagerie électronique, dans la détection des intrusions pour les réseaux, et la reconnaissance de codes malveillants.

Lire le mémoire complet ==> (Prétraitement & Extraction de Connaissances en Web Usage Mining)
S2WC2 : un WUM Framework Centré Utilisateur
Mémoire En vue de l’obtention du diplôme de Magister – Option : Informatique et Communication Electronique
Département des Mathématiques et d’Informatique – Spécialité : Informatique
Université Kasdi Merbah de Ouargla – Faculté des Sciences et Sciences de l’Ingénieur