Les cartes de Kohonen et Outils libres d’ECD

By 4 May 2013

4.5.3 Les cartes de Kohonen

Les cartes auto-organisatrices de Kohonen, sont une catégorie de réseaux de neurones à deux couches dédiées à la segmentation (Freeman et al., 1991). Elles permettent de réaliser une projection non linéaire d’un ensemble de données de grande dimension sur une carte (couche de sortie) de faible dimension, souvent bidimensionnelle choisi a priori, tout en préservant la topologie des données sur la couche d’entrée. C’est-à-dire, qu’à des observations proches, au sens d’une distance choisie (souvent la distance euclidienne), de l’ensemble de données font correspondre des neurones voisins sur la carte. Si la carte est composée de N neurones, elle réalise donc une partition de N clusters de l’espace d’entrée, où chaque neurone prototype représente un cluster. Ce type de réseau est largement utilisé, car il offre une solution combinant à la fois une synthèse et une visualisation du nuage des points à analyser (El Golli et al. 2004).

L’interaction latérale entre les neurones en compétition doit provoquer la formation d’amas de neurones excités autour du neurone le plus stimulé par le signal d’entrée. Les autres neurones se stabilisent dans un état d’activation faible. Pour rappel, le processus itératif d’apprentissage des SOM s’effectue comme est illustré dans l’algorithme ci- dessous. Kohonen a établi qu’après un nombre d’itérations suffisamment grand de cette séquence, le réseau converge vers un état organisé (le voisinage et le coefficient d’apprentissage décroissent avec le temps) (Freeman et al., 1991) (Larose, 2005). Cette technique a été retenue, afin de résumer et visualiser l’ensemble des surfs que nous avons obtenus après la phase de prétraitement.
Les cartes de Kohonen et Outils libres d’ECD

20. L’algorithme d’apprentissage des SOM

4.5.4 Outils libres d’ECD

La phase de prétraitement des logs nous a pris un temps énorme, nous avons décidé pour cela d’utiliser dans la segmentations l’un des outils open sources dédiés à l’ECD. Voici une brève présentation de ceux que nous avons utilisé.

4.5.4.1 Weka

Waikato Environment for Knowledge Analysis, est un projet open source développé à l’université de waikato (new Zealand) en Java, donc multiplateforme, implémentant plusieurs techniques de fouille de données, issues de la communauté apprentissage automatique (Witten et al., 2005). Il peut être utilisé soit par ligne de commande, ou via une interface graphique, ou encore en réutilisant ses bibliothèques de classes. Il est alimenté par un fichier texte, au format ARFF (Attribute-Relation File Format), composé de deux sections : une entête décrivant la table de données et ses attributs, et une deuxième listant les données. Cet outil implémente plusieurs algorithmes de segmentation mais malheureusement pas les SOM (un plug-in des SOM pour Weka existe sous linux, Cf. http://linux.softpedia.com/get/Science-and-Engineering/Mathematics/WEKA-Classification-Algorithms-30935.shtml). Il est utilisé dans notre étude pour fins de comparaison.

4.5.4.2 Tanagra

Cet environnement est une plateforme libre d’expérimentation destinée à l’enseignement et la recherche développée par Ricco RAKOTOMALALA à l’université de Lumière de Lyon (Rakotomalala, 2005). Elle présente une interface graphique conviviale, et permet l’enchaînement de plusieurs traitements visualisés par un graphe. Les données y sont introduites par un simple fichier texte, ou les variables sont séparées par des tabulations. La sortie des différentes opérations quant à elle est réalisée en utilisant HTML, ce qui est très souple. Par ailleurs, cette plateforme étant écrite en Object Pascal, nous l’avons préconisé, en espérant modifier notamment l’implémentation des SOM. Néanmoins, ceci n’a pas été atteint en raison d’absence de composants et incompatibilité de versions. Par conséquent, l’exploitation de Tanagra est effectuée directement via son exécutable. En outre, la visualisation des SOM, dans cet outil, se trouve simplifier par la matrice représentant la carte, où à chacune des cases est affectée le nombre d’entrées associées. Une présentation graphique approchée des clusters est cependant possible dans cet outil en passant par une ACP.

4.5.4.3 ESOM DataBionic Tools

A l’université de Marburg en Allemagne, les concepteurs de cet environnement, stipulent que l’utilisation des SOM classiques avec quelques neurones seulement est identique à une segmentation de type K-means avec K égale au nombre de neurones de la carte (Ultsch et al., 2005). Ils proposent donc le recours au principe de l’émergence, en utilisant des cartes de quelques milliers de neurones. L’interaction de ce nombre important d’éléments élémentaires fait émerger les structures cachées dans l’ensemble de données. Les cartes de ce type, appelées ESOM maps pour Emergent SOM, introduisent deux fonctionnalités permettant de visualiser les informations : U-Matrix, et P-Matrix. La première montre la structure de la distance locale sur chaque neurone, calculée par la somme normalisée de cette distance avec tous les voisins immédiats. Cette valeur sera d’autant plus grande dans les zones contenant peu ou pas du tout de neurones, formant des séries de montagnes délimitant les clusters. Elle sera plus faible dans les zones peuplées de neurones qui définissent les clusters schématisés par des vallées. Le P-Matrix, à son tour, est utilisé pour montrer la densité des données, en utilisant une estimation de celle-ci. P-Matrix est surtout utile dans des ensembles de données à clusters chevauchants. Cet environnement présente plusieurs avantages : il est libre, écrit en java, et offre une panoplie de paramètres (architectures, méthodes d’initialisation, algorithmes d’apprentissage, fonctions de distances…etc). Il est utilisé dans des tâches de visualisation, de segmentation et de classification. Notons enfin, à notre avis, qu’il a un temps de réponse parfois très lent (fonction de la taille de la carte, et de l’ensemble de données), et présente des limites de précision de variables (3 chiffres décimaux seulement). .

Lire le mémoire complet ==> (Prétraitement & Extraction de Connaissances en Web Usage Mining)
S2WC2 : un WUM Framework Centré Utilisateur
Mémoire En vue de l’obtention du diplôme de Magister – Option : Informatique et Communication Electronique
Département des Mathématiques et d’Informatique – Spécialité : Informatique
Université Kasdi Merbah de Ouargla – Faculté des Sciences et Sciences de l’Ingénieur