Systèmes d’indexation des pages par les moteurs de recherche
1.3. Systèmes d’indexation

L’indexation des pages peut s’effectuer de deux manières : par indexation automatique* en texte intégral* ou par déclaration volontaire auprès du moteur de recherche par le biais d’un formulaire [Andrieu, 2000, p. 314, (02)].

1.3.1. Indexation par les moteurs de recherche

La procédure d’indexation s’effectue en deux temps : le robot n’indexe d’abord que les pages soumises (fresh crawler de Google) puis il effectue l’indexation complète du site (deep crawler ou full crawler de Google) (ce qui peut prendre plusieurs semaines ou plusieurs mois) [Andrieu, 2000, p. 318, (02)].

Les informations récoltées par le robot sont ensuite transmises au moteur d’indexation. Les pages collectées ne sont cependant pas toutes retenues.

Des critères comme la richesse du contenu et sa lisibilité par le robot, l’adéquation entre les mots-clés présents dans les balises meta et le contenu des pages influent sur l’indexation définitive. A l’issue de cette étape, la taille de l’index est majorée des nouvelles données glanées et traitées par le robot. Le tableau ci-dessous permet de comparer la taille des index de plusieurs moteurs de recherche :

Tableau 2 : Taille des index de six moteurs de recherche

ExaleadGigablastAsk JeevesMSNGoogleYahoo!
Nb de pages indexées+ de 1 milliard1,5 milliards2,5 milliards5 milliards+ de 8 milliards20 milliards
SourceExaleadGigablastSearch

EngineWatch

MSNGoogleYahoo
Date02/200503/200511/200402/200511/200408/2005

Source : Andrieu, 2005, p. 12, (04) à l’exception des données sur Yahoo : Andrieu, 2005, (06).

L’index est constitué d’un index principal (ou “maître”), qui contient tout le corpus d’informations puisé par le robot, ainsi que des fichiers inverses* ou index inversés, regroupant tous les mots-clés attachés aux adresses (URL) des documents comprenant ces termes [Andrieu, 2005, p. 11, (04)].

1.3.2. Différence entre indexation documentaire et indexation informatique

L’indexation est une démarche fondamentale dans la pratique documentaire : « elle représente l’opération centrale de traitement des informations et des documents […]. » [Cacaly, 2004, p.114-115, (07)].

La norme* AFNOR (Association Française de Normalisation) Z 47-102 (1993) définit l’indexation documentaire comme « l’opération qui consiste à décrire et à caractériser un document à l’aide de représentations des concepts contenus dans ce document, c’est-à-dire à transcrire en langage documentaire* les concepts après les avoir extraits du document par une analyse. […] » [AFNOR, 2000, p. 396, (08)].

Mais cette notion diffère en fonction du domaine concerné. En effet, l’indexation documentaire, manuelle et basée sur un vocabulaire contrôlé, et l’indexation informatique, automatique en texte intégral, sont loin de partager les mêmes modes de traitement des documents et ne qualifient pas la même procédure.

D’un point de vue documentaire, l’indexation « est une opération intellectuelle impliquant une analyse approfondie d’un document et la représentation condensée de l’information portée par ce document. » [Chaumier, 2000, p. 14, (09)]. Il s’agit de traduire les concepts fondamentaux d’un document en un ensemble de termes caractéristiques ou « mots-clés ». Le processus se déroule en deux phases : une phase d’analyse conceptuelle et une phase de traduction ou de représentation des concepts dans un langage documentaire.

D’un point de vue informatique, l’indexation définit l’« extraction par un ordinateur des unités lexicales qui permettent de déterminer et de caractériser le contenu d’un document textuel »8.

Ce processus automatisé indexe en texte intégral (ou full text en anglais). Ses avantages – disponibilité rapide, accès multiple à l’information (pas de restriction de mots-clés), vocabulaire riche (pas de normalisation réductrice), absence de subjectivité [Chirié, 1995, p. 24-25, (10)] – lui confèrent une souplesse indéniable.

Toutefois, l’indexation en texte intégral n’est pas non plus exempte d’inconvénients : l’absence de représentation conceptuelle des documents et les difficultés liées à la langue (synonymie, langage imagé, analogies, polysémie, homographie, etc.) s’ajoutent à la piètre qualité de l’indexation dans la mesure où tous les mots sont clés de recherche potentielles [Andrieu, 2001, (11)].

L’utilisation des procédés statistiques (calcul de cooccurrences, fréquence d’apparition des mots, pondération des termes, affectation d’indices, etc.) et les traitements linguistiques (analyse morphologique et syntaxique) ont cependant permis d’améliorer les performances de l’indexation en texte intégral [Urie, 2004, p. 14, (12)].

La notion d’indexation en informatique n’a rien à voir avec le concept d’indexation au sens traditionnel du terme. C’est une opération mécanique, à la différence de l’indexation documentaire, qui est avant tout un processus intellectuel.

Rechercher
Télécharger ce mémoire en ligne PDF (gratuit)

Laisser un commentaire

Votre adresse courriel ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top