La recherche avec un moteur et Limites des moteurs de recherche

By 16 December 2012

1.5. Limites des moteurs de recherche

Malgré des fonctionnalités croissantes et une indéniable efficacité, les moteurs de recherche présentent toutefois quelques lacunes :
* Ils ne peuvent fournir de manière exhaustive l’ensemble des documents réellement disponibles sur Internet, estimés entre 200 et 800 millions12.
* Parmi les documents référencés, certains sont périmés (informations obsolètes, disparition du site, erreur 404, etc.). En Février 2000, Greg R. Notess répertoriait 13,7 % de liens invalides sur AltaVista et 4,3 % sur Google13.
* Les moteurs ne savent pas tout indexer : pages orphelines (non liées à d’autres pages web) ou dynamiques, contenu des bases de données, Flash, Javascript, frames*, etc. sont encore mal gérés.
* Les méthodes de classement des résultats demeurent opaques et complexes pour la majorité des internautes.
* Il est toujours impossible de trier les résultats de recherche par ordre chronologique ou par auteurs comme le regrettait déjà Rambaux-Yakovleff en 1999 [Rambaux- Yakovleff, 1999, p. 15, (24)].

Ces déficiences n’entachent pas le succès des moteurs de recherche. Les internautes privilégient ce moyen d’accès aux ressources exponentielles du web. Pour ce faire, ils lancent leur requête sur les interfaces dépouillées (Google) ou plus garnies (Yahoo !) de ces outils.

2. La recherche avec un moteur

2.1. Moteur d’interrogation

Un moteur effectue sa recherche en texte intégral sur le contenu des pages. Lorsqu’une recherche est lancée, les mots-clés sont comparés aux mots indexés. Puis, le moteur ordonne ces résultats – sous la forme d’une liste de liens – en fonction d’un algorithme de classement qui lui est propre.

Le moteur d’interrogation ou searcher est l’interface à partir de laquelle l’utilisateur va soumettre sa question. « A chaque question, par le biais d’un script CGI (Common Gateway Interface), une requête est générée dans la base de données et une page Web dynamique restitue les résultats généralement sous forme de liste ou de cartes de résultats. L’interface CGI permet d’exécuter un programme sur un serveur et de renvoyer le résultat à un navigateur Internet.» [Andrieu, 2005, p. 14, (04)].

2.2. Type de recherche

Les moteurs de recherche proposent généralement plusieurs modes d’interrogation :
* la recherche simple : l’internaute soumet des mots et le système retrouve les documents répondant le mieux à la requête dans l’ensemble de son index,
* la recherche avancée avec formulaire de requête : les opérateurs booléens* (AND, OR, NOT) permettent d’affiner la recherche,
* la recherche ciblée : l’internaute peut restreindre sa recherche à un type de documents particuliers (images, textes, MP3/Audio, vidéos) sur des sites nationaux ou sur l’ensemble du web.

L’internaute peut lancer sa recherche sur une expression composée de plusieurs mots, des mots entiers ou des parties de mots. Plus les questions comporteront un grand nombre de termes, plus la réponse sera précise. La plupart des moteurs acceptent la troncature, sont insensibles à la casse et gèrent les fautes d’orthographe [Rambaux-Yakovleff, 1999, p. 11, (24)].

2.3. Page de résultats

Si le poids accordé à chaque critère varie en fonction de l’outil considéré, l’affichage des résultats est relativement homogène. Deux types de contenus se partagent la page : les liens organiques ou « naturels » obtenus grâce à l’indexation automatique des robots, et les liens sponsorisés, payants.

Les réponses s’affichent sous la forme du titre suivi d’un court descriptif de la page (éléments du titre ou premières lignes du texte) ou sous la forme d’une carte ou d’un graphique pour certains moteurs. D’autres, comme Exalead, permettent de reformuler ou de raffiner la question en sélectionnant des termes connexes.

2.4. Sémantique et syntaxe d’interrogation

Les internautes lancent leur recherche sur un mot ou une phrase car ils maîtrisent mal la logique combinatoire et ses opérateurs booléens, complexes pour un néophyte.

Spink, Bateman et Jansen (1999) ont observé que sur 316 utilisateurs d’Excite14 seuls quelques uns employaient les opérateurs logiques alors qu’il n’était plus qu’une poignée à écrire la syntaxe correctement [Weideman & Strümpfer, 2004, p. 61, (25)].

2.5. Questions générales ou ciblées

De nombreux auteurs se sont intéressés aux stratégies de recherche employées par les internautes. Les données fluctuent en fonction des études.

Certaines d’entre elles prouvent que l’interrogation simple est toujours la plus pratiquée. Nowicki (2003) montre que près de la moitié de ses sujets d’étude n’utilise qu’un seul mot [Zhao, 2004, p. 109, (22)]. Spink, Jansen et Bateman (2001) dévoilent que « most people use few search terms, few modified queries, view few Web pages, and rarely use advanced search

features.15 » [Weideman & Strümpfer, 2004, p. 60, (25)]. Enfin, une étude Ad’Oc menée en France sur l’année 2005 révèle que 34 % des parts de recherches concernent la requête en un terme, devant la requête en deux (29,8 %) ou trois (17,8 %) mots [Journal du net, 2005, (26)].

D’après Castagné, ce recours instinctif aux questions unitermes s’explique par le principe général « d’économie cognitive » qui « consiste à effectuer des opérations génériques plutôt que des opérations complexes, dans une première phase de recherche » [Castagné, 2004, p.27, (27)]. Cette stratégie est rarement abandonnée au cours d’une recherche malgré le bruit*ainsi généré.

D’autres études décrivent pourtant une réalité bien différente. Ainsi, Sandrine Saporta, en se basant sur les résultats d’une enquête menée en 2003 par Outrider, juge les requêtes des internautes plutôt ciblées (45 % des recherches comprennent au moins quatre mots et 65 % au moins trois mots) et détaillées puisque 28 % des internautes précisent le nom d’un produit et 9 % celui d’une marque [Saporta, 2005, p. 46-47, (23)]. Selon Référenceur.com, les internautes utilisent en moyenne 2,5 mots par requête pour atténuer le bruit engendré par la recherche uniterme [Referenceur.com, (28)]. Enfin, sur les 540 utilisateurs suivis par Weideman & Strümpfer [Weideman & Strümpfer, 2004, p. 62, (25)], seuls 109 utilisent un unique mot-clé.

Les autres (431 personnes) en tapent davantage.

Aujourd’hui, la plupart des portails de recherche mondiaux ou francophones offrent à la fois un annuaire proposant des fiches descriptives de sites (de type Yahoo! Directory) et un moteur de recherche en texte intégral sur les pages du web (de type Google)

[abondance.com].

La présence d’un site web sur ces outils est essentielle pour assurer sa visibilité. Elle va dépendre de l’inscription du site sur les moteurs et annuaires, une démarche connue sous le nom de « référencement ».

Lire le mémoire complet ==> (Référencement : Stratégie documentaire versus Stratégie marketing)
Mémoire pour obtenir le DESS en Sciences de l’information et de la documentation spécialisées
Conservatoire National Des Arts Et Métiers – Institut National Des Techniques De La Documentation