Référencement : Stratégie documentaire versus Stratégie marketing

By 16 December 2012

Conservatoire National Des Arts Et Métiers
Institut National Des Techniques De La Documentation

Mémoire pour obtenir le DESS en Sciences de l’information et de la documentation spécialisées

Référencement : Stratégie documentaire versus Stratégie marketing
Le cas des sites web des cyberlibrairies et maisons d’édition

Présenté et soutenu par Adeline MARCK

Membres du jury :
Madame Danièle DEGEZ
Madame Patricia MACAIGNE
Monsieur José GARCIA

Cycle supérieur Promotion XXXV

le 25 octobre 2005

Remerciements
Je tiens à exprimer toute ma gratitude à Madame Danièle DEGEZ – qui a accepté de suivre l’évolution de ce travail – et à Monsieur José Garcia, auprès duquel j’ai appris avec plaisir le métier de documentaliste « de terrain » lors d’un stage formateur à l’ICOMOS.

Ce mémoire clôt une année riche en rencontres et en échanges fructueux. Bonne chance à tous les élèves du groupe 1 …

A toi Patrice, que la gentillesse et l’humour ne quittent jamais, merci pour tes conseils avisés d’ex-référenceur !

Christine et Virginie, je suis heureuse d’avoir parcouru un petit bout de chemin avec vous. Alors, ce bon restaurant, c’est pour quand ? La fin d’un tel marathon mérite bien une petite coupe de Champagne !

Je remercie enfin mes parents pour leur infinie patience – c’est promis, cette fois, j’arrête ! – et mon ami, pour ne pas m’avoir noyée trop vite sous les travaux agricoles et de BTP…

Résumé

Notice : MARCK, Adeline. Référencement : stratégie documentaire versus stratégie marketing. Le cas des sites web des cyberlibrairies et maisons d’édition. Mémoire présenté en vue d’obtenir le DESS en sciences de l’information et de la documentation spécialisées, Paris, INTD, 2005, 170 p.

Résumé : L’impact d’un site (ou d’une page) Web dépend étroitement de sa visibilité sur Internet, autant dire de son positionnement sur les principaux moteurs de recherche. C’est pourquoi le référencement se situe au cœur de la stratégie de communication des sites de e-commerce.

Après une présentation générale des moteurs de recherche et de leur fonctionnement, sont abordées les méthodes d’optimisation des pages web en vue de leur référencement. Puis sont définis les concepts fondamentaux liés à cette opération, et clarifié son double objectif documentaire et marketing. Le troisième chapitre replace le référencement dans le cadre plus vaste de la promotion d’un site web et détaille les méthodes permettant d’évaluer sa qualité. Une analyse comparative des codes sources, et en particulier des métadonnées de sept sites Internet de cyberlibrairies et maisons d’édition, complète cette étude.

Des bibliographies (analytique, alphabétique, complémentaire), une webographie, un glossaire et un index viennent clore ce mémoire.

Descripteurs : Communication publicitaire, Etude comparative, Internet, Marketing, Métadonnée, Moteur de recherche, Optimisation, Outil de recherche, Page web, Référencement, Référencement payant, Site web

Conventions typographiques

Les références complètes sont présentées entre crochets sous la forme normalisée suivante : [Auteur, année, p.xx, (n° de renvoi)]

Elles comprennent : le nom de l’auteur (personne physique ou morale), l’année de publication de l’article ou de l’ouvrage et la pagination, les chiffres entre parenthèses correspondant au numéro de la référence dans la bibliographie analytique (p. 99-112). Ces références renvoient d’autre part à la bibliographie alphabétique des noms d’auteurs (p. 113-120).

Les citations sont reconnaissables à leur texte en italique placé entre guillemets.

Les termes et expressions qui font l’objet d’une définition dans le glossaire (p. 132-138) sont suivis d’un astérisque (*) lors de leur première apparition dans le texte.

Introduction :

Le Web draine un flux croissant d’information véhiculé par un nombre de sites en constante augmentation. Comment, dans ces conditions, faire connaître l’existence d’un site et lui assurer une visibilité suffisante pour qu’il soit visité par les internautes ?

Un site n’a d’existence que s’il est connu. Son adresse doit donc être largement diffusée. Sa promotion passe entre autre par le référencement*, c’est-à-dire l’inscription du site sur les outils de recherche* (moteurs*, annuaires* et portails spécialisés).

Le référencement, étroitement lié à la notion d’indexation*, une pratique documentaire reconnue, peut se concevoir à la fois comme une démarche typiquement documentaire, visant à faciliter l’accès à un site web, et comme un outil marketing chargé d’accroître la visibilité et le positionnement* d’un site sur les outils de recherche pour en augmenter le trafic* et donc la rentabilité.

C’est pour cerner au plus près la nature du référencement et ses implications que nous avons lancé cette étude.

Le traitement de cette question exige un examen attentif du fonctionnement des moteurs de recherche de même qu’une connaissance des techniques, comme nous le verrons variées, de référencement, sans lesquelles ne peut se construire une stratégie marketing plus globale sur Internet.

A l’issu d’un examen de la littérature, une étude permettra de comparer les stratégies retenues par des acteurs du monde de l’information. Sur la Toile*, la visibilité des maisons d’édition est atténuée par l’omniprésence de grosses structures de e-commerce concurrentes comme Amazon, Alapage ou la Fnac, lesquelles raflent la plupart des commandes en ligne. Comment font-elles pour se retrouver dans les premières positions lors des requêtes* ciblées sur les livres ? Quelles sont leurs stratégies de référencement et de positionnement : se fondent-elles sur une logique documentaire ou sur une démarche marketing agressive ?

Ballottés entre deux objectifs, celui de faciliter l’accès à l’information tout en honorant des impératifs commerciaux, les sites web des cyberlibrairies et maisons d’édition apparaissent comme des sujets d’étude particulièrement adaptés à la problématique qui nous occupe.

Nous avons concentré notre analyse sur deux thèmes très précis :
1. le référencement sur les moteurs de recherche (visibilité, positionnement, optimisation*)
2. la stratégie marketing adoptée (liens sponsorisés* et contextuels*, techniques de promotion).

La méthode retenue pour appréhender la nature du référencement de ces différentes entités s’appuie sur l’utilisation d’utilitaires disponibles sur le web et l’analyse des codes sources HTML* des pages, le questionnaire envoyé pour l’occasion et censé éclairer les techniques de référencement et la stratégie marketing des sites étudiés étant resté lettre morte.

Glossaire :

Achat de mots-clés : offre commerciale proposée par les outils de recherche aux annonceurs. L’achat de mots-clés, généralement via un système d’enchères, leur permet de se positionner sur les premières pages de résultats à la suite d’une requête.

Adresse IP : équivalent numérique du nom de domaine.

AdWords : c’est le nom donné au programme de positionnement payant de Google. Il est basé sur l’achat de mots-clés aux enchères.

Agent : voir robot.

Algorithme : suite d’opérations composant un programme en vue d’exécuter une tâche spécifique dans un nombre défini d’étapes.

Algorithme de pertinence : routine de programme qu’utilisent les outils recherche pour déterminer la pertinence d’un site ou d’une page Web en fonction de la requête saisie par un internaute. Chaque outil de recherche se rapporte à un algorithme différent.

Annonceur : société ou organisme qui lance une opération de communication dans l’objectif de promouvoir ses produits/services et/ou sa marque.

Annuaire (directory) : outil de recherche reposant sur une base de données de fiches descriptives (URL et description) de sites web. Ces-derniers sont classés dans des rubriques (ou catégories) selon une organisation hiérarchique.

Araignée (spider) : voir robot.

Balise (tag) : marque spécifique introduite en début et fin de commande HTML, identifiée par les signes inférieur () signalant au programme qui interprétera le code qu’une commande spécifique doit être exécutée.

Balise meta (meta tag) : balise HTML permettant d’intégrer des données uniquement destinées aux robots des moteurs de recherche dans des pages Web. Les principales balises méta sont les balises « title », « description » et « keywords ».

Balise meta Description : balise meta donnant une description d’une page Web. La description apparaît souvent dans les résultats des moteurs de recherche en tant que résumé.

Balise meta Keywords : balise meta définissant les mots-clés sur lesquels réagiront les moteurs de recherche en réponse à une requête.

Balise Title: balise meta définissant le titre d’une page Web. Il s’agit du texte qui s’affiche dans le navigateur.

Bannière : lien visuel publicitaire apparaissant sur une page web.

Bruit : ensemble de réponses non pertinentes par rapport à la demande.

Cadre / jeu de cadres (frame et frameset) : système qui permet d’afficher plusieurs pages web indépendantes dans une même fenêtre du navigateur. Un jeu de cadres ou frameset regroupe plusieurs zones de page.

Cloaking : technique consistant à générer un contenu HTML différent selon qu’il s’agit d’un visiteur ou d’un moteur de recherche. Considérée comme du spamdexing, elle est interdite par les moteurs de recherche.

Clustering : fonctionnalité d’un moteur de recherche qui consiste à limiter le nombre de pages issues d’un même.

Cookie : au cours d’une connexion, élément inscrit par un serveur dans un fichier d’ordinateur. Il se configure en fonction de l’utilisateur connecté.

Coût d’acquisition : coût auquel revient l’acquisition d’un client.

Coût par clic : type de tarification qui permet à un annonceur de financer un support en fonction du nombre de clics générés par l’action de communication impliquée.

Coût pour mille impressions : montant facturé à un annonceur pour 1000 affichages d’un message publicitaire sur un support.

Crawler : mot anglais pour chenille. Voir robot.

Descripteur : terme ou expression tirés d’un langage contrôlé pour représenter sans ambiguïté, pendant l’indexation, un concept contenu dans un document ou une recherche documentaire. Il est à différencier du mot-clé, extrait du langage libre.

Dublin Core : ensemble normalisé de métadonnées employées pour décrire les ressources informationnelles sur Internet.

Fichier inverse : type d’index dans lequel l’accès se fait sur les caractéristiques de description.

Forum : service sur Internet permettant l’échange et la discussion entre internautes sur un thème particulier.

Frame / frameset : voir cadre/jeu de cadres.

Google Dance : cette expression désigne la période du mois durant laquelle Google met à jour les valeurs de PageRank© des pages indexées dans sa base.

Head : zone d’en-tête d’une page web contenant des informations sur cette dernière (balises meta et « title »).

HTML (Hypertext Markup Language) : langage de description employé pour la rédaction des pages Web et commun à toutes les plates-formes (c’est-à-dire tous les types d’ordinateurs quel qu’en soit le système d’exploitation). Les pages HTML sont composées de balises permettant de distinguer la zone d’en-tête du corps de la page.

Hit : un hit correspond à un seul échange HTTP, c’est-à-dire à un fichier transféré du serveur au navigateur. Il peut s’agir d’une page HTML, d’une image, d’un fichier à télécharger ou d’un message d’erreur.

HTTP (Hypertext Transfer Protocol) : le but du protocole HTTP est de permettre un transfert de fichiers localisés grâce à une chaîne de caractère appelée URL entre un navigateur et un serveur web.

Index (index) : d’un point de vue informatique, l’index est une base de données répertoriant toutes les pages web d’un outil de recherche et dans laquelle il puise en fonction des requêtes des internautes pour répondre au mieux à leurs questions.

D’un point de vue documentaire, il définit une liste structurée de termes, le plus souvent alphabétique, comprenant des noms propres, des lieux et des sujets traités dans un document. Les termes sont accompagnés d’une référence permettant de les localiser.

Dans les deux cas, sa finalité est de faciliter la recherche d’information.

Indexation : selon la définition de l’AFNOR [AFNOR, 2000, p. 402, (08)], « processus destiné à représenter par les éléments d’un langage documentaire ou naturel des données résultant de l’analyse du contenu d’un document ou d’une question. On désigne également ainsi le résultat de cette opération. ».

Ce terme définit également l’action du robot d’un moteur de recherche qui consiste à lire des documents sur le web et à les analyser (syntaxe, liens, etc.) pour les ajouter à sa base de données (son “index”).

Indexation automatique (automatic indexing) : indexation accomplie par des moyens informatiques.

Indice de densité d’un mot-clé : il équivaut au nombre de fois où un mot-clé apparaît dans un texte, divisé par le nombre de mots total du texte. On parle aussi d’occurrence.

Indice de popularité : indice proportionnel au nombre de liens pointant vers une page ou un site web : plus il y en a, plus le site est réputé « populaire » et par conséquent pertinent par les moteurs de recherche.

Langage documentaire : ensemble structuré de termes normalisés employé pour refléter le contenu des documents. Un langage documentaire est dit « contrôlé » lorsque ces termes doivent obligatoirement être utilisés à l’exclusion des autres lors de l’indexation ou de la recherche.

On distingue deux catégories de langages documentaires : les langages à structure hiérarchique, (classifications) et les langages analytiques ou à structure combinatoire (thésaurus).

Lien : passerelle entre deux éléments multimédias. Selon les conventions Internet, un lien est bleu et souligné.

Lien contextuel : lien publicitaire et ciblé en fonction de la thématique d’une page de contenu d’un site web.

Lien sponsorisé : lien publicitaire textuel profitant d’un emplacement privilégié (avant les résultats naturels) sur les outils de recherche suite à une requête. L’achat des mots-clés s’effectue généralement selon un système d’enchères et est basé sur un mode de facturation au coût par clic ou au coût par mille.

Fichier log (log file) : fichier journal enregistrant les évènements se produisant dans un système.

Métadonnées (metadata) : ce sont des données sur les données. Elles fournissent des informations sur des ressources électroniques. Elles permettent de gérer les ressources décrites (suivi du cycle de vie : création, modification, archivage), d’en faciliter l’accès, de suivre l’utilisation et le respect des droits et des conditions qui y sont associées. On distingue actuellement plusieurs standards de métadonnées dont le RDF (Resource Description Framwork), le TEI (Text Encoding Initiative), les syntaxes « meta » HTML et Dublin Core, le DTD EAD (Encoding Archival Description), etc.

Méta-moteur : logiciel ou site web qui interroge simultanément plusieurs outils de recherche et en synthétise les résultats.

Mot-clé (Keyword) : d’un point de vue documentaire, terme servant à caractériser le contenu sémantique d’un document, pour en permettre la localisation et l’accès. Il ne doit pas être confoncu avec un descripteur, qui est un terme normalisé dans un thésaurus.

D’un point de vue informatique, un mot-clé est un terme saisi par l’internaute pour préciser sa requête sur un outil de recherche.

Moteur de recherche (search engine) : outil de recherche de documents sur le Web. Il recense de façon automatique des pages Web via des robots. Un module d’indexation construit automatiquement l’index des termes à partir des résultats tirés de l’étape précédente ; l’interrogation suppose un module de recherche spécifique sur les index ainsi créés.

Navigateur (browser) : logiciel employé pour naviguer sur les réseaux informatiques, notamment l’Internet et le Web.

Nom de domaine : traduction d’une adresse IP (composée de différents chiffres) en chaîne de caractères facilitant la mémorisation et l’identification.

Norme : ensemble de règles de conformité édictées par un organisme de normalisation institutionnelle, comme l’AFNOR (Association Française de Normalisation) au niveau français.

Opérateur booléen : opérateur logique (ET/OU/SAUF, opérateurs de proximité ou adjacence, opérateurs numériques) permettant de lier entre eux des mots-clés selon une logique mathématique.

Optimisation : moyen consistant à adapter les pages d’un site web aux critères d’indexation des moteurs de recherche dans le but d’améliorer son référencement naturel.

Outil de recherche (retrieval tool) : instrument de recherche utilisé sur Internet. Il existe trois grandes familles d’outils de recherche : les annuaires, les moteurs de recherche et les métamoteurs.

Page alias : page générée pour optimiser le référencement d’un site web sur un ou plusieurs mots-clés et/ou un moteur donné. La création de pages alias ou fantômes est mal perçue par les moteurs de recherche.

Page dynamique : une page dynamique affiche des données différentes en fonction du contexte, en puisant dans une base de données. On la reconnaît à son URL comprenant des variables (index.php?x=1&y=2), bien que la technique de l’URL rewriting permette d’y supléer.

PageRank© : indice de popularité d’une page web créé par Google. Le PR est calculé selon un algorithme très recherché : il juge la pertinence d’une page en fonction du nombre et de la qualité des liens pointant vers elle.

Page satellite : page de pré-entrée sur un site, optimisée spécifiquement pour un moteur de recherche.

Page vue : page web totalement téléchargée sur le poste de l’internaute.

Positionnement (positionning) : moyen de placer un site ou une page web dans les premières positions des résultats d’une requête sur les moteurs de recherche.

Push : technique d’envoi d’information en fonction de critères déterminés par l’internaute.

Référencement (referencing) : ensemble d’opérations (insertion de métadonnées, enregistrement dans les outils de recherche, veille) visant à favoriser l’accessibilité d’un site web et à améliorer sa visibilité dans les résultats des outils de recherche pour une liste de mots-clés donnée.

Référencement automatique ou naturel : méthode d’indexation d’un site web ayant recours à l’utilisation de logiciels, lesquels permettent un référencement rapide et automatique d’un site dans la base de données de plusieurs moteurs de recherche. Cette méthode traite l’aspect quantitatif du référencement.

Requête ou recherche : mot ou expression saisis par un internaute sur un outil de recherche pour trouver une réponse à sa question sur des pages Internet.

RSS (Really Simple Syndication ou Rich Site Summary) : moyen d’extraire d’un site web un contenu régulièrement mis à jour. Un fichier RSS est un simple fichier texte au format XML comportant la description synthétique du contenu. Il y a deux raisons d’utiliser RSS : pour récupérer les nouvelles d’un site d’information proposant un flux RSS ou bien afficher de manière dynamique un résumé des dernières news de ce fil sur un autre site.

Retour sur investissement : rapport entre le coût d’acquisition des clients (budget aloué à une campagne) et le chiffre d’affaires réalisé grâce à cette action.

Robot de recherche (search engine) : module de collecte automatique utilisé par les moteurs de recherche pour rassembler des données.

Search marketing : terme anglais qui signifie « marketing des outils de recherche ». Il regroupe les techniques classiques d’optimisation et de capitalisation de trafic généré par les outils de recherche (moteurs et annuaires) dont le référencement naturel ou payant.

Silence : définit, dans les résultats d’une recherche, l’absence d’informations et de documents malgré leur pertinence.

Spamdexing : ensemble des techniques et méthodes abusives de référencement (soumissions multiples, répétitions de mots-clés, pages satellites, duplication de pages, cloaking, etc.) consistant à tromper les outils de recherche dans le but d’optimiser le positionnement d’un site parmi les résultats de recherche.

Soumission : fait de proposer, via un formulaire, l’inscription d’un site web à un annuaire de recherche. Avant d’être enregistré dans l’index, le site doit être validé par un netsurfeur.

Soumission payante : inscription d’un site web dans un annuaire de recherche via un formulaire d’inscription payant contre la garantie du délai de traitement.

Spider : araignée en français. Voir agent ou araignée.

Standard : ensemble de préconisations développées par un groupe représentatif d’utilisateurs.

Syndication : technique permettant d’afficher automatiquement dans un site des données issues d’autres sites. Son intérêt est de suivre des pages et sites qui évoluent régulièrement.

Tag : voir balise.

Taux de transformation (taux de vente ou d’inscription) : pourcentage d’internautes ayant effectué un achat ou une inscription sur un site web, par rapport au nombre total de visites sur le site. Un taux de transformation de 5 % signifie que sur cent visiteurs, cinq ont finalement réalisé un achat.

Texte intégral (full text) : technique d’indexation informatique dans laquelle tous les mots d’un texte, à l’exception éventuelle des mots vides, font l’objet d’une entrée dans le fichier index.

Toile : mot français désignant le World Wide Web ou W3.

Trafic : il équivaut au nombre total de visites reçues par un site Internet sur une période déterminée.

Trafic qualifié : se dit des visiteurs intéressés par l’activité et les ventes d’un annonceur.

URL (Uniform Resource Locator ) : adresse d’une ressource électronique sur un ordinateur local ou sur le Web.

URL exotique : une URL est dite exotique lorsqu’elle contient dans son intitulé des caractères spécifiques comme le point d’interrogation (?) ou l’esperluette (&) et une à plusieurs variables. Elle est typique des pages dynamiques.

Webmaster : voir webmestre.

Webmestre (webmaster) : responsable technique d’un site web.

W3C (World Wide Web Consortium) : créé en octobre 1994 par Tim Berners Lee, l’inventeur du Web, ce consortium constitué de centaine de membres (grandes sociétés de l’informatique et des télécoms, éditeurs, instituts de recherche) a pour mission de guider les évolutions technologiques du réseau mondial grâce à l’élaboration de spécifications techniques et de réfléchir à ses développements futurs.

XML (eXtensible Markup Language) : langage de balisage extensible défini par le W3C pour la création de formats de documents courants. Les données XML séparent nettement le contenu, le style et la structure des documents ce qui facilite la présentation des données dans différents formats et applications. XML est un métalangage, c’est-à-dire un ensemble de règles permettant de définir d’autres langages balisés spécialisés. XHTML ou RSS sont des langages basés sur XML.

Table des matières :
Introduction
Chapitre 1 – Les moteurs de recherche
1. Qu’est-ce qu’un moteur de recherche ?
1.1. Présentation des outils de recherche
1.2. Principe de fonctionnement d’un moteur de recherche
1.3. Systèmes d’indexation
1.4. Méthodes de tri des résultats et ranking
1.5. Limites des moteurs de recherche
2. La recherche avec un moteur
Chapitre 2 – Le référencement : une technique documentaire ou marketing ?
1. Intérêts et enjeux du référencement
1.1. Définition
1.2. De l’importance d’être référencé sur les moteurs de recherche
1.3. Du référencement au positionnement
1.4. Différence entre indexation et référencement
2. Optimiser une page Web pour le référencement
3. Un référencement différencié en fonction des outils de recherche et des objectifs
3.1. Référencement auprès des annuaires
3.2. Référencement classique auprès des moteurs de recherche
3.3. Quand le référencement est devenu de la publicité…
3.4. Le référencement des pages dynamiques
3.5. Référencement manuel ou référencement automatique ?
4. Dérives du référencement
4.1. La vague du payant
4.2. Le spamdexing
4.3. Le positionnement : une perversion de l’indexation ?
5. Les sociétés spécialisées dans le référencement
Chapitre 3 – Le référencement : une étape dans le plan marketing d’un site web
1. Le site web : un produit
2. Les préalables au référencement
2.1. Analyse de l’environnement
2.2. Choix de mots-clés pertinents en fonction de la cible
3. Analyses et mesures d’audience
3.1. Mesures côté client (user-centric)
3.2. Mesures côté serveur (site-centric)
3.3. Estimation du trafic
3.4. Identification du profil des internautes
3.5. Analyse du comportement des internautes
3.6. Performance et notoriété d’un site web
4. Suivi du référencement et de l’indexation
4.1. Détermination a posteriori des mots-clés
4.2. Suivi du positionnement
4.3. Rapports de positionnement
5. Le référencement : une méthode parmi d’autres dans le processus de promotion d’un site web
5.1. Campagnes on-line
5.2. Campagnes off-line
Chapitre 4 – Etude comparative : sites web de cyberlibrairies et maisons d’édition
1. Recueil des informations
2. Présentation des sociétés et sites étudiés
3. Optimisation des pages
4. Visibilité et positionnement des sites sur les outils de recherche
4.1. Visibilité des pages
4.2. Nombre de pages indexées
4.3. PageRank© de Google
4.4. Indice de popularité
5. Le plan marketing des sites étudiés
5.1. Liens sponsorisés
5.2. Affiliation
5.3. Des sites supports de publicité
5.4. Fils RSS
Conclusion

  1. Qu’est-ce qu’un moteur de recherche ?
  2. Systèmes d’indexation des pages par les moteurs de recherche
  3. Méthodes de tri des résultats et ranking – Moteur de recherche
  4. La recherche avec un moteur et Limites des moteurs de recherche
  5. Intérêts et enjeux du référencement sur les moteurs de recherche
  6. Optimiser une page Web pour le référencement
  7. Référencement auprès des annuaires et moteurs de recherche
  8. Quand le référencement est devenu de la publicité…
  9. Dérives du référencement d’un site Internet
  10. Le référencement : une étape dans le plan marketing d’un site web
  11. Analyses et mesures d’audience, la rentabilité d’un site web
  12. Suivi du référencement et de l’indexation et Promotion d’un site web
  13. Comparaison : sites web de cyberlibrairies et maisons d’édition
  14. Visibilité et positionnement des sites sur les outils de recherche
  15. Plan marketing des web de cyberlibrairies et maisons d’édition