Gestion de site web, l’intégration des documents au système d’information

By 24 July 2013

1.4. Gestion de site web

Cette partie sur la gestion de site web va illustrer les fonctionnalités vues auparavant sous un autre angle pour finir en mettant l’accent sur les aspects de publications.

Le « Web » est un réseau informatique très populaire et aujourd’hui le plus grand du monde. Il permet théoriquement à toute personne ou organisation désireuse de le faire, de mettre à disposition du plus grand nombre une ressource informatique et de les interconnecter. Le plus souvent, cette ressource est une page web de type html (Hyper Text Markup Language) visible à partir d’un navigateur Internet (browser). Avec ce qui a été dit précédemment, chacun s’aperçoit qu’énormément d’informations de tout type peuvent être mises à disposition du public et que la communication s’enrichit.

Or certaines organisations ont un volume d’information très important à mettre à disposition de leurs différents publics avec une fréquence de mise à jour dans certains cas très forte, une contrainte souvent élevée de validité de l’information nécessitant un contrôle adapté et parfois une ergonomie, incluant le graphisme, sophistiquée. De même, ces organisations ont vu le nombre de leur site web atteindre des chiffres importants (plusieurs centaines dans les cas extrêmes), notamment pour les entreprises transnationales devant gérer des sites dans plusieurs langues différentes. Ces sites web ont vocation dans certains cas d’intranet, c’est à dire qu’ils ne s’adressent qu’à un public appartenant à l’organisation éditrice.

L’organisation, pour faire face à ces trois contraintes (mises à jour fréquente, contrôle éditorial et haute qualité de la présentation), a nécessité la mise au point de systèmes de gestion de site web. Ces systèmes reposent sur le principe de la séparation du contenu et de la présentation (la mise en forme). A cette fin, le W3C (World Wide Web Consortium) a promu le langage XML5 (Extended Markup Language) qui impose la séparation du contenu et de la mise en forme.

La mise à jour du contenu n’affecte pas la mise en forme et inversement le changement de charte graphique se fait indépendamment du contenu. Le responsable éditorial n’est plus dépendant des équipes informatiques (webmaster entre autres) et inversement le changement de graphisme n’affecte pas le contenu. Les acteurs de la gestion de site web sont donc d’un côté les responsables éditoriaux, au profil fonctionnel et de l’autre les graphistes qui créent et maintiennent le code informatique de mise en forme des « pages web ». Ce code appelé parfois code de transformation s’illustre avec le langage XSL (Extensible StyleSheet Language) qui comprend la sélection du contenu, les données de mise en forme, ajoute éventuellement de l’interactivité aux documents et fabrique le fichier nécessaire à la diffusion sur le terminal désiré. Les graphistes dans ce contexte doivent donc ajouter des compétences de développeur à leurs compétences initiales, à moins d’envisager une séparation des tâches. Ils interviennent plutôt à la création et lors de la maintenance évolutive du site web. Ce code informatique est un autre type de contenu, et qui comme tel, peut être géré comme un document (archivage, versioning, description) et éventuellement réutilisé.

Concrètement, l’édition du contenu nécessite de structurer le document, de la même manière que les documents composites. C’est à dire, que le document est alors édité selon un modèle invariable défini préalablement lors du développement du site. Le modèle peut bien sûr évoluer mais nécessite un nouveau développement, ou bien encore un nouveau paramétrage de l’application de gestion de contenu. Sur la base de ce modèle, un formulaire, éventuellement interactif, permet de saisir un nouveau document ou bien de mettre à jour un document existant. Par exemple, l’article (de magazine) est un formulaire constitué des champs suivants : titre, sous-titre, introduction, chapeaux et paragraphes. Ensuite, la mise en forme est appliquée automatiquement lors de la publication en fin de processus d’édition lors de la validation. La mise en forme s’applique de manière particulière à chaque élément de l’article. Le titre est par exemple mis en majuscules et en gras, les chapeaux en italique et en couleur bleue… Ainsi tous les articles d’une même rubrique auront tous la même mise en forme et seront présentés de manière homogène conformément à la charte graphique élaborée par l’organisation. De plus, une page spécifique pourra permettre de dresser une liste de tous les articles reprenant uniquement les titres par exemple et l’introduction rapide. Si un article est supprimé ou modifié, la liste est mise à jour automatiquement.

La séparation du contenu et de la présentation est d’autant plus importante qu’elle permet in fine la distribution et la mise à jour de l’information via de multiples canaux de diffusions de manière « immédiate ». La diffusion multi-canal est une fonctionnalité spécifique qui s’est développée avec les systèmes de gestion de site web. Ainsi un même contenu est distribué de manière dynamique sur plusieurs support de distribution ou terminaux : télévision interactive, PDA – Portable Digital Assistant, Terminal WAP, Minitel, Site web, CD-ROM.

Le staging est une fonctionnalité souvent indispensable dès que le site web est mis à jour avec du contenu provenant d’une tierce partie (le catalogue d’un fournisseur sur un site de commerce électronique par exemple) et que l’on veut voir le rendu final tel que l’utilisateur final le verra. Si l’on sépare la mise en forme du contenu, on ne pourra effectivement voir le résultat final que lors de la distribution de l’information. Or la mise en forme bien évidemment joue sur le rendu. Le staging est donc utile lorsque l’on veut vérifier le contenu final avant la publication sur le site de « production ». Le staging rend les mêmes services qu’une plate-forme d’intégration dans des projets logiciels classiques.

Certains voudraient voir les systèmes de gestion de site web régler la problématique des sites web multilingues où le contenu serait indépendant de la langue. C’est possible jusqu’à un certain point, notamment si dans les processus de mise à jour de la publication, la traduction automatique du contenu est incluse dans le flux de travail et que tout de suite après dans le processus intervient un validateur humain pour la traduction.

On s’aperçoit dans ce cas que l’édition du contenu d’un site web fait appel à de multiples intervenants et que de ce point de vue, elle nécessite les mêmes outils que pour la GED : workflows, édition distribuée, gestion des droits. Une application de gestion de site web digne de ce nom doit pouvoir proposer cette dernière fonctionnalité aussi sur le site de publication finale en fonction des utilisateurs. De plus, on l’a vu précédemment, une page web (html) peut être assimilée à un document composite. A ce titre, la gestion de site web reprend de nombreuses fonctionnalités des systèmes de gestion électronique de documents. Mais dans la problématique de la gestion de site web la publication (la diffusion) prend une part plus importante que dans la gestion électronique de documents où classiquement la mise en forme et le contenu sont mêlés dans le document et où finalement on se contente de restituer le document initial sans traitement intermédiaire.

1.5. Portail informatif

Le domaine du portail informatif regroupe les mêmes fonctionnalités que celui de la gestion de site web, mais il comprend quelques fonctionnalités importantes supplémentaires : la recherche et la récupération de documents, la personnalisation et la fédération (syndication) des contenus.

Le portail, comme veut le signifier son nom, peut être vu comme une application de démarrage d’une session de travail sur Internet, un point central vers lequel l’utilisateur revient après avoir terminé une tâche. Avec l’évolution des architectures informatiques vers Internet, particulièrement avec les intranets professionnels, le portail tend à être l’application de démarrage d’une session sur un poste de travail informatique.

A ce titre, quatre grandes finalités du portail déterminent quatre types de portail [18]. Le portail décisionnel regroupe les informations nécessaires à la prise de décision dans le cadre de son travail. Ces informations sont des indicateurs sur l’activité du métier et des centres d’intérêt de l’utilisateur. Le portail décisionnel est en lien avec les applications de data warehousing, data mining et des applications d’intelligence économique (BI- Business Intelligence). Le deuxième type de portail est le portail de publication ou institutionnel. Il est en lien direct avec les applications de gestion de contenu. Une autre partie du portail ouvre un accès aux applications professionnelles de l’organisation (administration, production) : c’est le portail opérationnel. Enfin, le dernier type de portail réunit les applications de groupware , appelées alternativement applications de travail collaboratif (courrier électronique, forum de discussion, conférence électronique). Finalement, un portail généraliste est un portail comprenant les quatre types de base du portail : le décisionnel, le collaboratif, l’opérationnel et la publication.

Les portails d’entreprises ont donc plusieurs vocations, plus ou moins affirmées dans la réalité. Ce sont des intranets et ils gèrent l’information interne à l’entreprise. Ils deviennent des extranets lorsqu’il s’agit d’intégrer des services et des informations à l’attention des fournisseurs et des clients de l’entreprise et un accès aux ressources internes de l’organisation pour un collaborateur à l’extérieur. Théoriquement, ils permettent à « l’entreprise étendue » de fonctionner : n’importe qui, n’importe quand, depuis n’importe où, n’importe comment doit pouvoir accéder aux ressources de l’entreprise en fonction de ses données d’utilisateur [19] [20].

Le portail est donc est un « lieu » de convergence où toutes les applications et toutes les informations sont accessibles. La fédération des contenus est la clé des portails. Un utilisateur doit pouvoir théoriquement accéder à l’information désirée que celle-ci se trouve dans une base de données, une base de courrier, une base de document (un système de gestion de fichier par exemple), un serveur web (interne ou externe). Le moteur de recherche est par conséquent une fonction centrale du portail. L’utilisateur doit théoriquement pouvoir formuler sa requête une seule fois et le moteur de recherche se charge de traduire cette requête, de la transmettre à toutes les sources de données connectées, de récupérer les réponses et de les agréger. Il s’agit d’une recherche dite fédérée. Le terme de « webcrawling » est parfois utilisé pour parler de l’interrogation de plusieurs sources de données sur le web.

Un autre type de fédération est la syndication. Des documents publiés sur un autre site sont alors accessibles depuis le site portail qui les syndique. En général, ce sont les brèves d’une rubrique d’un site web qui sont ainsi publiées sur un autre site sous une rubrique similaire. La norme concernant ces aspects, outre l’utilisation des portlets dans les serveurs d’applications, semble être RSS – RDF Site Summary.

Enfin, toutes les ressources informatiques étant théoriquement accessibles, celles ci ne le sont, et sont conséquemment révélées, que si les droits de l’utilisateur le lui permettent. C’est une première forme de personnalisation. Cependant, la personnalisation concerne d’autres aspects : adaptation du contenu et de la mise en forme à l’utilisateur, enregistrement des préférences de l’utilisateur sur la présentation et le classement logique des « applications », la gestion des abonnements aux diverses alertes proposées [21] [22].

Le portail est ainsi une application centrale qui prend en charge les fonctionnalités de fédération, la recherche puis la récupération et enfin la personnalisation des contenus.

1.6. Intégration au système d’information

Aujourd’hui, les documents sont généralement gérés séparément des données qu’ils concernent. Dans le cycle d’une activité, diverses applications d’un système d’information sont utilisées. De la même manière, ce sont divers services d’une organisation qui sont mis en jeu. Or la « dématérialisation » des documents, c’est à dire, leur transfert sur des supports informatiques, offre la possibilité d’intégrer les applications et les documents.

Un exemple est le dossier de sinistre d’une compagnie d’assurance. Il est constitué des données de l’application de gestion des sinistres. Mais il comprend aussi par exemple le rapport d’expert avec peut-être des photos à l’appui, un constat amiable rédigé sur un formulaire. Par ailleurs, le client de la compagnie d’assurance a passé un contrat avec celle-ci. Peut-être faudra-t-il le produire en cas de contentieux ? Des courriers ont été échangés à l’occasion du traitement de ce sinistre : peut-on récupérer la lettre d’explication accompagnant la déclaration du client, mais qui mentionne aussi sa demande d’information sur un autre produit d’assurance ? Le garage chargé de la réparation a envoyé une facture qui ne correspond pas du tout au devis : peut-on les comparer facilement ? Peut-on récupérer aisément toutes les pièces concernant le garage lors du renouvellement de son agrément par la compagnie d’assurance ? L’application de production de la société d’assurance fait ainsi appel à des données mais aussi à des documents qui leurs sont liés.

Il est dans certains cas intéressant de pouvoir relier ces données et ces documents, mais aussi de relier les documents entre eux, c’est à dire les associer.

L’exemple le plus caractéristique de la réutilisation de composants documentaires dans un autre type de document est le catalogue de produits. Celui ci doit synthétiser l’information sur les produits afin de les présenter aux éventuels consommateurs. Une mise à jour du produit affecte donc le catalogue. Lorsque le catalogue est un catalogue en ligne, désormais indépendant des dates de parution, il doit répercuter les changements dans le même temps.

Un autre exemple caractéristique est celui des projets informatiques où sont reliés des cahiers des charges, la conception, le code informatique et les tests, les contrats et les documents de réception. Le référentiel des organisations concernées doit permettre d’établir un lien entre ces documents. On rejoint là ce que l’on a pu aborder dans le chapitre 1.2. sur les documents composites. De manière générale, la chaîne de production (de la commande à la livraison et facturation en passant bien entendu par la production) génère un certain nombre de documents (bon de commande, contrat, cahier des charges, spécifications, livrables, facture, paiement). Idéalement, on doit pouvoir envisager une traçabilité permettant de lier l’ensemble des documents d’un même projet afin de faciliter l’analyse de l’activité de l’entreprise, de capitaliser l’information et d’améliorer sa reproductibilité. On aborde là des notions relatives à la gestion de la connaissance (knowledge management) [23].

De plus, les documents partagent dans certains cas des sous-éléments communs : plan, image, résultats… Il y a une cohérence entre ces documents. Le plus souvent, le document suivant dans un cycle d’activité (ou encore un processus d’affaire) reprend un résumé du document précédent, à savoir une méta donnée caractéristique de la gestion documentaire.

Un dernier point sur l’intégration des documents au système d’information est leur exploitation à des fins d’analyse technique et / ou économique. Ce sont à ce niveau surtout les services d’études et de développement des organisations, parfois leur service marketing ou qualité, qui sont intéressés. Combien de photos accompagnent les rapports des experts d’assurance ? Quels sont donc les experts qui n’étayent pas leur rapport avec des preuves ? Les photos du précédent sinistre peuvent- elles être facilement reliées à celle d’une récidive ? Comment sont testées les intégrations de projet concernant les applications de commerce en ligne développées par l’entreprise ? Ne peut-on bâtir une méthodologie standard à partir des expériences passées ? Un commercial va rencontrer un nouveau client potentiel d’une entreprise du même secteur d’activité qu’une référence existante de l’entreprise : il faut qu’il récupère facilement les différents livrables existants pour pouvoir s’en inspirer, voir les présenter. Peut-il facilement créer un dossier de démonstration ? Combien d’articles a rédigé un auteur cette année ? En a-t-il rédigé plus que les années précédentes ?

L’automatisation du traitement de l’ensemble des informations est toujours envisageable, mais à quel coût et avec quelle rentabilité, à partir de quel volume d’activité pour l’entreprise ? Ce sont là des questions dont les réponses nécessitent une étude approfondie mais nécessaire pour une organisation qui désire s’améliorer [24] [25]. Il s’agit donc de retenir les critères d’intégrations les plus pertinents, à savoir les liens à maintenir entre la production et les autres activités de l’entreprise (commercialisation, gestion, administration, qualité, études). Concernant l’intégration des documents entre eux, le modèle conceptuel de document, qui vise à structurer un type de document et que nous aborderons plus loin dans ce rapport, doit mettre en valeur quelles sont et comment sont partagées les parties entre les différents types de document. On aborde ici une vision novatrice qu’offre la gestion de contenu. Celle-ci a peu été mise en œuvre, et partiellement. Il faut donc envisager une mise en œuvre prudente de ces concepts. En effet, la gestion électronique de documents n’a que trente ans environ, la gestion de site web dix ans [26] [27]. XML, qui est un langage qui permet de bien formaliser la démarche de la gestion de contenu et qui, a travers les architectures informatiques ouvertes qu’il propose, est encore plus récent. Cependant, pour pouvoir être opérée, cette intégration nécessite la mise en œuvre préalable de l’intégralité des concepts de gestion de contenu : à savoir structuration des documents, séparation des données et de la présentation, utilisation des méta données. De même, elle nécessite la mise en œuvre d’un système de collecte et de publication adapté. C’est ce qui fait l’objet de la gestion de contenu en général.

1.7. Conclusion : système de collecte / système de gestion de contenu / système de publication

Cet aperçu de différentes applications de gestion de contenu met en avant la grande diversité des sources de contenu et des publications, tant dans leur format que dans leur nature.

Le contenu peut provenir de documents au format papier numérisés ou de télécopies. Il peut s’agir de fichiers informatiques spécifiques de l’application d’édition (typiquement des fichiers Microsoft Office). Il peut provenir aussi de formulaires du web ou de base de données aussi bien que de pages html. Aujourd’hui, il peut provenir d’un fichier XML. Enfin, le contenu peut être du son, des images ou une combinaison des deux, c’est à dire une vidéo ou mieux, un document multimédia.

De l’autre côté, la publication peut être une impression, gravée sur un support numérique comme un CD-ROM, être un assemblage de documents, se faire sur un site web (et plus loin un site wap, une chaîne de télévision interactive), distribuée sous la forme d’un fichier pdf (Portable Document File). C’est le domaine particulier de l’éditique [28].

Traditionnellement, les données d’édition et de publication sont souvent mêlées. Il faut disposer du logiciel d’édition pour visualiser le document. Dans un système de gestion de contenu, elles sont séparées. Une publication n’est alors plus assimilée à un document. Elle devient seulement dépendante du terminal utilisé pour la visualiser. Toutefois, la publication garde une valeur car c’est elle qui contient le sens et exprime la finalité d’un document. On peut imaginer d’un côté des publications éphémères qui n’ont de sens que dans le contexte particulier où elles ont été générées et de l’autre côté des publications officielles qui doivent absolument pouvoir être reproduites. On met là en évidence une limite conceptuelle de la gestion de contenu : la frontière entre document et publication n’est pas formellement établie et laisse place à des interprétations, et donc, des implémentations divergentes.

L’objectif d’un système de gestion de contenu est de fédérer ces sources et ces publications et plus loin, de fédérer ces systèmes de « collecte » de contenu et de publication. Ces sources, lorsqu’elles sont externes (celles d’un fournisseur par exemple, une facture typiquement), peuvent être intégrées automatiquement si un format d’échange a été mis au point. Ceci afin d’unifier l’accès aux informations et leur traitement, les valoriser et éviter les redondances et les incohérences. Un système de gestion de contenu doit permettre d’intégrer des données et des documents et les documents entre eux. La valorisation vient aussi de la possibilité de réutiliser les composants documentaires et de les distribuer sur des canaux multiples en maintenant une source pivot et unique.

Le système de gestion de contenu (CMS – Content Management System), englobe donc les systèmes de collecte et de publication, mais est plus spécifiquement le référentiel central où idéalement est stocké l’ensemble du contenu dans un format unifié et où en tout cas l’unicité et la cohérence du contenu sont garanties, c’est à dire où sont stockées les méta données (information sur l’information). Le système de gestion de contenu contient donc les méta données mais aussi les fichiers de configuration des utilisateurs, de leurs droits et leurs éventuelles données de personnalisation, des modèles de documents, des processus d’édition (paramétrage des workflows) [29] [30]. Cette approche que nous avons retenue a été mise en avant et décrite par Bob Boïko, auteur de l’ouvrage « The content management bible6 ». Par ailleurs, nous avons été aussi influencés dans notre approche par Ann Rockley, auteur de « Managing Enterprise Content: A Unified Content Strategy»7. Tous deux participent aux travaux du laboratoire d’évaluation des systèmes de gestion de contenu de l’université de Washington (Washington Information School)8.

L’architecture fonctionnelle de la première génération de CMS délègue le stockage des documents au système de collecte. Elle tient compte de l’adaptation à l’existant. La deuxième génération délègue véritablement le stockage des composants documentaires au CMS et doit être bâtie sur une architecture logicielle unique. Car dans la première génération, il faut concevoir des systèmes complexes et hétérogènes pour gérer autant de formats de stockage de données (systèmes de gestion de bases de données, bases de courriers électroniques, fichiers au format multiple (doc, pdf, ppt, xml, html, xls, txt pour les plus courant) sur des systèmes de gestion de fichiers éventuellement multiples, sites web, annuaires LDAP). L’adoption de la norme XML, avec l’utilisation de DTD (Document Type Definition) normalisée est un exemple de format d’échange unifié de documents dans les CMS de seconde génération.

La mise en œuvre d’un CMS nécessite de profonds changements dans l’organisation de l’entreprise, tant au niveau des métiers (principalement pour le rédacteur qui ne s’occupe plus de la mise en forme du document) que de l’organisation générale. La collecte s’effectue certes toujours sur la base des domaines fonctionnels mais la publication se voit déléguée vers des équipes spécifiques pour chaque support [31]. De plus, un effort supplémentaire doit être fait pour décrire les documents (éditer les méta données) afin de les inclure de la manière adéquate dans le système de gestion de contenu et maximiser leur utilisation finale. En retour, les processus d’édition et de publication sont ainsi fiabilisés. La mise en œuvre d’un CMS doit donc se faire sur la base de buts explicites et hiérarchisés.

6 CONTENT MANAGEMENT BIBLE / de Boiko Bib / Broché / 15 décembre 2001 / ISBN: 0-7645-4862-X
7 “Managing Enterprise Content: A Unified Content Strategy” by Ann Rockley with Pamela Kostur and Steve Manning (ISBN 0735713065) – 14 octobre 2002. Voir aussi le site du groupe de Rockley : http://www.rockley.com
8 The Rockley Bulletin / Newsletter / January 2003 / moreinfo@rockley.com

Les sections suivantes présentent l’ensemble des concepts et des fonctionnalités nécessaires à la mise en œuvre d’un système de gestion de contenu. Une fois définis, le CMS doit pouvoir être paramétré en conséquence pour ensuite être utilisé. Les normes et langages présentés sont une illustration des modèles conceptuels. De même, des exemples concrets sont donnés en annexe.

Lire le mémoire complet ==> (Les systèmes de gestion de contenu : description, classification et évaluation)
Mémoire présenté en vue d’obtenir le DIPLOME D’INGENIEUR C.N.A.M. en informatique
Conservatoire National Des Arts Et Métiers – Paris