La classification des systèmes de gestion de contenu

By 24 July 2013

B. EVALUATION D’UN SYSTEME DE GESTION DE CONTENU

Après avoir abordé les systèmes de gestion de contenu de manière théorique, cette deuxième partie du rapport va nous permettre dans un premier temps de connaître les domaines d’applications de la gestion de contenu, quels en sont les domaines transverses ou les sous-domaines qui y sont mis en œuvre et les fonctionnalités qui leur sont liées. Grâce à cela, nous proposons une grille de classification des logiciels de gestion de contenu par domaine en fonction de leurs fonctionnalités et nous en fournissons un exemple d’utilisation.

Sur la base de cette classification fonctionnelle, les systèmes de gestion de contenu peuvent être évalués de manière détaillée. Nous proposons là encore un exemple pratique d’évaluation détaillée, développé dans la section 2.

Les éléments de cette deuxième partie du rapport sont issus du travail mené lors de l’étude préalable au développement d’une offre de service en gestion de contenu pour une société de service, objet de notre stage de fin d’études d’Ingénieur Informatique. 14 logiciels ont été ainsi évalués fonctionnellement et classifiés. 3 d’entre eux ont été retenus pour une évaluation détaillée, basée sur la mise en œuvre d’un jeu d’essai, faisant l’objet d’un prototype. Sur la base de ce travail, nous pouvons ainsi dresser un état des lieux de la gestion de contenu et choisir un CMS adapté aux besoins des utilisateurs.

1. Classification des systèmes de gestion de contenu

L’objectif de cette classification est de déterminer quelles sont les fonctionnalités attachées à chaque domaine d’application de la gestion de contenu. De cette manière, il est ensuite possible de caractériser les applications logicielles en les classant comme opérant dans un ou plusieurs domaines à partir des fonctionnalités qu’ils proposent. Cette classification peut ensuite permettre de rapprocher rapidement les besoins des utilisateurs des applications y répondant en utilisant l’intermédiaire des domaines d’application. Une analyse détaillée point par point est ensuite nécessaire pour établir la correspondance définitive entre un outil logiciel éditeur, ses fonctionnalités et les besoins des utilisateurs. Les fonctionnalités de base sont, elles aussi, abordées dans ce chapitre.

Enfin, l’étude des fonctionnalités détaillées des logiciels de gestion de contenu permet aussi leur évaluation détaillée. C’est l’objet du chapitre 272 de cette deuxième partie de ce rapport. Notons aussi que l’étude des fonctionnalités en vue de la classification des applications de gestion de contenu permet aussi une comparaison des logiciels, et finalement de les choisir sur la base la plus rationnelle possible en vue de leur utilisation.

Cet exercice a aussi comme objectif de résoudre l’ambiguïté qui existe à propos de la gestion de contenu, domaine récent dans le cas de la gestion de site web, qui recouvre en fait plusieurs types d’application. Cette ambiguïté, tant au niveau du vocabulaire employé par les acteurs du domaine que des concepts manipulés73, est anhilée par la description des fonctionnalités et des domaines de la gestion de contenu. La grande diversité, en matière de systèmes de gestion de contenu, est liée actuellement à la grande diversité des formats de contenus gérés en informatique (cf. 1.7 page 16).

72 Lorsqu’une référence de la partie B peut paraître ambiguë, elle s’applique par défaut à une section de la même partie. Dans le cas contraire, elle est normalement précisée (référence de page ou de la partie du rapport).
73 Face à la popularité actuelle du concept de gestion de contenu, les éditeurs de logiciel tentent d’accroître leur clientèle par de simples effets d’annonce.

1.1. Domaines d’application
1.1.1. Introduction

Tout d’abord, les domaines d’application ont déjà été abordés de manière informelle dans le chapitre 1 de la partie A de ce rapport, intitulé «Cas d’utilisations ». Nous ne pourrons donc pas éviter un certain nombre de redondance. Il nous faut cependant tenter de définir la manière dont un domaine doit être abordé pour être caractérisé. Nous avons retenu un certain nombre de critères (nom, définition, domaines d’application secondaire, fonctionnalités transverses, méthodes et modèles associés, normes associées, logiciels typiques évalués ou aperçus, Informations cibles, clients typiques, projets phares, organisations phares – institutions) qui sont ceux qui ont été retenus lors de notre étude préliminaire (cf. section « CONTEXTE, OBJECTIFS ET APPROCHE » p 4). Ce sont ces éléments que nous allons maintenant aborder.

Les informations recueillies pour chaque critère sont partielles, ne peuvent prétendre à l’exhaustivité et sont données à titre d’exemples afin d’approcher la couverture de chaque domaine et leur donner une consistance. D’autres exemples pourraient donc certainement compléter notre approche. Les frontières de chaque domaine ne sont pas non plus nécessairement figées et donnent lieu à des interprétations divergentes en fonction du contexte dans lequel se place l’utilisateur.

Notamment les fonctionnalités transverses sont des fonctionnalités que l’on retrouve dans plusieurs domaines de la gestion de contenu mais aussi dans d’autres domaines informatiques. Nous les avons retenues comme s’appliquant principalement à un domaine selon qu’elles aient été initialement conçues dans le domaine, qu’elles y soient utilisées massivement voir selon qu’elles soient obligatoires pour pouvoir caractériser le domaine. Toutefois, ces fonctionnalités transverses apparaissent bien comme autonomes dans la section 1.1.3 relative aux sous-domaines. Cela est vrai aussi pour notre approche d’autres critères comme les méthodes et modèles associés.

Notre approche des domaines est d’abord fonctionnelle, notamment d’un point de vue informatique, mais elle est aussi sociologique et économique (institutions, projet phare, client typique, logiciels typiques). Afin de rendre l’information plus synthétique, nous présentons les informations du domaine sous forme de tableau.

Nous pourrions nommer les sous-domaines « modules ». Nous aurions alors une approche de l’architecture fonctionnelle des systèmes de gestion de contenu de type « domaine / module / fonctions » (DMF). Notre approche n’est cependant pas aussi rigoureuse. Les sous-domaines pourraient aussi être assimilés à des domaines et les fonctionnalités à des modules ; car en fait, derrière les fonctionnalités que nous présentons, certaines sont suffisamment générales pour comprendre concrètement tout un ensemble de fonctions. Notre approche est donc une approche fonctionnelle à quatre niveaux, avec un recoupement possible des niveaux (les domaines et sous- domaines) et une description formelle du dernier niveau (les fonctions) peu détaillée ou développée. Il s’agit donc d’une approche pragmatique dont l’objectif est d’être suffisamment synthétique pour pouvoir être appréhendée. Elle présente aussi l’avantage de rendre comparable des logiciels éditeurs de gestion de contenu qui affichent des fonctionnalités dans leur présentation en cachant toutefois les détails précis de mise en oeuvre.

Les fonctionnalités permettant de caractériser et classifier les systèmes de gestion de contenu présentées ci-dessous sont au nombre de 80 fonctionnalités environ.

La section 1.1, outre cette introduction, présente donc les domaines d’applications de la gestion de contenu, les diverses fonctionnalités de la gestion de contenu et enfin offre en guise de conclusion une proposition de grille de classification des logiciels de gestion de contenu par domaine d’application.

1.1.2. Domaines

Les domaines principaux de la gestion de contenu que nous avons abordés sont la GED, la gestion de contenu à proprement parler, la gestion de site web et les portails d’entreprises. Sont aussi présentés dans cette section la gestion des bibliothèques physiques ainsi que la gestion de la connaissance (knowledge management – KM) pour leur possibilité de valorisation et d’intégration potentielle aux autres systèmes de gestion de contenu. Cependant, ce ne sont pas là véritablement des systèmes de gestion de contenu électronique pris en compte par notre étude (cf. « INTRODUCTION » page 2) et nous ne présenterons pas leurs fonctionnalités spécifiques.

Notons aussi que les logiciels de commerce électronique, à travers leurs outils de gestion des catalogues de produits peuvent aussi être intégrables aux systèmes de gestion de contenu. De même, la gestion de configurations (logicielles) utilise de multiples fonctionnalités utilisées aussi en gestion de contenu (authoring, versioning, groupware, gestion des méta données et du référentiel – cf. section 3.2.2 partie A). Si l’on imagine par la suite de permettre la recherche et la récupération, et éventuellement de vendre74, les composants logiciels ou documentaires, on effectue ainsi une boucle vertueuse valorisant le Web. Mais il s’agit là d’une digression par rapport à notre travail.

1.1.2.1. Gestion électronique de la documentation (GED)

Domaine d’application principal

Gestion électronique de documentation (GED)

Domaine d’application secondaire

LAD : Lecture Automatique de Document ; COLD : Computer

Output on Laser Disc; O.C.R : Optical Character Recognition, archivage électronique, systemes de stockages électroniques, DAM : Digital Asset Management.

Fonctionnalités transverses

Groupware (travail collaboratif), authoring, versioning, gestion

de la propriété intellectuelle, modèle(s) de sécurités (droits d’accès).

Méthodes et modèles associés

Document Management Reference Model, DMA – Document

Management Alliance Specifications, Access Control Lists

(ACL), webDAV

Normes associées

NF Z 42-013 et ISO 15489-1

Logiciels typiques évalués ou

aperçus

IBM Content manager server v8 (Lotus Domino.doc), Microsoft

SPPS, FileNet (Panagon)

Informations cibles

Fichiers informatiques et méta données associées

Clients typiques

Auteurs – rédacteurs, producteur de documents notamment

techniques (manuels utilisation, livrables projets…), secteur de l’édition – presse, livres, services juridiques et commerciaux (contrats), notaires, archivistes, banques, assurances

Projets phares

Organisations phares – Institutions

AIIM, Aproged

Définition

Organisation des fichiers informatiques (gestion de fichiers),

numérisation, accès et stockage

1.1.2.2. Gestion de contenu : Content Management Systems (CMS)

Domaine d’application principal

Gestion de contenu : Content Management Systems (CMS)

Domaine d’application secondaire

Gestion de documents semi-structurés et / ou modulaires,

enrichissement de l’information : méta données, classifications (taxonomies, catégorisation, ontologies), séparation du contenu et de la présentation, gestion de la documentation technique (GEDT), gestion de configuration logicielle

Fonctionnalités transverses

Syndication, indexation des données, réutilisation, systèmes

d’alerte (abonnement)

Domaine d’application principal

Gestion de contenu : Content Management Systems (CMS)

Méthodes et modèles associés

XML (SGML), Digital Object Identifier, DOM, RDF (Resource

Description Framework), RSS (RDF Site Summary), Traitement Automatique des Langues (TAL), URI (Unified Resource Identifiers), Unified Content Strategy

Normes associées

Logiciels typiques évalués ou

aperçus

IBM Content manager server v8 (Lotus Domino.doc), Documentum

Informations cibles

Objets de contenu (sous-niveau de document ou encore

composant de document), fichiers informatiques et données relationnelles

Clients typiques

Editeurs, presse, industriels avec produits complexes,

développement logiciel – Gestion des documents volumineux

Projets phares

Organisations phares – Institutions

World Wide Web Consortium – W3C

Définition

Organisation, accès et édition de l’information non ou semi-

structurée en composants discrets ou encore atomiques

1.1.2.3. Gestion de sites web : Web Content Management (WCM)

Domaine d’application principal

Gestion de sites web : Web Content Management (WCM)

Domaine d’application secondaire

Staging, publication automatique de contenu, systèmes d’alerte

Fonctionnalités transverses

Publication multi-canal

Méthodes et modèles associés

XML (HTML)

Normes associées

Logiciels typiques évalués ou

aperçus

Microsoft Content Management Server, IBM Content manager

server v8, Documentum, Stellent, Interwoven

Informations cibles

Liens hypermédias, objets de contenu

Clients typiques

Entreprise avec des sites web multiples et/ou volumineux,

contributeurs multiples et nombreux

Projets phares

Organisations phares – Institutions

World Wide Web Consortium – W3C

Définition

Contrôle de la publication des composants documentaires au

niveau de l’utilisateur final, notamment les clients navigateurs

Internet

1.1.2.4. Portail d’Entreprise : Entreprise Information Portal (EIP)

Domaine d’application principal

Portail d’Entreprise : Entreprise Information Portal (EIP)

Domaine d’application secondaire

Business Intelligence – DataWareHouse, moteurs de recherche

(traitement du langage naturel)

Fonctionnalités transverses

Personnalisation, fédération de contenus, gestion de la relation

client (U-CRM), forums de discussions, listes de diffusion

Méthodes et modèles associés

CWM (Commun Warehouse Metamodel) de l’OMG (Object

Management Group)

Normes associées

Logiciels typiques évalués ou

aperçus

Microsoft SPPS, IBM Information Enterprise Portal, Zope,

Tridion

Informations cibles

Tous les formats

Clients typiques

Grande entreprise, administrations, services communautaires,

services de conseil et de veille technologique

Projets phares

Organisations phares – Institutions

Editeurs logiciels : offres commerciales et cabinets consultants

Définition

Regroupement de l’information de tout type dans une même

application – intégration de l’information interne et externe à l’entreprise en fonction de l’utilisateur ou qu’il soit, quel que soit

Domaine d’application principal

Portail d’Entreprise : Entreprise Information Portal (EIP)

son terminal, à n’importe quel moment

1.1.2.5. Gestion de la connaissance (KM)

Domaine d’application principal

Gestion de la connaissance : Knowledge Management

(KM)

Domaine d’application secondaire

Systèmes à base de connaissances; modélisation de

connaissances, d’expertise, de processus; production, acquisition, diffusion de connaissances ; gestion des compétences, eLearning, OnLine Communitiy, mémoires organisationnelles (organisational memories), découverte de connaissance

Fonctionnalités transverses

Web sémantique, récupération d’informations avancée

Méthodes et modèles associés

REX (acronyme de Retour d’EXpérience), KADS (Knowledge

Acquisition and Design System), MKSM (Methodology for Knowledge System Management) = MASK (Method for Analysing and Structuring Knowledge), CBR (Case Based Reasoning), Ontology Inference Layer (OIL), Knowledge Interchange Format (KIF), DIPA Model (Diagnostic, Interpretation, Proposition, Approval)

Normes associées

ISO 17024 (Certification de compétences), ISO 13250: Topic

Maps, UDC (Universal Decimal Classification)

Logiciels typiques évalués ou

aperçus

InstraNet, Microsoft SPPS, IBM Information Enterprise Portal

Informations cibles

Ontologies (taxonomies, classifications), diagrammes, objets

de contenu, fichiers informatiques

Clients typiques

Organismes de formation professionnelle, services du

personnel (DRH), services communautaires, services qualité, services de conseil et de veille technologique

Projets phares

ESPRIT, IMS Global Learning Consortium (EDUCAUSE)

Organisations phares – Institutions

Gouvernements, OCDE, Communauté européenne, UDC

(Universal Decimal Classification) : classification multilingue de la connaissance

Définition

Structuration des savoirs de l’entreprise (outils, méthodes,

processus) en vue de leur partage, de leur utilisation et de leur réutilisation dans les processus d’amélioration (qualité) et d’innovation.

1.1.2.6. Systèmes intégrés de gestion de bibliothèques physiques (SIGB)

Domaine d’application principal

systèmes intégrés de gestion de bibliothèques

Domaine d’application secondaire

Gestion du catalogage et du prêt, interface de recherche pour

le public, importation de notices bibliographiques en

UNIMARC/ISO 2709

Fonctionnalités transverses

Outils de catalogage

Méthodes et modèles associés

CONSER : cooperative online serials, MARC : Machine

Readable Catalogue

Normes associées

UNIMARC/ISO 2709, ANSI Z39-50

Logiciels typiques évalués ou

aperçus

Informations cibles

Livres format papier, documents papiers et méta données

associées

Clients typiques

Service de la documentation et des archives, bibliothèques

Projets phares

Dmoz (Open Directory Project – Definitive Catalog of the Web),

Catalogue en Ligne d’OCLC (ON LINE COMPUTER LIBRARY CENTER) : WorldCat, US Library of Congress, PROMETEUS

Domaine d’application principal

systèmes intégrés de gestion de bibliothèques

Organisations phares – Institutions

Comité français UNIMARC : format d’échange de données

d’archives des bibliothèques, Association des bibliothécaires de France – ABF, AMERICAN LIBRARY ASSOCIATION, International Federation of Library Associations and Institutions

– IFLA, International Federation for Information and

Documentation (IFID)

Définition

Acquisition de documents (monographies et / ou périodiques)

et mise à disposition des usagers

1.1.3. Fonctionnalités des sous-domaines

Les sous-domaines de la gestion de contenu sont les suivants : authoring, versioning, groupware (et workflow), édition de documents, gestion des modèles de documents (template), gestion des méta données et des liens, transformation des composants documentaires (pour la publication), gestion automatisée de la publication, publication multi-canal, moteur de recherche et d’indexation, personnalisation. Ces sous-domaines fonctionnels ont été mentionnés comme domaine d’application secondaire ou comme fonctionnalité transverse dans la section ci-dessus.

D’autres domaines sont aussi abordés, mais ne sont pas spécifiques de la gestion de contenu et plutôt des applications informatiques en général. Elles sont cependant indispensables à la gestion de contenu. Il s’agit de l’administration, de la sécurité, de la gestion des utilisateurs, de l’échange de données (import / export) et de l’internationalisation du logiciel (support multilingue et localisation de l’interface dans la langue de l’utilisateur).

Ces fonctionnalités ont généralement été abordées, décrites et / ou illustrées, soit plus ou moins développées, tout au long de la première partie (section 2 « Concepts de gestion de contenu » et section 3 « Architecture d’un système de gestion de contenu ») de ce rapport dans les différentes sections concernées, ceci de manière plutôt théorique et à des fins didactiques. Elles sont ici listées de manière exhaustive et brièvement décrites, de manière pratique et afin de classifier et comparer les CMS offerts par les éditeurs de logiciels du marché ou encore afin de juger de la richesse de leur offre et d’en réaliser l’évaluation détaillée (section 2 page 79). Nous avons considéré les fonctionnalités présentées ici parce qu’elles sont, entre autres, mises en avant par les éditeurs de logiciels de gestion de contenu comme faisant parties de leur système [21] [67] [68] [69].[70] [20] [71] [72] [73] [74] [75] [76] [77]. Un exemple de classification à partir des fonctionnalités listées dans les sous-paragraphes suivants est repris dans le Tableau 2 intitulé « : comparatif et récapitulatif des fonctionnalités déclarées des logiciels Interwoven ECM, MS SharePoint et SPIP » page 75.

1.1.3.1. Versioning

Les fonctionnalités principales en sont les suivantes :
– Gestion des versions (historisation)
– Gestion de configuration et du code applicatif du site web
– Gestion des conflits de versions en mise à jour et comparaison de versions

La gestion des versions des composants documentaires doit permettre globalement de faire référence à un document de manière générique et de récupérer sa dernière version ou alors, lorsque le logiciel le permet, de faire référence à une de ses versions et, de même, le récupérer. L’historisation des versions permet au CMS de garder actives et d’accéder aux différentes versions des documents.

La gestion des versions est particulièrement importante lorsque plusieurs versions d’un composant documentaire sont valides simultanément (cf. « date » et « Valid » dans le tableau 5 : « méta données de l’initiative de Dublin Core » page 109) ; par exemple, lorsque plusieurs versions d’un même produit associé à la documentation sont toujours utilisées, ou encore, lorsqu’une loi s’applique sans effet rétroactif…

Enfin, et particulièrement dans le cadre de la gestion de code informatique, la comparaison des versions des documents et les outils de fusion (gestion des conflits de mise à jour en édition distribuée et des versions concurrentes) qui les accompagnent sont des outils complémentaires importants du versioning. Nous sommes là à la croisée du versioning et de l’édition des documents (cf. section 1.1.3.4).

1.1.3.2. Authoring

Les fonctionnalités que nous classons dans ce sous-domaine sont les suivantes :
– authentification (authentification à base de certificat),
– gestion des droits numériques (ou droits d’auteur) : Digital Rights Management (DRM).

L’authoring est ce qui est partagé par une grande majorité d’applications informatiques et tous les domaines de la gestion de contenu. Il s’agit de permettre la gestion des droits d’accès dans un premier temps, et notamment les droits en écriture. Cela doit permettre ensuite d’enregistrer et d’associer le ou les auteurs au document. Cela passe par l’authentification, notamment en relation avec le système d’exploitation, en se basant sur les informations de login (identifiant utilisateur et mot de passe). L’authoring est aussi ce qui permet à des utilisateurs, informaticiens ou non, de créer et mettre à jour des documents. Nous n’abordons pas cet aspect là de l’authoring, qui est repris partiellement dans la section 1.1.3.4 « Application d’édition de documents intégrée ».

Une gestion avancée de l’authoring met en œuvre des mécanismes de sécurité et d’authentification. Une des plus répandue actuellement, parce qu’aussi associée à l’encryption (cf. section 1.1.3.11), est l’authentification à base de certificat numérique.

Comme autre utilisation avancée de l’authoring, nous retrouvons la gestion des droits d’auteurs (DRM). Cela concerne principalement aujourd’hui le DAM (cf. section 1.1.2.1).

1.1.3.3. Groupware (Workflow)

Le groupware est un domaine transversal à part entière. C’est un ensemble de programmes qui permet le travail de groupe, ou encore travail collaboratif. Une des composantes principales du groupware est le workflow. Il est indispensable à la gestion des processus d’affaire (Business Process Management – BPM). Les chaînes d’édition numérique étant une sous-catégorie des processus d’affaire, il doit être aussi largement utilisé dans la gestion de contenu et ses domaines d’application (GED, CMS, WCM et EIP).

Les caractéristiques ou fonctionnalités du groupware sont les suivantes :

– mise en oeuvre de workflow prédéfini(s),
– mise en oeuvre de workflow paramétrable(s),
– Workflow avancé : Parallélisation des flux,
– gestion des transactions (verrouillage),
– héritage des modèles de sécurité et workflow par type de document,
– automatisation (envoi de message eMail pour intervention ou pour rappel d’intervention),
– outil d’annotation,
– forums de discussion, liste de diffusion,
=- administration distribuée utilisateurs/groupes/projets,
– gestion de projets.

Les CMS offrent plus ou moins de souplesse et de richesse pour gérer les workflows, d’où un nombre de fonctionnalité relativement élevé pour les discriminer. Les workflows proposés peuvent être uniquement prédéfinis. Dans d’autres cas, on peut les paramétrer pour les adapter aux besoins spécifiques des utilisateurs. De même, ce paramétrage peut être plus ou moins riche et permettre ou non de spécifier des flux parallèles. Normalement, les workflows sont assortis d’une gestion des transactions avec verrouillage des ressources en cours d’édition (souvent dénommée « checkin / checkout »). Cependant, certains logiciels ne le gèrent pas.

Ce paramétrage peut être aussi plus ou moins souple. Les workflows peuvent s’appliquer aux groupes de travail uniquement ou alors être spécifiques à chaque type de document dans un même groupe de travail. Dans ce dernier cas, le modèle de sécurité et de workflow, est hérité ou non du groupe de travail dans lequel le type de document peut être édité, facilitant ou non la tâche de paramétrage. De plus, le paramétrage peut être opéré sous la supervision unique d’un administrateur de l’application de CMS ou délégué par responsable de groupe de travail. Cette possibilité de déléguer une partie de l’administration des groupes de travail n’est pas superflue dans les applications gérant de nombreux types de document.

Ensuite, un des principaux avantages de la gestion des processus de travail est de pouvoir automatiser certaines tâches dévolues autrement aux utilisateurs. La notification par email de l’accomplissement d’une phase dans un workflow aux utilisateurs suivants dans la chaîne d’édition fait partie de ces avantages dans certains logiciels de CMS.

Enfin, d’autres outils de groupware peuvent être utiles dans le cadre de la gestion de contenu. Il s’agit de la possibilité d’annoter des documents dans le cadre de leur édition ou encore d’offrir des forums de discussion pour les groupes de travail. Certains considèrent les fonctionnalités de gestion des groupes de travail comme relevant du domaine de la gestion de projet. D’autres outils de gestion de projet (agendas principalement) sont parfois offerts dans les suites de gestion de contenu, sans jamais être suffisamment complets pour que la fonctionnalité mérite d’être appelée application de gestion de projet. L’intégration est cependant dans certains cas d’utilisation tentante.

1.1.3.4. Application d’édition de documents intégrée

Les applications d’édition intégrée aux CMS peuvent être les suivantes :

– éditeur XML,
– éditeur HTML,
– applications compatibles ODMA (Open Document Management API – voir page 20),
– édition distribuée (Interface web -client navigateur ou autre application cliente).

Certains logiciels de CMS proposent leurs propres applications d’édition de documents alors que d’autres se limitent à la mise en œuvre du mécanisme de checkin / checkout (gestion des transactions) lors de l’édition des fichiers.

Si les CMS sont compatibles avec l’édition de documents structurés (et la prise en compte du type de document), ils proposent généralement un éditeur XML, celui ci étant toutefois souvent limité à la mise en œuvre d’un formulaire HTML pour saisir les différents composants d’un document.

Certains CMS proposent, pour s’adapter à la popularité des applications de bureautique de Microsoft, des éditeurs compatibles ODMA. Dans le même ordre d’idée, certaines applications de WCM proposent des éditeurs HTML pour générer du contenu qui est ensuite publié uniquement sur le Web.

Enfin, les CMS proposent le plus souvent une interface Web pour accéder à l’application de gestion de contenu, et notamment l’édition. Cependant, il y a encore des CMS qui nécessitent l’installation de clients spécifiques sur le poste de travail de l’utilisateur. D’autres encore proposent les deux configurations.

1.1.3.5. Gestion des méta données

On aborde ici les fonctionnalités qui sont au cœur de la gestion de contenu. Mais il faut cependant dire que la gestion des méta données est plus ou moins développée selon les logiciels, voir dans certains cas quasiment absente, et sinon jamais complète.

Les éléments des CMS permettant la prise en compte des méta données sont les suivants :

– type de document,
– conteneur multimédia,
– catégorisation (simple ou multiple),
– utilisation de thésaurus / dictionnaire,
– extraction automatique de méta données,
– catégorisation automatique des documents,
– fonction de résumé automatique de document,
– support de création et maintenance de catalogues (dictionnaires, taxonomies, thésaurus, ontologies),
– gestion des liens interne,
– gestion des liens hypertextes.

Certaines applications de gestion de contenu, limitée donc, ne permettent pas de prendre en compte la notion de type de document, soit pour pouvoir y appliquer un modèle de document (cf. section 1.1.3.4), soit pour pouvoir y associer des méta données spécifiques.

Le conteneur multimédia n’est qu’une adaptation spécifique des méta données à la gestion des documents multimédia (images, sons, vidéos…).

Un des points clés de la mise en œuvre des méta données est la possibilité que les CMS offrent de classer les ressources documentaires dans des schémas de catégories. Cela peut être un ou plusieurs schémas selon les cas. Ces schémas peuvent ou non être reliés à l’utilisation de dictionnaires, thésaurus ou autres taxonomies, tout comme les autres méta données qui peuvent alors ou non prendre aussi leurs valeurs dans des dictionnaires afin de contrôler le vocabulaire utilisé.

Les CMS peuvent aussi proposer des outils de productivité pour renseigner les méta données en automatisant la génération de leurs valeurs, ou tout du moins en assistant l’utilisateur dans leur renseignement : il s’agit de l’extraction automatique de méta données, de la catégorisation automatique des documents et enfin parfois de la fonction de résumé automatique des textes.

Finalement, vu l’importance qu’ont les méta données dans la gestion de contenu, les CMS peuvent proposer des outils de création et de maintenance des ontologies utilisées.

Enfin dans le même domaine, mais sur un autre plan, la gestion des références entre documents est cruciale. Il s’agit de la gestion des références internes ou externes (liens hypertextes). Cependant, malheureusement, cette gestion est parfois laissée au soin unique des utilisateurs. Certains logiciels de WCM ne proposent même pas de validation des liens hypertextes !

1.1.3.6. Transformation

Après avoir vu jusqu’ici dans cette section concernant les fonctionnalités des CMS, les fonctionnalités nécessaires à l’édition des documents (collecte), voyons à partir de maintenant plutôt les fonctionnalités relatives à la publication et plus loin l’administration.

Les fonctionnalités de transformation sont celles qui permettent de générer les documents édités au format de publication. Les éléments clés de ces fonctionnalités sont :

– les templates,
– les transformations de formats spécifiques
– les formats de fichiers de sortie supportés par défaut.

L’utilisation des templates est déjà prise en compte pour les applications de gestion de contenu proposant des éditeurs XML (cf. section 1.1.3.4). Elle est indispensable pour les applications de WCM afin de gérer la mise en forme graphique des documents et de séparer la présentation du contenu. Elle est aussi indispensable pour générer des documents aux formats multiples dans le cadre de la publication multi-canal.

Il peut y avoir des outils de transformation ad hoc permettant de passer d’un format de publication à un autre, sans forcément passer par un pivot unique, spécifié avec le template (par exemple, d’un format MS Word à un format PDF).

Enfin les suites de gestion de contenu permettent de générer des fichiers dans des formats de sortie plus ou moins nombreux.

1.1.3.7. Gestion automatisée de la publication

La gestion automatisée de la publication est surtout liée au domaine de la gestion de site web (WCM). Mais elle n’en est pas exclusive, notamment pour ce qui concerne l’archivage, qui là, est une fonctionnalité plus développée dans la GED. La syndication et la fédération relèvent eux plus de la problématique des portails (EIP).

Les éléments fonctionnels de la publication automatique des documents sont :

– conversion automatique de document / de contenu,
– date de parution et / ou date d’expiration,
– archivage,
– staging,
– syndication,
– fédération de contenu.

La conversion automatique de contenu est consécutive à la mise en œuvre des templates. A chaque appel d’un client, la publication peut être générée dynamiquement à partir du contenu actualisé et en fonction des fichiers de transformation.

Dans le cadre de la gestion automatisée de la publication, notamment associée aux workflows d’édition, des documents validés peuvent être publiés à une date prédéterminée si le CMS le permet. De la même manière, un document peut être retiré de la publication en fonction de sa validité ou de la date d’expiration qui aura été spécifiée, soit en fonction d’une règle, soit d’un paramétrage particulier. A ce moment là, on peut imaginer que le CMS gère aussi l’archivage du document de manière automatisée. Certains systèmes de GED le proposent.

Le staging est une fonctionnalité propre au WCM et en fait peut s’assimiler à la mise en œuvre d’une plate-forme d’intégration, élément commun d’une informatique professionnelle d’entreprise (voir « staging » page 14).

Pour finir, la syndication de contenu, et sa réciproque, la fédération, consiste à générer des fichiers de syndication pour permettre à d’autres CMS de reprendre une partie du contenu du CMS d’origine. Certains logiciels proposent donc de générer des fichiers de syndication automatiquement et / ou de publier des informations syndiquées par d’autres CMS.

1.1.3.8. Publication multi-canal

La publication multi-canal, nécessite, en sus de la fonctionnalité de conversion automatique de contenu vue ci-dessus, des fonctionnalités complémentaires spécifiques du canal de diffusion et permettant la distribution sur les canaux et / ou dans les formats suivants :

– télévision interactive diTV,
– terminal WAP,
– PDA,
– serveur Web,
– serveur de streaming audio-video,
– distribution sur CDRom.

1.1.3.9. Moteurs de recherche et d’indexation

Voyons encore d’autres sous-domaines des systèmes de publication, et en particulier ici les fonctionnalités que peuvent offrir les moteurs de recherche. Il s’agit de :

– la recherche « plein texte »,
– la lemmatisation,
– la recherche sémantique : gestion de règles d’expansion,
– la recherche sur les attributs de méta données,
– la recherche hiérarchique,
– la recherche sur attributs / éléments XML,
– autre(s) système(s) de raffinement des résultats,
– la recherche fédérée (sur plusieurs sources de contenu) / Webcrawling,
– Recherche fédérée : intranet, extranet, web,
– Recherche fédérée : bases de données relationnelles,
– Recherche fédérée : systèmes de fichier,
– Recherche fédérée : eMail,
– formats de fichiers supportés pour l’indexation.

Les fonctionnalités offertes par les moteurs de recherche intégrés aux CMS varient en fonction de la richesse fonctionnelle des CMS. Cela va de la recherche basée sur une indexation « plein texte » des documents, jusqu’à une exploitation intensive des méta données, en particulier les catégories dans la recherche hiérarchique, voir les attributs ou élément (XML) des composants documentaires. Les recherches peuvent être améliorées grâce à la lemmatisation, appuyées aussi par la gestion des règles d’expansion.

Par ailleurs, les capacités des moteurs de recherche sont liées aussi aux formats de fichiers qu’ils sont capables d’indexer dans le cas de la recherche « plein texte ». Certains ne peuvent indexer que des ressources au format texte alors que d’autres peuvent traiter des fichiers aux formats plus « propriétaires » (MS Word par exemple). Ces capacités sont aussi liées aux systèmes de stockage des composants documentaires qui peuvent être indexés. Les moteurs les plus riches peuvent permettre d’interroger des ressources dans des systèmes variés (du serveur Web à la base de courrier électronique en passant par la base de donnée).

1.1.3.10. Personnalisation

Autre domaine de la gestion de contenu lié au système de publication, la personnalisation peut donner lieu là encore à un nombre de fonctionnalités non négligeables. Parmi celle-ci, nous trouvons :

– la gestion des abonnements (subscription),
– la gestion des droits d’accès sur le(s) site(s) de publication,
– le suivi des accès aux documents,
– des API de personnalisation,
– la gestion des préférences utilisateurs,
– le profiling (catégorisation des utilisateurs).

Pour avoir un aperçu de ces fonctionnalités, nous pouvons nous référer à la section 3.3.3 page 58 traitant de la personnalisation.

1.1.3.11. Administration, gestion des utilisateurs et sécurité, export / Import de données, internationalisation

Les fonctionnalités qui vont suivre ont plus trait au domaine de l’administration générale des CMS. Elles sont discriminantes dans le choix d’un CMS mais pas dans notre classification. Un CMS peut offrir :

– la connexion aux annuaires LDAP afin de gérer les utilisateurs du système,
– une base interne des utilisateurs,
– la gestion SSL,
– l’encryption à base de certificat.
– l’import de données,
– l’export de données,
– le support de multiples encodages (unicode),
– le support multilingue,
– la localisation (version française) de l’application.

1.1.4. Conclusion

Nous pouvons donc maintenant retenir une grille de classification générale des outils de gestion de contenu par domaine en fonction des sous-domaines fonctionnels qu’ils prennent en compte.

Tableau 1 : Fonctionnalités principales des domaines de la gestion de contenu

GED

CMS

WCM

EIP

Versioning

X

Authoring

X

X

X

X

Workflow

X

X

X

X

Edition de documents

X

X

Gestion des méta données

X

X

Transformation

X

X

X

Publication automatisée

X

X

Publication multi-canal

(X)

(X)

Moteur de recherche

X

Personnalisation

X

Toutefois, certaines fonctionnalités de base peuvent amener éventuellement à classer certains outils dans un domaine, même si celui ci n’est pas couvert intégralement. Notamment, la GED est ici une GED que nous pourrions qualifier de « GED légère », car nous ne prenons pas en compte les fonctionnalités de la GED « lourde » que sont les techniques de numérisation et d’archivage (LAD, OCR, COLD, gestionnaire de spool).

Il nous est désormais possible de classifier les outils de gestion de contenu que l’on peut rencontrer sur le marché, ce que nous allons faire dans la section ci-dessous.

Les systèmes de gestion de contenu : description, classification et évaluation
Mémoire présenté en vue d’obtenir le DIPLOME D’INGENIEUR C.N.A.M. en informatique
Conservatoire National Des Arts Et Métiers – Paris

Introduction
A. LES SYSTEMES DE GESTION DE CONTENU (CMS)
1 Cas d’utilisations
1.1. Gestion des bibliothèques physiques
1.2. Edition de document composite
1.3. Gestion documentaire (référentiel d’entreprise)
1.4. Gestion de site web
1.5. Portail informatif
1.6. Intégration au système d’information
1.7. Conclusion : système de collecte / système de gestion de contenu / système de publication
2. Concepts de gestion de contenu
2.1. Concept clé numéro 1 : Structuration des documents
2.2. Concept clé numéro 2 : gestion des références et identification des composants documentaires
2.3. Concept clé numéro 3 : les méta données
3. Architecture d’un système de gestion de contenu
3.1. Système de collecte
3.2. Système de gestion de contenu
3.3. Système de publication
B. EVALUATION D’UN SYSTEME DE GESTION DE CONTENU
1. Classification des systèmes de gestion de contenu
2. Evaluation détaillée
Conclusion