Caltech CODA, les dépôts institutionnels

By 18 March 2013

2. Les dépôts institutionnels

Ce deuxième modèle se différencie du premier principalement par le critère de regroupement des documents qui, ici, n’est pas le thème mais la provenance du document. Celui­ci doit avoit été créé au sein de l’institution pour pouvoir apparaître dans le dépôt. Nous verrons que cela ne se fait pas toujours selon les mêmes modalités

2.1. Caltech CODA
http://library.caltech.edu/digital

Le dépôt du California Institute of Technology est notre premier exemple. Si un dépôt institutionnel est, en général, multidisciplinaire, nous verrons que cet aspect est parfois limité.

2.1.1. Historique

Caltech CODA (pour Collection of Open Digital Archives) est le nom donné au dépôt institutionnel lancé en 1999 par le “California Institute of Technology” [http://www.caltech.edu] situé à Pasadena. Une réflexion sur la situation de la publication scientifique était déjà entamée bien avant 1999 et le projet CODA. En effet, une conférence avait été organisée en 1997 sur ce thème. Il en est ressorti une certaine vision de ce qui pourrait être un système alternatif de communication scientifique. L’idée principale sur laquelle reposerait ce système est la séparation du processus de certification de celui de dissémination du document [Schaffner 1997].

L’idée fait son chemin et en 1999, le “Scholar’s Forum”, dans un article, propose un nouveau modèle pour la communication scientifique. Il y définit les différentes fonctions que devrait assurer le système, les principaux acteurs à impliquer, la base de données documentaire (inspirée de celle développée par Paul Ginsparg pour arXiv), les différents dispositifs à mettre en place ainsi que les standards et protocoles à utiliser [Buck 1999].

C’est également en 1999 qu’est mise en place la phase de lancement de CODA. Le projet va prendre son envol en 2000 avec l’élargissement à différents types de documents (en réalité, à tous les documents considérés comme intéressants), l’amélioration du matériel informatique qui sera mieux adapté à l’ampleur du projet et l’augmentation de l’implication des bibliothécaires. Ceux­ci vont apprendre comment fonctionne le système et établire un standards de métadonnées flexibles. En 2000, CODA se compose principalement de l’archive du CSTR ­ Computer Science Technical Reports ­ à laquelle s’ajoute, en 2001, les archives CAV 2001 (pour Cavitation 2001 Proceeding) et Caltech EERL (pour Caltech Earthquake Engineering Research Laboratory Reports). En 2002, ce sera au tour de Caltech PARADISE (Parallel and Distributed Systems Group E­Tech Reports) d’enrichir l’archive de Caltech [Douglas 2002].

L’archive s’est également enrichie de :
• Caltech BOOK, Books by Caltech Authors en 2002;
• Caltech CACR, Center for Advanced Computing Research en 2004;
• Caltech CDSTR, Control and Dynamical Systems Technical Reports en 2003;
• Caltech ETD, Electronic Theses and Dissertations en 2001;
• Caltech GALCITFM, Graduate aeronautical Laboratories (Fluid Mechanics) Technical Reports en 2001;
• Caltech JSNC, 11th Joint Symposium on Neural Computation en 2004;
• Caltech KHR, W.M. Keck Laboratory of Hydraulics and Water Resources Technical Reports;
• Caltech LESSGS, Large–Eddy Simulation and Subgrid­Scale Modeling for Turbulent Mixing and Reactive Flows en 2003;
• Caltech LIB, Library System Papers and Publication en 2001;
• Caltech OH, Oral History en 20028.

8 Ces informations proviennent des pages spécifiques des différentes archives ou de leurs statistiques; la date à laquelle commencent les séries statistiques sont alors considérées comme la date de début de projet. En ce qui concerne W.M. Keck Laboratory of Hydraulics and Water Resources Technical Reports, l’information n’est pas disponible.

On le voit, de nouvelles archives sont venues périodiquement enrichir le dépôt institutionnel de Caltech; et actuellement, d’autres sont encore en développement.

2.1.2. Technique et fonctions

Fonctionnement général

Comme expliqué brièvement dans l’historique, le dépôt institutionnel du California Institute of Technology est composé de 19 archives indépendantes dont cinq sont en développement. La création d’une archive au sein de Caltech CODA doit répondre à différents critères bien définis :

“A. Each CODA repository must consist of a body of works sponsored by Caltech professional faculty.

B. Works in CODA repositories :
1. must be produced, submitted, or sponsored by Caltech professional faculty,
2. must be complete and in final form,
3. must be scholarly, research, or educational material of enduring value.

C. The author/owner of each work must grant to Caltech the non-exclusive right to preserve and distribute the work in perpetuity.”
[http://library.caltech.edu/digital/criteria.htm]

Il n’y a pas, dans ces critères, d’obligation concernant les types de documents que l’on retrouve dans Caltech CODA. Cela ne semble pas important tant que le contenu du document présente un intérêt. Néanmoins, ce critère est pris en compte dans deux archives : Caltech BOOK et Caltech ETD (Electronic Theses and Dissertations), cela tient bien évidemment à leur contenu.

Les domaines abordés dans le cadre de Caltech CODA dépendent des archives créées. Actuellement, toutes les disciplines enseignées à Caltech9 n’ont pas une archive dédiée; leur création dépend entièrement de la motivation du personnel.

9 “Biology, chemistry and chemical engineering, engineering and applied science, geological and planetery sciences, humanity and social sciences, physics, mathematics & astronomy” [http://www.caltech.edu]

Bien que chaque archive soit indépendante, les interfaces d’accès à la documentation sont identiques; excepté pour ETD (Electronic Theses and Dissertations), OH (Oral Histories) et Cav2001 (Fourth International Symposium on Cavitation, 2001). Les mêmes menus sont proposés aux visiteurs et la même simplicité que l’on retrouve chez arXiv est de mise : pas d’image, texte noir (ou bleu pour les liens) sur fond blanc permettant ainsi un chargement rapide de la page et une compatibilité avec la plupart des navigateurs web. Caltech ETD, OH et Cav 2001 bénéficient, eux, d’une mise en page plus riche.

Graphiquement, ETD semble s’inscrire dans le site général de la bibliothèque. Contrairement aux autres archives de CODA, ETD est directement accessible depuis la page principale du “Caltech Library System” [http://library.caltech.edu] via les liens “Electronic These” puis “Electronic Theses Only” qui mènent directement à la page d’accueil de Caltech ETD. En plus des possibilités également offertes par les autres archives, ETD consacre une section spéciale aux étudiants; ceux­ci sont, en effet, les premiers concernés par la publication électronique dans le cadre d’ETD. Il leurs est d’ailleurs précisé dans cette section que Caltech participe au projet NDLTD (Networked Digital Library of Theses and Dissertations).

La page d’accueil de l’archive Caltech Oral Histories [http://oralhistories.library.caltech.edu] bénéficie aussi d’une mise en page plus recherchée. Cela va sans doute de pair avec les objectifs du projet. Le principal est de “[purpose of] recording the personal memories of the distinguished scientists, teachers and administrators of the Institute”. Ce qui, sans négliger l’intérêt scientifique de cette démarche, peut aussi bien servir le prestige de l’institution. Le projet méritait donc une interface graphique plus élaborée. Ajoutons que l’archive Caltech OH peut être téléchargée dans son intégralité en un fichier unique.

Enfin, le cas de Cav 2001 est différent. Cette archive a été mise en place dans le cadre d’un symposium : les participations à celui­ci ont pu être mises en ligne via Cav 2001 avant le début des conférences. Le parcours de l’archive s’effectue par “session” suivant ainsi la structure de la manifestation [Buck 2002].

Au niveau technique, le logiciel utilisé pour le support des différentes archives est GNU EPrints de l’université de Southampton et ETD­db développé par Virginia Tech (Virgnia Polytechnic Institute and State University) pour Caltech ETD.

Toutes les archives du dépôt respectent le Protocole for Metadata Harvesting proposé par l’Open Archives Initiative. Celui­ci rend l’archive interopérable, l’utilisation d’un protocole commun au différents dépôts ouverts permet la création de services transversaux. Chaque dépôt étant répertorié séparément comme fournisseurs de données, ils participent comme entités séparées aux différents services basés sur les standards définis par l’OAI.

La recherche d’information

Chaque archive étant indépendante, il n’est pas possible, sur le site de Caltech CODA, d’effectuer une recherche transversale. L’uniformité des moyens de recherche d’information est néanmoins de mise. Trois moyens d’accès à l’information sont proposés : le menu “main”, parcourir et recherche (simple ou avancée). La page principale (“main”) de chaque archive permet une recherche très simple soit sur l’enregistrement du document (auteur, titre, …) soit une recherche full text. Il est également possible de consulter directement les derniers documents qui ont été déposés dans l’archive.

Le parcours des archives peut se faire sur deux et parfois trois critères. Nous retrouvons dans tous les cas les parcours par sujets et par années et il est parfois possible de parcourir par personnes; c’est le cas pour Caltech BOOK.

La recherche simple peut s’effectuer sur les champs suivants : Title/Abstract/Authors/Creators/Date; Full Text/Title/Abstract/Authors/Creators/Date; Authors/Creators/Date ou uniquement sur le champ Date qui permet une recherche sur un intervalle précis. La recherche avancée, quant à elle, offre un nombre de champs de recherche plus étendu et plus précis : Full Text; Title; Authors/Creators; Abstract; Uncontrolled Keywords; Subjects (subdivision du domaine de l’archive); EPrint Type; Department; Editors; Status; Refereed; Journal/Publication Title; Date.

Une fois que l’utilisateur sait dans quelle archive il doit situer sa recherche, il n’est plus difficile pour lui de retrouver l’information qu’il désire.

2.1.3. Situation actuelle

Il n’existe pas de statistiques disponibles pour l’ensemble du dépôt mais pour chaque archive en particulier. Ces statistiques concernent principalement l’accès aux documents; celui­ci est facilement déduit du nombre de fois qu’un fichier est téléchargé. Certaines archives mettent en ligne deux types de format : .ps et .pdf. Dans tous les cas, c’est le format .pdf qui remporte le plus de succès auprès des utilisateurs.

En général, le téléchargement de documents est en hausse, cette hausse est plus ou moins marquée selon les archives. Deux exceptions à ce mouvement : Caltech PARADISE (Parallel and Distributed System Group) dont le nombre de téléchargement diminue et Cav 2001 (Fourth International Symposium on Cavitation, June 2001) dont le nombre de téléchargements semble plus ou moins stable depuis la fin du symposium. Par son statut et son utilisation spécifique, cette situation n’est pas étonnante, cette archive ne s’enrichissant normalement pas.

Une approximation faite depuis le site d’oaister, qui permet une recherche à travers les sites respectant le protocole de l’Open Archives Initiative, donne pour résultat le chiffre de 2 331 documents disponibles pour l’ensemble du dépôt (au 12 septembre 2004) [http://oaister.umdl.umich.edu/o/oaister/browsec.html].

En plus des 14 archives déjà “en service”, cinq supplémentaires sont en développement : ASCI (Accelerated Strategic Computing Initiative Technical Reports), BIC001 (Biological Imaging Center’s Frog (Xenopus) Gastrulation Images), EQL (Environnement Quality Laboratory Technical Reports), ES (Engineering & Science (journal)), GALCITSM (Graduate Aeronautical Laboratories (Solid Mechanics) Technical Reports). Avec ces cinq dépôts supplémentaires, il est probable que l’intérêt des chercheurs pour Caltech CODA augmente encore.

Le fait que la mise sur pied d’une archive se fasse sur base volontaire devrait être la garantie de l’utilisation de l’archive par les personnes concernées, au moins en ce qui concerne les dépôts de documents.

Malgré la disparité des dépôts, le fait qu’ils ne forment pas ensemble une seule grosse archive, l’interface de consultation reste la même pour chacun (sauf ETD, OH et Cav 2001 comme expliqué plus haut). Le visiteur les uns après les autres. Par contre, il ne pourra pas effectuer de recherche sur l’ensemble de Caltech CODA, à moins de passer par un service OAI de type OAIster [http://oaister.umdl.umich.edu/o/oaister/] qui ne permet pas d’effectuer des recherches full text.

Autre désavantage de CODA : la création d’une archive se fait sur base d’initiative plus ou moins personnelle, ce qui a pour conséquence que toutes les disciplines enseignées au California Institute of Technology ne sont pas reprises dans le dépôt institutionnel sauf éventuellement, via l’archive des thèses (Caltech ETD) et des livres (Caltech BOOK).

Le dépôt institutionnel de Caltech est le fruit d’une réflexion sur la communication scientifique commencée au plus tard en 1997. L’alternative au circuit d’édition de la documation scientifique dite “classique” semble avoir été mûrement réfléchie. Dans un article de 1999 qui propose un nouveau modèle pour la communication scientifique [Buck 1999], le groupement d’universités est considéré comme un des acteurs principaux dans la mise en place de ce nouveau modèle. Pourtant, Caltech n’est associé à aucune autre université (exceptées celles dont il utilise les logiciels comme EPrints de Southampton et ETD de Virginia Tech), pas même au projet eScholarship [http://www.cdlib.org/programs/escholarship.html] de l’université de Californie. Il faut préciser que le projet eScholarship a été mis en place quelques années après Caltech CODA et, pour cette raison, il n’était peut­être pas possible de joindre les deux archives.

Par la centralisation des différentes archives au sein d’un seul dépôt institutionnel, Caltech CODA offre un bon outil à ses membres, tant pour la recherche que pour la publication d’information.

Lire le mémoire complet ==> (Réflexions sur quelques nouveaux modèles de communication scientifique)
Diplôme d’études spécialisées (D.E.S.) en sciences et technologies de l’information
Université Libre de Bruxelles – Faculté de Philosophie et Lettres Section Infodoc