La Digital Library of Massachusetts Institute of Technology Theses

By 19 March 2013

La Digital Library of Massachusetts Institute of Technology Theses
http://theses.mit.edu

Si Caltech CODA acceptait tous les types de documents dans son archive, cet exemple du MIT montre que ce n’est pas toujours le cas. Ce genre de limitation permet la diffusion de documents peu et difficilement consultables : les thèses.

2.2.1. Historique

La “Digital Library of Massachusetts Institute of Technology Theses” est un dépôt institutionnel un peu particulier par rapport à ce que nous avons vu précédemment avec la “Collection of Open Digital Archives” de Caltech, puisqu’il concerne exclusivement les thèses. De plus, si la majorité des thèses disponibles sont datées de ces dernières années, un processus de numérisation a permis à ce dépôt de proposer des travaux datant de la fin du XIXème siècle. Celles­ci sont néanmoins peu nombreuses car l’objectif n’a jamais été d’offrir au public la totalité des thèses du MIT. A vrai dire, si le public a aujourd’hui accès à ces thèses, c’est un peu le fruit du hasard : la sélection de ces thèses ne se fait sur aucun critère précis, seul entre en compte la demande des utilisateurs pour une version papier.

Au départ, en 1998, ces thèses ont été numérisées pour servir uniquement le “Document Services department” de la bibliothèque du MIT. Ces versions numérisées étaient (et sont toujours) très utiles lorsqu’une demande d’achat d’un exemplaire de thèse était adressée au département. Une fois la thèse numérisée, il ne restait plus qu’à l’imprimer et l’envoyer à son destinataire.

Avant de rendre l’accès public, il était obligatoire d’enrichir cette bibliothèque numérique de métadonnées qui permettraient aux utilisateurs d’effectuer un minimum de recherche sur le fonds documentaire. Ces métadonnées ont été extraites de “Barton”, le catalogue en ligne de la bibliothèque du MIT qui, évidemment, renseigne toutes les thèses.

Petit à petit, et bien qu’il n’y ait pas eu de promotion, ni de publicité pour ce nouveau service, des scientifiques du monde entier se sont intéressés à cette importante source d’information et l’ont utilisée [Stone 2000].

Aujourd’hui, le dépôt de thèses du MIT n’est plus le seul à pouvoir accueillir une part de la production intellectuelle de l’Institut. Depuis 2000, le MIT associé à la société Hewlett­Packard a travaillé à la mise au point d’un logiciel open source, disponible gratuitement : Dspace. Celui­ci, un peu comme GNU Eprints permet la mise en place facile de dépôts de documents numériques. Le MIT en a bien sûr profité et propose à ses membres la création d’archives numériques avec Dspace. Dix “communautés” en ont déjà profité [http://dspace.mit.edu].

2.2.2. Fonctions et technique

 

“Digital Library of theses” ne donne accès qu’à un nombre limité de thèses. Même pour les plus récentes, l’accès en ligne n’est pas assuré puisque cela dépend du bon vouloir de l’auteur.

Seules les images extraites des thèses sont d’accès ouvert et consultables par tous. Le visiteur peut avoir une vue générale de la thèse qu’il désire consulter via les vignettes. Cet aperçu global est très utile pour identifier la table des matières et ainsi définir la partie de la thèse la plus intéressante. Il lui est également possible de naviguer à travers le texte en indiquant le numéro de l’image qu’il veut visionner.

Une fois l’image sélectionnée, l’utilisateur peut la visionner en format .gif en résolution basse (100 dpi) et en nuances de gris. Grâce à ce choix de résolution, le chargement de la page se fait relativement rapidement, selon le type de connexion. Dès que l’image est affichée, il est possible d’agrandir l’une ou l’autre partie, de visionner les pages précédentes ou suivantes et de revenir aux vignettes. Notons que, si visionner une image avec un navigateur web a certains avantages (entre autres, celui de ne pas devoir sauver l’image sur disque dur), cela présente certains inconvénients ergonomiques lorsque le texte est mis en forme en “paysage” alors que le visionnement se fait en mode “portrait”. Les navigateurs n’offrent pas la possibilité de tourner l’image10.

Si la consultation de la thèse via les images s’avère trop fastidieuse, il est possible de commander le document soit en format .pdf, soit sur support papier. Les deux nécéssitant une participation aux frais qui peut atteindre plus de $65 pour un .pdf et plus de $80 pour une version papier. Dans les deux cas, le nombre de pages influence le prix de la thèse. L’argent ainsi récolté permet à la bibliothèque de continuer d’assurer ses services et notamment, la mise en ligne des thèses.

10 Ici, c’est le navigateur Mozilla Firefox 0.9.1 qui a été utilisé.

L’accès aux thèses du MIT n’est donc que partiellement ouvert car si l’utilisateur veut bénéficier d’un peu de confort (nécessaire à une lecture entière, accessoire si on ne souhaite la consulter que partiellement), il est obligé de payer. Il est curieux de constater que même les thèses récentes sont disponibles gratuitement uniquement sous forme d’image alors qu’une version électronique – dont il est aissé de tirer un .pdf – existe certainement. L’avantage de ces images pour le MIT et l’auteur de la thèse est qu’il n’est pas facile de “copier­coller” le texte. Ceci dit, si l’éventuel “pillard de thèse” le désire, il est toujours possible d’appliquer aux images une reconnaissance optique des caractères et ainsi, en recréer le texte. Le pendant de cette mesure de protection est qu’il n’est pas possible d’effectuer une recherche full text sur ces thèses.

La recherche d’information

Les textes des thèses étant des images, la recherche full text – comme nous l’avons déjà dit – est impossible. La recherche simple ne peut s’effectuer que sur deux champs : auteur et titre. La recherche avancée propose en plus le champ résumé et peut porter sur les thèses électroniques ou sur toutes les thèses du MIT. Il est également possible de rechercher un document dont on connaît l’identifiant.

La recherche proposée sur les thèses en ligne n’est donc pas très complexe ni complète. Il est d’ailleurs suggéré sur le site, d’effectuer d’abord une recherche dans Barton, le catalogue complet des bibliothèques du MIT. Il est possible, de là, de spécifier qu’on ne cherche que les thèses du MIT. En utilisant Barton, le visiteur peut limiter sa recherche sur des champs tels que le département dans lequel la thèse a été défendue, son superviseur, le diplôme pour lequel elle a été présentée… Une fois que la requête dans Barton a fourni ses résultats, il ne reste à l’utilisateur qu’à vérifier (et espérer) que la thèse existe sous format numérique. Notons qu’il est parfois plus simple et plus rapide de parcourir les thèses numériques par années de publication ou par auteur.

2.2.3. Situation actuelle

Aucune statistique concernant le dépôt de thèses du MIT n’est disponible. Nous savons qu’en 2000, le nombre de thèses hébergées s’approchait des 4.000 [Stone 2000, p. 2]. Un bref comptage11 des thèses datées de 2000 à 2004 nous indique qu’à présent, le dépôt de thèses comprend plus de 5.600 documents; notons qu’il est possible que des thèses plus anciennes aient été ajoutées.

Le dépôt de thèse du MIT est caractéristique par rapport à d’autres projets, en ce sens qu’il était au départ basé sur une démarche rétrospective et propose donc à ses utilisateurs de consulter des thèses anciennes (1879 pour la plus ancienne).

Malheureusement, l’accès aux thèses en ligne, s’il est assuré, n’est pas très ergonomique. Nous l’avons évoqué plus haut, il n’est pas toujours pratique de consulter ces documents sous forme d’image et ce format empêche l’offre de certains services comme la recherche full text. Il est bien sûr possible d’obtenir une version sur support papier ou en format .pdf mais cela entraîne des délais et des coûts qu’un chercheur ne peut pas toujours se permettre. Ce système de consultation par image a son intérêt pour le MIT puisque, coupler au prix des versions papier et .pdf, il peut servir de barrière technique au piratage et à la copie de thèse.

11 Comptage grossier réalisé sur base de la recherche de thèses par année, le résultat n’est qu’approximatif et ne sert qu’à donner un ordre de grandeur.

Il serait intéressant pour ce service d’augmenter encore le nombre de thèses disponibles, qu’elles soient anciennes en lançant une politique de numérisation rétrospective plus systématique ou qu’elles soient récentes en obligeant le dépôt numérique des thèses. Mais cette obligation n’est pas du ressort du service des bibliothèques, une intervention des autorités supérieures serait indispensable.

Il serait intéressant de voir, dans le futur, de quelle manière le dépôt de thèses du MIT va évoluer alors que face à lui, nous retrouvons le dépôt DSpace qui, pourquoi pas, pourrait également héberger des thèses. DSpace mettant les documents entièrement à disposition des visiteurs et permettant, lui, la recherche full text. Nous pouvons nous demander quelle sera la place réservée au dépôt de thèses si ces dernières peuvent être mises à disposition sur DSpace. Peut­être n’offrira­t­il qu’un accès aux thèses plus anciennes qui nécessitent d’être scannées et mises sous format image pour être ensuite diffusées sur le net ce qui pourrait justifier les coûts d’accès aux formats plus ergonomiques. DSpace pourrait donc influencer l’évolution de l’accès aux thèses du MIT.

Lire le mémoire complet ==> (Réflexions sur quelques nouveaux modèles de communication scientifique)
Diplôme d’études spécialisées (D.E.S.) en sciences et technologies de l’information
Université Libre de Bruxelles – Faculté de Philosophie et Lettres Section Infodoc