Bibliothèque de l'EPFL

Projet de semestre / projet de master – Informatique

Analyse et optimisation du processus de
publication électronique des thèses de l'EPFL et de
récolte des métadonnées

Mots clés : documents structurés, e-theses, XML, métadonnées, XMetaDiss, METS, Web services, ΤΕΧ, PDF, open access, OAI-PMH, document workflow

Responsables

Enseignant : Christine Vanoirbeek.
Encadrants du projet à la Bibliothèque de l'EPFL : Georges Iffland (personne de contact) et David Aymonin.

Etendue du projet

L'étude va de la création initiale du document de thèse par le doctorant à sa diffusion sous forme électronique en formats portables et archivables à long terme, et sous forme imprimée.
Les objectifs de réalisation et la profondeur de l'analyse prospective portant sur le développement de services innovateurs dans le concept Web 2.0 seront adaptés selon le niveau de l'étudiant (Bachelor ou master).

Contexte

La Bibliothèque de l'EPFL est responsable du dépôt légal des thèses de l'EPFL. Elle maintient un catalogue complet, remontant à 1920 ; il est enrichi par des données obtenues du Service académique.
Depuis 2004, la Bibliothèque a décidé de diffuser et archiver les thèses sous forme numérique. La numérisation rétrospective a été réalisée avec l'aide d'une société externe. Elle propose désormais sur son site Web le texte intégral , sous forme de fichiers PDF, de la totalité du fonds (plus de 3800 thèses). La thèse est accessible sur le Web dans le monde entier, avec l'accord de l'auteur, sinon en intranet seulement. Dans ce dernier cas, la Bibliothèque fournit à la demande un exemplaire numérique selon une procédure manuelle pour l'instant. La Bibliothèque assure un archivage de toutes les thèses, mais selon un accord national, c'est la Bibliothèque nationale suisse (BNS) qui se charge de l'archivage à long terme.

Actions et objectifs du projet

  1. Analyser les flux actuels des fichiers de thèses et des métadonnées, englobant les divers partenaires concernés : doctorants, Service académique, Service de reprographie, Bibliothèque, infoscience, demandes individuelles, Bibliothèque nationale et le Réseau des bibliothèques de Suisse occidentale (RERO). Détecter les points forts et les points faibles.
  2. Recommander des mesures de mise en conformité avec le cahier des charges de la Bibliothèque nationale.
  3. Comparer avec ce qui se fait ailleurs.
  4. Proposer un modèle optimal de chaîne de production, qui prend en compte :
    • la réduction du temps de travail manuel
    • une réduction des saisies multiples
    • l'enrichissement semi-automatique des métadonnées
    • l'ensembles des métadonnées à récolter et à transmettre
    • un contrôle de la qualité.
  5. Sont attendus :
    • des modèles de documents structurés, à l'usage du doctorant
    • l'automatisation de certaines procédures, par exemple l'extraction du résumé et de la liste des mots-clés figurant dans la thèse, récolte des données, etc.

Projet de semestre de Bogdan Stefanescu

Année académique 2008-2009, 1er semestre. Durée du projet: 14 semaines