Archives ouvertes : Métadonnées



Yüklə 38,81 Kb.
tarix17.01.2019
ölçüsü38,81 Kb.
#100029

AO. Métadonnées.  

V4-04-12-2006


Archives ouvertes : Métadonnées.
Synthèse des remarques de la SDBIS, du SCD de l’université de Franche comté, du centre de documentation de l’INSA de Lyon. 13 novembre 2006

Réponses, questions et remarques du CCSD (daniel charnay, en bleu)[couleur automatique]



Réponse au CCSD
Remarques générales :

1 - Des définitions seraient utiles : proceedings, affiliations, notions de titre et d’auteur générique.

Sans doute mais je ne comprends pas bien la remarque, pouvez vous développer ?


  • Les termes dont la définition est demandée sont des exemples de ceux pour lesquels il existe une ambiguïté préjudiciable à la qualité des données. Il est souhaitable que le glossaire des archives partagées définisse ces notions.

  • Par exemple « proceedings », qui recoupe parfois d’autres types de documents, dont on trouve plusieurs définitions : compte rendu de conférence, actes d’un colloque, d’un congrès, … Est-ce toute la « manifestation » qui est référencée, même si les actes ne sont pas publiés, sont-ce uniquement les actes publiés ? . Vous n’ignorez pas non plus les débats en cours sur la définition des affiliations.

  • Ainsi, non seulement les déposants, en fonction de leur discipline, pourront faire des choix de types de documents éclairés, mais aussi les systèmes d’information qui récupèreront les données pourront les gérer. Dans le cas d’établissements qui devront rassembler des informations en provenance de plusieurs bases thématiques, une harmonisation est nécessaire.

2 - Il faudrait distinguer pour les articles les prépublications des post-publications, car les MD de droit sont différentes, comme le caractère obligatoire et facultatif de certaines MD.

C’est le cas. Lorsque l’on dépose une post-publication (ou que l’on vient compléter une pré publication qui est devenue une publication) les références bibliographiques deviennent obligatoires : titre de la revue issu du référentiel, volume, page, année, etc. D’autres données complémentaires sont aussi demandées mais de façon optionnelle comme par exemple le DOI.

En effet, il est donc d’autant plus nécessaire que cette information soit explicitée et fournie comme métadonnée.

Où doit-on faire apparaître ces notions clés ?

Dans HAL, elles ne me semblent pas figurer en clair. Voici ce que nous croyons comprendre :


  • Si le document n’est pas encore publié, on choisit de déposer dans « texte intégral ». C’est donc une prépublication ?

A la fin de ce 1er écran de dépôt, si tout compte fait le document a été publié, on peut cliquer sur « Ajouter la référence bibliographique » et on rebondit vers le choix d’un type de publication. Si on choisit « article », une fenêtre s’ouvre pour saisir les références du « document hôte » (revue ou ouvrage).

  • Si on choisit de déposer « un texte intégral + une notice bibliographique », c’est que l’article a déjà été publié et on accède directement à l’ensemble des métadonnées descriptives, y compris celles du « document hôte ». Est-ce le cas d’une postpublication ?

C’est donc, sauf si quelque chose nous échappe et c’est fort possible, de manière implicite que l’on sait s’il s’agit d’une pré ou d’une postpublication, par la présence ou l’absence de métadonnées propres à la revue ou à l’ouvrage.
3 - Nous estimons qu’il faut distinguer les thèses des HDR.

Dans TEL-HAL la distinction est faite, le choix est obligatoire en entrée. Les méta données sont différentes pour les deux types (école doctorale pour l’un, président du jury / directeur de thèse, etc.).



Oui, il faut donc fournir cette métadonnée « type de document » ainsi que la liste des métadonnées qui en dérivent.
4 - Les MD des thèses françaises sont normalisées, nous n’avons pas enrichi le document de HAL sachant que des discussions sont en cours pour les échanges en HAL et STAR. Penser toutefois à l’impact sur les affiliations (école doctorale)

Les MD de STAR sont plus riches que celles de TEL-HAL celui-ci ne recueillera donc que le sous-ensemble qui lui est nécessaire.

5 - Types de publications, qui remplit cette métadonnée ?

Le contributeur (chercheur : auteur, documentaliste, …)



Il est souhaitable que cette métadonnée, qui conditionne les autres, soit indiquée très tôt dans la chaîne de dépôt et que ses modifications soient traçables.
6 - L’harmonisation entre les MD propres aux différentes bases et aux différents types de publication nous semble indispensable ; pourquoi ne pas utiliser les qualificatifs pour gérer les spécificités (systèmes d’indexation, langues, etc)

Je ne comprends pas cette phrase, pouvez expliquer d’avantage ?



Par exemple, la métadonnée « résumé » figure dans plusieurs bases sous des noms différents. Nous avons noté « résumé dans la langue du document », « résumé », « résumé dans une autre langue »[laquelle ?] et « résumé en anglais ». Il serait souhaitable qu’il n’y ait qu’une métadonnée « résumé », qui soit répétable et qualifiée par la langue. Cette dernière information peut être gérée automatiquement, en s’appuyant sur les codes de langue ISO au moment des échanges. Les établissements auront en effet à gérer des informations provenant de ou exportées vers plusieurs bases, par exemple HAL SHS et HAL INSERM pour une université pluridisciplinaire.
Remarques sur les MD elles-mêmes.

Catalogage, nous estimons que certaines MD ne doivent pas être facultatives mais obligatoires (Cf Tableau ci-joint)

Je n’ai pas encore examiné le tableau



Indexation, nous estimons que les MD sur les résumés et les mots clés doivent être qualifiées, notamment pour la langue.

Je suis personnellement assez d’accord avec cette remarque, cette option n’a cependant pas été prise. A rediscuter sans doute



Sans aucun doute. Le problème de la qualification des zones ne se pose pas seulement pour l’indexation ou l’affectation dans les disciplines (dans la mesure où nous avons besoin de champs disciplinaires d’échelles différentes),. Le problème est très comparable pour les dates : il faut spécifier si la métadonnée « date » échangée est une date de dépôt, de rédaction, de mise en ligne…

Il s’agit d’une zone qui peut être renseignée automatiquement, en fonction de la base, du contributeur ou de l’origine du document.
De même les classifications doivent être qualifiées pour les systèmes employés. Ajouter Dewey et classification UNIT

Ces classifications ne sont pas « accessibles » pour le chercheur. Si elles devaient être mise en œuvre ce devrait être alors une complémentation ultérieure au dépôt faite par des professionnels de la documentation. Ceci est possible techniquement dans HAL et a été implémenté dans archive-edutice. Dans cette utilisation le déposant ne voit pas ces classifications qui ne sont accessibles qu’avec un rôle particulier. La complémentation de tous les dépôts nécessiterait sans doute des ressources humaines importante



Il ne s’agit pas ici de décider qui remplit quel type de métadonnée ou si elle est nécessaire pour tous les types de documents. Il s’agit de qualifier cette information pour pouvoir la gérer automatiquement : tris, tables de correspondance, affichage ou masquage, etc.

Contexte, la notion de « document » est trop vague, il conviendrait de distinguer le document déposé, du document mis en ligne.

Le document déposé EST le document mis en ligne. Le document en texte intégral est propriété de l’auteur nous ne le touchons ou n’intervenons dessus en aucune façon.



N’y a-t-il pas dans certaines bases des conversions de format ou la diffusion d’un même document sous plusieurs formats ?
Identité du déposant, il convient également d’identifier les autres rôles qui interviennent sur le dépôt (documentalistes, etc.)

Je déposerai une présentation Power-Point que nous utilisons dans les formations qui explique les différents rôles et le cycle de vie d’un dépôt.



Dans la mesure où un document et ses métadonnées, au cours de leurs cycles de vie sont soumis à des interventions de différents acteurs, il est important que l’identité des acteurs intervenant sur un document soit tracée.

De même, Hal-Insa propose en équivalence de l’identité du déposant, le champ dc.contributor. Or, le dc.contributor est théoriquement « Une entité qui a contribué à la création du contenu de la ressource ». Le terme « contenu » implique, nous semble t-il, une contribution intellectuelle qui ne peut être assimilée à celle du dépôt (même si le déposant ajoute des métadonnées, par exemple le documentaliste pour les indexations) ; il serait souhaitable que les métadonnées qui recenseront les contributeurs ou les intervenants sur un document qualifient, si cela est possible, leur rôle.

Affiliation, s’agit-il de l’affiliation du déposant ou du document ? Quid en cas de document avec plusieurs auteurs.

Il s’agit de l’affiliation des auteurs de l’article. L’affiliation est obligatoire pour chacun des auteurs, c’est même cette règle, appliquée rigoureusement, qui a fait la force de HAL. Développé comme une archive ouverte, HAL peut instantanément extraire n’importe quelle vue institutionnelle de l’archive.
Sous quelle forme Hal fournit-il les métadonnées d’affiliations ? Les organismes ayant financé une recherche sont-ils mentionnées en métadonnées des publications issues de cette recherche, en particulier quand le chercheur n’est pas affilié à ces organismes ?

Ne pas ignorer le niveau de l’établissement.

Qu’entendez-vous par niveau d’établissement ? L’affiliation est sélectionnée via le laboratoire (référentiel). Ce dernier contient toutes les tutelles dont il dépend (Université(s), grande(s) école(s), Etablissement(s) de recherche avec leur référencement spécifique (par exemple CNRS:UMR2732, INRIA:UR21, etc.)
Lors de la fourniture des métadonnées, cette information est-elle explicitée ou doit-elle être reconstruite à partir des tables de référence ?
Techniques, l’identifiant doit être obligatoire et qualifié.

De quel identifiant parlez-vous ? Un dépôt reçoit automatiquement un identifiant unique, celui-ci est partie intégrante d’un autre identifiant qui en découle et qui est l’identifiant OAI L’identifiant unique est ulisé pour générer l’URL pérenne. Voici un exemple d’identifiant :


hal-00114391, version 1 : identifiant unique

http://hal.archives-ouvertes.fr/hal-00114391 : URL pérenne associée

oai:hal.archives-ouvertes.fr:hal-00114391_v1 : référence OAI-PMH


Vous remarquerez que les identifiants ont migré en « archives-ouverte.fr » mais pour assurer la pérennité les identifiants de anciens articles en « .ccsd.cnrs.fr » répondrons aussi.
Nous avons constaté qu’à ce jour plusieurs systèmes de numérotation et d’identification des documents sont pertinents en fonction des bases, ou des types de documents, il est donc souhaitable que tout document ait au moins un identifiant, que la structure des métadonnées des identifiants permette que tout identifiant soit qualifié, de préférence automatiquement, afin de permettre des traitements.

hal-00114391, version 1 : « identifiant unique interne de Hal »

http://hal.archives-ouvertes.fr/hal-00114391 : « URL pérenne associée dans Hal »

oai:hal.archives-ouvertes.fr:hal-00114391_v1 : « référence OAI-PMH de HAl »
ou encore

doi:10.1000/182 « DOI »

0-09-007075-5 « ISB- 10 »

978-2-7073-1326-3 « ISBN-13 »
Etc.

Qu’est-ce que la version, les différentes versions sont-elles fonction du contenu ou du format ?

La version est la faculté pour un auteur (contributeur) de déposer une nouvelle version du texte intégral de son article. Les nouvelles versions ne sont donc fonction que d’une révision scientifique de l’article déposé.
Le versement d’un même article dans des langues ou formats différents est-il exclu ou s’agit-il d’un dépôt multiple ?
Manque le type de fichier, le volume du fichier.

Le type de fichier est contenu dans l’extension de son nom (.pdf, .doc, .teX, …) ceci facilite l’accès directe en cliquant. Hal détecte les types de fichier et les classes dans des répertoires différents si nécessaire. Par exemple répertoire TeX pour l’ensemble des fichiers TeX composant l’article, puis, après compilation, création automatique du répertoire PDF qui reçoit le PDF généré.


La pérennisation des informations demandera sans doute un peu plus de détails que le suffixe du fichier. La version du format considéré serait nécessaire.

Le volume (en Koctets c’est bien de cela que l’on parle ?) est toujours indiqué à côté de l’icône qui représente le type de fichier et qui sert de lien pour le téléchargement



Cette information est effectivement présente dans Hal. Elle peut d’autant plus facilement être renseignée automatiquement lors d’un échange de métadonnées. Il faut juste être d’accord sur le fait qu’il s’agit d’une information qui mérite d’être transcrite et de spécifier sous quelle forme elle sera transcrite dans les métadonnées.
Remarques sur les MD par types de documents ou par bases.

Qu’est-ce qu’un titre générique (obligatoire pour les conférences et les proceedings ) ?

Je crois que cette formulation n’est utilisée que sur HAL-SHS et devrait être supprimée. Christine pourra donner plus d’information
S’il s’agit du titre de la conférence, cet élément serait également obligatoire pour les chapitres d’ouvrages pour le titre de l’ouvrage, de même que l’ISBN. Qu’est-ce qu’un auteur générique ? le directeur de publication pour un ouvrage collectif ?

Idem, Christine ?



S’il s’agit du titre de l’ouvrage d’où est extrait le chapitre déposé sur HAL, c’est une information nécessaire.
Le pays est obligatoire et répétable pour les thèses.

Je ne comprends pas, pouvez vous développer ?


Dans le cadre des thèses en co-tutelle internationale, la France s’est engagée à mentionner les pays partageant le sceau.

Métadonnées de gestion : tout est à faire ;o))

Droit d’auteur, s’aligner sur les notions gérées par les creatives commons ?

Sauf erreur il n’y a pas de traduction française reconnue des creatives common mais je reconnais mon incompétence en ce domaine.


La version française des Creative Commons a été finalisée en 2004 et est reconnue par creative commons.org

« Le CERSA, Centre d'Etudes et de Recherches de Science Administrative, laboratoire de recherche rattaché à l'Université Panthéon-Assas Paris 2 et au Centre National de la Recherche Scientifique - CNRS est l'institution affiliée à Creative Commons en France. » http://fr.creativecommons.org. L’annonce de Science Commons a constitué un événement important mais il ne semble pas en revanche, y avoir actuellement de traduction française de ce complément aux licences http://prosper.inist.fr/article.php3?id_article=3

Confidentialité ou embargo, cette notion est nécessaire,

Elle est implémentée
Elle doit être spécifiée dans les métadonnées.
donner une date de levée, plutôt qu’une période.

C’est tout à fait possible, il me semblait plus simple de donner une durée, à décider ?


Et toujours, la question de la signature électronique et des éléments permettant de contrôler l’intégrité du document déposé.

Alors là je vais m’éclater (gentiment) un peu ;o)) pardonnez moi mais j’ai beaucoup donné pour la certification électronique et pas mal travaillé autour du PKI1 du CNRS. J’ai développé aussi quelques applications pour l’IN2P3 dont l’accès est fondé sur des certificats X5092, donc si on me parle d’intégrité de documents, de non répudiation, d’authentification je pense modestement pouvoir apporter quelques informations…les mécanismes à clé publique et à clé privé c’est un peu mon dessert, ma tasse de thé !!! Je fais donc faire dans le bref ;o)) et dans le simple :

Comme vous le savez donc parfaitement pour signer un document afin de vérifier qu’au cour de son transfert il n’a pas été modifié (intégrité), que c’est bien Mr Smith qui l’a envoyé (authentification), et qu’ainsi il ne pourra jamais dire que ce n’est pas lui qui avait fait le dépôt (non répudiation), il faut un certificat personnel installé sur son PC, bien configuré et bien importé dans son navigateur, vous savez aussi parfaitement que pour avoir un certificat il faut l’obtenir d’une autorité de certification qui elle-même doit être certifié par une autorité supérieure dite racine (généralement payante, par exemple le CNRS ne l’a pas fait, il s’est auto-certifié). Il faut aussi que l’utilisateur sache ce servir de son certificat, qu’il ne le perde pas, qu’il le protége correctement, qu’il sache le transférer quand il change son ordinateur, etc. (j’ai aussi un peu d’expérience sur ce point mais je ne vais pas le développer…)

Imaginons que nos contributeurs décident tous de faire le pas (autant de chance que de gagner au loto ;o), et de se doter d’un certificat dont une utilisation serait le dépôt dans HAL. Quelle est où sont, les autorités que nous allons reconnaître ? Quelques universités je crois ont un PKI, le CNRS en a un ? Quid des contributeurs étrangers ? Qui délivrera des certificats aux autres contributeurs  français ? La mise en œuvre d’un PKI est quelque chose d’extrêmement complexe tant au niveau de l’installation qu’à celui de la sécurisation du système ! Donc dans notre cas qui va proposer pour l’ensemble des établissements de recherche la délivrance d’un certificat via un PKI qu’il saurait mettre en place ? Le ministère de la recherche ? J’ai souvenir, il me semble, que l’UREC en charge de la mise en place du PKI du CNRS avait contacté le ministère pour qu’il devienne un domaine racine des PKI des établissements… heu …

Maintenant regardons les choses en face : de quoi a-t-on peur ? Qu’au cours de son transfert ou de son stockage dans HAL quelqu’un de mal intentionné puisse modifié le texte intégral du document ou en substituer un autre ? Qu’un contributeur usurpe une autre identité ? Vous le croyez vraiment ? Et quand bien même, ce ne serait que l’identité du contributeur, si l’article

qu’il dépose est réel… La seule chose que l’on pourrait imaginer c’est qu’un contributeur renie son dépôt … oui le cas pour un million... peut être…un jour…

En tout cas ma conclusion est que si on veut passer de 2000 dépôts par mois (prévision pour novembre) à moins de 5 par trimestre il suffit d’assujettir le droit du dépôt à la présentation d’un certificat X509, en un mot que je pèse : irréalisable.

En effet, l’authentification des dépôts un à un peut plutôt se faire à partir des outils implantés dans l’environnement numérique ou logiciel des chercheurs. Il serait dommage de ne pas tirer parti de votre expertise dans le domaine pour sécuriser les échanges automatisés d’informations, qui porteront sur de grands volumes, en particulier si les informations transmises par le CCSD doivent être pérennisées.
Cf. notre message du 9 novembre.

Je n’ai pas retrouvé ce message.



Il est sur le wiki http://www.revues.org/cost/index.php/GR2_-_Sous-groupe_M%C3%A9tadonn%C3%A9es



1 PKI : Public Key Infrastructure - Infrastructure à clé publique fondée sur des techniques de cryptage asymétrique utilisant un système de bi clés (clés publique et clés privées) et permettant la sécurisation des échanges électroniques.

2 X509 : dit simplement, le certificat est la carte d’identité électronique d’un individu. Il associe une clé privée (nécessaire à la fabrication de l’empreinte qui va garantir l’intégrité et au cryptage éventuel des données dans le cas de confidentialité du message à transférer) et une clé publique (nécessaire au correspondant qui reçoit l’information pour décrypter l’empreinte et la comparer à celle qu’il va recalculer localement et éventuellement décrypter le message)


Yüklə 38,81 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin