Travaux sur les métadonnées - Généralités Sources d’information sur les métadonnées de HAL -
Dictionnaire des métadonnées de HAL . Ce document décrit les métadonnées telles qu’elles sont enregistrées dans le système HAL actuel.
-
Import XML dans HAL et Schémas XML correspondant. Ces documents décrivent les formes utilisables pour entrer des données dans HAL depuis l’extérieur, par exemple depuis une autre base de données.
-
Données de HAL exposées au travers du protocole OAI-PMH, en Dublin Core (oai_dc ) et selon des formats propres à HAL (oai_hal , oai_inria , oai_halshs ) ; Schémas XML correspondants.
-
Documents relatifs aux Web Services de HAL : Documentation technique des Web Services HAL et Documentation simplifiée des Web Services HAL .
Les métadonnées de HAL peuvent apparaître sous des formes différentes selon les outils utilisés (saisie, importation, exportation OAI, extraction…). Pour valider les métadonnées de HAL, il faut donc les analyser à partir des préoccupations suivantes :
-
s’assurer que les métadonnées qui semblent indispensables sont bien présentes dans HAL et peuvent être saisies sans ambiguïté depuis l’interface HAL ou importées depuis un système externe ;
-
vérifier que les formats d’exportation des métadonnées de HAL correspondent à l’ensemble des besoins exprimés ;
-
vérifier la compatibilité et la conformité avec les standards internationaux.
Besoins exprimés -
disposer d’un premier niveau de métadonnées suffisamment simples et explicites pour être renseignées directement par les chercheurs au moment du dépôt d’une publication ;
-
disposer éventuellement d’un niveau plus complet de métadonnées, en complément du premier, pouvant être renseignés par des documentalistes ;
-
permettre des imports de métadonnées issues de systèmes documentaires externes.
Ces deux derniers besoins amènent à confronter les métadonnées actuelles de HAL avec les standard habituels des bases de données documentaires, et à proposer la modification ou l’ajout de certains champs à HAL, même s’ils ne sont pas directement accessibles aux chercheurs qui déposent.
Il est par exemple demandé que certains champs puissent être qualifiés dans HAL (par la référence à une langue, un langage d’indexation, une classification…), de sorte que l’information présente dans d’autres systèmes puisse être répercutée dans HAL sans perte de qualité.
Par ailleurs, les besoins d’interopérabilité s’expriment de manière plus symétrique que ce que propose HAL actuellement : il ne s’agit pas seulement de pourvoir entrer des données dans HAL et de les récupérer sous la forme proposée par HAL, mais de pouvoir organiser réellement des échanges entre des systèmes qui doivent coexister et gérer dans le temps des données dont certains éléments sont communs. La définition d’un format d’échange « pivot », servant à la fois aux entrées et aux sorties, permettrait d’aller plus facilement dans cette direction.
Types de publications
Dans HAL, le type de publication a un rôle bien particulier : il permet de déterminer quelles sont les métadonnées bibliographiques demandées lors des saisies ou des exports, et de préciser éventuellement le caractère obligatoire de la saisie.
Modifications récentes de la liste des types
La liste a été modifiée récemment dans HAL et dans HAL-SHS, qui s’appuient maintenant sur la même liste. Elle se rapproche de la liste suggérée par le ministère pour établir les listes de publications de manière standardisée.
-
Articles dans des revues avec comité de lecture
-
Articles dans des revues sans comité de lecture
-
Conférences invitées
-
Communications avec actes
-
Communications sans actes
-
Ouvrages scientifiques
-
Chapitres d'ouvrages scientifiques
-
Brevets
-
Autres publications
-
Thèses
-
HDR
Cas des prépublications
Le groupe de travail propose que les prépublications figurent plus explicitement dans la liste des types de publication de l’archive ouverte commune.
Ce n’est pas le cas aujourd’hui ; le terme de prépublication n’est d’ailleurs pas utilisé dans HAL. Il est simplement prévu des dépôt de publication sans référence bibliographique (et donc sans type de publication). Cela peut entraîner des incompréhensions et une difficulté à identifier le statut réel d’un document déposé dans HAL.
-
Lors de la saisie dans HAL, il n’est pas fait mention explicitement aux prépublications : on peut simplement déposer un document en texte intégral sans référence bibliographique …
-
Lorsqu’on importe des données dans HAL, le cas des prépublications n’est pas explicitement prévu. On peut simplement entrer une pulication sans donner de type et sans donner de référence bibliographique.
-
Dans les outils d’export (OAI-PMH au format HAL), en revanche, ces documents sont bien associés à un type de données particulier dans la balise hal:type (code=UNDEFINED, mais description=Preprint), de manière explicite.
Par ailleurs, il est souhaitable de conserver la trace du statut de chaque version d’une publication, au moment de son dépôt. Un document peut être entré initialement comme une prépublication (sans type), puis la notice peut être enrichie (en particulier avec un vrai type) au moment où le papier est effectivement publié. Il en résulte une ambiguïté sur le statut du document initial, qui n’est pas présenté alors comme une publication. Deux pistes possibles :
-
Donner accès aux métadonnées de chacune des versions du documents (cela semble possible – voir avec Daniel).
-
Ajouter dans le document au format PDF des informations son statut au moment du dépôt à la manière du filigrane actuelle ajouté dans la mage de gauche (identifiant).
Tronc commun de métadonnées
Voir le tableau en annexe pour l’analyse fine des champs et du caractère obligatoire ou facultatif de certains champs.
Qualification de certains champs
Pour prendre mieux en compte certaines informations sur la langue (résumés, titres, mots clés), sur le langage documentaire, le thésaurus ou la classification utilisé (mots clés, classifications…) ou même les identifiants utilisés (DOI, identifiants HAL, identifiant WOS, identifiant dans un autre système), il est souhaitable que HAL puisse mémoriser des métadonnées qualifiées.
Cela pourrait être implémenté de manière générique, dans les formats d’entrée ou d’import, par l’ajour d’un attribut dont les valeurs possibles seraient contrôlées dans HAL, par exemple :
xxx
ou
579.178 8
ou
579.178 8
Cela suppose que l’information puisse être mémorisée dans HAL, et éventuellement saisie par les documentalistes quand c’est possible. En revanche, il n’est pas forcément nécessaire que ce niveau de qualification soit proposé dans le formulaire destiné aux chercheurs.
Au lieu de prévoir dans HAL plusieurs champs pour les résumés, les mots clés, les classifications ou les identifiants, on pourrait plutôt prévoir un seul champ répétable, pouvant être qualifié. Cela évitera d’avoir des demandes ultérieures de créations de nouveaux champs pour assurer la compatibilité avec des systèmes existants : il suffira de prévoir une nouvelle valeur pour la qualification de la métadonnées (exemple : introduction d’une classification issue d’un nouvel ENT).
Identifiants
Nécessité de prévoir dans HAL la possibilité de mémoriser les identifiants propres bases de données « partenaires », en cas d’échange de données entre systèmes. C’est une bonne pratique pour garantir que chacun retrouve ses données et peut faire des mises à jour fiables (en utilsiant son identifiant, par exemple).
Il est également souhaité que des identifiants comme le numéro ISI dans le Web of Science puisse être mémorisé et rendu accessible.
Cela pourrait être implémenté comme un champ identifiant qualifié par un code propre à chaque organisme partenaire, la liste de ces codes étant contrôlée.
Exemple (réel) :
hal-00022458
oai:hal.archives-ouvertes.fr:hal-00022458_v1
doi:10.1016/j.palaeo.2003.12.005
fdi:010033591
000220676900001
Thèses et HDR
Travail à poursuivre pour se rapprocher des systèmes en vigueur : STAR… Référentiels des écoles doctorales…
Métadonnées de gestion et droits
Dans HAL, il est actuellement prévu 4 cas pour la gestion des droits
1 : « Les fichiers que je dépose sont des fichiers auteur »
2 : « Cet éditeur fait partie de ceux qui autorisent le dépôt des "fichiers éditeur" sur une archive ouverte »
3 : « J'ai obtenu l'accord explicite de cet éditeur pour ce dépôt particulier »
4 : « Le ou les auteurs n'ont cédé par écrit aucun droit à cet éditeur »
Travail à poursuivre – problème des Creative Commons réclamés par le groupe de travail
Annexe 3 – Tableau des domaines disciplinaires
Domaine disciplinaire HAL Equivalent dans arXiv
Physique [physics]
Matière Condensée [cond-mat]
Electrons fortement corrélés [cond-mat.str-el]
Matière Molle [cond-mat.soft]
Mécanique statistique [cond-mat.stat-mech]
Science des matériaux [cond-mat.mtrl-sci]
Supraconductivité [cond-mat.supr-con]
Systèmes désordonnés et réseaux de neurones [cond-mat.dis-nn]
Systèmes mésoscopiques et effet Hall quantique [cond-mat.mes-hall]
Autre [cond-mat.other]
Mécanique [physics]
Biomécanique [physics.med-ph]
Génie mécanique [physics.class-ph]
Mécanique des fluides [physics.class-ph]
Mécanique des matériaux [physics.class-ph]
Mécanique des structures [physics.class-ph]
Mécanique des solides [physics.class-ph]
Thermique [physics.class-ph]
Vibrations [physics.class-ph]
Matériaux et structures en mécanique [physics.class-ph]
Acoustique [physics.class-ph]
Physique [physics]
Agrégats Moléculaires et Atomiques [physics.atm-clus]
Analyse de données, Statistiques et Probabilités [physics.data-an]
Biophysique [physics.bio-ph]
Chimie-Physique [physics.chem-ph]
Dynamique des Fluides [physics.flu-dyn]
Enseignement de la physique [physics.ed-ph]
Géophysique [physics.geo-ph]
Histoire de la Physique [physics.hist-ph]
Instrumentations et Détecteurs [physics.ins-det]
Optique [physics.optics]
Physique : vulgarisation [physics.pop-ph]
Physique Atmosphérique et Océanique [physics.ao-ph]
Physique Atomique [physics.atom-ph]
Physique Classique [physics.class-ph]
Physique de l'espace [physics.space-ph]
Physique des accélérateurs [physics.acc-ph]
Physique des plasmas [physics.plasm-ph]
Physique et Société [physics.soc-ph]
Physique Générale [physics.gen-ph]
Physique Médicale [physics.med-ph]
Physique Numérique [physics.comp-ph]
Astrophysique [astro-ph]
Physique des Hautes Energies - Expérience [hep-ex]
Physique des Hautes Energies - Phénoménologie [hep-ph]
Physique des Hautes Energies - Réseau [hep-lat]
Physique des Hautes Energies - Théorie [hep-th]
Physique Mathématique [math-ph]
Physique Nucléaire Expérimentale [nucl-ex]
Physique Nucléaire Théorique [nucl-th]
Physique Quantique [quant-ph]
Relativité Générale et Cosmologie Quantique [gr-qc]
Mathématiques [math]
Algèbre commutative [math.AC]
Algèbres d'opérateurs [math.OA]
Algèbres quantiques [math.QA]
Analyse classique [math.CA]
Analyse complexe [math.CV]
Analyse fonctionnelle [math.FA]
Analyse numérique [math.NA]
Anneaux et algèbres [math.RA]
Catégories et ensembles [math.CT]
Combinatoire [math.CO]
Equations aux dérivées partielles [math.AP]
Géométrie algébrique [math.AG]
Géométrie différentielle [math.DG]
Géométrie métrique [math.MG]
Géométrie symplectique [math.SG]
Histoire et perspectives sur les mathématiques [math.HO]
K-théorie et homologie [math.KT]
Logique [math.LO]
Mathématiques générales [math.GM]
Optimisation et contrôle [math.OC]
Physique mathématique [math.MP]
Systèmes dynamiques [math.DS]
Théorie des groupes [math.GR]
Théorie des nombres [math.NT]
Probabilités [math.PR]
Théorie des représentations [math.RT]
Théorie spectrale [math.SP]
Topologie algébrique [math.AT]
Topologie générale [math.GN]
Topologie géométrique [math.GT]
Statistiques [math.ST]
Informatique [cs]
Algorithme et structure de données [cs.DS]
Analyse numérique [cs.NA]
Apprentissage [cs.LG]
Architecture [cs.AR]
Arithmétique des ordinateurs
Automatique
Base de données [cs.DB]
Bibliothèque électronique [cs.DL]
Bio-informatique [q-bio.QM]
Biotechnologie
Calcul parallèle, distribué et partagé [cs.DC]
Complexité [cs.CC]
Cryptographie et sécurité [cs.CR]
Génie logiciel [cs.SE]
Géométrie algorithmique [cs.CG]
Imagerie médicale
Informatique et langage [cs.CL]
Informatique et théorie des jeux [cs.GT]
Informatique mobile
Informatique ubiquitaire
Ingénierie, finance et science [cs.CE]
Ingénierie assistée par ordinateur
Intelligence artificielle [cs.AI]
Interface homme-machine [cs.HC]
Langage de programmation [cs.PL]
Littérature générale [cs.GL]
Logiciel mathématique [cs.MS]
Logique en informatique [cs.LO]
Mathématique discrète [cs.DM]
Modélisation et simulation
Multimédia [cs.MM]
Ordinateur et société [cs.CY]
Performance et fiabilité [cs.PF]
Recherche d'information [cs.IR]
Recherche opérationnelle
Réseau de neurones [cs.NE]
Réseaux et télécommunications [cs.NI]
Robotique [cs.RO]
Son [cs.SD]
Synthèse d'image et réalité virtuelle [cs.GR]
Système d'exploitation [cs.OS]
Systèmes embarqués
Système multi-agents [cs.MA]
Théorie de l'information et codage [cs.IT]
Traitement des images
Traitement du texte et du document
Traitement du signal
Vision par ordinateur et reconnaissance de formes [cs.CV]
Web
Environnements Informatiques pour l'Apprentissage Humain
Autre [cs.OH]
Science non linéaire [nlin]
Adaptation et Systèmes auto-organisés [nlin.AO]
Automates cellulaires et gaz sur réseau [nlin.CG]
Dynamique Chaotique [nlin.CD]
Systèmes Solubles et Intégrables [nlin.SI]
Formation de Structures et Solitons [nlin.PS]
Chimie
Chimie organique
Chimie théorique et/ou physique
Matériaux
Chimie analytique
Chimie inorganique
Chimie thérapeutique
Chimie de coordination
Catalyse
Polymères
Chemo-informatique
Génie chimique
Autre
Sciences de l'Homme et Société
Anthropologie sociale et ethnologie
Archéologie
Anthropologie biologique
Architecture, aménagement de l'espace
Art et histoire de l'art
Démographie
Droit
Economie
Education
Etudes classiques
Etudes de l'environnement
Religions
Sciences de l'information et de la communication
Philosophie
Psychologie
Géographie
Gestion
Héritage culturel et muséologie
Histoire
Linguistique
Littératures
Méthodes et statistiques
Musique, musicologie et arts de la scène
Etudes sur le genre
Histoire, Philosophie et Sociologie des sciences
Sciences politiques
Sociologie
Sciences du Vivant
Biochimie, Biologie Moléculaire
Biochimie [q-bio.BM]
Biologie moléculaire
Biologie structurale [q-bio.BM]
Biophysique
Génomique, Transcriptomique et Protéomique [q-bio.GN]
Bio-Informatique, Biologie Systémique [q-bio.QM]
Biotechnologies
Génétique
Génétique animale
Génétique des plantes
Génétique des populations [q-bio.PE]
Génétique humaine
Biologie cellulaire
Biologie de la cellule (animale, végétale,…) [q-bio.SC]
Interactions cellulaires [q-bio.CB]
Biologie du développement
Embryologie et organogenèse
Gamétogenèse
Morphogenèse
Biologie de la reproduction
Reproduction asexuée
Reproduction sexuée
Microbiologie et Parasitologie
Bactériologie
Mycologie
Parasitologie
Protistologie
Virologie
Cancer
Médecine humaine et pathologie
Anatomie, Histologie, Anatomopathologie [q-bio.TO]
Cardiologie et système cardiovasculaire
Chirurgie
Dermatologie
Endocrinologie et métabolisme
Gériatrie et gérontologie
Gynécologie et obstétrique
Hématologie
Hépatologie et Gastroentérologie
Maladies infectieuses
Maladies émergentes
Organes des sens
Pédiatrie
Physiologie [q-bio.TO]
Pneumologie et système respiratoire
Psychiatrie et santé mentale
Rhumatologie et système ostéo-articulaire
Urologie et Néphrologie
Alimentation et Nutrition
Ethique
Sciences pharmaceutiques
Médicaments
Pharmacie galénique
Pharmacologie
Immunologie
Allergologie
Immunité adaptative
Immunité innée
Immunothérapie
Vaccinologie
Toxicologie
Ecotoxicologie
Toxicologie et chaîne alimentaire
Toxicologie végétale et mycotoxicologie
Neurosciences [q-bio.NC]
Neurobiologie
Psychologie et comportements
Sciences cognitives
Santé publique et épidémiologie
Ingénierie biomédicale
Biomatériaux
Imagerie
Médecine nucléaire
Biologie animale
Médecine vétérinaire et santé animal
Zoologie des invertébrés
Zoologie des vertébrés
Biologie végétale
Amélioration des plantes
Botanique
Phytopathologie et phytopharmacie
Biodiversité
Evolution [q-bio.PE]
Systématique, phylogénie et taxonomie
Ecologie, Environnement
Bioclimatologie
Ecosystèmes
Interactions entre organismes
Santé
Sciences agricoles
Agriculture, économie et politique
Agronomie
Horticulture
Science des sols
Science des productions animales
Sciences et techniques de l'agriculture
Sciences et techniques des pêches
Sylviculture, foresterie
Zootechnie
Ingénierie des aliments
Autre [q-bio.OT]
Planète et Univers
Astrophysique [astro-ph]
Océan, Atmosphère
Sciences de la Terre
Climatologie
Géochimie
Géologie appliquée
Géomorphologie
Géophysique [physics.geo-ph]
Glaciologie
Hydrologie
Météorologie
Minéralogie
Océanographie
Paléontologie
Pétrographie
Planétologie
Stratigraphie
Tectonique
Volcanologie
Interfaces continentales, environnement
Autre
Sciences de l'ingénieur
Traitement du signal
Automatique / Robotique
Micro et nanotechnologies
Electromagnétisme
Optique / photonique
Energie électrique
Acoustique [physics.class-ph]
Milieux fluides et réactifs
Plasmas
Génie des procédés
Mécanique
Biomécanique [physics.med-ph]
Génie mécanique [physics.class-ph]
Mécanique des fluides [physics.class-ph]
Mécanique des matériaux [physics.class-ph]
Mécanique des structures [physics.class-ph]
Mécanique des solides [physics.class-ph]
Thermique [physics.class-ph]
Vibrations [physics.class-ph]
Matériaux et structures en mécanique [physics.class-ph]
Autre
Sciences cognitives
Informatique
Linguistique
Neurosciences
Psychologie
Sciences et Technologies de l'Information et de la Communication (supprimé)
Annexe 4 – Propositions concernant les sciences de l’ingénieur
Documents eXcel adressés sur la liste de diffusion le 26.10.2006
CoST – GR2 – Sous-groupe métadonnées Premier rapport au CoStra /
Dostları ilə paylaş: |