Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2
Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen
Equipe CISMeF & L@STICS, CHU de Rouen.
Plan
Indexation et codage de documents médicaux
Depuis une dizaine d’années:
Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. )
Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…)
Automatisation nécessaire
Exemple d’indexation: notice CISMeF
Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM):
~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés hiérarchiquement (ex: tumeurs du seinest un fils de tumeurs)
84 qualificatifs (ex:diagnostic, thérapeutique …)
265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)
Affiliation de Qualificatifs et de Types de Ressource
Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte.
eg. tumeurs du sein/diagnostic
pied/radiographie
Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information
eg. tumeurs du sein/diagnostic\image
pied\radiographie
Indexation Automatique dans CISMeF
Objectifs définis par l’équipe après test de logiciels d’indexation existants:
Augmenter la couverture du catalogue
Aujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente
Maintenir une indexation respectant les standards de l’indexation manuelle
Notamment, associations Mot Clés/Qualificatifs, et Mot clé/Qualificatifs\Type de Ressource
Algorithme d’indexation
1. Repérage des éléments textuels
2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR)
3. Utilisation des propriétés de la terminologie
- Hiérarchie
- Associations Mot Clé / Qualificatif
4. Sélection (quasi) systématique des check tags
5. Calcul de score (normalisation tf*idf)
6. Constitution de l’index à l’aide d’une fonction de rupture
7. Pondération Majeur/Mineur
Construction des dictionnaires : Principe
Format ~ DELA:
FormeMeSH,MotCléMeSH.InfoFlexionnelle
eg: grippe,grippe.N:fs (DELA)
acariose,acarioses.N:fs (*DELA)
Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, …
Indexation de 82 ressources extraites aléatoirement de CISMeF:
Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60%
On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.
Résultats: rang vs. F-measure
Remarques
Extraction des mots clés:
Limite des dictionnaires: aucun bruit, mais silence du:
Ponctuation, typographie
Variantes non répertoriées
Mot clés « implicites » (eg. étude comparée)
Combinaison avec une méthode d’indexation statistique (kNN)
Perspectives
Amélioration du système:
Enrichissement des ressources linguistiques
Distinction Majeur/Mineur
Mise en production: Automne 2005
Indexation entièrement automatique des ressources portant sur des thèmes déjà largement couverts
Indexation semi-automatique (automatique+validation) pour les autres ressources
Evaluation par les documentalistes (qualitative et quantitative)
Merci de votre attention!
Contact: aneveol@insa-rouen.fr
Références:
[1] Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J. CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5
[2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse.
[3] Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6.
[4] Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36