Formalisation de règles d'indexation Mesh pour un usage automatique Aurélie Névéol1,2, F. Florea1, B. Thirion2, sj. Darmoni1,2



Yüklə 445 b.
tarix29.10.2017
ölçüsü445 b.
#19852


Formalisation de règles d'indexation MeSH pour un usage automatique

  • Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2

  • Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen

  • Equipe CISMeF & L@STICS, CHU de Rouen.


Plan



Indexation et codage de documents médicaux

  • Depuis une dizaine d’années:

  • Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. )

  • Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…)

  • Automatisation nécessaire



Exemple d’indexation: notice CISMeF

  • Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM):

    • ~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs)
    • 84 qualificatifs (ex:diagnostic, thérapeutique …)
  • 265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)



Affiliation de Qualificatifs et de Types de Ressource

  • Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte.

    • eg. tumeurs du sein/diagnostic
    • pied/radiographie
  • Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information

    • eg. tumeurs du sein/diagnostic\image
    • pied\radiographie


Indexation Automatique dans CISMeF

  • Objectifs définis par l’équipe après test de logiciels d’indexation existants:

  • Augmenter la couverture du catalogue

  • Aujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente

  • Maintenir une indexation respectant les standards de l’indexation manuelle

    • Notamment, associations Mot Clés/Qualificatifs, et Mot clé/Qualificatifs\Type de Ressource


Algorithme d’indexation

  • 1. Repérage des éléments textuels

  • 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR)

  • 3. Utilisation des propriétés de la terminologie

  • - Hiérarchie

  • - Associations Mot Clé / Qualificatif

  • 4. Sélection (quasi) systématique des check tags

  • 5. Calcul de score (normalisation tf*idf)

  • 6. Constitution de l’index à l’aide d’une fonction de rupture

  • 7. Pondération Majeur/Mineur



Construction des dictionnaires : Principe

  • Format ~ DELA:

  • FormeMeSH,MotCléMeSH.InfoFlexionnelle

  • eg: grippe,grippe.N:fs (DELA)

  • acariose,acarioses.N:fs (*DELA)

  • Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, …

  • eg: grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms



Construction des dictionnaires : réalisation

  • Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal)

  • Production d’entrées complémentaires:

    • Entrées semi-automatiques (maladies, syndromes, carences, tumeurs, …)
    • Inclusion des synonymes MeSH et CISMeF (génération des entrées puis validation des pluriels)
    • Traduction automatique de synonymes MeSH non traduits (EN/FR)
    • Entrées manuelles
  • Bilan: ~40.000 entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.



Apport lexicographique



Extrait du dictionnaire de mots simples

  • Entrée « triviale »:

  • accidents,accidents.N+MeSH:mp

  • Dérivation:

  • accidentel,accidents.A+MeSH:ms

  • Flexions:

  • accident,accidents.N+MeSH:ms

  • accidentelle,accidents.A+MeSH:fs

  • accidentelles,accidents.A+MeSH:fp

  • accidentels,accidents.A+MeSH:mp



Extrait du dictionnaire de mots composés

  • Entrée « triviale »:

  • diabete insulinodependant,diabete de type I.N+MeSH:ms

  • Variante orthographique:

  • diabete insulino-dependant,diabete de type I.N+MeSH:ms

  • Synonymes:

  • diabete juvenile,diabete de type I.N+MeSH:ms

  • diabete insulinodependant,diabete de type I.N+MeSH:ms

  • Flexion:

  • diabetes de type I,diabete de type I.N+MeSH:mp

  • diabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme)

  • Dérivation:

  • diabetique de type I,diabete de type I.N+MeSH:ms (synonyme)

  • diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)



Construction des transducteurs

  • Règles:

    • Associations Mot clé/Qualificatifs (Indexation de textes)
    • Associations Mot clé/Qualificatifs\Type de Ressource (Indexation texte-image)
    • Priorité aux Qualifs et TR les plus fréquents
  • Bilan: ~15 transducteurs



Méthode

  • Entretien avec un expert MeSH: travail sur corpus indexé

  • Identification de comportements d’indexation récurrents: élaboration des règles

  • Validation par l’expert

  • Implémentation



Associations MC/Q

  • Règle: indication de la technique T -> technique T / UT

  • !! indication de la substance S -> substance S / TU



Associations MC\TR

  • Règle: Image I de l’Organe O -> Organe O\Image I

  • (« Fig. 1: radiographie du pied » ->pied\radiographie)

  • Image I confirmer Maladie M -> Maladie M\Image I

  • (« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)



Règles non prises en charge

  • Si le mot clé est sélectionné, ainsi qu’une MALADIE de l’arborescence C04

  • → la paire doit être utilisée pour l’indexation.

  • "ArthroScanner de l'épaule "

  • → <épaule\tomodensitométrie> + <épaule\arthrographie>

  • + <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …



Impact sur l’indexation

  • Indexation de 82 ressources extraites aléatoirement de CISMeF:

    • Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60%
    • On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.


Résultats: rang vs. F-measure



Remarques

  • Extraction des mots clés:

    • Limite des dictionnaires: aucun bruit, mais silence du:
      • Ponctuation, typographie
      • Variantes non répertoriées
    • Mot clés « implicites » (eg. étude comparée)
  • Combinaison avec une méthode d’indexation statistique (kNN)



Perspectives

  • Amélioration du système:

    • Enrichissement des ressources linguistiques
    • Distinction Majeur/Mineur
  • Mise en production: Automne 2005

    • Indexation entièrement automatique des ressources portant sur des thèmes déjà largement couverts
    • Indexation semi-automatique (automatique+validation) pour les autres ressources
    • Evaluation par les documentalistes (qualitative et quantitative)


Merci de votre attention!

  • Contact: aneveol@insa-rouen.fr

  • Références:

  • [1]   Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J. CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5

  • [2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse.

  • [3]   Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6.

  • [4]   Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36



Yüklə 445 b.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin