Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par sj. Darmoni et A. Rogozan



Yüklə 445 b.
tarix29.10.2017
ölçüsü445 b.
#20541


Automatisation des tâches documentaires dans un catalogue de santé en ligne

  • Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan.

  • Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 – INSA & Université de Rouen

  • Equipe CISMeF, CHU de Rouen.


Plan

  • Introduction

  • Tâches documentaires

    • Présentation
    • Veille et description documentaires
  • Indexation automatique MeSH

    • Description du système MAIF
      • Approche TAL
      • Approche k-PPV
      • Fusion des approches
    • Indexation d’un texte avec MAIF
    • Evaluation du système MAIF (vs. systèmes francophones, MTI)
  • Conclusion et perspectives



Introduction

  • Objectifs :

    • Vers la « compréhension » des documents de Santé par la machine
    • Automatisation des tâches documentaires
  • Contexte: le Catalogue et Index des Sites dicaux Francophones

    • Projet initié in 1995 (http://www. cismef.org)
    • ~14,000 ressources  professionnels de santé, étudiants, patients
    • Mise à jour manuelle: 55 nouvelles ressources par semaine
    • ~ 1.500 ressources en attente
  • Automatisation des tâches documentaires nécessaire, en particulier pour l ’indexation.

  • Démarche expérimentale « Bottom-up » : modélisation des problèmes, expérimentation, analyse des résultats, + itération



Tâches documentaires : présentation



Tâches documentaires : présentation



Tâches documentaires : veille





Tâches documentaires : création d’une notice semi-automatique

  • Extraction automatique (à partir d’une URL) des éléments suivants :

    • Indexation MeSH (+ titre et format de la ressource)
    • Catégorisation en spécialités médicales ou « métatermes » (notices longues)
  • Les autres éléments restent extraits manuellement (Résumé, nom d’auteur, date de publication, etc. )



Tâches documentaires : catégorisation en spécialités médicales

  • Avant l’indexation : optique de désambigüisation.

    • En cardiologie l’acronyme « IVG » dénote une tandis qu’en chirurgie il dénote une .
    • Modèles de Compression [AIME 2003]
  • Après l’indexation : utilisation de l’indexation MeSH

    • On peut déduire qu’une ressource indexée par le mot clé relève de pédiatrie.
    • Liens Sémantiques [IJMI 2004]
  • La seconde méthode est utilisée en pratique



Indexation Automatique MeSH

  • Objectifs définis par l’équipe après des tests infructueux de logiciels d’indexation existants :

  • Augmenter la couverture du catalogue

  • Permettre un gain de temps

  • Maintenir une indexation respectant les principes de l’indexation manuelle:

    • Descripteurs obligatoires (check tags)
    • Associations mot clé / qualificatif
    • Taille variable de l’index


Indexation Automatique MeSH : le système MAIF

    • L’indexation comme traduction conceptuelle: approche Traitement Automatique du Langage Naturel [IPM 2005]
      • Dictionnaires électroniques MeSH
      • Bibliothèque de transducteurs
      • Formalisation de règles d’indexation
    • L’indexation comme une catégorisation fine : approche k Plus Proches Voisins
      • Extraction automatique de Titres
    • Fusion des approches et sélection de l’index final [TALN 2005]


Le système MAIF : approche TAL

  • L’algorithme suit la méthode manuelle [Lancaster, 1991]

  • 1. Analyse de la ressource pour en extraire des concepts:

  • Repérage des éléments textuels (analyse de surface)

  • 2. Traduction dans le vocabulaire contrôlé :

  • Mapping vers les termes MeSH

  • 3. Correction en fonction des règles d’indexation

    • Utilisation des propriétés de la terminologie
    • Sélection (quasi) systématique des check tags
    • Application de règles d’indexation


MAIF – TAL : dictionnaires électroniques MeSH

  • Format DELA (Dictionnaire Electronique du LADL, le Laboratoire d'Automatique Documentaire et Linguistique créé par M. Gross)

  • Versions contenant les formes fléchies: DELAF pour les mots simples et DELACF pour les mots composés.

  • FormeFléchie,FormeCanonique.InfoFlexionnelle



MAIF – TAL : dictionnaires électroniques MeSH - Principe

  • Format ~ DELA: FormeMeSH,TermeMeSH.InfoFlexionnelle

  • ex: grippe,grippe.N:fs (DELA)

  • acariose,acarioses.N:fs (*DELA)

  • Définition de classes de termes

  • ex: MALADIE (C et F03)

    • ACTION ( D27.505)
    • SUBSTANCE (D sauf D05, D12, D13, D25, D27.505)
  • Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs, MALADIE, etc.

  • ex: grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms



MAIF – TAL : dictionnaires électroniques MeSH - Source

  • Dictionnaires DELA existants

  • ex : grippe,grippe.N+MeSH+MALADIE+z1:ms

  • Ressources UMLF

    • Flexions et dérivations pour les mots simples
    • Validation manuelle :
  • *spironolactoner,spironolactone.V+MeSH  entrée rejetée

  • diagnostiquer,diagnostic.V+MeSH  entrée conservée

  • Synonymes MeSH et CISMeF

  • ex : sorroche,mal des montagnes.N+MeSH+MALADIE:ms

    • Génération puis validation des pluriels


MAIF – TAL : dictionnaires électroniques MeSH Traduction automatique de synonymes

    • Collaboration avec S. Ozdowska (ERSS, Toulouse) : méthode d’appariement par propagation syntaxique
      • Le couple amorce (protective/protecteur) permet d’apparier les termes (clothing/vêtements) par propagation de la relation ADJ-N :
      • Traduction directe et compositionelle [EGC 2005], [TIA 2005]
      • Corpus CISMeF, RCP, Hansard


MAIF – TAL : dictionnaires électroniques MeSH Bilan [INTEX04]

  • Couverture de ~83% du MeSH (soit ~ 2,23 entrées/terme)

  • Extrait du dictionnaire

    • Entrée « triviale » :
    • diabete de type i,diabete de type i.N+MeSH:ms
    • Variante orthographique :
    • diabete de type 1, diabete de type i.N+MeSH:ms
    • Synonymes :
    • diabete juvenile, diabete de type i.N+MeSH:ms
    • diabete insulinodependant, diabete de type i.N+MeSH:ms
    • Flexions :
    • diabetes de type i, diabete de type i.N+MeSH:mp
    • diabetes juveniles, diabete de type i.N+MeSH:mp (synonyme)
    • Dérivations :
    • diabetique de type 1, diabete de type i.N+MeSH:ms (variante)
    • diabetiques de type i, diabete de type i.N+MeSH:mp


MAIF – TAL : transducteurs MeSH

    • Description des termes complexes à l’aide de grammaires locales


MAIF – TAL : Formalisation des règles d’usage des qualificatifs

  • Règles implémentées pour l’extraction de paires mot clé / qualificatif – ex :

  • Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE »  La paire < MALADIE/PC> doit être utilisée pour l’indexation.



MAIF – TAL : Formalisation des règles d’usage des qualificatifs

  • Règles non implémentées

  • Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE »

    • Si ACTION ET SUBSTANCE
    • ET
    • ET < SUBSTANCE /TU>
    • Si ACTION ET NON SUBSTANCE
    • ET
    • Si NON ACTION ET NON MALADIE
  • (défaut)

  • OU (intervention E04)

  • OU< MALADIE/RT> (traitement par rayons)



MAIF – TAL : (1) Analyse de la ressource (2) traduction MeSH des concepts

  • INTEX/NooJ [Silberztein, 93] : Outils linguistiques d’analyse de corpus utilisables en ligne de commande

  • Implémentent des fonctions pour automates et transducteurs

    • temps de traitement indépendant de la taille des dictionnaires (~23.000 mots clés MeSH)
    • Application des dictionnaires et transducteurs
      • Mots clés MeSH
      • Qualificatifs MeSH
      • Paires mot clé / qualificatif MeSH


MAIF – TAL : (3) Correction de l’indexation

  • Hiérarchie : indexation au plus précis

  • diabète

  • diabète de type II

  • diabète gestationnel

  • diabète de type I

  • report des occurrences de vers ses fils

  • Associations MC / Q : validation et appariement

    • à l’intérieur d’une même phrase
    • avec les MC les + fréquents sinon
  • Calcul de score: tf*idf

  • Check Tags: promus au rang 1 si fréquence > 2



MAIF – TAL : Bilan

  • Extraction précise des termes apparaissant explicitement en corpus

  • Mais silence sur les termes à portée globale

    • ex : <étude comparative>
  • Nécessité d’une autre approche

    • Méthode de classification
    • La norme « indexation » [NF Z 47-102, 1978] souligne l’importance des titres


Le système MAIF : k-PPV, approche des k Plus Proches Voisins

  • Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué.

  • eg: Le diabète de type 1 ->{diabète, type, 1}

  • Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance d’édition)

  • Candidats à l’indexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à l’index d’un voisin) et k (le MC appartient à l’index des k voisins)



MAIF k-PPV: bilan

  • Extraction des termes à portée globale

  • Mais fiabilité aléatoire

    • Significativité du titre
    • Disponibilité de voisins réellement proches
  • Nécessité de fusionner les approches TAL et k-PPV



Le système MAIF : fusion des approches TAL et k-PPV

  • Score fusionné :

  • Application de Règles d’indexation après fusion

    • Substitution (MeSH) « MC1/Q1  MC2 »
  • ex :

    • Adjonction (CISMeF) «  MC1/Q1  MC1/Q1 + MC2 /Q2 »
  • ex : +



Le système MAIF : fusion des approches TAL et k-PPV fonction de rupture

  • Soit une liste de N candidats à l’indexation ordonnée en fonction des scores Si décroissants.

  • Le seuil T est :

  • Ainsi, seuls les T candidats de rang i=1, …, T sont retenus pour l’index final.



Indexation d’un texte avec MAIF : pré-traitement



Indexation d’un texte avec MAIF: analyse de surface, traduction MeSH



Indexation d’un texte avec MAIF: analyse de surface, traduction MeSH



Indexation d’un texte avec MAIF: appariement des qualificatifs isolés



Indexation d’un texte avec MAIF: scores et post-traitement



Indexation d’un texte avec MAIF: recherche des Plus Proches Voisins

  • Réduction du risque de diabète de type 2 chez les enfants autochtones du Canada

  • Diabète de type 2 ou diabète non insulino-dépendant

  • Allergies et hypersensibilités de type 1 chez l'enfant et chez l'adulte



Indexation d’un texte avec MAIF: Fusion, sélection de l’index



Évaluation de MAIF



Evaluation des sytèmes d’indexation MeSH Francophones [AIME 2005]



Résultats: F-measure / rang (couverture MeSH de MAIF ~35%)



Résultats: F-measure / rang (Couverture MeSH de MAIF ~35%)



Résultats: F-measure / rang (Couverture MeSH de MAIF ~60%)



Evaluation de MTI et MAIF sur un corpus parallèle (50 ressources) [AMIA 2005]

  • MTI offre de meilleures performances

  • L’évaluation a permis une comparaison des méthodes d’indexation

  • Pour MAIF, l’approche k-PPV est limitée par la taille de la base d’apprentissage (N~14 000 vs. 10,6 millions pour MTI)



Le système MAIF : Bilan

  • Le développement de MAIF a permis d’enrichir les ressources terminologiques et de formaliser les règles d’indexation

  • Le système MAIF

    • Respecte les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …)
    • Peut contribuer à combler le silence de l’indexation manuelle
  • Evaluation

    • MAIF offre des performances équivalentes ou supérieures aux systèmes Francophones existants
    • MTI offre de meilleures performances sur l’anglais, mais MAIF peut apporter des améliorations (indexation par paires, fonction de rupture)


Conclusion : Automatisation des tâches documentaires



Conclusion

  • Terminologie Médicale :

    • Mise à disposition de la communauté d’un dictionnaire et d’une bibliothèque de transducteurs MeSH
  • Indexation MeSH :

    • Le système MAIF prouve la faisabilité d’une indexation automatique MC/Q
  • Evaluation :

    • Mise en place d’une campagne d’évaluation des systèmes d’indexation MeSH francophones –> réflexion sur les outils d’évaluation


Perspectives

  • Finalisation de l’intégration de MAIF dans le processus CISMeF

  • Evaluation opérationnelle de l’utilisation semi-automatique de MAIF par les indexeurs CISMeF :

    • évaluation qualitative (précision, impact sur le silence de l’indexation manuelle)
    • évaluation quantitative (réduction des délais d’indexation)
  • Amélioration des approches TAL et k-PPV, de la fusion

  • Post-Doc NLM :

    • Adaptation de l’extraction de paires MC/Q MeSH dans MTI
    • Application de la fonction de rupture


Généralisation des travaux

  • Indexation avec d’autres terminologies médicales (SP 1ére année de thèse) :

    • Intégration de MAIF
    • Application des approches TAL et k-PPV sur CIM-10, CCAM et SNOMED (UMLS)
  • Formalisation de règles à l’aide de transducteurs :

    • Application à l’analyse des RCP avec un thésaurus du VIDAL
    • Application à l’indexation par triplets MC/Q\TR
  • Classification :

    • Création d’un outil bibliométrique [BMC Medical Informatics 2006]
    • Application « documents proches », et illustration cartographique


Quelques publications détaillant ces travaux:

  • Revues

    • Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in French with a controlled vocabulary for the CISMeF catalogue; IPM 2006
    • Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using CISMeF MeSH “Encapsulated” Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004
    • Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006
  • Conférences internationales

    • Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English MeSH Indexing systems with a parallel corpus ; AMIA 2005
    • Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005
  • Conférences Nationales

    • Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français. EGC 2005
    • Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources terminologiques en santé pour un système d’indexation automatique; Journées INTEX/NOOJ 2004;


Discussion: MAIF

  • Les deux méthodes:

    • Respectent les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …)
    • Tiennent compte dans une certaine mesure des méthodes d’indexation manuelle
  • Méthode k-NN:

    • Fondée sur les titres (?superficiel?)
    • Non productif (perpétue le silence)
  • Méthode TALN:

    • Traite la ressource complète (?trop de détail?)
    • Peut combler les silences de l’indexation manuelle
  • Fusion: l’efficacité dépend des résultats k-NN…



Catégorisation après l’indexation



Résultats sur 125 ressources

  • Précision de ~80% %, rappel 93%

  • Cette méthode est actuellement utilisée pour la catégorisation des ressources CISMeF.

  • Pas d'apprentissage préalable

  • L’analyse des résultats a permis d’enrichir la terminologie (création de nouveaux liens et de nouveaux métatermes)

  • Développement d’un outil bibliométrique fondé sur une méthode similaire [Darmoni et al. 05, à paraître dans BMC]



Analyse des résultats d’une évaluation préliminaire (TALN)

  • Check tags

    • Silence de l’indexation manuelle -> valeur ajoutée du système
  • Sélection de mots clefs non représentatifs

    • Utilisation de « probabilités de sélection » pour pondérer les scores des candidats.
    • Pour chaque terme t, on a:


Extraction Automatique du titre et du format



Résultats sur 339 URLs

    • 68% d ’extractions pertinentes


Traduction compositionelle

  • They may care for immunocompromised patients (including premature infants)

  • Ils peuvent s'occuper de patients immunodéprimés (y compris de bébés prématurés)

  • premature prématuré

  • The infant can be vaccinated at birth

  • L'enfant pourra être vacciné après sa naissance

  • birth naissance

  • premature birthnaissance prématurée



Yüklə 445 b.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin