MAIF – TAL : dictionnaires électroniques MeSH Traduction automatique de synonymes
Collaboration avec S. Ozdowska (ERSS, Toulouse) : méthode d’appariement par propagation syntaxique
Le couple amorce (protective/protecteur) permet d’apparier les termes (clothing/vêtements) par propagation de la relation ADJ-N :
Traduction directe et compositionelle [EGC 2005], [TIA 2005]
Corpus CISMeF, RCP, Hansard
MAIF – TAL : dictionnaires électroniques MeSH Bilan [INTEX04]
Couverture de ~83% du MeSH (soit ~ 2,23 entrées/terme)
Extrait du dictionnaire
Entrée « triviale » :
diabete de type i,diabete de type i.N+MeSH:ms
Variante orthographique :
diabete de type 1, diabete de type i.N+MeSH:ms
Synonymes :
diabete juvenile, diabete de type i.N+MeSH:ms
diabete insulinodependant, diabete de type i.N+MeSH:ms
Flexions :
diabetes de type i, diabete de type i.N+MeSH:mp
diabetes juveniles, diabete de type i.N+MeSH:mp (synonyme)
Dérivations :
diabetique de type 1, diabete de type i.N+MeSH:ms (variante)
diabetiques de type i, diabete de type i.N+MeSH:mp
MAIF – TAL : transducteurs MeSH
Description des termes complexes à l’aide de grammaires locales
MAIF – TAL : Formalisation des règles d’usage des qualificatifs
Règles implémentées pour l’extraction de paires mot clé / qualificatif – ex :
Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE » La paire < MALADIE/PC> doit être utilisée pour l’indexation.
MAIF – TAL : Formalisation des règles d’usage des qualificatifs
Règles non implémentées
Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE »
Si ACTION ET SUBSTANCE
ET
ET < SUBSTANCE /TU>
Si ACTION ET NON SUBSTANCE
ET
Si NON ACTION ET NON MALADIE
(défaut)
OU (intervention E04)
OU< MALADIE/RT> (traitement par rayons)
MAIF – TAL : (1) Analyse de la ressource (2) traduction MeSH des concepts
INTEX/NooJ [Silberztein, 93] : Outils linguistiques d’analyse de corpus utilisables en ligne de commande
Implémentent des fonctions pour automates et transducteurs
temps de traitement indépendant de la taille des dictionnaires (~23.000 mots clés MeSH)
Application des dictionnaires et transducteurs
Mots clés MeSH
Qualificatifs MeSH
Paires mot clé / qualificatif MeSH
MAIF – TAL : (3) Correction de l’indexation
Hiérarchie : indexation au plus précis
diabète
diabète de type II
diabète gestationnel
diabète de type I
…
report des occurrences de vers ses fils
Associations MC / Q : validation et appariement
à l’intérieur d’une même phrase
avec les MC les + fréquents sinon
Calcul de score: tf*idf
Check Tags: promus au rang 1 si fréquence > 2
MAIF – TAL : Bilan
Extraction précise des termes apparaissant explicitement en corpus
Mais silence sur les termes à portée globale
ex : <étude comparative>
Nécessité d’une autre approche
Méthode de classification
La norme « indexation » [NF Z 47-102, 1978] souligne l’importance des titres
Le système MAIF : k-PPV, approche des k Plus Proches Voisins
Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué.
eg: Le diabète de type 1 ->{diabète, type, 1}
Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance d’édition)
Candidats à l’indexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à l’index d’un voisin) et k (le MC appartient à l’index des k voisins)
MAIF k-PPV: bilan
Extraction des termes à portée globale
Mais fiabilité aléatoire
Significativité du titre
Disponibilité de voisins réellement proches
Nécessité de fusionner les approches TAL et k-PPV
Le système MAIF : fusion des approches TAL et k-PPV
Score fusionné :
Importance égale pour les deux approches
Rang vs. score relatif : résultats équivalents
Application de Règles d’indexation après fusion
Substitution (MeSH) « MC1/Q1 MC2 »
ex :
Adjonction (CISMeF) « MC1/Q1 MC1/Q1 + MC2 /Q2 »
ex : +
Le système MAIF : fusion des approches TAL et k-PPV fonction de rupture
Soit une liste de N candidats à l’indexation ordonnée en fonction des scores Si décroissants.
Le seuil T est :
Ainsi, seuls les T candidats de rang i=1, …, T sont retenus pour l’index final.
Indexation d’un texte avec MAIF : pré-traitement
Indexation d’un texte avec MAIF: analyse de surface, traduction MeSH
Indexation d’un texte avec MAIF: analyse de surface, traduction MeSH
Indexation d’un texte avec MAIF: appariement des qualificatifs isolés
Indexation d’un texte avec MAIF: scores et post-traitement
Indexation d’un texte avec MAIF: recherche des Plus Proches Voisins
Réduction du risque de diabète de type2chez les enfants autochtones du Canada
Diabète de type2 ou diabète non insulino-dépendant
Allergies et hypersensibilités de type 1 chez l'enfant et chez l'adulte
Indexation d’un texte avec MAIF: Fusion, sélection de l’index
Évaluation de MAIF
Evaluation des sytèmes d’indexation MeSH Francophones [AIME 2005]
Résultats: F-measure / rang (couverture MeSH de MAIF ~35%)
Résultats: F-measure / rang (Couverture MeSH de MAIF ~35%)
Résultats: F-measure / rang (Couverture MeSH de MAIF ~60%)
Evaluation de MTI et MAIF sur un corpus parallèle (50 ressources) [AMIA 2005]
MTI offre de meilleures performances
L’évaluation a permis une comparaison des méthodes d’indexation
Pour MAIF, l’approche k-PPV est limitée par la taille de la base d’apprentissage (N~14 000 vs. 10,6 millions pour MTI)
Le système MAIF : Bilan
Le développement de MAIF a permis d’enrichir les ressources terminologiques et de formaliser les règles d’indexation
Le système MAIF
Respecte les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …)
Peut contribuer à combler le silence de l’indexation manuelle
Evaluation
MAIF offre des performances équivalentes ou supérieures aux systèmes Francophones existants
MTI offre de meilleures performances sur l’anglais, mais MAIF peut apporter des améliorations (indexation par paires, fonction de rupture)
Conclusion : Automatisation des tâches documentaires
Conclusion
Terminologie Médicale :
Mise à disposition de la communauté d’un dictionnaire et d’une bibliothèque de transducteurs MeSH
Indexation MeSH :
Le système MAIF prouve la faisabilité d’une indexation automatique MC/Q
Evaluation :
Mise en place d’une campagne d’évaluation des systèmes d’indexation MeSH francophones –> réflexion sur les outils d’évaluation
Perspectives
Finalisation de l’intégration de MAIF dans le processus CISMeF
Evaluation opérationnelle de l’utilisation semi-automatique de MAIF par les indexeurs CISMeF :
évaluation qualitative (précision, impact sur le silence de l’indexation manuelle)
évaluation quantitative (réduction des délais d’indexation)
Amélioration des approches TAL et k-PPV, de la fusion
Post-Doc NLM :
Adaptation de l’extraction de paires MC/Q MeSH dans MTI
Application de la fonction de rupture
Généralisation des travaux
Indexation avec d’autres terminologies médicales (SP 1ére année de thèse) :
Intégration de MAIF
Application des approches TAL et k-PPV sur CIM-10, CCAM et SNOMED (UMLS)
Formalisation de règles à l’aide de transducteurs :
Application à l’analyse des RCP avec un thésaurus du VIDAL
Application à l’indexation par triplets MC/Q\TR
Classification :
Création d’un outil bibliométrique [BMC Medical Informatics 2006]
Application « documents proches », et illustration cartographique
Quelques publications détaillant ces travaux:
Revues
Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in French with a controlled vocabulary for the CISMeF catalogue; IPM 2006
Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using CISMeF MeSH “Encapsulated” Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004
Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006
Conférences internationales
Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English MeSH Indexing systems with a parallel corpus ; AMIA 2005
Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005
Conférences Nationales
Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français. EGC 2005
Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources terminologiques en santé pour un système d’indexation automatique; Journées INTEX/NOOJ 2004;
Discussion: MAIF
Les deux méthodes:
Respectent les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …)
Tiennent compte dans une certaine mesure des méthodes d’indexation manuelle
Méthode k-NN:
Fondée sur les titres (?superficiel?)
Non productif (perpétue le silence)
Méthode TALN:
Traite la ressource complète (?trop de détail?)
Peut combler les silences de l’indexation manuelle
Fusion: l’efficacité dépend des résultats k-NN…
Catégorisation après l’indexation
Résultats sur 125 ressources
Précision de ~80% %, rappel 93%
Cette méthode est actuellement utilisée pour la catégorisation des ressources CISMeF.
Pas d'apprentissage préalable
L’analyse des résultats a permis d’enrichir la terminologie (création de nouveaux liens et de nouveaux métatermes)
Développement d’un outil bibliométrique fondé sur une méthode similaire [Darmoni et al. 05, à paraître dans BMC]
Analyse des résultats d’une évaluation préliminaire (TALN)
Check tags
Silence de l’indexation manuelle -> valeur ajoutée du système
Sélection de mots clefs non représentatifs
Utilisation de « probabilités de sélection » pour pondérer les scores des candidats.
Pour chaque terme t, on a:
Extraction Automatique du titre et du format
Résultats sur 339 URLs
68% d ’extractions pertinentes
Traduction compositionelle
They may care for immunocompromised patients (including premature infants)
Ils peuvent s'occuper de patients immunodéprimés (y compris de bébés prématurés)