Règles implémentées pour l’extraction de paires mot clé / qualificatif – ex :
Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE » La paire < MALADIE/PC> doit être utilisée pour l’indexation.
MAIF – TAL : Formalisation des règles d’usage des qualificatifs
Règles non implémentées
Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE »
Si ACTION ET SUBSTANCE
ET
ET < SUBSTANCE /TU>
Si ACTION ET NON SUBSTANCE
ET
Si NON ACTION ET NON MALADIE
(défaut)
OU (intervention E04)
OU< MALADIE/RT> (traitement par rayons)
MAIF – TAL : (1) Analyse de la ressource (2) traduction MeSH des concepts
INTEX/NooJ [Silberztein, 93] : Outils linguistiques d’analyse de corpus utilisables en ligne de commande
Implémentent des fonctions pour automates et transducteurs
temps de traitement indépendant de la taille des dictionnaires (~23.000 mots clés MeSH)
Extraction précise des termes apparaissant explicitement en corpus
Mais silence sur les termes à portée globale
ex : <étude comparative>
Nécessité d’une autre approche
Méthode de classification
La norme « indexation » [NF Z 47-102, 1978] souligne l’importance des titres
Le système MAIF : k-PPV, approche des k Plus Proches Voisins
Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué.
eg: Le diabète de type 1 ->{diabète, type, 1}
Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance d’édition)
Candidats à l’indexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à l’index d’un voisin) et k (le MC appartient à l’index des k voisins)
MAIF k-PPV: bilan
Extraction des termes à portée globale
Mais fiabilité aléatoire
Significativité du titre
Disponibilité de voisins réellement proches
Nécessité de fusionner les approches TAL et k-PPV
Le système MAIF : fusion des approches TAL et k-PPV
L’évaluation a permis une comparaison des méthodes d’indexation
Pour MAIF, l’approche k-PPV est limitée par la taille de la base d’apprentissage (N~14 000 vs. 10,6 millions pour MTI)
Le système MAIF : Bilan
Le développement de MAIF a permis d’enrichir les ressources terminologiques et de formaliser les règles d’indexation
Le système MAIF
Respecte les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …)
Peut contribuer à combler le silence de l’indexation manuelle
Evaluation
MAIF offre des performances équivalentes ou supérieures aux systèmes Francophones existants
MTI offre de meilleures performances sur l’anglais, mais MAIF peut apporter des améliorations (indexation par paires, fonction de rupture)
Conclusion : Automatisation des tâches documentaires
Conclusion
Terminologie Médicale :
Mise à disposition de la communauté d’un dictionnaire et d’une bibliothèque de transducteurs MeSH
Indexation MeSH :
Le système MAIF prouve la faisabilité d’une indexation automatique MC/Q
Evaluation :
Mise en place d’une campagne d’évaluation des systèmes d’indexation MeSH francophones –> réflexion sur les outils d’évaluation
Perspectives
Finalisation de l’intégration de MAIF dans le processus CISMeF
Evaluation opérationnelle de l’utilisation semi-automatique de MAIF par les indexeurs CISMeF :
évaluation qualitative (précision, impact sur le silence de l’indexation manuelle)
évaluation quantitative (réduction des délais d’indexation)
Amélioration des approches TAL et k-PPV, de la fusion
Post-Doc NLM :
Adaptation de l’extraction de paires MC/Q MeSH dans MTI
Application de la fonction de rupture
Généralisation des travaux
Indexation avec d’autres terminologies médicales (SP 1ére année de thèse) :
Intégration de MAIF
Application des approches TAL et k-PPV sur CIM-10, CCAM et SNOMED (UMLS)
Formalisation de règles à l’aide de transducteurs :
Application à l’analyse des RCP avec un thésaurus du VIDAL
Application à l’indexation par triplets MC/Q\TR
Classification :
Création d’un outil bibliométrique [BMC Medical Informatics 2006]
Application « documents proches », et illustration cartographique
Quelques publications détaillant ces travaux:
Revues
Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in French with a controlled vocabulary for the CISMeF catalogue; IPM 2006
Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using CISMeF MeSH “Encapsulated” Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004
Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006
Conférences internationales
Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English MeSH Indexing systems with a parallel corpus ; AMIA 2005
Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005
Conférences Nationales
Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français. EGC 2005
Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources terminologiques en santé pour un système d’indexation automatique; Journées INTEX/NOOJ 2004;
Discussion: MAIF
Les deux méthodes:
Respectent les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …)
Tiennent compte dans une certaine mesure des méthodes d’indexation manuelle
Méthode k-NN:
Fondée sur les titres (?superficiel?)
Non productif (perpétue le silence)
Méthode TALN:
Traite la ressource complète (?trop de détail?)
Peut combler les silences de l’indexation manuelle