Extension de XQuery (bibliothèque de fonctions pour les documents MultiX)
Interrogation des documents multi-structurés Extension de XQuery
Q1 : Trouver tous les mots endommagés, c'est-à-dire composés seulement de caractères endommagés
En XQuery :
Interrogation des documents multi-structurés Extension de XQuery
Q2 : Trouver tous les mots qui sont coupés en fin de ligne dans le texte original
En XQuery :
Interrogation des documents multi-structurés Extension de XQuery
Q3 : Trouver les mots qui contiennent des caractères restaurés. Indiquer pour chaque mot trouvé les caractères restaurés qu’il contient et la localisation de la ligne contenant ce mot sur l’image du manuscrit.
En XQuery :
Résultat de Q3 :
Conclusion
Avantages
Un formalisme basé sur le modèle générique MSDM
Une syntaxe XML (simplicité et portabilité)
Élimination de la redondance du contenu (structure de base)
Les squelettes des structures documentaires ne changent pas
La localisation par ancre permet de faciliter la gestion de l’évolution des documents multi-structurés
Corrélation entre les différentes structures grâce aux relations de correspondance
Interrogation plus efficace au moyen d’un langage adapté
Inconvénients
Les documents MultiX sont difficiles à créer manuellement
Un processus totalement automatisé est également très difficile à mettre au point
Nécessite un important effort de programmation pour parser les documents MultiX
Perspectives
Amélioration du parseur MXP (Multi-XML Parser) pour faciliter la création des documents MultiX à partir de fichiers XML existants
Compléter la bibliothèque de fonctions XQuery
Création d’un parseur permettant d’analyser les documents MultiX
Intégration de tous les outils dans un environnement de gestion de documents multi-structurés