Résumé :
L’extraction d’information (IE) qui a pour objectif d’extraire des données structurées à partir de sources non structurées ou semi-structurées, et notamment du web, est un sujet de recherche qui a suscité beaucoup d’intérêt ces dernières années. En plus de ses nombreuses applications telles que les méta-moteurs de recherche, les comparateurs de prix ou les entrepôts thématiques, l’IE peut être un moyen pour concrétiser la vision « web sémantique » si elle incorpore les descriptions sémantiques des données extraites. Dans ce cas, elle est considérée comme un pont entre le web actuel et le web sémantique.
Dans cette thèse, nous nous inscrivons dans ce dernier point de vue. Nous proposons une solution pour l’extraction des informations contenues dans des pages à instance unique et nous générons leurs descriptions sémantiques conformément à une ontologie « réduite » (Contribution n°1). Nous avons montré qu’il est possible de mener tout le processus de manière complètement automatique et que, pour les sites web riches en données, une ontologie minimale avec une liste réduite d’attributs permet de décrire efficacement les pages. Nous avons appliqué la même démarche aux pages avec liste d’instances (contribution n°2). Nous avons montré que l’incorporation des annotations sémantiques permet de segmenter les données en instances de manière simple et efficace. En plus, et pour nous conformer à l’exigence d’identifiant unique des objets du monde réel prôné par le web sémantique, nous avons proposé une solution pour la réconciliation des références basée sur des mesures de similarité (contribution n°3). Enfin, nous avons proposé une solution pour indexer et interroger les informations extraites (contribution n°4). Cette solution répond aux requêtes exprimées conformément à l’ontologie et retourne des résultats classés par ordre de pertinence.
Mots clés : Extraction d’information, Ontologie, Pages HTML, Réconciliation des références, Concepts formels.
SEMATIC EXTRACTION FROM WEB SOURCES : aN ONTOLGY-BASED APPROACH
Abstract :
Information Extraction (IE) from the web is a hot research topic. Its importance is implied by the increasing number of web sources and the possibility for users to interact with websites using web 2 technologies. IE applications include, among others, meta-searching, comparative shopping and data integration. On the other hand, the semantic web envisioned in the early 2000 starts to produce concrete solutions and seems to be promised to a brilliant future. Here again, IE is relevant. It can be used to bridge the gap between the existing web and the semantic web by incorporating the semantic descriptions for data extracted. IE can be an effective way to generate semantic annotations and RDF triples stores that are the basis of the semantic web.
In this thesis, we rather adhere to this latter view. We propose a solution for the extraction of information contained in single instance pages and generate semantic descriptions in accordance to a domain ontology (Contribution No. 1). We have shown that it is possible to carry out the whole process automatically and that, for rich data pages, a seed ontology with a few number of attributes can describe effectively the pages. We applied the same approach to pages with list of instances (Contribution No. 2). We have shown that the incorporation of semantic annotations eases the segmentation of data into instances in a simple and effective way. In addition, we proposed a solution for entity resolution based on similarity measures to comply with the semantic web requirement of unique identifiers of real-world objects (Contribution No. 3). Finally, we proposed a solution for indexing and querying the extracted information (Contribution No. 4). This solution responds to the requests made in accordance with the ontology and returns results in order of relevance.
Key Words :
Information Extraction, Ontology, HTML pages, Reference reconciliation, Formal Concept Analysis.
Contribution à l’amélioration de la BEMD et à ses applications au traitement d’images
Par
BENKUIDER Aziza
Champs Disciplinaire : Informatique
UFR : Ingénierie des systèmes d’Information, Imagerie et Modélisation
Soutenu le : 09/02/2013
Membres de jury :
HMAMED Abdelaziz, Président
|
Faculté des Sciences Dhar El Mahraz, Fès
|
AARAB Abed allah , Encadrant
|
Faculté des Sciences Dhar El Mahraz, Fès
|
QJIDAH Hassan , Rapporteur
|
Faculté des Sciences Dhar El Mahraz, Fès
|
EL HASSOUNI Mohammed, Rapporteur
|
Faculté des Sciences Dhar El Mahraz, Fès
|
TAIRI Hamid, Membre
|
Faculté des Sciences Dhar El Mahraz, Fès
|
BOUMHIDI Jaouad , Membre
|
Faculté des Sciences Dhar El Mahraz, Fès
|
EL BEQQALI Omar, Membre
|
Faculté des Sciences Dhar El Mahraz, Fès
|
RZIZA Mohamed, Membre
|
Université Mohamed V Agdal, Rabat.
|
Dostları ilə paylaş: |