Pour indexer des documents, il existe deux notions à retenir
Qu'est-ce qu'indexer ?
Indexer consiste à trouver tous les sujets d'un document
L'indexation résulte d'une analyse textuelle sémantique en vue de détecter à l'aide de termes d'indexation les concepts qui caractérisent un document. Cette opération permettra de dégager dans la masse documentaire l'information nécessaire au repérage des documents désirés par l'usager.
Dans une phase préalable dite d'analyse, et à l'aide des mots clés contenus dans les textes soumis à l’indexation, elle consiste à extraire tous les éléments d'information (concepts) éventuellement utiles à leur usage ultérieur et, dans une deuxième phase, à transposer ces données brutes dans un langage tiré d'un lexique documentaire normalisé ou codé (langage documentaire), c'est-à-dire en descripteurs. La transcription en langage documentaire se fait au moyen d'outils d'indexation tels les thésaurus, les répertoires de sujets ou les classifications.
2.3.1Quelques définitions :
terme d'indexation :
Un terme d'indexation, mot ou expression (mot composé), est en premier lieu choisi pour représenter un concept ou une notion de façon non équivoque.
mot clé :
Un mot-clé est un terme tiré du document avant d'être traduit dans un langage documentaire.
un descripteur :
Il s'agit d'un terme préférentiel (par exemple le terme ARME BLANCHE au lieu de : Poignard, Épée, Glaive) puisque le vocabulaire est contrôlé, par rapport à un autre terme, dit non préférentiel, comme un synonyme (Poignard, Épée, Glaive) ou un homographe (FILS pour la filiation ou la matière).
Au lieu de dresser une liste alphabétique de sujets, on peut choisir une présentation hiérarchique permettant d'étaler les termes à l'intérieur du regroupement systématique des concepts par thèmes ou par facettes, i.e. une classification des descripteurs, et recourir à la fonction "PLAN" pour naviguer dans les arborescences.
L’analyse documentaire consiste en deux sous-tâches
Trouver l'information
La recherche du ou des sujets d'un document nécessite une compréhension globale du projet de l'auteur : de quoi parle-t-il ? à qui s'adresse-t-il ? l'auteur a-t-il donné une forme particulière à son document ? Or l'appréhension du document différera selon le type de document à indexer. Des techniques de lecture sommaire vont permettre à l'indexeur de rapidement découvrir la structure d'un texte et de repérer à l'intérieur d'un document écrit les éléments d'information nécessaires à l'indexation.
Les sciences de la documentation possèdent leurs propres techniques dont celle du repérage des critères de reconnaissance (titre, résumé, table des matières, introduction, graphiques, etc.), ponctuée de la cueillette des mots clés.
Exprimer l'information
Le langage naturel utilise différentes unités lexicales ; seuls sont retenus les noms ou substantifs, quitte à leur ajouter d'autres mots pour les qualifier. Pour trier l'information, il faut se munir d'une grille de présentation des mots-clés tirés du texte, capable de préparer le réseau sémantique jusqu'à la planification des descripteurs auxiliaires ou des identificateurs, facilitant le passage de l'analyse et du langage naturel à l'indexation comme telle et au langage documentaire
Choisir les descripteurs :
La sélection des concepts indexables
. Les mots-clés prélevés par l'analyste comme représentatifs de l'information contenue dans le document ne seront pas tous nécessairement retenus pour l'indexation; celle-ci doit être adaptée au système d'indexation choisi par l'indexeur. L'indexeur a relevé tous les concepts ayant une valeur potentielle; cela mesure l'exhaustivité de l'indexation. Cette adaptation s'obtiendra donc par une variation des paramètres de l'indexation: son étendue (exhaustivité) et sa spécificité.
Une première règle générale demeure : indexer au niveau le plus spécifique (ce qui exige de l'usager une connaissance suffisante des relations entre les termes de l'outil d'indexation). Cette règle sera d'un grand secours pour résoudre plusieurs problèmes. D'où l'importance d'avoir développé un outil d'indexation précis, sinon facile à mettre à jour. Indexera-on de la même façon des petits et des grands documents ? Couvrira-t-on les parties, grandes ou petites, d'un document ? Un usager peut donner une extension plus grande à une notion à peine développée par un auteur. À quelles questions le document donne-t-il une réponse pertinente ? Toutes ces notions figurent-elles dans l'indexation ?
La représentation des concepts dans le langage documentaire
Le moment est alors venu de formuler en langage documentaire, à l'aide de l'outil d'indexation adopté, les concepts présélectionnés.
La connaissance de l'outil d'indexation est donc essentielle à la conversion des mots-clés. L'attribution juste des descripteurs facilitera le choix des concepts lors du repérage de l'information ultérieurement. Il y a intérêt à utiliser encore le mode d'affichage PLAN pour repérer le ou les descripteurs spécifiques
Procédure
•1. Retrouver la classe susceptible de contenir le ou les concepts au niveau 1 ou les termes génériques.
• 2. Copier le terme approprié, sortir du logiciel de traitement de texte, coller le terme d'indexation à l'endroit indiqué dans le fichier. Ajouter les étiquettes pour distinguer les descripteurs des autres termes du texte, si elles n'y sont pas déjà.
• 3. ATTENTION : il faut vérifier si des espaces blancs ont été copiés durant l'opération, car vous manquerez le repérage de ce document lors d'une interrogation
2.4 Techniques d'indexation des documents numérisés
Plusieurs techniques d’indexation existent pour effectuer une indexation, l’indexation peut être manuelle (l'utilisateur qui saisit les index au vu du contenu du document); à l'opposé, des procédés automatiques sont mises en œuvre dans le but de traiter d’une façon directe le contenu d’un document. Les principaux outils et techniques sont les suivants :
indexation statistique qui consiste à supprimer les mots vides de sens et à ne retenir comme mots clés que ceux qui dépassent un seuil de fréquence d'apparition,
indexation "full-text" ou texte intégral effectué d’une manière automatique C'est l'ensemble d'un texte traité mot par mot. La technique d'indexation texte plein (full text) permet de gérer un texte grâce à un ensemble de mots représentatifs (on évite les articles le, la ...). Cela permet de faire des recherches sur le langage naturel (et pas forcément par l'intermédiaire d'un index de mots clefs) associée à des dictionnaires ou des thesaurus,
analyse linguistique : La finalité des techniques d'indexation ou de représentation de contenu est de constituer une base de données des différents éléments de description des documents permettant d'établir les liens entre descripteurs et documents. C'est à partir de cette base de données que se feront les recherches et les sélections de documents.
Dostları ilə paylaş: |