2.5Procédure d’indexation
Indexer des documents HTML
-
Sauvegarde du fichier HTML. L'application désignée dans la configuration du navigateur (Netscape ou autre) pour conserver les fichiers peut être, en l'absence d'un éditeur HTML, un éditeur de texte ordinaire (SimpleText ou autre). La fonction Edit du navigateur peut également servir à indexer le fichier,la sauvegarde se fait dans le répertoire RECHERCHE - DOCUMENTATION EXTERNE - SIGNETS ET FICHIERS HTML
-
Inscrire les descripteurs avant la première balise , dévolue à une pagélec sur la Toile ou un balisage du type , de sorte que cette indexation ne transparaisse pas lorsque vous sélectionnez et utilisez par après ce fichier à partir de votre navigateur.
-
Copier aussi l'adresse URL de la pagélec ou du site de même que les références bibliographiques nécessaires aux citations électroniques, dans le cas d'une page empruntée à une revue électronique.
Indexer des messages de courrier électronique
-
Copier les messages par un éditeur de texte (ex. SimpleText )par le logiciel de courriel ; ils sont classés dans le répertoire RECHERCHE - DOCUMENTATION EXTERNE - FICHIERS DE COURRIEL
-
Mettre les étiquettes et les descripteurs au début du document.
-
Il s'agira de les effacer au cas où vous voudriez reproduire ce message, à moins de le repérer dans le logiciel de courriel et de réutiliser l'original.
Indexer un document électronique
Il existe une notion à retenir, comme nous l’avons vu plus haut et ce sont les métadonnées. De plus, il existe une tâche à maîtriser : indexer un site Internet, une pageélec
Première notion à retenir : les métadonnées (vu plus haut)
Petit rappel : Il s'agit de données sur les données contenues dans le document électronique, sur son contexte et sa structure pour qu'il soit compris et utilisable. Le concepteur du site les rajoute dans son code HTML pour que son document puisse être référencé et accessible à partir d’un moteur de recherche .
Indexer un site Internet, une pagélec
Les spécialistes des sciences de l'information se sont penchés sur ce problème et sont en mesure de fournir des éléments de solution. Pour satisfaire le plus de monde, ils suggèrent un mode de catalogage élémentaire à l'intérieur du langage HTML, dans une zone définie comme les Métadonnées, décrivant certains éléments du document, de sorte que les robots de recherche puissent en rendre compte de façon plus précise. En mode d'édition du navigateur ou du logiciel HTML, il est alors possible d'insérer dans la zone SOURCE une liste de mots-clés.
Voici trois façons de le faire
1) La plus simple
le titre de la page
2) En ajoutant un identificateur
Grâce au développement du langage HTML, des spécifications concernant les sujets d'un document peuvent être ajoutées à l'aide de l'identificateur SCHEME pour identifier l'emprunt des mots d'indexation à un organisme normé comme la Bibliothèque du Congrès et insister sur la valeur des descripteurs.
3) En donnant une description SGML
S'inspirant du langage SGML, ce même langage qui a donné naissance au HTML, un groupe de travail a élaboré à Dublin une description DTD (Document type description), description mieux structurée de treize éléments (les sujets en font partie) pour identifier les documents circulant sur Internet.
Remarque : certains traitements de texte ont commencé à intégrer cette description dans leurs fonctions. Elle utilise la syntaxe suivante:
Dublin Core Metadata Element Set: Resource Page
[5]
Après avoir étudié les différentes techniques d’indexation, intéressons-nous à la façon ou la manière dont ces index sont utilisés dans les :
moteurs de recherche : Google sera pris comme exemple
annuaires : Yahoo sera pris comme exemple
méta-moteurs : Kartoo sera pris comme exemple
1) Moteurs de recherche
Le principe de fonctionnement est généralement le même. La plupart des moteurs collectent les données, les archivent, les indexent, et les restituent par ordre de pertinence. Ces moteurs sont composés de plusieurs éléments : un robot qui va collecter les données, un moteur d'indexation, et un moteur d'interrogation.
La collecte des données
Pour la collecte de données, les moteurs utilisent un robot, généralement appelé "spider", ce robot balaie sans arrêt le web et éventuellement les newsgroups pour en archiver intégralement le contenu dans une base de données. Le robot suit tous les liens qu'il rencontre, mais cet agent peut utiliser différents types d'algorithmes pour aller chercher le maximum de pages et c’est dans ce point là que réside la différence de réponse de deux moteurs de recherche. Le problème de ce type d'algorithme est la croissance importante de nombreux sites "isolés", c'est à dire sur lesquels ne pointent aucun lien venant d'autres pages ou sites web, et ceci entraîne un nombre important de sites non répertoriés par les moteurs.
L'immensité de la tâche à accomplir explique qu'un certain délai soit nécessaire au renouvellement de la base de données ainsi créée et ceci explique que l'on puisse donc trouver sur des moteurs des pages qui n'existent plus. A l'inverse plusieurs semaines voire plusieurs mois peuvent être nécessaires avant qu'une nouvelle page soit archivée. Un moyen d'accélérer les choses est alors d'indiquer manuellement (soumission) au robot l'adresse de la page "à visiter"[6].
L'indexation
Cette tâche est effectuée par un autre moteur. Ce moteur associe à chaque page les mots qui y sont le plus fréquemment utilisés, ainsi que les mots du titre ou d'autres parties significatives de la page. Les pages sont ensuite indexées dans des bases de données importantes.
Recherche et présentation des pages
Dans cette tâche, le moteur d'interrogation analyse la question posée par l'internaute exprimée lors d’une requête, la traduit en un ensemble de mots, va rechercher les documents correspondants et les propose par ordre de pertinence décroissant. C'est bien sûr la méthode de calcul de la pertinence utilisée par le moteur qui est à prendre en compte pour optimiser le référencement. Les critères de pertinence les plus souvent rencontrés sont :
-
La présence des mots clés dans le titre, dans l'en-tête, dans le contenu de la page et éventuellement dans les méta-tags
-
La position (haut de page) des mots clés dans la page
-
La répétition (jusqu'à un certain point) des mots clés.
C'est le principe de localisation et de fréquence. Les méthodes employées pour déterminer la pertinence d'un mot clé sont différentes d'un moteur à l'autre, et c'est ce qui explique qu'une même page puisse avoir une qualité de référencement très variable d'un moteur à l'autre sur le même mot clé.[6]
Les principaux moteurs
All The Web, AltaVista FR, Altavista US, Enfin Trouver, Excite, Google, Hotbot, Lycos FR, Lycos US, MSN Search, Teoma, Voila
Fiche de présentation du moteur de recherche Google
Google
Ce moteur de recherche (dont le nom est dérivé du terme "Googol" qui signifie "10 à la puissance 100") a été créé en 1998 par deux étudiants américains. Ce moteur se base très fortement sur la popularité des sites pour établir ses classements.
Type : Moteur
Créé en : 1998
Nom du spider : Googlebot
Nombre de pages indexées : 650 millions
Délai de rafraîchissement : 4 à 6 semaines
Délai de prise en compte : 1 mois
Nombre de langues proposées : 11
Coût du référencement
Référencement gratuit : Oui
Soumission payante : N/A
Référencement payant : N/A
Positionnement payant : depend du nombre de visiteurs du site [6]
Fonctionnalités de Google :
Le moteur de recherche Google possède plusieurs fonctionnalités parmi elles :
Traduction automatique de page Web :
Cette fonction permet la traduction automatique des pages web (version bêta, vers l'anglais uniquement au stade actuel). À partir de la technologie de traduction assistée par ordinateur (TAO/MT) la plus évoluée, Google permet désormais aux utilisateurs anglophones du Web de visiter des pages rédigées dans toute autre langue.
Pages cachées
Lorsque Google explore le Web, il crée une copie de chaque page examinée et la stocke dans une mémoire cache, ce qui permet de consulter cette copie à tout moment, et en particulier dans le cas où la page originale (ou Internet) serait inaccessible. Lorsque le lien « Copie cachée » d'une page Web est cliqué, Google affiche celle-ci dans l'état où elle se trouvait lors de son indexation la plus récente. Par ailleurs, le lien « Copie cachée » n'apparaît pas si le site n'a pas encore été indexé ou si le propriétaire du site a demandé que le contenu caché soit exclu de l'indexation Google.
Pages similaires
Lorsque l’utilisateur clique sur le lien « Pages similaires » associé à l'une des pages du résultat, Google recherche sur le Web les pages à contenu similaire.
Pages liées
Certaines chaînes de caractères, ou « opérateurs », modifient le comportement de Google. Exemple l'opérateur « link:site.com » (sans les guillemets) permet d'afficher les pages extérieures qui pointent sur l'URL spécifiée.
Opérateurs de ciblage
Certaines chaînes de caractères, ou « opérateurs », modifient le comportement de Google. Par exemple, l'opérateur « site: » (sans les guillemets). Pour limiter la recherche à un site ou à un domaine
spécifique, il faut utiliser la syntaxe « site:site_ou_domaine.com » dans le champ de recherche de Google.
J'ai de la chance
Le bouton « J'ai de la chance » affiche directement (et uniquement) la page Web considérée par Google comme la plus pertinente pour la requête exprimée.
Principes de base des recherches Google
Recherche simple
Pour ce type de recherche, l’utilisateur soumet sa requête à Google en saisissant un ou plusieurs mots décrivant les informations recherchées, lorsqu’il valide en appuyant sur la touche Entrée ou en cliquant sur Recherche, le moteur de recherche affiche une liste de page web correspondant à la requête.
Inclusion de l’opérateur AND : cet opérateur est utilisé dans le cas ou la recherche porte sur plusieurs mots, il signifie que le résultat doit comporter tous les mots spécifiés dans la requête, toutefois dans le résultat les mots mentionnées peuvent ou non être à la suite les uns des autres . Remarque : lors de la saisie des mots, si les mots ne sont séparés que par des espaces, cela est équivalent à l’opérateur And
Termes ignorés : Google ignore les chaînes de caractères tels que : le, la, les, du, avec, vous, etc., mais aussi des mots spécialisés tels que « http » et « .com » et les lettres/chiffres d'un seul caractère.
Le processus. : pour forcer l'inclusion d'un mot vide dans une recherche, il suffit de le faire précéder du signe plus ( + ), lui-même précédé d'un espace. Le signe + peut être inclus dans une recherche d’expression
Présentation des termes de recherche dans leur contexte : chaque élément des résultats de recherche Google présente une ou plusieurs occurrences du ou des termes de recherche dans le contexte de leur page Web.
Lemmatisation : Pour garantir des résultats aussi précis que possible, Google n'applique pas de « lemmatisation » (réduction des mots au masculin et/ou au singulier, à l'infinitif, etc.) et ne supporte pas les recherches à base de caractères joker/wildcard. Autrement dit, Google utilise les mots exactement tels que vous les entrez dans le champ de recherche.
MAJUSCULES, minuscules et accents : Google ne tient pas compte des majuscules ou minuscule, le résultat est le même, ainsi que des accents ou autres signes diacritiques (cédille, tilde espagnol, umlaut allemand, etc.).
Recherche avancée : permet de mieux cibler la recherche en incluant d’autres termes de recherche à la requête, ces termes se traduisent par :
Le signe ( - ) : ce signe placé devant un mot permet de l’exclure de la recherche (Le signe moins doit être précédé d'un espace )
Les guillemets : un terme saisi entre des guillemets, apparaîtra tel quel dans les résultats affichés Toutefois, cette règle ne s'applique pas aux « mots vides », qui exigent le signe plus ( + ) pour être pris en compte. Ces recherches entreprises sont particulièrement utiles pour retrouver une citation, un proverbe, un titre de livre ou de film, un titre ou un vers de chanson, un lieu géographique, un personnage célèbre.
Opérateurs de ciblage : ( vu plus haut)
Recherche par catégorie
Le répertoire Google ( http://directory.google.com) permet de rechercher les sites Web les plus pertinents pour un sujet donné et dans un secteur donné. Ce type de recherche permet de diminuer les pages de résultats et d’en augmenter la pertinence
La « recherche avancée » de Google permet d'appliquer les fonctionnalités de Google ( vues plus haut)
2) Annuaires
Fonctionnement des annuaires :
Contrairement aux moteurs de recherches, le référencement se fait manuellement sur certains annuaires, bien sûr après le contrôle dans les catégories pertinentes ( un annuaire étant un site où les sites de sites sont classés thématiquement). Le plus de l’annuaire est le « guidage » de l’utilisateur dans ses recherches, et le classement des sites qui se fait par ordre alphabétique d’où l’accès de l’utilisateur à des catégories de plus en plus précises
Le référencement sur un annuaire est lié à la soumission de l' URL du site à référencer. Cette soumission se fait en ligne sur des pages prévues à cet effet. Lors d'une soumission, les renseignements à saisir sont généralement les suivants :
-
Adresse (URL) du site
-
Nom du site
-
Description
-
Mots clés (Important)
-
Choix des catégories ou doit figurer le site (limité à deux ou trois catégories)
Les principaux annuaires : Annuaire Lycos FR, Aol, LookSmart FR, MSN Search Annuaire, Nomade, Open Directory, Yahoo ! FR
Fiche de présentation de l’annuaire Yahoo ! fr
Yahoo! FR
Un annuaire incontournable, en effet le portail Yahoo! est l'un des sites les plus visités en France.
Type : Annuaire
Créé en : début 1997
Nombre de pages indexées : environ 120000
Délai de rafraîchissement :
Délai de prise en compte : 1 à 2 mois
Nombre de langues proposées : 1
Coût du référencement
Référencement gratuit : Non
Soumission payante : N/A
Référencement payant : N/A
Positionnement payant : N/A
La recherche peut être faite simplement. Dans ce cas l’utilisateur saisit un ou plusieurs mots dans la boite de dialogue et valide en appuyant sur le bouton Rechercher ou la touche Entrée sur le clavier, ou avec plus de précision, en saisissant un terme générique en relation avec le sujet de la recherche (Yahoo étant un annuaire classé par sujets).
Afin d’affiner la recherche, il est conseillé d’utiliser la Recherche avancée qui se compose de :
la méthode de recherche : une des options suivantes est à cocher : laisser le moteur décider, rechercher avec l’expression telle quelle, rechercher avec tous les mots, rechercher avec au moins l’un de ces mots
le domaine de recherche : il faut choisir entre : les catégories uniquement, les sites uniquement, les dépêches d’actualité, tout Yahoo !
la date à partir de laquelle les résultats sont pris en compte : dans la boite de dialogue, l’utilisateur doit saisir la date à partir de laquelle il désire faire sa recherche .
le nombre de résultats souhaités : L’utilisateur choisit le nombre de résultats affiché par page
Les Métamoteurs
Les métamoteurs sont des outils permettant de faire des recherches en utilisant plusieurs moteurs de recherche simultanément.
Ils affichent les meilleurs résultats de chaque outil de recherche qu'ils utilisent. Ceci permet d'avoir en théorie des résultats plus pertinents et d'ajouter des fonctions qui peuvent se révéler très intéressantes.
La qualité d'un Métamoteur se base sur les critères suivants :
-
Les outils de recherche utilisés
-
La présentation des résultats
-
La facilité d'utilisation
-
L'algorithme sélectionnant les résultats
Liste de quelques métamoteurs :
Kartoo, Akooe, Vivisimo, Metacrawler
Fiche de présentation de Kartoo :
Ce métamoteur a l'originalité de fournir des résultats sous forme cartographique
Il tire ses résultats des outils de recherche Google, All The Web, Voila, AltaVista,Nomade, Lycos, Yahoo! FR, Looksmart, MSN, Northernlight, Open Directory
Le métamoteur Kartoo offre divers services
Recherche simple :
Dans ce type de recherche, l’utilisateur saisit sa requête et valide en cliquant sur ok (ou presse la touche Entrée sur le clavier ), Kartoo se charge alors d’analyser la requête et de proposer sous forme de carte les sites les plus pertinents .
Dans cette carte, les sites trouvés sont représentés par des boules, lorsque l’utilisateur survole ces sites les mot clés concernés sont illuminés et à gauche apparaît une brève description des sites. Afin d’affiner la recherche Kartoo propose des opérateurs + et – ( en ajoutant ou soustrayant des thèmes) .
Pour accéder aux autres résultats, il faut accéder à la carte suivante.
Remarque : le nombre de sites concernés par la requête de l’utilisateur est indiqué par un baromètre ( situé à droite de l’écran )
Parmi les options qu’offre Kartoo on trouve :
Moteurs interrogés : l’utilisateur peut spécifier les moteurs de recherche utilisés lors de sa requête .
Le nombre de sites par carte : l’utilisateur peut choisir le nombre des sites qu’il veut voir apparaître sur la carte
Regroupement des pages : autoriser ou non le regroupement des pages
Délai d’attente : permet d’entrer une date limite pour effectuer la recherche .
Recherche avancée :
Titre : cette fonction permet de retrouver la page en fonction de son titre, recherche des pages dont le titre contient ou ne contient pas un mot donné
Adresse : cette fonction permet de retrouver des pages en fonction des mots contenus dans l’adresse, recherche des pages dont l’adresse contient ou ne contient pas un mot donné
Site : cette fonction permet de restreindre la recherche au sein d’un seul site, c’est à dire recherche des pages à l’intérieur ou en dehors du site
Domaine : cette fonction permet de restreindre la recherche aux sites .com par exemple ou de l’exclure
Texte seul : cette fonction permet de lancer une recherche sur le texte visible d’une page en d’autres termes, elle permet de rechercher des pages dont le texte visible contient ou ne contient pas un mot donné.
Near ( proche ) : permet de trouver les pages contenant deux mots rapprochés, en d’autres termes permet de faire une recherche des pages contenant les deux mots qui ne sont pas séparés par plus de dix autres mots.
Hypertexte : permet de trouver des pages en cherchant dans leurs hyperliens par exemple pour trouver toutes les pages qui pointent vers un site, en d’autres termes recherche d’une page avec un lien qui contient ou ne contient pas un mot donné
expression : permet de chercher un groupe de mots, une expression, en d’autres termes chercher des pages qui contiennent des mots à la suite et dans un ordre précis
image : permet de trouver des pages avec des images, des bulles d’aide associées parfois aux graphismes, en d’autres termes recherche des pages avec des images dont le nom contient un mot donné
– oOo –
Chapitre 3
Fonctions de navigation dans un/des documents sur le web
Dostları ilə paylaş: |