Adresses :
Les principaux annuaires francophones
Looksmart France : www.looksmart.fr
Nomade : www.nomade.fr
Yahoo! France : www.yahoo.fr
lycos France : www.lycos.fr
Guide de Voilà : //guide.voila.fr
MSN : //search.msn.fr
les principaux annuaires anglophones
Open Directory : (www.dmoz.org
Yahoo! : www.yahoo.com
Looksmart : www.looksmart.com
3.2. Les moteurs
En ce qui concerne les moteurs de recherche, qui effectuent leurs investigations dans plusieurs milliards (8 pour Google) de pages Web, la situation est plus complexe. En effet, de nombreux paramètres sont pris en compte pour effectuer le calcul de pertinence. Citons :
-
la présence du mot demandé dans le titre du document ;
-
sa présence sans le texte de la page, mais cela ne suffit pas : une page contenant le mot demandé en haut du document sera mieux "notée" qu'une autre le présentant en bas de page. De nombreux critères sur la façon dont le texte est affiché sont ainsi pris en compte, comme la proximité, la mise en exergue (gras, taille de caractères, etc.) ;
-
la présence du mot demandé dans certains champs qui n'apparaissent pas sur la page mais qui sont fournis aux outils de recherche. On appelle ces champs les "balises Meta" ;
-
sa présence dans l'adresse de la page
-
l'indice de popularité du document (le nombre de liens "pointant" vers cette page sur le Web).
Les critères de pertinence sont très nombreux pour les moteurs de recherche. Historiquement, ils se sont basés, pour classer leurs documents, sur des critères dits "in the page", c'est-à-dire contenus dans le document à classer : titre, texte visible, balises Meta, etc.
-
Nouveaux critères : "off the page"
Mais ces critères n'ont rapidement pas suffi, car trop de "petits malins" ont essayé de les détourner à leur avantage pour voir leur site bien classé sur ces outils. Aussi, les moteurs de recherche ont imaginé de nouveaux critères, dits "off the page". Ceux-ci sont alors pris en compte, non plus dans le contenu de la page, mais dans son environnement. L'indice de popularité a été le premier d'entre eux. Autre exemple de critère "off the page" : l'indice de clic, symbolisé par le système DirectHit (http://www.directhit.com).
Pour bien comprendre comment il fonctionne, analysons le comportement "classique" d'un internaute devant un moteur de recherche. Il va sur la page d'accueil, saisit un ou plusieurs mots dans un formulaire, consulte la page de résultats proposée (sur laquelle plusieurs liens sont indiqués, classés par ordre de pertinence), il choisit l'un d'entre eux, va sur le site correspondant, le consulte. Si cette page ne lui convient pas, il revient sur la page de résultats du moteur (par le bouton "précédent" du navigateur), choisit un autre lien parmi ceux proposés, jusqu'à ce qu'il ait trouvé son bonheur.
DirectHit va, en fait, fonctionner en tâche de fond sur un moteur existant. A chaque consultation d'un internaute, il va noter sur quel lien il a cliqué et quel était le rang (le classement) de ce lien. Il calcule ensuite combien de temps l'utilisateur met avant de revenir sur la page de résultats. S'il ne revient pas, il en "déduit" que le site proposé était à priori pertinent. Son adresse sera alors mieux classée dans les résultats suivants, lors d'une interrogation sur le même mot clé. Et ainsi de suite, les interrogations et la façon d'interroger et de naviguer des internautes vont alors enrichir la base de données de DirectHit.
On peut le voir, le système de classement des moteurs de recherche est basé sur des calculs de pertinence associés à de très nombreux critères. Et tout cela en quelques dixièmes de secondes.
Adresses :
Les principaux moteurs de recherche francophones :
Voilà : www.voila.fr
Altavista France : www.altavista.fr
Hotbot France : www.hotbot.fr
Lycos France : www.lycos.fr
Google : www.google.fr
Les principaux moteurs de recherche anglophones :
Fast/Alltheweb : www.alltheweb.com
Lycos (Fast) : ww-english.lycos.com
Google : www.google.com
Altavista : www.altavista.com
HotBot (Inktomi) : www.hotbot.lycos.com
NorthernLight : www.northernlight.com
Excite : www.excite.com
-
Chercher dans les FAQs
Vous êtes certainement souvent à la recherche d'un document qui tente de faire le point sur un domaine donné, quel qu'il soit. Vous vous posez peut-être beaucoup de questions sur un thème précis, sans obligatoirement réussir à identifier un document qui en synthétiserait les réponses adéquates. Mais savez-vous qu'ils existent sur le web. Cela s'appelle des FAQ, pour Frequently Asked Questions en anglais. Cet acronyme a été francisé en Foire Aux Questions ou Forum Aux Questions.
Ces FAQs ont été écrites, la plupart du temps, par des experts d'un domaine qui, à un moment donné, ont été un peu lassé de répondre, plusieurs fois par jour parfois, toujours la même chose aux questions, très souvent identiques, que les internautes leur posaient. Ces experts ont donc décidé, un jour, d'écrire une FAQ qui va lister toutes les interrogations qui sont les plus couramment posées sur un domaine en tentant d'y répondre de la façon la plus efficace possible. Ces documents sont donc extrêmement utiles pour commencer une quête d'informations sur un sujet donné. Quel que soit votre domaine d'intérêt, vous pouvez être à peu près sûr qu'il existe une FAQ qui le décrit, quelque part sur le réseau…
-
Rajoutez le mot clé "FAQ" à vos requêtes
S'il existe des tentatives de sites regroupant ces document (voir adresses à la fin) dans le monde anglophone, on attend toujours un annuaire des FAQs francophones. Pour effectuer vos recherches, vous devez donc "passer" par des outils de recherche "classiques".
Il y est possible d'identifier une FAQ en ajoutant le mot clé "FAQ" à la requête et en demandant obligatoirement la présence de tous les mots demandés par l'intermédiaire de l'opérateur ET (signe +). Un exemple : vous êtes passionné par la musique au format MP3 et vous voudriez en savoir plus ! Tapez :
-
L'outil de recherche (Yahoo!, Voilà, Altavista, Google…) vous proposera alors toutes les pages qui contiennent les deux mots. Autre exemple : vous désirez en savoir plus sur les métamoteurs de recherche ! Saisissez :
-
Encore mieux. En utilisant la fonction NEAR d'Altavista France (disponible uniquement dans la recherche avancée de ce moteur), vous aurez comme résultat les pages qui contiennent les mots demandés proches l'un de l'autre (dans une fenêtre" de 10 mots au plus les séparant).
-
-
Vous en saurez ainsi plus en quelques minutes grâce aux FAQs du réseau. Comme nous l'avons dit, il existe des milliers de ces documents disponibles gratuitement sur la Toile. N'hésitez pas à les consulter. Ils représentent beaucoup de temps gagné et de nombreuses connaissances acquises en quelques minutes.
Quelques sites sur les FAQs (en anglais)
//dir.yahoo.com/reference/faqs
www.faqs.org/faqs
-
Les groupes de discussion (ou Newsgroup ou Forum)
Les groupes de discussion sont aussi appelés conférences, infogroupes, newsgroups ou news. L'ensemble des groupes forme le réseau Usenet. Les groupes de discussion forment un lieu d'échange d'idées et de renseignements et d'astuces sur un nombre très important de sujets. Les groupes de discussion sont classés par sujet et il suffit de s'abonner (gratuitement) à un groupe pour recevoir systématiquement les nouvelles contributions* au débat, sous forme d'articles*. Le terme abonnement est pris ici dans un sens particulier : votre ordinateur ne garde que l'adresse des groupes de discussion que vous avez sélectionnés et chaque nouvelle connexion au groupe il ne télécharge que les messages que vous n'avez pas lu.
*(Journal officiel du 16 mars 1999 "Vocabulaire de l'informatique et de l'Internet")
de façon synthétique et simplificatrice, la définition la plus couramment acceptée de Usenet est celle d'un ensemble de machines reliées à différents réseaux qui véhiculent des articles postés dans des groupes de discussion. Les articles véhiculés doivent respecter un format de diffusion standard (RFC-1036) acceptable par tous les réseaux. En effet, chaque réseau a ses particularités et ne transporte pas tous les groupes de discussion. En ce sens il ne faut pas confondre Usenet et Internet, ce dernier n'étant qu'un des réseaux participant au système.
Par extension, Usenet est aussi la communauté des personnes qui lisent et écrivent des articles dans les groupes de discussion auxquels ils ont accès.
-
Comment contrôler sa stratégie de recherche documentaire…
lorsqu'on utilise un robot de recherche ?
A partir de quels éléments d'analyse, de quels critères distinguer les robots entre eux d'un point de vue documentaire ?
Quel outil, en fonction de l'objet d'étude, permettra le mieux possible de limiter le bruit et le silence ?
Les critères d'analyse mentionnés ci-dessous permettent les comparaisons.
Corpus
Les robots se distinguent entre eux par
-
le nombre de pages explorées
-
le format des ressources indexées (html, ,word, ppt, images, sons, video...)
-
les modalités de la collecte de données (en fonction des langues, domaines, profondeur des liens, indices de fréquentation...)
-
les possibilités de sélection automatique de ce corpus (langue, aire géographique, format, types de documents, actualités...)
-
- le délai de mise à jour et vérification des liens
|
L'information sur ces points , dont on peut glaner des éléments dans la presse spécialisée, constitue le plus souvent une "inconnue" de la stratégie de recherche.
Altavista :1,1 milliard de pages,vérifiées toutes les 4 semaines
Exalead : 50 millions de pages en français, vérifiées toutes les 4 semaines.
Google : 4,3 milliards de pages, vérifiées toutes les 4 semaines.
Google Scholar sélection documentaire (bases de pré-print, "archives ouvertes", bases de données bibliographiques, sites de laboratoires et sociétés savantes...)
Teoma : 500 millions de pages, vérifiées toutes les 4 semaines.
Alltheweb : 3,2 milliards de pages, vérifiées toutes les 2 ou 3 semaines.
|
Algorithme de présentation des données
L'ordre de présentation des ressources, souvent très nombreuses, intervient fortement dans la consultation et la sélection des documents.
Les robots de première génération (Altavista en 95) s'appuyaient principalement sur la fréquence d'apparition des termes dans la page, sur leur présence dans le titre et sur la place de cette page dans l'arborescence du site.
Ces critères ayant été détournés à des fins commerciales, les robots de deuxième génération (Google en 98) se sont appuyés principalement sur des critères de popularité : fréquence de consultation de la page, nombre de sites pointant sur la page. Malheureusement, des agences se sont spécialisées dans le "spamdexing", par la création de sites artificiels de référencement ("fermes de liens"), pour gagner des places à leurs clients...
|
L'algorithme de présentation des données fait partie des secrets de fabrication du logiciel et n'est pas mis à disposition du public. Nous n'en connaissons que des bribes, diffusées par des aides en ligne ou dans la presse spécialisée.
Algorithme Google : critères de popularité, combinés avec des critères d'analyse de la page,
Algorithme Teoma : critères de popularité en fonction du sujet.
|
Outils linguistiques
-
traduction
-
indexation automatique permettant l'extension ou la limitation du corpus de ressources sélectionnées par la question initiale
|
Altavista : propose, à la suite d'une requête, une série de termes "Recherches associées" permettant d'affiner la recherche. Il offre également un outil de traduction "Babel Fish"(Systran)
-
Exalead :.repose sur un système d'analyse statistique linguistique.
-
Google : offre des possibilités de sélection par langue et un traducteur automatique.
-
Teoma : propose, à la suite d'une requête, une série de termes utilisables pour limiter la recherche 'Refine", ainsi qu'une série de sites offrant des liens sur le thème recherché "Resources, link collections from experts and enthusiasts"
-
Alltheweb : propose une série de termes "Refine your search"
|
Publicité
Les robots ont souvent pour origine des travaux de recherche universitaires ou militaires et ils trouvent ensuite dans la publicité une source importante de financement. Il faut être attentif
-
à la place et aux modalités de signalement des liens publicitaires.
-
- au poids du financement publicitaire dans l'ordre de présentation des ressources, certains outils pratiquant la vente de position sans le signaler de façon claire..
|
Altavista : fait apparaître en premier lieu des sites qui ont payé leur place, avec cette mention "résultats sponsorisés"
-
Exalead : le robot en ligne constitue un produit d'appel publicitaire de la société Exalead.
-
Google : fait apparaître les sites qui ont payé leur place dans une colonne particulière, à droite de la page avec cette mention "liens commerciaux".
-
Teoma : les sites payants apparaissent en premier lieu, avec cette mention "Sponsored Links".
-
Alltheweb : les sites payants apparaissent en premier lieu, avec cette mention "Sponsor Results"
|
Sites thématiques associés
A l'origine du web, annuaires de sites et robots de recherche correspondaient à des outils clairement différenciés. Actuellement, les rachats, fusions et associations tendent de plus en plus à les confondre.
|
Altavista, qui propose aussi un accès thématique "Répertoire", appartient maintenant à Yahoo, propriétaire également de Alltheweb. Yahoo avait précédemment fait alliance avec Google.
|
M1 - METHODOLOGIE page / M1A – La recherche documentaire
Dostları ilə paylaş: |