Dossier professeur quelques apports theoriques la recherche documentaire


Pages interdites de référencement en utilisant un fichier Robots



Yüklə 159,73 Kb.
səhifə10/29
tarix04.01.2022
ölçüsü159,73 Kb.
#60803
1   ...   6   7   8   9   10   11   12   13   ...   29
Pages interdites de référencement en utilisant un fichier Robots.txt : cette interdiction est posée par l'auteur des pages ou le gestionnaire du site

  • Pages HTML statiques/pages HTML dynamiques : les robots ont besoin de suivre des liens à l'intérieur du site afin de pouvoir indexer les pages correspondantes. Si les pages dynamiques ne peuvent être accédées que par le biais de l'interrogation d'un formulaire, celles-ci ne pourront pas être indexées par les moteurs.

  • Pages tronquées : les robots n'indexent pas entièrement les pages, ainsi Google se limite à 101 Koctets. Cette information est rarement publique.

  • Les robots stoppent : quand ils rencontrent une URL contenant un point d'interrogation.

  • Absence de liens hypertextes :

  • L'information de presse : de plus en plus de sites de presse (quotidiens, radio, télévision…) diffusent en temps réel de l'information. Les robots classiques sont incapables de suivre. (le délai moyen de rafraîchissement de l'index est de 4 semaines).

    Il existe des solutions : parallèlement aux grands moteurs et annuaires, il existe de nombreux outils qui franchissent les limites du web invisible et identifient ou interrogent les sites web invisibles : guides et annuaires sélectifs, sites fédérateurs, annuaires thématiques et "vortails", agents de recherche et la veille.




    BD gratuites http://urfist.univ-lyon1.fr/gratuits/index.html


    Moreover www.moreover.com

    FindArticles www.findarticles.com

    Google News //news.google.com

    AllTheWeb News www.alltheweb.com




    • répertoires manuels

    LII www.lii.org

    Bubl link www.bubl.ac.uk




    • répertoires automatiques

    Comple Planet www.completeplanet.com

    Lycos //dir/lycos.com/reference/searchable_databases/

    InvisibleWeb.com www.invisibleweb.com


    1. Qui fait quoi ?

    Il existe de nombreux portails mondiaux ou francophones. La plupart proposent un annuaire proposant des fiches descriptives de sites (de type Yahoo!) et un moteur de recherche en texte intégral sur les pages web (de type Altavista).


    Mais qui réalise, qui fournit cet annuaire et ce moteur lorsqu'ils ne sont pas conçus en interne ?
    Voici un tableau qui donne, pour chaque grand portail, le nom de la société qui fournit ces données.






    Yüklə 159,73 Kb.

    Dostları ilə paylaş:
  • 1   ...   6   7   8   9   10   11   12   13   ...   29




    Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©muhaz.org 2024
    rəhbərliyinə müraciət

    gir | qeydiyyatdan keç
        Ana səhifə


    yükləyin