1.9Quelle partie de l'internet est répertoriée ?
Web mondial, européen, francophone, français
News: les newsgroups, souvent riches en propositions, sont de plus en plus souvent sollicités
E-mail : les adresses électroniques sont également parfois recherchées (sans grand intérêt ) .
Multimédia : vidéos Images Sons (en particulier le Mp3)
Fichiers spécifiques :PDF / Doc / rtf / xls / ppt ...
Logiciels et sharewares (FTP) : du simple fichier au shareware
– oOo –
Chapitre 2
Indexation des sites web
2L’indexation : 2.1Définition :
Description du contenu d'un document à l'aide d'un langage documentaire pour faciliter la mémorisation de l'information dans un fichier en vue d'une recherche ultérieure [CHAUMIER 1988].
Processus destiné à représenter par les éléments d'un langage documentaire ou naturel des données résultant de l'analyse du contenu d'un document ou d'une question. On désigne également ainsi le résultat de cette opération [AFNOR 1987].
2.2Type d’indexation :
• Indexation basée sur la requête
Le document est indexé non seulement en fonction de l'environnement d'utilisation mais aussi en tenant compte de certaines requêtes spécifiques qui correspondent à des utilisations spécifiques du document.
• Indexation basée sur l'objet
Indexation du document faite en fonction de l'environnement d'utilisation et des besoins de l'ensemble des usagers. Ce type d'indexation favorise une plus grande objectivité et une meilleure cohérence entre indexeurs.
• Indexation générique
Le document est indexé d'une façon plus générale que le sujet précis dont il traite (par exemple la classe, la thématique, etc. à laquelle appartient le sujet). Ce type d'indexation favorise le rappel au repérage et une meilleure cohérence entre indexeurs. L'indexation de type générique fait appel à des descripteurs moins spécifiques que les concepts du document à indexer plutôt que d'introduire de nouveaux termes dans la banque. Le niveau de spécificité reste quand même relativement élevé.
• Indexation spécifique
•Indexation du sujet de la façon la plus précise possible.
Avant de rentrer dans le vif du sujet , faisons un petit détour afin de mieux comprendre le processus d’indexation.
Processus de référencement :
première étape : conception d’un site Web
De nos jours; tout le monde peut concevoir un site Web, dans un but précis parfois (faire partager un savoir, faire connaître un lieu,etc )ou simplement pour le plaisir « d’avoir sa propre page sur le Net ».
Les outils utilisés pour la conception d’un site Web sont divers, on trouve des logiciels permettant la conception d’un site sans même écrire une ligne de code, ou en codant à l’aide du HTML
(HyperText Markup Language) ou du XML (Extensible Markup Language).
Deuxième étape : Référencement du site
Avant de commencer le référencement d’un site il faut :
-
Créer sur l’ensemble des pages, les méta-tags adéquats.
-
Réfléchir sur le titre des pages (balise ), la description et les mots clés (balises et qu’elles vont contenir .
-
Se munir des outils d’analyse et de vérification de meta-tags
-
Identifier les annuaires spécifiques à la thématique
-
Sur les principaux annuaires de recherche, il faut déterminer les catégories correspondant le mieux à la thématique du site
-
Se renseigner sur les critères de pertinence de la plupart des moteurs de recherche ( quelles balises méta optimiser ? Ce moteur prend t-il en compte telle ou telle balise ?…) [1]
Après avoir inclus les balises META dans le code HTML, lors de la soumission du site au moteur
de recherche, ces différentes étapes se succèdent :
-
le robot ou « spider » scrute les balises META
-
il ramène les renseignements au moteur de recherche (les transmet à la base de données du moteur de recherche)
-
le moteur de recherche met à jour son index
Voyons un peu plus précisément comment fonctionnent les robots ou spiders qui scrutent les balises
META, en réalité deux moyens sont offerts :
-
la balise META avec l’attribut robot
-
la construction d’un fichier robot.txt
la balise META avec l’attribut robot :
consiste à donner une valeur aux robots de référencement afin de leurs indiquer comment référencer
les pages. Cette valeur possède plusieurs attributs
all : indique au robot d’indexer tout (par défaut)
none : indique au robot de ne rien indexer
index : la page est indexée
noindex : la page n’est pas indexée mais il suivra les liens de cette page
follow : le robot récupère les liens de la page et ce afin de les référencer plus tard
nofollow :le robot ne récupère pas les liens de la page.
Comme nous le constatons cette balise est utilisée pour autoriser l’indexation de la page ou l’interdire,
suivre ou non les liens de la page
Syntaxe :
exemple
indique que cette page est à indexer et qu’il faut suivre les liens de cette page
remarque :
est équivalente à
est équivalente à
La construction d’un fichier robot.txt :
Pour la construction d’un fichier robot.txt, il faut :
-
ouvrir n’importe quel exditeur text
-
créer un fichier texte (avec l’extension .txt)
-
écrire le programme d’après le souhait du concepteur de site.
Les différentes commandes utilisées sont :
User-agent :* , cette commande indique aux robots de n’importe quel moteur de recherche (représenté par *) que l’accès du site leur est donné.
Ex : User-agent : Googlebot , seul le spider de google est concerné.
Dissallow:, tout est indexé. Identique à un fichier.txt inexistant .
Dissallow:/ , toutes les pages et répertoires de sites ne sont pas indexées.
Exemple :
Dissallow:/index2.html, cette commande indique au robot que la page index2.html situé à la racine du site ne doit pas être indexée.
Dissalow:/rep/, cette commande indique que la totalité du répertoire ne doit pas être indexés.
Dissalow:/rep/index.html, indique que le fichier.html situé dans le répertoire rep ne doit pas être indexé
#commentaires , les commentaires faits par les concepteurs de sites doivent être précédés d’un #
Remarque :
-
il ne doit exister qu’un seul robot.txt sur l’ensemble du site, situé à la racine de ce dernier .
-
l’astérisque (*) n’est acceptée que dans le champ User-agent
-
si le fichier robot.txt s’appliquera a plusieurs moteurs de recherche, il faut créer plusieurs robot.txt
-
le nom du fichier robot.txt doit être écrit en minuscule
-
Il faut transférer le fichier robot.txt en mode ASCII[2]
Après avoir vu les robots et leur fonctionnement, voyons brièvement en quoi consiste les balises META
Les balises META :
Les balises permettent de fournir normalement une description du site et cela à l’aide de mots clés et de phrases décrivant le site, dans le but de référencer au mieux ce dernier par les moteurs de recherche, ce qui constitue l’utilisation la plus courante de cette balise qui a en plus d’autres fonctions comme par exemple la redirection automatique vers une url .
Remarque : les balises n'ont un effet que sur les moteurs de recherche, les annuaires ne les prennent aucunement en compte puisqu'ils sont construits par des êtres humains qui ne vont jamais regarder le code HTML des pages, au contraire des "spiders" (ou araignées ou robots ou crawlers) des moteurs qui viennent "aspirer" ce code pour le copier sur leurs disques et en faire un index de recherche par la suite.
Emplacement des balises META :
Les balises meta doivent être placées en tête du document HTML, entre les marqueurs et (après la balise et avant la balise
Exemple :
titre de la page
la page
la page
du code HTML).
Certains moteurs (Northern Light, Google, Fast) ne prennent pas du tout en compte les balises . D'autres (Excite) les affichent dans leurs résultats (pour la balise "description") mais ne les intègrent pas dans leurs classements de pertinence. Enfin, certains (la plupart) les prennent bien en considération, mais rarement avec un "poids" très fort. Dans certains cas (notamment sur Altavista), la présence de balises peut même s'avérer préjudiciable . Bref, chaque moteur gère ces zones d'information d'une manière spécifique.
Certaines études indiquent que seules 20 à 30 % des pages Web contiendraient les balises META . Ce chiffre assez faible laisse supposer qu'une page contenant des balises aura quand même tendance, à un moment donné, à procurer un léger avantage sur un autre document qui n'en contiendrait pas, sauf cas particulier.
La balise "Description"
La balise permet d'indiquer au moteur de recherche une phrase résumant le contenu de la page. Cette description sera affichée par certains moteurs dans leur page de résultats, sous le titre décrivant la page trouvée. Si la page ne contient pas de balise , seront affichés en règle générale les premiers mots visibles sur la page.
Cette balise permet donc également de mieux maîtriser la présentation de la page proposée à l'internaute par les moteurs. le contenu de la balise est limité à 150, voire 200 caractères, espaces compris, de même qu’il est repris intégralement.
La balise "Mots clés" ("Keywords")
La balise sert à indiquer des mots clés supplémentaires aux moteurs de recherche. Bien entendu, comme la phrase de description de la balise , ils ne sont pas affichés dans la page Web, mais sont "aspirés" par les spiders des moteurs qui choisissent ensuite d'en tenir compte ou non.
Ces mots clés peuvent améliorer le classement de la page ou indiquer certains mots importants que ne contiendrait pas le document. Ils sont séparés, au choix, par une virgule, un espace ou une virgule suivie d'un espace.
ces balises seront également utilisées pour compléter le contenu de pages qui ne contiendrait pas de mots clés importants dans le texte visible, et notamment celles qui recèlent un certain nombre de choix ou de titres au format graphique sans équivalent textuel.
Il est d'usage que la balise contienne jusqu'à 100 mots clés ou mille caractères, il est préconisé de ne pas répéter plus de sept fois un même mot dans le code HTML complet de la page . Ce chiffre est considéré comme un standard, mais il est recommandé plutôt trois répétitions au maximum en règle générale dans une orthographe exactement identique
Remarque : il est à noter que les lettres accentuées une fois codées en HTML comptent pour plusieurs caractères
exemple : la lettre ‘é’, codée en &ecute ; en HTML compte donc pour 8 caractères
Les autres balises
De très nombreuses autres balises sont utilisés dans le code HTML comme par exemple : "revisit-after", "classification", "distribution", "rating", "identifier-URL", "copyright", etc. Il faut savoir qu'elles ne sont clairement prises en compte par aucun moteur de recherche majeur. Leur présence est donc superflue dans les pages, si ce n'est pour d'autres but que le référencement.[3]
Liste des balises meta :[4]
|
Description
|
Nbr caractère
|
Syntaxe
|
Description
|
Description du site en une phrase de préférence
|
200
|
|
Keywords
|
Liste des mots clés
|
500
|
|
Author
|
Auteur du site
|
|
|
Identifier-url
|
url du site
|
|
|
Date-creation-
|
Date de création du site
|
|
|
Date-revision-
|
Date de la dernière modification
|
|
|
Reply to
|
e-mail du concepteur du site
|
|
|
Revisit-after
|
Indique la revisite du robot après n jours
|
|
|
Category
|
Catégorie du site (annuaire)
|
|
|
Publisher
|
Celui qui publie le site
|
|
|
Copyright
|
Copyright(s) du site
|
|
|
Generator
|
Logiciels utilises pour la création du site
|
|
|
Robots
|
Diriger le robot
|
|
|
Les générateurs de balises
Bien que le langage HTML propose d’intégrer des balises dans son code qu’il suffit d’insérer facilement ,il existe cependant un certain nombre de sites (ou logiciel) qui permettent de générer automatiquement les balises il faut juste que le concepteur du site indique les mots clés, la description de son site ..ect.
La plupart de ces services ajoutent une ligne de commentaire afin de préciser que les balises ont été créées grâce à un utilitaire.
Exemple :
Dostları ilə paylaş: |