Reçois gratuitement une formation complète

sur le référencement !


Reçois tout de suite un livre de 45 pages pour tout savoir sur le référencement et sur l'écriture d'article pour le référencement
Valider la politique de confidentialité

Créez un fichier robots.txt pour mieux indexer votre site Web

Ecrit par Benoit Thibaudeau dans Internet | 0 commentaires |

robots.txt pour indexer votre site correctementTous les moteurs de recherche, vérifient la présence du fichier "robots.txt" qui doit se trouver dans le répertoire racine de votre site.

Ce fichier permet d'indiquer aux moteurs de recherche les règles d'indexation des pages de votre site. Par le biais de ce fichier vous pouvez indiquer aux robots des moteurs de recherche comment indexer votre site.

A quoi sert le fichier robots.txt

Le fichier "robots.txt" va vous permettre d'indiquer aux moteurs de recherche comment indexer votre site.

Il est constitué de directives qui vont indiquer aux bots des moteurs de recherche les répertoires, les pages ou encore le type de fichiers qu'ils doivent prendre en compte ou pas dans l'indexe de leur moteur de recherche.

Par exemple, il ne faut pas que les moteurs de recherche indexent les fichiers techniques de votre site comme les scripts java (*.js) ou encore les fiches de style (*.css), les répertoires techniques contenant les fichiers de scripts qui n'ont rien à voir avec le contenu de votre site.

Le fichier doit obligatoirement avoir le nom "robots.txt" et doit impérativement se trouver à la racine de votre site. Il est donc accessible via l'url suivante :

http://<nom de domaine de votre site>/robots.txt

Si votre fichier ne porte pas ce nom et ne se trouve pas à la racine de votre site, il ne sera pas pris en compte. Attention si vous placez une lettre majuscule dans le nom du fichier il ne sera pas pris en compte. Le nom du fichier doit être en minuscule.

Comment rédiger un fichier robots.txt

Le fichier "robots.txt" est constitué de directives. Le fichier doit être encodé en "UTF-8".

Voici les directives acceptées :

L'entête du fichier robots.txt

Le fichier doit commencer par indiquer à quel robots s'adresse les directives. Vous pouvez de cette façon autoriser ou interdire l’indexions de votre site dans tel ou tel moteur de recherche. Pour indiquer à qui s'adresse les directives qui suivent, indiquez le ou les moteurs de recherche concernées.

user-agent: SemrushBot
(groupe 1)
user-agent: googlebot-images
(groupe 2)
user-agent: *
(groupe 3)
user-agent: googlebot-news
(groupe 4)

Dans cet exemple :

  • Le premier groupe de directives est destiné au bot du site semrush.com.
  • Le second groupe de directives est destiné uniquement au bot de google images pour google images.
  • Le troisième groupe de directives est destiné à tous les moteurs de recherche.
  • Le quatrième groupe de directives est destiné uniquement à "googlebot-news" donc au bot de google destiné à google actualité.

Le corps du fichier robots.txt

disallow

Cette directive permet d'indiquer aux moteurs de recherche de ne pas indexer un contenu (répertoire, fichier, pages). Elle est utilisée comme suit :

disallow: [path]

allow

Cette directive à l'inverse de la précédente indique les éléments de votre site à indexer. On l'utilise de la façon suivante :

allow: [path]

le symbole #

Ce symbole doit être placé en début de ligne et permet d'ajouter des lignes de commentaires dans le fichier. Ces lignes ne sont pas prises en compte par les robots des moteurs de recherche.

# votre commentaire rien que pour votre usage personnel

Extension à la directive disallow (valable pour Google, Yahoo et Microsoft)

* Le Caractère spécial * peut remplacer n’importe quelle séquence de caractères.
$ Le Caractère spécial $ placé à la fin de la directive indique que ce qui précède doit correspondre à l’URL complète.

Directives ne faisant pas partie du standard robots.txt

Allow Permet d’ajouter des exceptions aux interdictions définies par des directives Disallow
Crawl-delay Définit un temps d’attente minimum entre deux accès successifs du robot au site.
Sitemap URL du plan du site (sitemap)
Googlebot Moteur de recherche généraliste et moteur de recherche d’actualités
Googlebot-Mobile Moteur de recherche mobile
Googlebot-Image Moteur de recherche d’images
Mediapartners-Google Site des éditeurs AdSense
Adsbot-Google Site des annonceurs AdWords

 

Si nous reprenons l'exemple du premier fichier robots.txt voici ce que cela peut donner :

User-agent: SemrushBot
Disallow: /
user-agent: googlebot-images
Disallow: *.png
Disallow: *.gif
user-agent: *
Disallow: /Promo/
Disallow: /promo/
Disallow: /Help/
Disallow: /help/
Disallow: *?PID
Disallow: *?pid
user-agent: googlebot-news
Disallow: /
# On indique au spider le lien vers notre sitemap
Sitemap: https://www.cestcalenet.net/sitemap.xml

Dans cet exemple :

  • Le premier groupe de directives demande au bot du site semrush ne pas indexer le site. Le symbole "/" indique la racine du site et tout ce qui se trouve en dessous.
  • La seconde partie les directives destinées à google images, nous demandons de ne pas indexer les fichier images de type "png" et "gif". Partons du postula que les images de ces deux types ne soient utilisés que pour les boutons ou les détails graphiques technique de votre site, il ne sert à rien de les indexer.
  • Le troisième groupe de directives destinées à tous les moteurs de recherche on demande que ne soit pas indexé les pages ou répertoires "promo", "help" ou les page contenant le symbole "?pid". Souvent les pages contenant le symbole "pid" sont soit des pages destinées aux membre connectés ou ont le même contenu que les pages avec la même URL. Les éléments placé après le signe "?" dans une URL sont des paramètres techniques qui permettent de suivre une commande ou une session, ...
  • Le quatrième groupe de directives indique au bot de googlebot actualités de ne pas indexer le site dans cette partie de google.
  • Enfin le "robots.txt" indique où se trouve le fichier sitemap du site. Vous pouvez ajouter plusieurs lignes avec la directive "Sitemap" si votre site possède plusieurs fichiers sitemap. Dans ce cas les fichiers sitemap ne portent pas forcément le nom "sitemap.xml"

Exemple de fichier robots pour wordpress

Je vous laisse regarder les commentaires dans l'exemple ci-dessous pour comprendre les directives. En gros ce "robotos.txt" demande de ne pas indexer les répertoires "wp-admin", "wp-includes' et les répertoires des thèmes et des plugins qui se trouve dans le répertoire "wp-content".

Ensuite il demande de ne pas indexer les fichiers ".php", ".js", ".swf", ... Mais cela n'empêche en rien d'indexer les URL de votre site qui sont générées à partir des fichier techniques php ou js par exemple.  Nous interdisons d'indexer les fichiers sources, pas les pages générées avec ces fichiers.

Dans la dernière ligne, remplacez "<votre nom de domaine>" par l'URL racine de votre site Web

Sans un fichier "robots.txt" aussi complet, si vous vous rendez dans Google Webmaster tools, vous constaterez que Google retient des mots clés qui se trouvent dans les fichiers techniques de votre site, mais qui n'ont rien à voir avec le contenu de votre site.

User-agent: *
# On empeche l'indexation des dossiers sensibles
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/extensions/
Disallow: /wp-content/languages/
Disallow: /wp-content/logs/
Disallow: /wp-content/upgrade/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
# On autorise l'indexation des images
Allow: /wp-content/uploads
Allow: /
User-agent: Googlebot
# On empeche l'indexation des fichiers sensibles
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: <votre nom de domaine>/sitemap.xml

En conclusion

Ce fichier est fait de directives, mais tous les robots qui parcourent votre site sont libres de les prendre en compte ou pas et contre ça, vous ne pouvez rien y faire.

Quand vous placez un contenu sur Internet, s'il n'est pas protégé par un mot de passe, il est accessible à qui le veut.


L'article vous a-t-il aidé ?

Votre vote : 0 étoile(s)
Tags: , ,

Portrait de Benoit Thibaudeau
Benoit Thibaudeau
1971-11-02
2020-01-12
Webmaster

Après une courte carrière en tant que cryptographe, j'ai été team leader chez un éditeur de logiciel qui créé des systèmes décisionnels pour les banques et les télécoms dans le monde entier.

Puis j'ai évolué vers architecte de système informatique, ce qui m'a amené à concevoir des systèmes parmi les plus gros d’Europe avec une visibilité sur les 10 prochaines années.

En parallèle j'étais chargé de la formation des employés de la société et de celle des clients, ce qui m'a appris beaucoup en ce qui concerne la dispense de cours.

Durant ma période en Irlande j’ai eu la chance de travailler, plusieurs mois, en étroite collaboration avec Google Irlande, ce qui m’a appris énormément sur le référencement.

Enfin, j’ai souhaité au bout de 15 ans d’arrêter de voyager tout le temps dans le monde entier, je me suis donc mis à mon compte et aujourd’hui je vis de mon activité.

Benoît Thibaudeau

Les conseils Internet : www
Pour me contacter :
Mr. Benoit Thibaudeau
27 bis rue Louis Rolland
92120 Montrouge,
Haut de Seine - FRANCE
Les stages photo : www
Cours photo sur Internet : cours
Le blog de tuto photo : Blog
Le site dream photos : www
Le blog dream photos : Blog

Laisser une réponse

Votre adresse email ne sera pas publiée.

Vous pouvez utiliser ces HTML balises et attributs: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Afficher
Cacher
error

Vous aimez ce blog? Passez le mot :)