Devenez votre propre Webmaster

Créez un fichier robots.txt pour mieux indexer votre site Web

robots.txt pour indexer votre site correctementTous les moteurs de recherche, vérifient la présence du fichier "robots.txt" qui doit se trouver dans le répertoire racine de votre site.

Ce fichier permet d'indiquer aux moteurs de recherche les règles d'indexation des pages de votre site. Par le biais de ce fichier vous pouvez indiquer aux robots des moteurs de recherche comment indexer votre site.

A quoi sert le fichier robots.txt

Le fichier "robots.txt" va vous permettre d'indiquer aux moteurs de recherche comment indexer votre site.

Il est constitué de directives qui vont indiquer aux bots des moteurs de recherche les répertoires, les pages ou encore le type de fichiers qu'ils doivent prendre en compte ou pas dans l'indexe de leur moteur de recherche.

Par exemple, il ne faut pas que les moteurs de recherche indexent les fichiers techniques de votre site comme les scripts java (*.js) ou encore les fiches de style (*.css), les répertoires techniques contenant les fichiers de scripts qui n'ont rien à voir avec le contenu de votre site.

Le fichier doit obligatoirement avoir le nom "robots.txt" et doit impérativement se trouver à la racine de votre site. Il est donc accessible via l'url suivante :

http://<nom de domaine de votre site>/robots.txt

Si votre fichier ne porte pas ce nom et ne se trouve pas à la racine de votre site, il ne sera pas pris en compte. Attention si vous placez une lettre majuscule dans le nom du fichier il ne sera pas pris en compte. Le nom du fichier doit être en minuscule.

Comment rédiger un fichier robots.txt

Le fichier "robots.txt" est constitué de directives. Le fichier doit être encodé en "UTF-8".

Voici les directives acceptées :

L'entête du fichier robots.txt

Le fichier doit commencer par indiquer à quel robots s'adresse les directives. Vous pouvez de cette façon autoriser ou interdire l’indexions de votre site dans tel ou tel moteur de recherche. Pour indiquer à qui s'adresse les directives qui suivent, indiquez le ou les moteurs de recherche concernées.

user-agent: SemrushBot
(groupe 1)
user-agent: googlebot-images
(groupe 2)
user-agent: *
(groupe 3)
user-agent: googlebot-news
(groupe 4)

Dans cet exemple :

  • Le premier groupe de directives est destiné au bot du site semrush.com.
  • Le second groupe de directives est destiné uniquement au bot de google images pour google images.
  • Le troisième groupe de directives est destiné à tous les moteurs de recherche.
  • Le quatrième groupe de directives est destiné uniquement à "googlebot-news" donc au bot de google destiné à google actualité.

Le corps du fichier robots.txt

disallow

Cette directive permet d'indiquer aux moteurs de recherche de ne pas indexer un contenu (répertoire, fichier, pages). Elle est utilisée comme suit :

disallow: [path]

allow

Cette directive à l'inverse de la précédente indique les éléments de votre site à indexer. On l'utilise de la façon suivante :

allow: [path]

le symbole #

Ce symbole doit être placé en début de ligne et permet d'ajouter des lignes de commentaires dans le fichier. Ces lignes ne sont pas prises en compte par les robots des moteurs de recherche.

# votre commentaire rien que pour votre usage personnel

Extension à la directive disallow (valable pour Google, Yahoo et Microsoft)

* Le Caractère spécial * peut remplacer n’importe quelle séquence de caractères.
$ Le Caractère spécial $ placé à la fin de la directive indique que ce qui précède doit correspondre à l’URL complète.

Directives ne faisant pas partie du standard robots.txt

Allow Permet d’ajouter des exceptions aux interdictions définies par des directives Disallow
Crawl-delay Définit un temps d’attente minimum entre deux accès successifs du robot au site.
Sitemap URL du plan du site (sitemap)
Googlebot Moteur de recherche généraliste et moteur de recherche d’actualités
Googlebot-Mobile Moteur de recherche mobile
Googlebot-Image Moteur de recherche d’images
Mediapartners-Google Site des éditeurs AdSense
Adsbot-Google Site des annonceurs AdWords

 

Si nous reprenons l'exemple du premier fichier robots.txt voici ce que cela peut donner :

User-agent: SemrushBot
Disallow: /
user-agent: googlebot-images
Disallow: *.png
Disallow: *.gif
user-agent: *
Disallow: /Promo/
Disallow: /promo/
Disallow: /Help/
Disallow: /help/
Disallow: *?PID
Disallow: *?pid
user-agent: googlebot-news
Disallow: /
# On indique au spider le lien vers notre sitemap
Sitemap: http://www.cestcalenet.net/sitemap.xml

Dans cet exemple :

  • Le premier groupe de directives demande au bot du site semrush ne pas indexer le site. Le symbole "/" indique la racine du site et tout ce qui se trouve en dessous.
  • La seconde partie les directives destinées à google images, nous demandons de ne pas indexer les fichier images de type "png" et "gif". Partons du postula que les images de ces deux types ne soient utilisés que pour les boutons ou les détails graphiques technique de votre site, il ne sert à rien de les indexer.
  • Le troisième groupe de directives destinées à tous les moteurs de recherche on demande que ne soit pas indexé les pages ou répertoires "promo", "help" ou les page contenant le symbole "?pid". Souvent les pages contenant le symbole "pid" sont soit des pages destinées aux membre connectés ou ont le même contenu que les pages avec la même URL. Les éléments placé après le signe "?" dans une URL sont des paramètres techniques qui permettent de suivre une commande ou une session, ...
  • Le quatrième groupe de directives indique au bot de googlebot actualités de ne pas indexer le site dans cette partie de google.
  • Enfin le "robots.txt" indique où se trouve le fichier sitemap du site. Vous pouvez ajouter plusieurs lignes avec la directive "Sitemap" si votre site possède plusieurs fichiers sitemap. Dans ce cas les fichiers sitemap ne portent pas forcément le nom "sitemap.xml"

Exemple de fichier robots pour wordpress

Je vous laisse regarder les commentaires dans l'exemple ci-dessous pour comprendre les directives. En gros ce "robotos.txt" demande de ne pas indexer les répertoires "wp-admin", "wp-includes' et les répertoires des thèmes et des plugins qui se trouve dans le répertoire "wp-content".

Ensuite il demande de ne pas indexer les fichiers ".php", ".js", ".swf", ... Mais cela n'empêche en rien d'indexer les URL de votre site qui sont générées à partir des fichier techniques php ou js par exemple.  Nous interdisons d'indexer les fichiers sources, pas les pages générées avec ces fichiers.

Dans la dernière ligne, remplacez "<votre nom de domaine>" par l'URL racine de votre site Web

Sans un fichier "robots.txt" aussi complet, si vous vous rendez dans Google Webmaster tools, vous constaterez que Google retient des mots clés qui se trouvent dans les fichiers techniques de votre site, mais qui n'ont rien à voir avec le contenu de votre site.

User-agent: *
# On empeche l'indexation des dossiers sensibles
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/extensions/
Disallow: /wp-content/languages/
Disallow: /wp-content/logs/
Disallow: /wp-content/upgrade/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
# On autorise l'indexation des images
Allow: /wp-content/uploads
Allow: /
User-agent: Googlebot
# On empeche l'indexation des fichiers sensibles
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: <votre nom de domaine>/sitemap.xml

En conclusion

Ce fichier est fait de directives, mais tous les robots qui parcourent votre site sont libres de les prendre en compte ou pas et contre ça, vous ne pouvez rien y faire.

Quand vous placez un contenu sur Internet, s'il n'est pas protégé par un mot de passe, il est accessible à qui le veut.

Posts Similaires
Optimiser vos balises title pour un meilleur référencement

Optimisez la balise TITLE pour le référencement naturel (SEO) de votre site. La balise title est le titre de votre page et est un point important dans la longue traine. C'est le premier des 7 articles que je vous propose dans le dossier complet sur la méthode pour écrire un article optimisé pour le référencement naturel.

Enregistrez votre site dans Google analytics

Google propose un outil puissant et gratuit pour suivre de près les statistiques de votre site Web. Cet article vous explique comment l'implanter dans votre CMS.

Dois-je prendre un nom de domaine .fr pour mon site marchand ?

Beaucoup d'entreprises se posent la question de prendre ou non un nom de domaine en ".fr". Quels sont les impacts sur leur positionnement dans les moteurs de recherche. Est-ce nécessaire pour les entreprises locales de posséder un nom de domaine correspondant à leur pays ?

A propos de

Consultant en informatique et concepteur de sites Internet.

Il a travaillé pendant plus de quinze ans pour une multinationale dans le secteur de l'ingénierie Informatique.

Durant ces années, il a participé à des projets sur les systêmes de facturation et la conception des sites Internet de différentes Banques et opérateurs téléphonique à travers le monde

Senior Analyst Programmer/Team Leader, il a participé et dirigé des projets sur les plus gros clusters d'Europe.

Il habite à Paris, en ile de France .

Le Site :

Le Blog :

Vos Commentaires pour "Créez un fichier robots.txt pour mieux indexer votre site Web"