Après une carrière de quelques années en tant que cryptographe, j'ai été senior manager chez un éditeur de logiciel qui créé des systèmes décisionnels pour les banques et les télécoms dans le monde entier. J'ai été consultant, dans le monde entier pendant plus de 15 ans, pour les plus grandes sociétés de banques et de télécom. En tant architecte de système informatique, j'ai conçu des systèmes parmi les plus gros d’Europe avec une visibilité sur les 10 prochaines années. En parallèle, l'équipe que je dirigeais était chargée de la formation des employés de la société et de celle des clients, ce qui m'a appris beaucoup en ce qui concerne la dispense de cours. Nous avons développé des outils et des méthodes pédagogiques qui nous ont permis de former des gens de langues, de cultures et de fonctions différentes. Durant ma période en Irlande j’ai eu la chance de travailler, plusieurs mois, en étroite collaboration avec Google Irlande, ce qui m’a appris énormément sur le référencement. Enfin, j’ai souhaité, au bout de 15 ans, d’arrêter de voyager tout le temps dans le monde entier, je me suis donc mis à mon compte et aujourd’hui je vis de mon activité.L'auteur du blog
92120 Montrouge,
Haut de Seine - FRANCE
C' Ça le Net
Le blog : Blog
Contact
Son mail : Contact
Tel : 06.70.02.31.27
Deviens Photographe
Les stages photo : www
Cours photo sur Internet : cours
Le blog : Blog
Dream Photos - Studio
Le site : www
Le blog : Blog
92120 Montrouge,
Haut de Seine - FRANCE
Créez un fichier robots.txt pour mieux indexer votre site Web
Ecrit par Benoit dans internet | 0 commentaires | 27/05/2013
Tous les moteurs de recherche, vérifient la présence du fichier "robots.txt" qui doit se trouver dans le répertoire racine de votre site.
Ce fichier permet d'indiquer aux moteurs de recherche les règles d'indexation des pages de votre site. Par le biais de ce fichier vous pouvez indiquer aux robots des moteurs de recherche comment indexer votre site.
A quoi sert le fichier robots.txt
Le fichier "robots.txt" va vous permettre d'indiquer aux moteurs de recherche comment indexer votre site.
Il est constitué de directives qui vont indiquer aux bots des moteurs de recherche les répertoires, les pages ou encore le type de fichiers qu'ils doivent prendre en compte ou pas dans l'indexe de leur moteur de recherche.
Par exemple, il ne faut pas que les moteurs de recherche indexent les fichiers techniques de votre site comme les scripts java (*.js) ou encore les fiches de style (*.css), les répertoires techniques contenant les fichiers de scripts qui n'ont rien à voir avec le contenu de votre site.
Le fichier doit obligatoirement avoir le nom "robots.txt" et doit impérativement se trouver à la racine de votre site. Il est donc accessible via l'url suivante :
http://<nom de domaine de votre site>/robots.txt
Si votre fichier ne porte pas ce nom et ne se trouve pas à la racine de votre site, il ne sera pas pris en compte. Attention si vous placez une lettre majuscule dans le nom du fichier il ne sera pas pris en compte. Le nom du fichier doit être en minuscule.
Comment rédiger un fichier robots.txt
Le fichier "robots.txt" est constitué de directives. Le fichier doit être encodé en "UTF-8".
Voici les directives acceptées :
L'entête du fichier robots.txt
Le fichier doit commencer par indiquer à quel robots s'adresse les directives. Vous pouvez de cette façon autoriser ou interdire l’indexions de votre site dans tel ou tel moteur de recherche. Pour indiquer à qui s'adresse les directives qui suivent, indiquez le ou les moteurs de recherche concernées.
user-agent: SemrushBot
(groupe 1)
user-agent: googlebot-images
(groupe 2)
user-agent: *
(groupe 3)
user-agent: googlebot-news
(groupe 4)
Dans cet exemple :
- Le premier groupe de directives est destiné au bot du site semrush.com.
- Le second groupe de directives est destiné uniquement au bot de google images pour google images.
- Le troisième groupe de directives est destiné à tous les moteurs de recherche.
- Le quatrième groupe de directives est destiné uniquement à "googlebot-news" donc au bot de google destiné à google actualité.
Le corps du fichier robots.txt
disallow
Cette directive permet d'indiquer aux moteurs de recherche de ne pas indexer un contenu (répertoire, fichier, pages). Elle est utilisée comme suit :
disallow: [path]
allow
Cette directive à l'inverse de la précédente indique les éléments de votre site à indexer. On l'utilise de la façon suivante :
allow: [path]
le symbole #
Ce symbole doit être placé en début de ligne et permet d'ajouter des lignes de commentaires dans le fichier. Ces lignes ne sont pas prises en compte par les robots des moteurs de recherche.
# votre commentaire rien que pour votre usage personnel
Extension à la directive disallow (valable pour Google, Yahoo et Microsoft)
* | Le Caractère spécial * peut remplacer n’importe quelle séquence de caractères. |
$ | Le Caractère spécial $ placé à la fin de la directive indique que ce qui précède doit correspondre à l’URL complète. |
Directives ne faisant pas partie du standard robots.txt
Allow | Permet d’ajouter des exceptions aux interdictions définies par des directives Disallow |
Crawl-delay | Définit un temps d’attente minimum entre deux accès successifs du robot au site. |
Sitemap | URL du plan du site (sitemap) |
Googlebot | Moteur de recherche généraliste et moteur de recherche d’actualités |
Googlebot-Mobile | Moteur de recherche mobile |
Googlebot-Image | Moteur de recherche d’images |
Mediapartners-Google | Site des éditeurs AdSense |
Adsbot-Google | Site des annonceurs AdWords |
Si nous reprenons l'exemple du premier fichier robots.txt voici ce que cela peut donner :
User-agent: SemrushBot
Disallow: /
user-agent: googlebot-images
Disallow: *.png
Disallow: *.gif
user-agent: *
Disallow: /Promo/
Disallow: /prom/
Disallow: /Help/
Disallow: /help/
Disallow: *?PID
Disallow: *?pid
user-agent: googlebot-news
Disallow: /
# On indique au spider le lien vers notre sitemap
Sitemap: https://www.cestcalenet.net/sitemap.xml
Dans cet exemple :
- Le premier groupe de directives demande au bot du site semrush ne pas indexer le site. Le symbole "/" indique la racine du site et tout ce qui se trouve en dessous.
- La seconde partie les directives destinées à google images, nous demandons de ne pas indexer les fichier images de type "png" et "gif". Partons du postula que les images de ces deux types ne soient utilisés que pour les boutons ou les détails graphiques technique de votre site, il ne sert à rien de les indexer.
- Le troisième groupe de directives destinées à tous les moteurs de recherche on demande que ne soit pas indexé les pages ou répertoires "promo", "help" ou les page contenant le symbole "?pid". Souvent les pages contenant le symbole "pid" sont soit des pages destinées aux membre connectés ou ont le même contenu que les pages avec la même URL. Les éléments placé après le signe "?" dans une URL sont des paramètres techniques qui permettent de suivre une commande ou une session, ...
- Le quatrième groupe de directives indique au bot de googlebot actualités de ne pas indexer le site dans cette partie de google.
- Enfin le "robots.txt" indique où se trouve le fichier sitemap du site. Vous pouvez ajouter plusieurs lignes avec la directive "Sitemap" si votre site possède plusieurs fichiers sitemap. Dans ce cas les fichiers sitemap ne portent pas forcément le nom "sitemap.xml"
Exemple de fichier robots pour wordpress
Je vous laisse regarder les commentaires dans l'exemple ci-dessous pour comprendre les directives. En gros ce "robotos.txt" demande de ne pas indexer les répertoires "wp-admin", "wp-includes' et les répertoires des thèmes et des plugins qui se trouve dans le répertoire "wp-content".
Ensuite il demande de ne pas indexer les fichiers ".php", ".js", ".swf", ... Mais cela n'empêche en rien d'indexer les URL de votre site qui sont générées à partir des fichier techniques php ou js par exemple. Nous interdisons d'indexer les fichiers sources, pas les pages générées avec ces fichiers.
Dans la dernière ligne, remplacez "<votre nom de domaine>" par l'URL racine de votre site Web
Sans un fichier "robots.txt" aussi complet, si vous vous rendez dans Google Webmaster tools, vous constaterez que Google retient des mots clés qui se trouvent dans les fichiers techniques de votre site, mais qui n'ont rien à voir avec le contenu de votre site.
User-agent: * # On empeche l'indexation des dossiers sensibles Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /wp-content/extensions/ Disallow: /wp-content/languages/ Disallow: /wp-content/logs/ Disallow: /wp-content/upgrade/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? # On autorise l'indexation des images Allow: /wp-content/uploads Allow: / User-agent: Googlebot # On empeche l'indexation des fichiers sensibles Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.swf$ Disallow: /*.cgi$ Disallow: /*.xhtml$ # Autoriser Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Autoriser Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # On indique au spider le lien vers notre sitemap Sitemap: <votre nom de domaine>/sitemap.xml
En conclusion
Ce fichier est fait de directives, mais tous les robots qui parcourent votre site sont libres de les prendre en compte ou pas et contre ça, vous ne pouvez rien y faire.
Quand vous placez un contenu sur Internet, s'il n'est pas protégé par un mot de passe, il est accessible à qui le veut.
L'article vous a-t-il aidé ?





L'auteur du blog