Robots.txt : c'est quoi et comment l'ajouter sur Nginx ?
C'est quoi le fichier robots.txt ?
Le fichier robots.txt guide les robots des moteurs de recherche. Il indique quelles pages d'un site ils peuvent scanner ou pas. Ça liste les zones autorisées. Les search engines lisent ce fichier et savent où aller sans fouiller partout.
Un exemple concret de robots.txt
Regardez celui de NameOcean ici : nameocean.net/robots.txt. Il contient ces lignes :
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Ça autorise tous les robots à crawler le site, sauf les dossiers /recaptcha et /tag/. Et ça pointe vers notre sitemap à nameocean.net/sitemap.xml.
Comment mettre un robots.txt sur son site ?
Sur un serveur HTTP basique qui balance tous les fichiers d'un dossier comme /var/www, créez juste un fichier texte robots.txt à la racine. Chez NameOcean, on tourne sous nginx. On sert le nôtre directement via la config nginx. Voilà un extrait :
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... autres règles
}
Pour ouvrir tout le site à tous les crawlers :
User-agent: * Disallow: