Robots.txt : c'est quoi et comment l'ajouter sur Nginx ?

Mai 01, 2019 robots.txt nginx knowledge base

C'est quoi le fichier robots.txt ?

Le fichier robots.txt guide les robots des moteurs de recherche. Il indique quelles pages d'un site ils peuvent scanner ou pas. Ça liste les zones autorisées. Les search engines lisent ce fichier et savent où aller sans fouiller partout.

Un exemple concret de robots.txt

Regardez celui de NameOcean ici : nameocean.net/robots.txt. Il contient ces lignes :

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Ça autorise tous les robots à crawler le site, sauf les dossiers /recaptcha et /tag/. Et ça pointe vers notre sitemap à nameocean.net/sitemap.xml.

Comment mettre un robots.txt sur son site ?

Sur un serveur HTTP basique qui balance tous les fichiers d'un dossier comme /var/www, créez juste un fichier texte robots.txt à la racine. Chez NameOcean, on tourne sous nginx. On sert le nôtre directement via la config nginx. Voilà un extrait :

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... autres règles

}

Pour ouvrir tout le site à tous les crawlers :

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES IT HU NL NB PT RO FI SV UZ CS BG RU PL TR