Cos'è robots.txt e come crearlo su Nginx

Mag 01, 2019 robots.txt nginx knowledge base

Cos'è il file robots.txt?

Il robots.txt è un file che dice ai crawler dei motori di ricerca quali pagine di un sito possono o non possono scansionare. Funziona come una mappa: elenca le aree accessibili e blocca quelle sensibili. Così i bot evitano ricerche inutili e vanno dritti al punto.

Un esempio pratico di robots.txt

Guarda il robots.txt di NameOcean qui: nameocean.net/robots.txt. Contiene queste righe chiave:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Tradotto: tutti i crawler possono esplorare il sito, tranne le cartelle /recaptcha e /tag. In più, indica la posizione della sitemap per una scansione più efficiente.

Come inserire robots.txt sul tuo sito?

Se usi un server HTTP base che serve file da una cartella come /var/www, basta creare un semplice file di testo robots.txt lì. Noi su NameOcean puntiamo su nginx e generiamo il file dinamicamente. Ecco un estratto della nostra configurazione nginx:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... altre regole

}

Per aprire tutto ai crawler senza restrizioni, usa questo:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR HU NL NB PT RO FI SV UZ CS BG RU PL TR