Cos'è robots.txt e come crearlo su Nginx
Cos'è il file robots.txt?
Il robots.txt è un file che dice ai crawler dei motori di ricerca quali pagine di un sito possono o non possono scansionare. Funziona come una mappa: elenca le aree accessibili e blocca quelle sensibili. Così i bot evitano ricerche inutili e vanno dritti al punto.
Un esempio pratico di robots.txt
Guarda il robots.txt di NameOcean qui: nameocean.net/robots.txt. Contiene queste righe chiave:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Tradotto: tutti i crawler possono esplorare il sito, tranne le cartelle /recaptcha e /tag. In più, indica la posizione della sitemap per una scansione più efficiente.
Come inserire robots.txt sul tuo sito?
Se usi un server HTTP base che serve file da una cartella come /var/www, basta creare un semplice file di testo robots.txt lì. Noi su NameOcean puntiamo su nginx e generiamo il file dinamicamente. Ecco un estratto della nostra configurazione nginx:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... altre regole
}
Per aprire tutto ai crawler senza restrizioni, usa questo:
User-agent: * Disallow: