O que é robots.txt e como adicionar no Nginx?
O que é o arquivo robots.txt?
O robots.txt é um arquivo simples que orienta os robôs dos motores de busca sobre quais páginas do site eles podem ou não vasculhar. Ele lista caminhos específicos, ajudando os crawlers a focar no essencial sem perder tempo procurando páginas novas.
Exemplo de robots.txt em ação
Dê uma olhada no robots.txt do NameOcean aqui: nameocean.net/robots.txt. O conteúdo fica assim:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Isso libera todo o site para os crawlers, exceto as pastas /recaptcha e /tag. Além disso, aponta direto para o sitemap em nameocean.net/sitemap.xml.
Como incluir robots.txt no seu site?
Em servidores HTTP básicos, como os que servem arquivos de /var/www, basta criar um arquivo de texto chamado robots.txt na raiz. No NameOcean, usamos nginx e geramos o arquivo dinamicamente. Veja um trecho da nossa config do nginx:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... outras regras
}
Quer liberar tudo para os crawlers? Use isso:
User-agent: * Disallow: