O que é robots.txt e como adicionar no Nginx?

O que é robots.txt e como adicionar no Nginx?

Mai 01, 2019 robots.txt nginx knowledge base

O que é o arquivo robots.txt?

O robots.txt é um arquivo simples que orienta os robôs dos motores de busca sobre quais páginas do site eles podem ou não vasculhar. Ele lista caminhos específicos, ajudando os crawlers a focar no essencial sem perder tempo procurando páginas novas.

Exemplo de robots.txt em ação

Dê uma olhada no robots.txt do NameOcean aqui: nameocean.net/robots.txt. O conteúdo fica assim:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Isso libera todo o site para os crawlers, exceto as pastas /recaptcha e /tag. Além disso, aponta direto para o sitemap em nameocean.net/sitemap.xml.

Como incluir robots.txt no seu site?

Em servidores HTTP básicos, como os que servem arquivos de /var/www, basta criar um arquivo de texto chamado robots.txt na raiz. No NameOcean, usamos nginx e geramos o arquivo dinamicamente. Veja um trecho da nossa config do nginx:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... outras regras

}

Quer liberar tudo para os crawlers? Use isso:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR IT HU NL NB RO FI SV UZ CS BG RU PL TR