¿Qué es robots.txt y cómo añadirlo en Nginx?

¿Qué es robots.txt y cómo añadirlo en Nginx?

May 01, 2019 robots.txt nginx knowledge base

¿Qué es el archivo robots.txt?

El archivo robots.txt guía a los robots de los buscadores. Les indica qué páginas de tu sitio pueden explorar y cuáles no. Es una lista simple que evita que los motores de búsqueda pierdan tiempo buscando contenido nuevo.

Ejemplo de un robots.txt real

Revisa el de NameOcean en nameocean.net/robots.txt. Contiene estas líneas:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Esto permite que cualquier robot acceda a todo, salvo a las rutas /recaptcha y /tag/. Además, apunta al sitemap en nameocean.net/sitemap.xml.

Cómo agregar robots.txt a tu sitio web

Si usas un servidor HTTP básico que entrega archivos desde una carpeta como /var/www, solo crea un archivo de texto llamado robots.txt ahí. En NameOcean usamos nginx y generamos el archivo dinámicamente. Mira esta config de nginx:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... otras reglas

}

Para dar acceso total a todos los crawlers, usa esto:

User-agent: *
Disallow: 

Read in other languages:

ZH-HANS EL EN DA DE FR IT HU NL NB PT RO FI SV UZ CS BG RU PL TR