¿Qué es robots.txt y cómo añadirlo en Nginx?
May 01, 2019
robots.txt nginx knowledge base
¿Qué es el archivo robots.txt?
El archivo robots.txt guía a los robots de los buscadores. Les indica qué páginas de tu sitio pueden explorar y cuáles no. Es una lista simple que evita que los motores de búsqueda pierdan tiempo buscando contenido nuevo.
Ejemplo de un robots.txt real
Revisa el de NameOcean en nameocean.net/robots.txt. Contiene estas líneas:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Esto permite que cualquier robot acceda a todo, salvo a las rutas /recaptcha y /tag/. Además, apunta al sitemap en nameocean.net/sitemap.xml.
Cómo agregar robots.txt a tu sitio web
Si usas un servidor HTTP básico que entrega archivos desde una carpeta como /var/www, solo crea un archivo de texto llamado robots.txt ahí. En NameOcean usamos nginx y generamos el archivo dinámicamente. Mira esta config de nginx:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... otras reglas
}
Para dar acceso total a todos los crawlers, usa esto:
User-agent: * Disallow: