Wat is robots.txt? Zo voeg je het toe aan Nginx
Mei 01, 2019
robots.txt nginx knowledge base
Wat doet een robots.txt-bestand?
Een robots.txt-bestand stuurt zoekmachine-crawlers aan. Het bepaalt welke pagina's ze wel of niet mogen indexeren op jouw site. Zo geef je direct aan wat ze moeten vermijden, zonder dat ze zelf alles hoeven te doorzoeken.
Voorbeeld van een robots.txt
Kijk eens op nameocean.net/robots.txt. Daar staat dit in:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Deze regels laten alle crawlers toe, behalve bij /recaptcha en /tag/. Plus een verwijzing naar onze sitemap.
Zo voeg je robots.txt toe aan je site
Bij een basic http-server leg je gewoon een tekstbestand aan in de root, zoals /var/www. Wij draaien nginx bij NameOcean en serveren het dynamisch. Check onze nginx-config:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... andere regels
}
Wil je alles openstellen voor crawlers? Gebruik dan dit:
User-agent: * Disallow: