Robots.txt einfach erklärt: So fügst du sie bei Nginx hinzu
Was ist eine robots.txt-Datei?
Die robots.txt-Datei gibt Suchmaschinen vor, welche Seiten auf deiner Website gecrawlt werden dürfen und welche nicht. Sie listet Bereiche auf, die Spider meiden sollen. So sparen Suchmaschinen Zeit, statt jede Seite einzeln zu durchsuchen.
Beispiel für eine robots.txt-Datei
Schau dir die robots.txt von NameOcean an: nameocean.net/robots.txt. Dort steht Folgendes:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Das bedeutet: Alle Crawler dürfen alles durchsuchen, außer den Ordnern /recaptcha und /tag/. Plus ein Hinweis auf unsere Sitemap.
So fügst du robots.txt zu deiner Site hinzu
Bei einem einfachen HTTP-Server legst du die Datei einfach als Textdatei in den Root-Ordner, z. B. unter /var/www. Wir bei NameOcean nutzen nginx und serven die robots.txt direkt aus der Konfig. So sieht unser nginx-Block aus:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... weitere Regeln
}
Möchtest du allen Crawlern freien Zugang geben? Dann reicht das:
User-agent: * Disallow: