Robots.txt einfach erklärt: So fügst du sie bei Nginx hinzu

Mai 01, 2019 robots.txt nginx knowledge base

Was ist eine robots.txt-Datei?

Die robots.txt-Datei gibt Suchmaschinen vor, welche Seiten auf deiner Website gecrawlt werden dürfen und welche nicht. Sie listet Bereiche auf, die Spider meiden sollen. So sparen Suchmaschinen Zeit, statt jede Seite einzeln zu durchsuchen.

Beispiel für eine robots.txt-Datei

Schau dir die robots.txt von NameOcean an: nameocean.net/robots.txt. Dort steht Folgendes:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Das bedeutet: Alle Crawler dürfen alles durchsuchen, außer den Ordnern /recaptcha und /tag/. Plus ein Hinweis auf unsere Sitemap.

So fügst du robots.txt zu deiner Site hinzu

Bei einem einfachen HTTP-Server legst du die Datei einfach als Textdatei in den Root-Ordner, z. B. unter /var/www. Wir bei NameOcean nutzen nginx und serven die robots.txt direkt aus der Konfig. So sieht unser nginx-Block aus:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... weitere Regeln

}

Möchtest du allen Crawlern freien Zugang geben? Dann reicht das:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA ES FR IT HU NL NB PT RO FI SV UZ CS BG RU PL TR