Co je robots.txt a jak ho nastavit na Nginx?

Co je robots.txt a jak ho nastavit na Nginx?

Kvě 01, 2019 robots.txt nginx knowledge base

Co je to soubor robots.txt?

Soubor robots.txt říká vyhledávačům, které stránky na webu smí procházet. Určuje jim, co je dovolené a co ne. Vyhledávače tak nemusí zbytečně hledat obsah po celém serveru.

Příklad souboru robots.txt

Podívejte se na robots.txt od NameOcean na adrese nameocean.net/robots.txt. Obsahuje tyto řádky:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Tím se říká, že všechny roboty mohou procházet vše kromě složek /recaptcha a /tag/. Navíc se ukazuje cesta k sitemapu na nameocean.net/sitemap.xml.

Jak přidat robots.txt na svůj web?

Pokud máte jednoduchý HTTP server, který servíruje soubory z adresáře jako /var/www, stačí tam vytvořit textový soubor robots.txt. Na NameOcean používáme nginx a ten soubor servíruje přímo z konfigurace. Tady je náš kousek nginx.conf:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... další pravidla

}

Chcete pustit všechny roboty na celý web? Použijte tohle:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR IT HU NL NB PT RO FI SV UZ BG RU PL TR