Co je robots.txt a jak ho nastavit na Nginx?
Kvě 01, 2019
robots.txt nginx knowledge base
Co je to soubor robots.txt?
Soubor robots.txt říká vyhledávačům, které stránky na webu smí procházet. Určuje jim, co je dovolené a co ne. Vyhledávače tak nemusí zbytečně hledat obsah po celém serveru.
Příklad souboru robots.txt
Podívejte se na robots.txt od NameOcean na adrese nameocean.net/robots.txt. Obsahuje tyto řádky:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Tím se říká, že všechny roboty mohou procházet vše kromě složek /recaptcha a /tag/. Navíc se ukazuje cesta k sitemapu na nameocean.net/sitemap.xml.
Jak přidat robots.txt na svůj web?
Pokud máte jednoduchý HTTP server, který servíruje soubory z adresáře jako /var/www, stačí tam vytvořit textový soubor robots.txt. Na NameOcean používáme nginx a ten soubor servíruje přímo z konfigurace. Tady je náš kousek nginx.conf:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... další pravidla
}
Chcete pustit všechny roboty na celý web? Použijte tohle:
User-agent: * Disallow: