Robots.txt – co to jest i jak go dodać na Nginx?
Czym jest plik robots.txt?
Plik robots.txt to prosta instrukcja dla robotów wyszukiwarek. Mówi im, które strony na witrynie mogą indeksować, a które lepiej pominąć. Dzięki temu wyszukiwarki nie muszą przeszukiwać całego serwisu – po prostu czytają listę i działają efektywnie.
Przykładowy plik robots.txt
Sprawdź robots.txt na NameOcean pod adresem nameocean.net/robots.txt. Zawiera takie wpisy:
User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml
Oznacza to, że każdy robot może skanować stronę, z wyjątkiem katalogów /recaptcha i /tag/. Do tego podajemy lokalizację pliku sitemap.xml.
Jak dodać robots.txt na swoją stronę?
Jeśli masz prosty serwer HTTP i podajesz pliki z katalogu typu /var/www, wystarczy stworzyć zwykły plik tekstowy o nazwie robots.txt w głównym folderze.
Na NameOcean korzystamy z nginx i serwujemy robots.txt bezpośrednio z konfiguracji serwera. Oto fragment naszej konfiguracji nginx:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... inne reguły
}
Chcesz zezwolić robotom na wszystko? Użyj takiego wpisu:
User-agent: *
Disallow: