Robots.txt – co to jest i jak go dodać na Nginx?

Robots.txt – co to jest i jak go dodać na Nginx?

Maj 01, 2019 robots.txt nginx knowledge base

Czym jest plik robots.txt?

Plik robots.txt to prosta instrukcja dla robotów wyszukiwarek. Mówi im, które strony na witrynie mogą indeksować, a które lepiej pominąć. Dzięki temu wyszukiwarki nie muszą przeszukiwać całego serwisu – po prostu czytają listę i działają efektywnie.

Przykładowy plik robots.txt

Sprawdź robots.txt na NameOcean pod adresem nameocean.net/robots.txt. Zawiera takie wpisy:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Oznacza to, że każdy robot może skanować stronę, z wyjątkiem katalogów /recaptcha i /tag/. Do tego podajemy lokalizację pliku sitemap.xml.

Jak dodać robots.txt na swoją stronę?

Jeśli masz prosty serwer HTTP i podajesz pliki z katalogu typu /var/www, wystarczy stworzyć zwykły plik tekstowy o nazwie robots.txt w głównym folderze.

Na NameOcean korzystamy z nginx i serwujemy robots.txt bezpośrednio z konfiguracji serwera. Oto fragment naszej konfiguracji nginx:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... inne reguły

}

Chcesz zezwolić robotom na wszystko? Użyj takiego wpisu:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR IT HU NL NB PT RO FI SV UZ CS BG RU TR