Какво е robots.txt и как да го добавиш в Nginx?

Какво е robots.txt и как да го добавиш в Nginx?

Май 01, 2019 robots.txt nginx knowledge base

Какво е файлът robots.txt?

Файлът robots.txt казва на роботите на търсачките кои страници от сайта могат да сканират. Това е списък с правила, който помага на търсачките да не търсят нови страници наизуст. Те просто го четат и действат според него.

Пример от robots.txt

Вижте robots.txt на NameOcean тук: nameocean.net/robots.txt. Съдържа тези редове:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Това означава, че всеки робот може да сканира всичко, освен папките /recaptcha и /tag/. Плюс, посочва къде е sitemap.xml ният.

Как да добавите robots.txt на сайта си?

Ако използвате прост HTTP сървър като Apache, просто създайте текстови файл robots.txt в root папката, например /var/www. Ние на NameOcean ползваме nginx и го обслужваме директно от конфига. Ето нашия пример:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... други правила

}

За да разрешите на всички роботи да сканират целия сайт:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR IT HU NL NB PT RO FI SV UZ CS RU PL TR