Robots.txt: что это такое и как добавить на Nginx

Robots.txt: что это такое и как добавить на Nginx

Май 01, 2019 robots.txt nginx knowledge base

Что такое файл robots.txt?

Файл robots.txt — это инструкция для поисковых ботов. Он указывает, какие страницы на сайте можно сканировать, а какие нет. По сути, это список адресов. Боты читают его и сразу знают, куда не лезть, без лишнего поиска.

Пример файла robots.txt

Посмотрите robots.txt с NameOcean по ссылке nameocean.net/robots.txt. Там такие строки:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Это значит: всем ботам доступны все страницы, кроме /recaptcha и /tag/. Плюс ссылка на sitemap.xml.

Как добавить robots.txt на сайт?

Если у вас простой HTTP-сервер, просто создайте текстовый файл robots.txt в корне, например, в /var/www. Мы на NameOcean используем nginx и отдаём его динамически. Вот кусок конфига nginx:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
    add_header Content-Type text/plain;
    return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... другие правила

}

Чтобы разрешить ботам всё:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR IT HU NL NB PT RO FI SV UZ CS BG PL TR