Robots.txt: что это такое и как добавить на Nginx
Май 01, 2019
robots.txt nginx knowledge base
Что такое файл robots.txt?
Файл robots.txt — это инструкция для поисковых ботов. Он указывает, какие страницы на сайте можно сканировать, а какие нет. По сути, это список адресов. Боты читают его и сразу знают, куда не лезть, без лишнего поиска.
Пример файла robots.txt
Посмотрите robots.txt с NameOcean по ссылке nameocean.net/robots.txt. Там такие строки:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Это значит: всем ботам доступны все страницы, кроме /recaptcha и /tag/. Плюс ссылка на sitemap.xml.
Как добавить robots.txt на сайт?
Если у вас простой HTTP-сервер, просто создайте текстовый файл robots.txt в корне, например, в /var/www. Мы на NameOcean используем nginx и отдаём его динамически. Вот кусок конфига nginx:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... другие правила
}
Чтобы разрешить ботам всё:
User-agent: * Disallow: