Какво е robots.txt и как да го добавиш в Nginx?
Май 01, 2019
robots.txt nginx knowledge base
Какво е файлът robots.txt?
Файлът robots.txt казва на роботите на търсачките кои страници от сайта могат да сканират. Това е списък с правила, който помага на търсачките да не търсят нови страници наизуст. Те просто го четат и действат според него.
Пример от robots.txt
Вижте robots.txt на NameOcean тук: nameocean.net/robots.txt. Съдържа тези редове:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Това означава, че всеки робот може да сканира всичко, освен папките /recaptcha и /tag/. Плюс, посочва къде е sitemap.xml ният.
Как да добавите robots.txt на сайта си?
Ако използвате прост HTTP сървър като Apache, просто създайте текстови файл robots.txt в root папката, например /var/www. Ние на NameOcean ползваме nginx и го обслужваме директно от конфига. Ето нашия пример:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... други правила
}
За да разрешите на всички роботи да сканират целия сайт:
User-agent: * Disallow: