robots.txt 是什么?Nginx 上怎么加?
五月 01, 2019
robots.txt nginx knowledge base
robots.txt 文件是干嘛的?
robots.txt 就是给搜索引擎爬虫的“门卫”。它告诉爬虫,网站哪些页面能抓,哪些不能。简单说,就是列出网站页面清单,爬虫一看就知道,不用瞎找。
来看个真实例子
NameOcean 的 robots.txt 你可以直接点这里瞧瞧:nameocean.net/robots.txt。内容就这几行:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
意思是,所有爬虫都能随便逛,除了 /recaptcha 和 /tag/ 路径。还顺便告诉大家,sitemap 在 nameocean.net/sitemap.xml。
怎么给网站加 robots.txt?
如果你用简单 HTTP 服务器,直接在网站根目录扔个文本文件,叫 robots.txt 就行。比如路径是 /var/www。
我们 NameOcean 用 nginx,就在 nginx 配置里直接返回内容。看看我们的配置:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... 其他规则
}
想让所有爬虫全站随便爬?就用这个:
User-agent: * Disallow: