robots.txt 是什么?Nginx 上怎么加?

robots.txt 是什么?Nginx 上怎么加?

五月 01, 2019 robots.txt nginx knowledge base

robots.txt 文件是干嘛的?

robots.txt 就是给搜索引擎爬虫的“门卫”。它告诉爬虫,网站哪些页面能抓,哪些不能。简单说,就是列出网站页面清单,爬虫一看就知道,不用瞎找。

来看个真实例子

NameOcean 的 robots.txt 你可以直接点这里瞧瞧:nameocean.net/robots.txt。内容就这几行:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

意思是,所有爬虫都能随便逛,除了 /recaptcha 和 /tag/ 路径。还顺便告诉大家,sitemap 在 nameocean.net/sitemap.xml。

怎么给网站加 robots.txt?

如果你用简单 HTTP 服务器,直接在网站根目录扔个文本文件,叫 robots.txt 就行。比如路径是 /var/www。

我们 NameOcean 用 nginx,就在 nginx 配置里直接返回内容。看看我们的配置:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... 其他规则

}

想让所有爬虫全站随便爬?就用这个:

User-agent: *
Disallow:

Read in other languages:

EL EN DA DE ES FR IT HU NL NB PT RO FI SV UZ CS BG RU PL TR