Mitä on robots.txt ja miten lisäät sen Nginx-palvelimeen?

Mitä on robots.txt ja miten lisäät sen Nginx-palvelimeen?

Tou 01, 2019 robots.txt nginx knowledge base

Mikä ihmeen robots.txt-tiedosto?

Robots.txt ohjaa hakukoneiden robotteja kertomalla, mitkä sivut sivustolta saa indeksoida. Se listaa alueet, joille robotit eivät saa mennä. Näin hakukoneet tietävät heti, mitä skipata, ilman turhaa selaamista.

Esimerkki robots.txt-tiedostosta

Katso NameOceanin robots.txt osoitteesta nameocean.net/robots.txt. Tiedosto sisältää tällaisen sisällön:

User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml

Tämä kieltää robotit käymästä /recaptcha- ja /tag-kansioissa. Lisäksi se viittaa sitemap.xml-tiedostoon, joka auttaa indeksoinnissa.

Näin lisäät robots.txt omalle sivustollesi

Perus-http-palvelimella, kuten /var/www-kansiossa, riittää pelkkä tekstimuotoinen robots.txt-tiedosto. Me käytämme NameOceanissa nginx-palvelinta, ja annamme robots.txt suoraan siitä. Tässä nginx-konfiguraatiomme:

server {
  listen 443 ssl;
  server_name nameocean.net;

  location = /robots.txt {
      add_header Content-Type text/plain;
      return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
  }

  # ... muut säännöt

}

Jos haluat antaa kaikkien robottien vapaasti indeksoida koko sivuston:

User-agent: *
Disallow:

Read in other languages:

ZH-HANS EL EN DA DE ES FR IT HU NL NB PT RO SV UZ CS BG RU PL TR