Mitä on robots.txt ja miten lisäät sen Nginx-palvelimeen?
Tou 01, 2019
robots.txt nginx knowledge base
Mikä ihmeen robots.txt-tiedosto?
Robots.txt ohjaa hakukoneiden robotteja kertomalla, mitkä sivut sivustolta saa indeksoida. Se listaa alueet, joille robotit eivät saa mennä. Näin hakukoneet tietävät heti, mitä skipata, ilman turhaa selaamista.
Esimerkki robots.txt-tiedostosta
Katso NameOceanin robots.txt osoitteesta nameocean.net/robots.txt. Tiedosto sisältää tällaisen sisällön:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Tämä kieltää robotit käymästä /recaptcha- ja /tag-kansioissa. Lisäksi se viittaa sitemap.xml-tiedostoon, joka auttaa indeksoinnissa.
Näin lisäät robots.txt omalle sivustollesi
Perus-http-palvelimella, kuten /var/www-kansiossa, riittää pelkkä tekstimuotoinen robots.txt-tiedosto. Me käytämme NameOceanissa nginx-palvelinta, ja annamme robots.txt suoraan siitä. Tässä nginx-konfiguraatiomme:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... muut säännöt
}
Jos haluat antaa kaikkien robottien vapaasti indeksoida koko sivuston:
User-agent: * Disallow: