Robots.txt: Ce este și cum îl adaugi pe Nginx?
Cum funcționează fișierul robots.txt?
Fișierul robots.txt indică roboților motoarelor de căutare ce pagini pot sau nu pot explora pe site-ul tău. E o listă simplă cu reguli. Motoarele de căutare o citesc rapid și știu exact ce să indexeze, fără să scaneze totul de la zero.
Exemplu concret de robots.txt
Verifică fișierul robots.txt de pe NameOcean aici: nameocean.net/robots.txt. Conține aceste reguli:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Asta înseamnă că orice robot poate accesa site-ul, dar evită folderele /recaptcha și /tag/. Plus, le trimite direct la sitemap-ul nostru de pe nameocean.net/sitemap.xml.
Cum adaugi robots.txt pe site-ul tău?
Dacă ai un server HTTP basic, care servește fișiere din /var/www, creează pur și simplu un fișier text numit robots.txt în rădăcina site-ului. La NameOcean folosim nginx, așa că generăm fișierul dinamic prin configurație. Iată fragmentul relevant din nginx.conf:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... alte reguli
}
Pentru a permite tuturor roboților acces total la site:
User-agent: * Disallow: