Τι είναι το robots.txt και πώς το προσθέτεις σε Nginx;
Μάι 01, 2019
robots.txt nginx knowledge base
Τι είναι το αρχείο robots.txt;
Το robots.txt καθοδηγεί τα bots των μηχανών αναζήτησης για το ποιες σελίδες ενός site μπορούν να σκαναρίσουν. Λειτουργεί σαν κατάλογος περιοχών. Οι μηχανές το διαβάζουν και αποφεύγουν να ψάχνουν τυφλά νέες σελίδες.
Παράδειγμα αρχείου robots.txt
Δες το robots.txt του NameOcean εδώ: nameocean.net/robots.txt. Περιέχει αυτές τις γραμμές:
User-agent: * Disallow: /recaptcha Disallow: /tag/ Sitemap: https://nameocean.net/sitemap.xml
Επιτρέπει σε όλα τα bots να σκαναρίσουν τις σελίδες, εκτός από /recaptcha και /tag. Επίσης, δείχνει το sitemap.xml στο nameocean.net/sitemap.xml.
Πώς προσθέτεις robots.txt στο site σου;
Σε απλό HTTP server με φάκελο όπως /var/www, βάλε ένα απλό text αρχείο. Στο NameOcean χρησιμοποιούμε nginx και σερβίρουμε το robots.txt απευθείας από config. Δες το δικό μας παράδειγμα:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... υπόλοιπες ρυθμίσεις
}
Για να επιτρέψεις σε όλα τα crawlers να σκαναρίσουν τα πάντα:
User-agent: * Disallow: