Robots.txt Nedir? Nginx'e Nasıl Ekleyebilirsiniz?
Robots.txt Dosyası Nedir ve Nasıl Kullanılır?
Robots.txt Dosyası Kısaca
Robots.txt, arama motorlarının web sitenizde hangi sayfaları tarayabileceğini (ya da tarayamayacağını) kontrol eden basit bir metin dosyasıdır. Kısaca, sitenizin tüm sayfalarının bir listesidir. Arama motoru botları bu listeyi okuyarak, hangi bölümleri ziyaret edebileceklerini anlar. Böylece her seferinde yeni sayfalar aramaya gerek kalması.
Gerçek Bir Robots.txt Örneği
NameOcean'ın robots.txt dosyasını görmek istiyorsanız nameocean.net/robots.txt adresine gidebilirsiniz. İçeriği şu şekildedir:
User-agent: *
Disallow: /recaptcha
Disallow: /tag/
Sitemap: https://nameocean.net/sitemap.xml
Bu dosyanın anlamı oldukça basit: Tüm arama motoru botlarına izin verilir, ancak "/recaptcha" ve "/tag/" dizinlerine giriş yasaktır. Ayrıca sitemap'in nerede bulunduğunu da belirtilmiştir.
Sitenize Robots.txt Dosyası Nasıl Eklenir?
Robots.txt dosyasını sitenize ekleme yöntemi, kullandığınız sunucu yazılımına bağlıdır. Eğer basit bir HTTP sunucusu kullanıyorsanız, "/var/www" gibi bir klasöre robots.txt metin dosyasını doğrudan koyabilirsiniz.
NameOcean nginx kullanıyor ve bu dosyayı nginx konfigürasyonu üzerinden sunuyor. İşte onların nginx ayarı:
server {
listen 443 ssl;
server_name nameocean.net;
location = /robots.txt {
add_header Content-Type text/plain;
return 200 "User-agent: *\nDisallow: /recaptcha\nDisallow: /tag/\nSitemap: https://nameocean.net/sitemap.xml\n";
}
# ... diğer kurallar
}
Tüm Sayfaları Taranabilir Hale Getirmek
Eğer bütün web crawlerlarını sitenizin tamamını taraması için davet etmek istiyorsanız, robots.txt dosyasını şu şekilde düzenleyin:
User-agent: *
Disallow:
Bu yapılandırma herhangi bir kısıtlama olmadığını belirtir ve arama motorları sitenizin her köşesini özgürce tarayabilir.