Robots.txt Dosyası Hakkında Bilmeniz Gerekenler

Share:
robots.txt-dosyası-nasıl-oluşturulur

Robots.txt Nedir?

  Robots.txt dosyası, site sahiplerinin, genellikle arama motorlarına ait robotların (örümcekler), sitelerini nasıl tarayacaklarını bilgilendirmek için oluşturdukları bir metin dosyasıdır.

  Google dahil birçok websitesinde, robots.txt dosyası ile, çeşitli kullanıcı aracılarına (user agent) özel, direktifler belirtilmektedir. Bu direktifler ile, bu kullanıcı aracılarının websitelerinin hangi kısımlarını tarayabilecekleri veya tarayamayacakları ile, hangi kısımları indeksleyip, hangi kısımları indekslememeleri gerektiği gibi şeyler belirtilir.

  En basit hali ile, robots.txt dosyası alttaki gibidir. Alttaki örnek robots.txt ile belirtilen, tüm kullanıcı aracıları için (User-agent) için hiçbir şey yasaklanmamıştır şeklinde algılanabilir.

User-agent: *
Disallow:

Robots.txt Dosyası Nasıl Çalışır?

  Arama motorlarının temel olarak iki ana işlevi vardır. Bu işlevler, tüm interneti gezerek internet sitelerini ve içerikleri keşfetmek ile bu siteleri ve içerikleri dizinlerine eklemektir. Arama motorları, internet sitelerindeki bağlantıları takip ederek, bir siteden diğer siteye ulaşır ve bu şekilde sonsuza yakın bir gezintiye çıkarak, internette yer alan tüm içeriği dizinine eklemeye çalışırlar.

  Arama motorlarına ait örümcekler ise her bir yeni siteye ulaştığında, genellikle, öncelikli olarak robots.txt dosyasını arar ve eğer bu dosya mevcut ise, örümcekler, bu dosyayı ve bu dosyadaki direktifler incelerler. Robotlar, veya örümcekler, bu dosyadaki Allow ve Disallow komutlarına uyarak, bu sitedeki gezinme eylemlerini tamamlar ve bu sitedeki işlerini genellikle bu direktiflere uyarak bitirirler.

Robots.txt Dosyası Nasıl Olmalıdır?

  Robots.txt dosyası, internet sitelerinin en üst dizininde (root) bulunması gerekmektedir, ve tamamı küçük harflerden oluşan, robots.txt adı ile kaydedilmelidir. Ayrıca bu dosyanın herkes tarafından okunabilir olduğuna da dikkat edilmelidir. Her bir subdomain için de farklı bir robots.txt olması gerektiği gibi, robots.txt dosyasında, genellikle sitemap dosyasının konumu da belirtilmelidir.

Robots.txt Dosyasına Ait Terimler

  Robots.txt dosyasındaki terimler alttaki gibi listelenebilir. Genellikle, birçok robots.txt dosyasında gözlemlenen 5 farklı terim mevcuttur.

User-agent: Robots.txt dosyasında verilecek olan direktiflerin hedeflediği özel kullanıcı aracılarının belirtildiği terimdir. * ile belirtilmesi durumunda, tüm kullanıcı aracılarının kapsandığı anlamına gelmektedir.

Disallow: Kullanıcı aracılarına özellikle incelememesi için belirtilen kısımları belirten terimdir. Bir adres olabileceği gibi, bir klasör de olabilir.

Allow: Bu terimi sadece Googlebot’u algılayabilmektedir. Googlebot’un hangi sayfalara ya da hangi klasörlere erişebileceğini belirtir.

Crawl-delay: Bu terim ile robotların sayfayı yüklemeden önce kaç milisaniye beklemesi gerektiğini belirtmeye yarar.

Sitemap: Bu terim ile internet sitelerindeki sitemap’lerin hangi konumda yer aldığı belirtilir.


robots.txt-dosyası-nedir

Örnek Robots.txt Dosyaları

  Sitenizin, ana (root) dizininde bulunması gereken robots.txt dosyasının birçok farklı kullanımı vardır. Genellikle, birçok websitesi, kimi klasörlerin, arama motorlarına ait robotlar tarafından dizinlerine eklenmesini istemezler.

  Örneğin sitenizin hiçbir kısmının robotlar tarafından ziyaret edilmesini istiyorsanız, alttaki gibi bir robots.txt dosyasını kullanabilirsiniz.

User-agent: *
Disallow: /

  Sitenizi robotlara açmak, ancak belirli klasörleri kapatmak isterseniz, üstteki direktifi değiştirmeniz gerekmektedir. Örneğin sitenize ait wp-admin klasörünün olduğunu düşünün, bu kısmın robotlar tarafından ziyaret edilmesini istemiyorsanız alttaki gibi bir robots.txt dosyası oluşturabilirsiniz.

User-agent: *
Disallow: /wp-admin

  Sitenizin tamamını robotlara açmak ve sitemap konumunu da robotlara belirtmek isterseniz, alttaki gibi robots.txt dosyası oluşturabilirsiniz.

User-agent: *
Disallow:
Sitemap: https://alanadim.com/sitemap.xml

  Eğer sitenizi YandexNews haricindeki tüm robotlara açmak isterseniz alttaki gibi bir robots.txt dosyası oluşturabilirsiniz.

User-agent: YandexNews
Disallow: /

  Üstteki formatlardaki gibi tüm kullanıcı aracılarına özel direktiflerin belirtilebileceği robots.txt dosyasında aynı zamanda birçok kullanıcı aracısına özel, farklı direktifler de belirtilebilir. Bu direktifler, birer boşluk ile alttaki örnekteki gibi belirtilebilir.

  Alttaki robots.txt dosyasında, Twitterbot ile facebookexternalhit kullanıcı aracılarına Allow direktifi ile imgres klasörüne erişim izni verilmektedir, ancak bu kullanıcı aracıları haricindekilere bu klasöre erişim izni Disallow direktifi ile verilmemektedir.

User-agent: *
Disallow: /imgres

User-agent: Twitterbot
Allow: /imgres

User-agent: facebookexternalhit
Allow: /imgres
Misafir Yazar: Burak Özdemir uzun yıllardır web geliştiriciliği ile uğraşmaktadır. Genellikle tarih ve PHP üzerine yazılar yazdığı internet sitesini incelemek için https://ozdemirburak.com adresini ziyaret edebilirsiniz.
Not: Sizde misafir yazar olarak sesinizi duyurmak isterseniz https://dogushakanyilmaz.blogspot.com/p/yazar-ol_30.html bağlantısına tıklayarak başlayabilirsiniz.

Bu yazı Burak Özdemir tarafından yazılmıştır.
✔ Bu içeriği beğendiyseniz lütfen paylaşın ⤵

6 yorum:

  1. Çok bilgilendirici bir yazı olmuş. Tebrikler

    YanıtlaSil
  2. Güzel bilgiler paylaşmışsınız. Emeğinize sağlık.

    YanıtlaSil
  3. Blogger'da bu konuda bir özelleştirme yapabilmek mümkün değil sanırım değil mi? Ne sunulduysa onu alıyoruz sanki...

    YanıtlaSil
    Yanıtlar
    1. Burak Özdemir5 Kasım 2018 23:31

      Yorumlarınız için teşekkür ederim, Recep Bey sizin sorunuzu ayrıca cevaplayacak olursam, Ayarların altında yer alan Arama tercihleri kısmından, Özel robots.txt'nin yanında düzenleye tıklayıp Evet'e bastıktan sonra dilediğiniz düzenlemeleri yapabiliyor olmalısınız.

      Sil

YORUM YAPARAK KATKIDA BULUNABİLİRSİNİZ...

1) Yaptığınız yorumun, yazıyla alakalı olmasına özen gösterin.
2) Yazım ve dil bilgisi kurallarına mümkün olduğunca dikkat edin.
3) Kullandığınız üslubun sizi yansıttığını unutmayın.
4) Yorum yaparken link eklemeyin.