Arama Motoru Örümceklerinin Çalışma Mantığı
Crawler ismi de verilen arama motoru örümcekleri özel bir yazılımdır
ve arama motorlarının web üzerinde ne gibi değişiklikler yaşandığını tespit etmek için kullanılır. Son derece geniş bir kitleyi içerisine kapsayan internet dünyası, ne olup bittiğini tespit etmek zordur ancak bu örümcekler sayesinde rahat bir şekilde takip yapılabiliyor.
Örümcekler kişilerin bilgilerini ve sayfalardaki köprüleri takip ederek arama motorlarında ilgili siteleri bulurlar. Örümcekler sitelerde gezinirken tüm içerikler özel bir veri tabanına kaydedilir ve sonrasında arama motorları siteleri indeksler. Örümceklerin ilk olarak kontrol ettiği şey ise robots.txt dosyasıdır.
Robotx.txt Dosyasının Görevi Nedir?
Örümceklere nelerin indeksleneceğini, nelerin indekslenmeyeceğini söyleyen dosya Robotx.txt dosyasıdır. Örümcekler bu dosyayı bulamadıklarında o sayfayı yok sayar ve bu durum o sitenin arama motorları tarafından dikkate alınmayacağı anlamına gelir. Bu yüzden böyle bir sorun ile karşılaşmamak için mutlaka robotx.txt dosyasına sahip olmak gerekiyor. Böylece örümcekler bu dosyayı kullanarak sayfaların köprülerini ve arama sayfalarını kullanarak siteleri bulurlar.
Arama motorlarının siteleri indekslemesi için ayrıca bir talep formu kullanılabilir. Bazı durumlarda oldukça iyi bir yöntem olduğu için birçok kişi sitesi için bu yola başvurmaktadır. Ayrıca bu yöntem arama motoru için de önemli bir işlemdir. Çünkü arama motorları bu şekilde ilgili siteleri başka bir arama motoruna vermez. Ayrıca link sayısının da arama motorları açısından önemli bir kriter olduğunu belirtelim.