Arama motorları nasıl çalışıyor?
Google gibi arama motorları nasıl çalışıyor? Crawling, ranking gibi terimler ne anlama geliyor?
World Wide Web'in icadından bir sonraki en büyük icat,
Google olsa gerek. Birçoğumuz için internetin ta
kendisi olan Google, gazetelerden dergilere tüm internetteki
içeriği kolaylıkla bulunabilir bir hale getiriyor. Hatta
bazılarımız, site adreslerini bilsek bile bunun yerine sitenin
adını Google'da aratma yolunu tercih ediyoruz.
Arama motorlarının en temel aşaması, "crawling" adı
verilen web sitelerindeki içerikleri taramaktan ve verilerin
analiz edilerek dev veritabanlarında
depolanmasından oluşuyor.
Crawling
Crawling adı verilen işlem, arama motorunun web sitelerini ziyaret
ederek orada bulduğu her şeyin bir listesini kaydetmesi anlamına
geliyor. Bunlar arasında en az sayfa başlığı, resimler,
anahtar sözcükler ve diğer sayfalara verilen
bağlantılar bulunuyor. Bazı arama motorları, tüm web sayfasını
kendi üzerinde depolayabiliyorlar, reklamların, bağlantıların
sayfanın neresinde olduğunu tarayabiliyorlar.
Crawling işlemi, otomatik olarak bilgisayarlar tarafından
gerçekleştiriliyor. Bu sırada web sitesindeki her sayfa tek tek
ziyaret ediliyor, ancak bu işlem bir insanın yapabileceğinden çok
daha hızlı yerine getiriliyor. Crawling, sonu olmayan bir işlem,
yani arama motorları belirli aralıklarla web
sitelerini tekrar tekrar tarıyorlar.
Arama motorunun taradığı web sitelerindeki herhangi bir yeni web
sitesine verilen bağlantı, bu yeni web sitesinin de taranmasıyla
sonuçlanır. Crawling işlemin sıklığı ve derinliği, siteden siteye
değişmektedir.
İndeksleme, sıralama (ranking) ve geri getirme
İndeksleme
İndekslemeyi bir kütüphanede bulunan tüm
kitapların sahibini, sayfa numarasını bir listeye kaydetmeye
benzetebiliriz. Ancak Google'ın indeksleme için çok daha büyük,
yüzlerce petabayt'lık verilerle çalıştığını söyleyelim. Bunun
yanında indekslerde sadece sayfa başlığı ve sayısı değil,
sayfaların içeriğine dair bilgiler de yer alır.
Sıralama/puanlandırma ve geri getirme
Bir arama motorunda arama yaptığınızda, karşınıza bu aramanızla en
ilgili sonucun gelmesi gerekir. Bu, arama motorları için en
karmaşık adımdır ve arama hizmetleri, bu alanda
farklılaşmaktadırlar.
Sıralama (ranking) algoritması, sorgunuzu milyarlarca
sayfa ile karşılaştırarak hangisinin daha uygun sonuç
olduğunu bulmaya çalışır. Bu işlem çok karmaşık olduğundan,
şirketler kendi sıralama algoritmalarını endüstri sırrı olarak
patentlerler. Bunun iki nedeni vardır. Birincisi, aramalarda en iyi
sonucu vererek pazarın lideri olmayı sürdürebilirsiniz. İkincisi
ise algoritmayı bilmeyen siteler, onu "kandırarak"
birbirlerine haksız bir üstünlük sağlayamazlar.