World Wide Web'in icadından bir sonraki en büyük icat, Google olsa gerek. Birçoğumuz için internetin ta kendisi olan Google, gazetelerden dergilere tüm internetteki içeriği kolaylıkla bulunabilir bir hale getiriyor. Hatta bazılarımız, site adreslerini bilsek bile bunun yerine sitenin adını Google'da aratma yolunu tercih ediyoruz.
Arama motorlarının en temel aşaması, "crawling" adı verilen web sitelerindeki içerikleri taramaktan ve verilerin analiz edilerek dev veritabanlarında depolanmasından oluşuyor.
Crawling
Crawling adı verilen işlem, arama motorunun web sitelerini ziyaret ederek orada bulduğu her şeyin bir listesini kaydetmesi anlamına geliyor. Bunlar arasında en az sayfa başlığı, resimler, anahtar sözcükler ve diğer sayfalara verilen bağlantılar bulunuyor. Bazı arama motorları, tüm web sayfasını kendi üzerinde depolayabiliyorlar, reklamların, bağlantıların sayfanın neresinde olduğunu tarayabiliyorlar.
Crawling işlemi, otomatik olarak bilgisayarlar tarafından gerçekleştiriliyor. Bu sırada web sitesindeki her sayfa tek tek ziyaret ediliyor, ancak bu işlem bir insanın yapabileceğinden çok daha hızlı yerine getiriliyor. Crawling, sonu olmayan bir işlem, yani arama motorları belirli aralıklarla web sitelerini tekrar tekrar tarıyorlar.
Arama motorunun taradığı web sitelerindeki herhangi bir yeni web sitesine verilen bağlantı, bu yeni web sitesinin de taranmasıyla sonuçlanır. Crawling işlemin sıklığı ve derinliği, siteden siteye değişmektedir.
İndeksleme, sıralama (ranking) ve geri getirme
İndeksleme
İndekslemeyi bir kütüphanede bulunan tüm kitapların sahibini, sayfa numarasını bir listeye kaydetmeye benzetebiliriz. Ancak Google'ın indeksleme için çok daha büyük, yüzlerce petabayt'lık verilerle çalıştığını söyleyelim. Bunun yanında indekslerde sadece sayfa başlığı ve sayısı değil, sayfaların içeriğine dair bilgiler de yer alır.
Sıralama/puanlandırma ve geri getirme
Bir arama motorunda arama yaptığınızda, karşınıza bu aramanızla en ilgili sonucun gelmesi gerekir. Bu, arama motorları için en karmaşık adımdır ve arama hizmetleri, bu alanda farklılaşmaktadırlar.
Sıralama (ranking) algoritması, sorgunuzu milyarlarca sayfa ile karşılaştırarak hangisinin daha uygun sonuç olduğunu bulmaya çalışır. Bu işlem çok karmaşık olduğundan, şirketler kendi sıralama algoritmalarını endüstri sırrı olarak patentlerler. Bunun iki nedeni vardır. Birincisi, aramalarda en iyi sonucu vererek pazarın lideri olmayı sürdürebilirsiniz. İkincisi ise algoritmayı bilmeyen siteler, onu "kandırarak" birbirlerine haksız bir üstünlük sağlayamazlar.