Yazan : Şadi Evren ŞEKER

Bu yazının amacı, özellikle arama motorlarında, veri madenciliğinde ve metin madenciliği gibi konularda sıkça kullanılan HITS ve HUBS algoritmalarını açıklamaktır. HITS algoritması, Hyperlink Included Text Search kelimelerinin baş harflerinden oluşmaktaır ve Türkçeye bağlantı dahil metin araması şeklinde çevrilebilir. Anlatılmak istenen metin araması sırasında metinler arasındaki bağlantıların da arama sonucuna etki etmesidir.

Algoritmalar oldukça basit bir şekilde birbirine atıfta bulunan (refere eden) metinlerin skorlanması için geliştirilmiştir.

Örneğin, yukarıdaki şekilde B,C ve D dokümanlarının A dokümanına atıfta bulunması hali temsil edilmiştir. Buna karşılık ikinci resimde ise bir A dökümanından atıfta bulunulmuş dokümanlar gösterilmiştir.

İlk resimdeki durumda HITS durumundan bahsedilebilir. HITS algoritması aslında HUBS and Authorities ismi ile de anılmaktadır. Hub kelimesi ingilizcede grafikler üzerindeki bağlantı noktaları için kullanılmaktadır ve İngilizce, Türkçedeki “ göbek” kelimesine benzer bir anlam ifade etmektedir. Authorities is Türkçede de otorite olarak geçmektedir ve eski dilde “sulta” veya “ kudret” gibi kelimeler ile karşılanmaktadır. Bu anlamda bir metnin sultası veya kudreti, içeriğinin sirayet ettiği metinler ile ölçülebilir. Yukarıdaki ikinci resim de bunu göstermektedir ve A metninin sultasında olan kudret etkisinde olan diğer metinleri göstermektedir.

Gelelim algoritmaya.

Algoritma iki küme üzerinden çalışır. Birincisi kök diğeri ise baz kümeleridir. Kök kümesinde normal metin aramasına göre bulunan sonuçların belirli bir kısmı barındırılır. Örneğin limit olarak 10 belirledik diyelim. Arama sonucunda çıkan yüzlerce sonuçtan en iyi 10 tanesini alıyoruz (buradaki en iyi kavramı herhangi bir skorlamaya göre yapılabilir ve şu anda anlatılan konunun dışındadır). Ardından bu en iyi 10 sonucu kök kümesi ilan edip bu küme ile atıf ilişkisi olan (atıf edilmiş ve aıf edinilen) bütün dokümanları içeren ikinci bir baz kümesi oluşturuyoruz.

Yukarıdaki şekilde bu durumu temsili olarak resmeden iki küme görülmektedir. Buna göre baz kümesi, kök kümesinin üst kümesi (superset) olarak kabul edilmelidir.

Burada yapılacak hesaplama iki adımdan oluşur. İlk adımdan metnin sultasındaki veya kudret etkisindeki diğer metinleri sayıyoruz:

Burada, metnin sultası (kudreti) hesaplanırken kendisine atıfta bulunan her metin için (göbek) bir değer eklenmektedir. Toplam sembolünde, p metnine atıfta bulunan her q metni için toplamaya bir değer ekleneceği ve bu metinlerin Baz kümesi elemanı olacağı ifade edilmiştir.

Gelelim HITS hesabına:

Bir önceki adımda hesaplanan sulta değeri için yine aynı metin kümesindeki her bir atıf sayısı sayılır ve kaç tane olduğu HITS değeri olarak tutulur.

Özetlenecek olursa, öncelikle metinler iki kümeye ayrılır. Birincisi metin araması sonucundaki kümenin belirli sayıdaki elemanı (kök küme), ikincisi ise bu metinlerle atıf ilişkisi olan metinlerdir (baz küme). İki adımda HITS değeri hesaplanır. Birinci adımda metnin etki ettiği metinlerin sayısı sayılır ve ikinci adımda metne etki eden metinlerin etki değerleri toplanır.

HITS algoritması, şu anda google tarafından da kullanılan pagerank algoritmasının öncüsü olarak görülebilir ve pagerank algoritmasına göre biraz daha ilkel kabul edilebilir.


Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir