Yazan : Şadi Evren ŞEKER
Tversky indeksi, verilen iki küme arasındaki benzerliği gösteren bir indeks değeridir. Hesaplanması sırasında, küme fonksiyonlarından faydalanır. Örnek olarak X ve Y isminde, iki kümemiz olduğunu kabul edersek indeks değeri aşağıdaki şekilde hesaplanacaktır:
[latex]S(X, Y) = frac{| X cap Y |}{| X cap Y | + alpha | X – Y | + beta | Y – X |}[/latex]
Yukarıdaki formülden de anlaşılacağı üzere, iki kümenin kesişim değeri, iki kümenin kesişimi, birinci kümenin ikinci kümeden farkı ve ikinci kümenin birinci kümeden farkıyla toplanan değere bölünmüştür. Burada kullanılan [latex] alpha [/latex] ve [latex] beta [/latex] değerleri ise iki küme arasında ağırlık verilmek için kullanılır. Örneğin kümelerden birisine daha fazla ağırlık verilmesi için bu katsayı değerleri değiştirilebilir. Genel olarak Tversky indeksinde [latex] alpha + beta = 1 [/latex] olarak kabul edilir ve toplamı 1 olan herhangi iki değer ataması yapılabilir. Buna karşılık [latex] alpha = beta = 1 [/latex] olduğu özel duruma, Tanimoto katsayısı ve [latex] alpha = beta = 0.5 [/latex] olduğu özel duruma da Dice katsayısı ismi verilir.

Tversky indeksi herhangi iki küme arasında çalışabilir. Örneğin metin madenciliği (text mining) çalışması sırasında, iki metin arasındaki benzerliği bulmak istiyor olalım.

Dizgi 1 = “bilgi”

Dizgi 2 = “bilim”

Bu iki dizgi üzerinde, öncelikle özellik çıkarımı (feature extraction) yapıyoruz. Örneğin her harf bir özellik olabilir veya bi-gram kullanabiliriz. Diyelim ki bi-gram kullanmak istedik bu durumda iki dizginin bi-gram değerleri aşağıdaki şekilde olacaktır:

Bi-Gram(Dizgi 1)= {bi,il,lg,gi}
Bi-Gram(Dzigi 2)= {bi,il,li,im}

İki kümenin kesişimi = {bi,il}
İki kümenin birleşimi = {bi, il , lg, li , im , gi}

D1 – D2 = {lg, gi}
D2 – D1 = {li, im}

Buna göre, formülde değerleri yerine yazarsak

[latex]S(D1, D2) = frac{| D1 cap D2 |}{| D1 cap D2 | + alpha | D1 – D2 | + beta | D2 – D1 |}[/latex]
Diyelim ki D1, D2’ye göre daha önemli bir metin olsun ve [latex] alpha = 0.7 [/latex] gibi yüksek bir değer almak isteyelim. Bu durumda denklemimiz aşağıdaki şekilde olacaktır:

[latex]S(D1, D2) = frac{2}{2 + 0.7 * 2 + 0.3 * 2} = frac 2 6 = 0.33[/latex]

olarak bulunur.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir