Yazan : Şadi Evren ŞEKER
Tversky indeksi, verilen iki küme arasındaki benzerliği gösteren bir indeks değeridir. Hesaplanması sırasında, küme fonksiyonlarından faydalanır. Örnek olarak X ve Y isminde, iki kümemiz olduğunu kabul edersek indeks değeri aşağıdaki şekilde hesaplanacaktır:
[latex]S(X, Y) = frac{| X cap Y |}{| X cap Y | + alpha | X – Y | + beta | Y – X |}[/latex]
Yukarıdaki formülden de anlaşılacağı üzere, iki kümenin kesişim değeri, iki kümenin kesişimi, birinci kümenin ikinci kümeden farkı ve ikinci kümenin birinci kümeden farkıyla toplanan değere bölünmüştür. Burada kullanılan [latex] alpha [/latex] ve [latex] beta [/latex] değerleri ise iki küme arasında ağırlık verilmek için kullanılır. Örneğin kümelerden birisine daha fazla ağırlık verilmesi için bu katsayı değerleri değiştirilebilir. Genel olarak Tversky indeksinde [latex] alpha + beta = 1 [/latex] olarak kabul edilir ve toplamı 1 olan herhangi iki değer ataması yapılabilir. Buna karşılık [latex] alpha = beta = 1 [/latex] olduğu özel duruma, Tanimoto katsayısı ve [latex] alpha = beta = 0.5 [/latex] olduğu özel duruma da Dice katsayısı ismi verilir.
Tversky indeksi herhangi iki küme arasında çalışabilir. Örneğin metin madenciliği (text mining) çalışması sırasında, iki metin arasındaki benzerliği bulmak istiyor olalım.
Dizgi 1 = “bilgi”
Dizgi 2 = “bilim”
Bu iki dizgi üzerinde, öncelikle özellik çıkarımı (feature extraction) yapıyoruz. Örneğin her harf bir özellik olabilir veya bi-gram kullanabiliriz. Diyelim ki bi-gram kullanmak istedik bu durumda iki dizginin bi-gram değerleri aşağıdaki şekilde olacaktır:
Bi-Gram(Dizgi 1)= {bi,il,lg,gi}
Bi-Gram(Dzigi 2)= {bi,il,li,im}
İki kümenin kesişimi = {bi,il}
İki kümenin birleşimi = {bi, il , lg, li , im , gi}
D1 – D2 = {lg, gi}
D2 – D1 = {li, im}
Buna göre, formülde değerleri yerine yazarsak
[latex]S(D1, D2) = frac{| D1 cap D2 |}{| D1 cap D2 | + alpha | D1 – D2 | + beta | D2 – D1 |}[/latex]
Diyelim ki D1, D2’ye göre daha önemli bir metin olsun ve [latex] alpha = 0.7 [/latex] gibi yüksek bir değer almak isteyelim. Bu durumda denklemimiz aşağıdaki şekilde olacaktır:
[latex]S(D1, D2) = frac{2}{2 + 0.7 * 2 + 0.3 * 2} = frac 2 6 = 0.33[/latex]
olarak bulunur.