Eş-Eğitim (Co-Training)

Yazan : Şadi Evren ŞEKER Literatürde İngilizce olarak co-training veya co-learning olarak geçen kavramdır. Türkçede eş-eğitim veya eş-öğrenim şeklinde karşılık bulmak mümkündür. Kavram aslı itibariyle bir makine öğrenmesi (machine learning) algoritmasını ifade eder ve genel olarak metin madenciliği (text mining) ve daha özel olarak da arama motorları(search engine) için yaygın kullanımı bulunmaktadır. Algoritma Algoritma, yarı […]

Devam

Metin Madenciliği (Text Mining)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, literatürde metin madenciliği (text mining) veya metin veri madenciliği (text data mining) kavramını açıklamaktır. En basit anlamda, metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. Örneğin metinlerin sınıflandırılması, bölütlenmesi (clustering), […]

Devam

Jensen Shannon Mesafesi (Jensen-Shannon Divergence)

Yazan : Şadi Evren ŞEKER iki olasılık dağılımı arasındaki mesafeyi ölçmek için kullanılan yöntemlerden birisidir. Literatürde “bilgi çapı” (information radius , kısaca iRad ) veya ortalamaya olan toplam uzaklık (total divergence to average) olarak da geçmektedir. Tanımı itibariyle Kullback Leibler Uzaklığının (kullback-leibler divergence) simetrik hali olarak düşünülebilir. Yani kullback leibler mesafesinde iki olasılık dağılımı olan […]

Devam

Kullback Leibler Uzaklığı (kullback-leibler divergence)

Yazan : Şadi Evren ŞEKER Olasılık teorisi ve bilgi teorisinde (information theory) geçen ve iki olasılık dağılımı arasındaki ilişkiyi (uzaklığı) formüllendiren yöntemin ismidir. Tanımı itibariyle, bilgi kazanımı (information gain) veya entropi kavramlarına yakındır ancak formüllendirmesi uzaklık (mesafe) değerinden sonuç döndürür. Literatürde mesafe anlamına gelen İngilizce “distance” kelimesinin ilk harfi olan D ile gösterilir ve DKL […]

Devam

Tversky Indeksi (Tversky Index)

Yazan : Şadi Evren ŞEKER Tversky indeksi, verilen iki küme arasındaki benzerliği gösteren bir indeks değeridir. Hesaplanması sırasında, küme fonksiyonlarından faydalanır. Örnek olarak X ve Y isminde, iki kümemiz olduğunu kabul edersek indeks değeri aşağıdaki şekilde hesaplanacaktır: [latex]S(X, Y) = frac{| X cap Y |}{| X cap Y | + alpha | X – Y […]

Devam

Tanimoto Benzerlik Fonksiyonu (Tanimoto Similarity)

Yazan : Şadi Evren ŞEKER Tanimoto benzerlik fonksiyonu, 1960 yılında iki bitki resmi arasındaki benzerliğin bulunması amacıyla yapılan çalışmalar sırasında çıkmıştır. Resimlerin bitmap olarak tutulduğu bir ortamda, yani resimlerin 1 veya 0 olabilen bitler ile tutulduğu bir ortamda iki resim arasındaki benzerlik karşılaştırması sırasında, iki resimdeki aynı koordinattaki her bir bit mantıksal “ve” ve “veya” […]

Devam

Jaccard Indeksi (Jaccard Index)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, metinler arasındaki ilişkinin ölçülmesi amacıyla geliştirilen ölçülerde (metrics) birisi olan Jaccard indeksini açıklamaktır (jaccard index). Indeks basitçe iki metin üzerinden özellik çıkarımı (feature extraction) yapıldıktan sonra ortak olan özelliklerin sayısının, iki metindeki toplam özellik sayısına bölünmesi ile elde edilir. Bu durum aşağıdaki şekilde formüle edilebilir. [latex]J(A,B)=frac {left| […]

Devam

Dizgi (String)

  Yazan: Şadi Evren ŞEKER Bir dilde bulunan ve o dilin tanımlı olan alfabesi içerisindeki sembollerin çeşitli sayılarda ve çeşitli sırada dizilmesi ile elde edilen yazılardır. Örneğin bir dildeki alfabe aşağıdaki şekilde tanımlı olsun: ∑1 = {0,1} Buna göre dilimizde sadece “0” ve “1” sembolleri tanımlı demektir. Bu dilde örneğin w1=0 veya w2=10101011010 gibi bir […]

Devam