Ay: Temmuz 2013

Bilgisayar Matematiği Metin Madenciliği (Text Mining) Veri Madenciliği (Data Mining) Yapay Zeka (Artificial Intelligence)

Jensen Shannon Mesafesi (Jensen-Shannon Divergence)

Yazan : Şadi Evren ŞEKER iki olasılık dağılımı arasındaki mesafeyi ölçmek için kullanılan yöntemlerden birisidir. Literatürde “bilgi çapı” (information radius , kısaca iRad ) veya ortalamaya olan toplam uzaklık (total divergence to average) olarak da geçmektedir. Tanımı itibariyle Kullback Leibler…

Bilgisayar Matematiği Metin Madenciliği (Text Mining) Veri Madenciliği (Data Mining) Yapay Zeka (Artificial Intelligence)

Kullback Leibler Uzaklığı (kullback-leibler divergence)

Yazan : Şadi Evren ŞEKER Olasılık teorisi ve bilgi teorisinde (information theory) geçen ve iki olasılık dağılımı arasındaki ilişkiyi (uzaklığı) formüllendiren yöntemin ismidir. Tanımı itibariyle, bilgi kazanımı (information gain) veya entropi kavramlarına yakındır ancak formüllendirmesi uzaklık (mesafe) değerinden sonuç döndürür….

Metin Madenciliği (Text Mining)

Tversky Indeksi (Tversky Index)

Yazan : Şadi Evren ŞEKER Tversky indeksi, verilen iki küme arasındaki benzerliği gösteren bir indeks değeridir. Hesaplanması sırasında, küme fonksiyonlarından faydalanır. Örnek olarak X ve Y isminde, iki kümemiz olduğunu kabul edersek indeks değeri aşağıdaki şekilde hesaplanacaktır: [latex]S(X, Y) =…

Metin Madenciliği (Text Mining)

Jaccard Indeksi (Jaccard Index)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, metinler arasındaki ilişkinin ölçülmesi amacıyla geliştirilen ölçülerde (metrics) birisi olan Jaccard indeksini açıklamaktır (jaccard index). Indeks basitçe iki metin üzerinden özellik çıkarımı (feature extraction) yapıldıktan sonra ortak olan özelliklerin sayısının, iki metindeki…

Metin Madenciliği (Text Mining) Veri Bilimi & Yapay Zeka

Sorenson-Dice Katsayisi (Dice Sorensen Coefficient)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, dizgiler (String) arasındaki mesafenin ölçülmesi için kullanılan dizgi metriklerinden (string metrics) Sorensen-Dice katsayısını (Sorensen-dice coefficient) anlatmaktır. Öncelikle bir özellik çıkarımı yöntemi ile iki metin üzerinden özellikler çıkarılır ve ardından aşağıdaki formüle göre…