Jensen Shannon Mesafesi (Jensen-Shannon Divergence)

Yazan : Şadi Evren ŞEKER iki olasılık dağılımı arasındaki mesafeyi ölçmek için kullanılan yöntemlerden birisidir. Literatürde “bilgi çapı” (information radius , kısaca iRad ) veya ortalamaya olan toplam uzaklık (total divergence to average) olarak da geçmektedir. Tanımı itibariyle Kullback Leibler Uzaklığının (kullback-leibler divergence) simetrik hali olarak düşünülebilir. Yani kullback leibler mesafesinde iki olasılık dağılımı olan […]

Devam

Kullback Leibler Uzaklığı (kullback-leibler divergence)

Yazan : Şadi Evren ŞEKER Olasılık teorisi ve bilgi teorisinde (information theory) geçen ve iki olasılık dağılımı arasındaki ilişkiyi (uzaklığı) formüllendiren yöntemin ismidir. Tanımı itibariyle, bilgi kazanımı (information gain) veya entropi kavramlarına yakındır ancak formüllendirmesi uzaklık (mesafe) değerinden sonuç döndürür. Literatürde mesafe anlamına gelen İngilizce “distance” kelimesinin ilk harfi olan D ile gösterilir ve DKL […]

Devam

Entailment (İcap)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, özellikle mantık konusunda sıkça geçen icab (entailment) konusunu açıklamaktır. Türkçeye mantıksal gerektirme, olarak da çevrilebilecek olan icab konusu mantıksal iki kaziyenin (önerme, predicate) arasında kurulan ikili bir işlemdir (operator). Basitçe bir kaziyenin diğerini gerektirmesi, icap ettirmesi anlamına gelir. Mantıkta seviyeye göre veya →, ⇒, ⊃, ⊢, ⊨. […]

Devam

Linear Regression (Doğrusal İlkelleme)

Yazan : Şadi Evren ŞEKER  Bu yazının amacı, doğrusal ilkelleme yöntemini (linear regression) açıklamaktır. Basitçe bir veri kümesinin iki boyutlu bir uzayda dağılıdığını düşünelim. Veri kümemizdeki değerlerin iki boyutlu uzayda, yukarıdaki şekilde gösterildiğini kabul edelim. Şimdi doğrusal ilkelleme ile amaçlanan bu noktaların tamamına en yakın geçen doğruyu elde etmektir. Örneğin aşağıdaki şekilde olabilir: Her doğrunun […]

Devam

Sensitivity Specificity (Hassasisyet ve Hasiyet)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, özellikle sağlık alanında yapılan veri madenciliği çalışmalarında sıkça geçen hassasiyet (sensitivity) ve hasiyet (sepecificity) kavramlarını açıklamaktır. Öncelikle tip 1 ve tip 2 hata değerlerini hatırlatmak için aşağıdaki şekilde bir teşhis neticesini inceleyelim. Müsbet Menfi Doğru TP (DMü) TN (DMe) Yanlış FP (YMü) FN (YMe) Örneğimizde bir hastalık […]

Devam

Olasılık ölçüm fonksiyonu (Probability measurement function)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, olasılık ölçüm fonksiyonunu (probability measure function) açıklamaktır. Basitçe bir kümedeki elemanların sayma kümesine indirgenmesi aslında sayılabilirliğin (cardinality, countability) bir özelliğidir. Bu kümenin toplam eleman sayısına bölünmesi ise olasılık ölçüm fonksiyonunu verir. Örneğin bir evrensel kümenin elemanları aşağıdaki şekilde verilmiş olsun : E = {1,2,3} Bu kümenin bütün […]

Devam

Expected Value (Beklenen değer)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, özellikle istatistik ve olasılık konularında sıkça geçen beklenen değer (expected value) kavramını açıklamaktır. Basitçe bir fonksiyonun (veya olayın) beklenen değeri aşağıdaki şekilde yazılabilir: Buradaki E gösterimi ingilizcedeki Expectation kavramının baş harfidir ve beklenen değeri anlatır. Aslında beklenen değer hesabı basitçe bir ağırlıklı ortalama almaktan ibarettir (weighted average). […]

Devam

Probability Axioms (Olasılık Düsturları)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, olasılık teorisine (probability theory) giriş yapmaktır. Temel olarak 3 farklı yaklaşımdan bahsetmek mümkündür: Gerçekleşme ihtimallerine göre olasılık tanımı. Olayların sıklıklarına göre olasılık tanımı. Düsturlara (axioms) göre olasılık tanımı. Bu üç yaklaşım birbirinden farklıdır. Basit bir şekilde ilk iki tanımı anlatarak başlayalım. Örneğin bir torbadan top çektiğimizi düşünelim. […]

Devam

Information Gain (Bilgi Kazanımı)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, özellikle veri madenciliği konularında sıkça kullanılan bilgi kazanımı (information gain) konusunu açıklamaktır. Bilgi kazanımı basitçe Shannon’un bilgi teorisinden (Shannon’s information theory) gelmekte olup temeli termodinamik konularına kadar dayanmaktadır. Bu yazıda basitçe bilgisayar bilimleri açısından anlamını anlatıp hızlıca bir örnek üzerinden nasıl hesaplanacağını göstereceğiz. Bilgi kazanımı (information gain) […]

Devam

Varyans (Variance)

Yazan : Şadi Evren ŞEKER Varyans kavramı aslında olasılıktaki birkaç konuyu birlikte bilmeyi gerektiriyor. Basitçe tanımlamak gerekirse kare sapması (squared deviation) olarak tanımlanabilir. Basit bir örnek üzerinden konuyu anlatmaya çalışalım. Öncelikle sayısal olarak ifade edilebilecek bir rastsal süreç (stochastic process) bulmamız gerekiyor. Burada zar atma örneği oldukça iyi bir örnektir ve 6 yüzü olan zarın […]

Devam