Eş-Eğitim (Co-Training)

Yazan : Şadi Evren ŞEKER Literatürde İngilizce olarak co-training veya co-learning olarak geçen kavramdır. Türkçede eş-eğitim veya eş-öğrenim şeklinde karşılık bulmak mümkündür. Kavram aslı itibariyle bir makine öğrenmesi (machine learning) algoritmasını ifade eder ve genel olarak metin madenciliği (text mining) ve daha özel olarak da arama motorları(search engine) için yaygın kullanımı bulunmaktadır. Algoritma Algoritma, yarı […]

Devam

Metin Madenciliği (Text Mining)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, literatürde metin madenciliği (text mining) veya metin veri madenciliği (text data mining) kavramını açıklamaktır. En basit anlamda, metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. Örneğin metinlerin sınıflandırılması, bölütlenmesi (clustering), […]

Devam

Jensen Shannon Mesafesi (Jensen-Shannon Divergence)

Yazan : Şadi Evren ŞEKER iki olasılık dağılımı arasındaki mesafeyi ölçmek için kullanılan yöntemlerden birisidir. Literatürde “bilgi çapı” (information radius , kısaca iRad ) veya ortalamaya olan toplam uzaklık (total divergence to average) olarak da geçmektedir. Tanımı itibariyle Kullback Leibler Uzaklığının (kullback-leibler divergence) simetrik hali olarak düşünülebilir. Yani kullback leibler mesafesinde iki olasılık dağılımı olan […]

Devam

Kullback Leibler Uzaklığı (kullback-leibler divergence)

Yazan : Şadi Evren ŞEKER Olasılık teorisi ve bilgi teorisinde (information theory) geçen ve iki olasılık dağılımı arasındaki ilişkiyi (uzaklığı) formüllendiren yöntemin ismidir. Tanımı itibariyle, bilgi kazanımı (information gain) veya entropi kavramlarına yakındır ancak formüllendirmesi uzaklık (mesafe) değerinden sonuç döndürür. Literatürde mesafe anlamına gelen İngilizce “distance” kelimesinin ilk harfi olan D ile gösterilir ve DKL […]

Devam

WEKA ile eğitim modelinin kaydedilmesi

Yazan : Şadi Evren ŞEKER Bu yazının amacı, bir makine öğrenmesi (machine learning) ve veri madenciliği (data mining) aracı olan ve iş zekası (business intelligence) gibi farklı alanlarda kullanımı olan WEKA aracının üzerinde yapılan eğitim modellerinin nasıl kaydedilip, farklı test kümeleri üzerine nasıl uygulandığını anlatmaktır. WEKA arcını kullanan kişilerin yaşadığı bir durum, WEKA’nın en sık […]

Devam

Sınıflandırma (Classification)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, bilgisayar bilimleri ve iş zekası (business intelligence) gibi disiplinlerin ortak çalışma alanlarından olan veri madenciliği (data mining) konusunda kullanılan metotlardan birisi olan sınıflandırma (classification) kavramını açıklamaktır. Sınıflandırma kavramı, basitçe bir veri kümesi (data set) üzerinde tanımlı olan çeşitli sınıflar arasında veriyi dağıtmaktır. Sınıflandırma algoritmaları, verilen eğitim kümesinden […]

Devam

Naive Bayes ile Metin Sınıflandırılması

Yazan : Şadi Evren ŞEKER Bu yazının amacı, naif bayes sınıflandırıcısının (naive bayes) metinler üzerinde nasıl kullanıldığını açıklamaktır. Oldukça basit ve etkili bir metin madenciliği yöntemi olan naif bayes sınıflandırıcısını anlamak için bir örnek kullanalım. Örneğin iki metin aşağıdaki şekilde verilmiş olsun: metin 1 : java bazı bilgisayar mühendisliği bölümlerinde eğitimi verilen bir programlama dilidir. […]

Devam