Yazan : Şadi Evren ŞEKER Literatürde İngilizce olarak co-training veya co-learning olarak geçen kavramdır. Türkçede eş-eğitim veya eş-öğrenim şeklinde karşılık bulmak mümkündür. Kavram aslı itibariyle bir makine öğrenmesi (machine learning) algoritmasını ifade eder ve genel olarak metin madenciliği (text mining) ve daha özel olarak da arama motorları(search engine) için yaygın kullanımı bulunmaktadır. Algoritma Algoritma, yarı […]
Category: Veri Madenciliği (Data Mining)
Veri madenciliği, istatistik ve veri tabanları gibi bilgisayar bilimleri konularından faydalanırken bioinformatikten sosyal ağlara kadar pek çok alanda kullanılırlar.
Metin Madenciliği (Text Mining)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, literatürde metin madenciliği (text mining) veya metin veri madenciliği (text data mining) kavramını açıklamaktır. En basit anlamda, metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. Örneğin metinlerin sınıflandırılması, bölütlenmesi (clustering), […]
Jensen Shannon Mesafesi (Jensen-Shannon Divergence)
Yazan : Şadi Evren ŞEKER iki olasılık dağılımı arasındaki mesafeyi ölçmek için kullanılan yöntemlerden birisidir. Literatürde “bilgi çapı” (information radius , kısaca iRad ) veya ortalamaya olan toplam uzaklık (total divergence to average) olarak da geçmektedir. Tanımı itibariyle Kullback Leibler Uzaklığının (kullback-leibler divergence) simetrik hali olarak düşünülebilir. Yani kullback leibler mesafesinde iki olasılık dağılımı olan […]
Kullback Leibler Uzaklığı (kullback-leibler divergence)
Yazan : Şadi Evren ŞEKER Olasılık teorisi ve bilgi teorisinde (information theory) geçen ve iki olasılık dağılımı arasındaki ilişkiyi (uzaklığı) formüllendiren yöntemin ismidir. Tanımı itibariyle, bilgi kazanımı (information gain) veya entropi kavramlarına yakındır ancak formüllendirmesi uzaklık (mesafe) değerinden sonuç döndürür. Literatürde mesafe anlamına gelen İngilizce “distance” kelimesinin ilk harfi olan D ile gösterilir ve DKL […]
WEKA ile eğitim modelinin kaydedilmesi
Yazan : Şadi Evren ŞEKER Bu yazının amacı, bir makine öğrenmesi (machine learning) ve veri madenciliği (data mining) aracı olan ve iş zekası (business intelligence) gibi farklı alanlarda kullanımı olan WEKA aracının üzerinde yapılan eğitim modellerinin nasıl kaydedilip, farklı test kümeleri üzerine nasıl uygulandığını anlatmaktır. WEKA arcını kullanan kişilerin yaşadığı bir durum, WEKA’nın en sık […]
Sınıflandırma (Classification)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, bilgisayar bilimleri ve iş zekası (business intelligence) gibi disiplinlerin ortak çalışma alanlarından olan veri madenciliği (data mining) konusunda kullanılan metotlardan birisi olan sınıflandırma (classification) kavramını açıklamaktır. Sınıflandırma kavramı, basitçe bir veri kümesi (data set) üzerinde tanımlı olan çeşitli sınıflar arasında veriyi dağıtmaktır. Sınıflandırma algoritmaları, verilen eğitim kümesinden […]
Naive Bayes ile Metin Sınıflandırılması
Yazan : Şadi Evren ŞEKER Bu yazının amacı, naif bayes sınıflandırıcısının (naive bayes) metinler üzerinde nasıl kullanıldığını açıklamaktır. Oldukça basit ve etkili bir metin madenciliği yöntemi olan naif bayes sınıflandırıcısını anlamak için bir örnek kullanalım. Örneğin iki metin aşağıdaki şekilde verilmiş olsun: metin 1 : java bazı bilgisayar mühendisliği bölümlerinde eğitimi verilen bir programlama dilidir. […]