Yazan : Şadi Evren ŞEKER Literatürde İngilizce olarak co-training veya co-learning olarak geçen kavramdır. Türkçede eş-eğitim veya eş-öğrenim şeklinde karşılık bulmak mümkündür. Kavram aslı itibariyle bir makine öğrenmesi (machine learning) algoritmasını ifade eder ve genel olarak metin madenciliği (text mining) ve daha özel olarak da arama motorları(search engine) için yaygın kullanımı bulunmaktadır. Algoritma Algoritma, yarı […]
Category: Veri Madenciliği (Data Mining)
Metin Madenciliği (Text Mining)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, literatürde metin madenciliği (text mining) veya metin veri madenciliği (text data mining) kavramını açıklamaktır. En basit anlamda, metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. Örneğin metinlerin sınıflandırılması, bölütlenmesi (clustering), […]
WEKA ile eğitim modelinin kaydedilmesi
Yazan : Şadi Evren ŞEKER Bu yazının amacı, bir makine öğrenmesi (machine learning) ve veri madenciliği (data mining) aracı olan ve iş zekası (business intelligence) gibi farklı alanlarda kullanımı olan WEKA aracının üzerinde yapılan eğitim modellerinin nasıl kaydedilip, farklı test kümeleri üzerine nasıl uygulandığını anlatmaktır. WEKA arcını kullanan kişilerin yaşadığı bir durum, WEKA’nın en sık […]
Sınıflandırma (Classification)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, bilgisayar bilimleri ve iş zekası (business intelligence) gibi disiplinlerin ortak çalışma alanlarından olan veri madenciliği (data mining) konusunda kullanılan metotlardan birisi olan sınıflandırma (classification) kavramını açıklamaktır. Sınıflandırma kavramı, basitçe bir veri kümesi (data set) üzerinde tanımlı olan çeşitli sınıflar arasında veriyi dağıtmaktır. Sınıflandırma algoritmaları, verilen eğitim kümesinden […]
Naive Bayes ile Metin Sınıflandırılması
Yazan : Şadi Evren ŞEKER Bu yazının amacı, naif bayes sınıflandırıcısının (naive bayes) metinler üzerinde nasıl kullanıldığını açıklamaktır. Oldukça basit ve etkili bir metin madenciliği yöntemi olan naif bayes sınıflandırıcısını anlamak için bir örnek kullanalım. Örneğin iki metin aşağıdaki şekilde verilmiş olsun: metin 1 : java bazı bilgisayar mühendisliği bölümlerinde eğitimi verilen bir programlama dilidir. […]
Naif Bayes Sınıflandırıcısı (Naive Bayes)
Naif Bayes Sınıflandırıcısı (Naive Bayes) Yazan : Şadi Evren ŞEKER Bu yazının amacı, literatürde naif Bayes (Naive Bayes) olarak bilinen algoritmanın, sınıflandırma (classification) için kullanılma şeklini açıklamaktır. Herhangi bir sınıflandırma probleminde olduğu gibi, amacımız birden fazla özelliği taşıyan bir yöney (vektör) kullanarak verilen bilgilerden bir eğitim oluşturmak ve bu eğitim neticesinde gelen yeni verileri doğru […]
Linear Regression (Doğrusal İlkelleme)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, doğrusal ilkelleme yöntemini (linear regression) açıklamaktır. Basitçe bir veri kümesinin iki boyutlu bir uzayda dağılıdığını düşünelim. Veri kümemizdeki değerlerin iki boyutlu uzayda, yukarıdaki şekilde gösterildiğini kabul edelim. Şimdi doğrusal ilkelleme ile amaçlanan bu noktaların tamamına en yakın geçen doğruyu elde etmektir. Örneğin aşağıdaki şekilde olabilir: Her doğrunun […]
Imputation (Töhmet)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, bilgisayar bilimlerinde özellikle veri madenciliği (data mining) konularında eksik verilerle karşılaşılması halinde bir çözüm olarak bu eksik verilerin töhmet edilmesi (yerine uygun verilerin üretilmesi, imputation) yöntemini açıklamaktır. Töhmet, sözlükte olmayan birşeyin yüklenmesi anlamındadır. Örneğin olmayan bir suçun birisine yüklenmesine töhmet altında bırakmak denilebilir. Bu anlamda vir veri […]
Tip 1 ve Tip 2 hatalar (Type 1 and Type 2 error rates)
Yazan : Şadi Evren ŞEKER Bu yazının amacı, özellikle istatistik konusunda geçen tip 1 ve tip 2 hataları (type 1 and type 2 errors) açıklamaktır. Konu aslında, bir tahmin ve gerçekleşen durum arasında yaşanmaktadır ve istatistikte bulunan null hypothesis (yokluk hipotezi) üzerine kuruludur. Yazının istatistik ile ilgili kısmına geçmeden önce biraz felsefe bilgimizi tazeleyerek yokluk […]
TF-IDF
Yazan : Şadi Evren ŞEKER Bu yazının amacı, metin madenciliği (text mining) olarak da geçen ve doğal dil işleme (natural language processing) ve veri madenciliği (data mining) konularının ortak çalışma alanı olan metinler üzerinde istatistiksel incelemeler konusunda kullanılan TFIDF kavramını açılamaktır. TF-IDF kavramı IR (information retrieval, bilgi getirimi) gibi konuların altında bir sıralama (ranking) algoritması […]