Metin Madenciliği (Text Mining)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, literatürde metin madenciliği (text mining) veya metin veri madenciliği (text data mining) kavramını açıklamaktır. En basit anlamda, metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. Örneğin metinlerin sınıflandırılması, bölütlenmesi (clustering), […]

Devam

Term Document Matrix (Kavram Metin Masfufu)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, özellikle metin madenciliği veya bazı istatistiksel doğal dil işleme (statistical natural language processing, NLP) çalışmalarında geçen kavram-metin masfufunu (term-document matrix) açıklamaktır. Basitçe seyrek bir matris üzerinde terim sayıları tutulmaktadır. İki boyutlu bir matrisin bir boyutunun metinlere diğer boyutunun da terimlere ayrıldığını düşünün. Bu matriste, her metinde o […]

Devam

Vektör Uzay Modeli (Vector Space Model)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, bilgisayar bilimlerinde özellikle istatistiksel doğal dil işleme (Statistical Natural Language Processing, NLP) ve metin madenciliği (text mining) , bilgi getirimi (information retrivial) gibi konularda geçen vektör uzayı modelini (vector space model) açıklamaktır. Bu modelleme yöntemine göre herhangi bir metin veya metin parçasını vektörel olarak göstermek ve bir […]

Devam

POS Tagger ( Metin Parçası Etiketleme)

Yazan : Şadi Evren ŞEKER Bu yazının amacı, bilgisayar bilimlerinde, özellikle metin madenciliği veya doğal dil işleme gibi alt konularda sıkça geçen konuşma etiketleme yöntemini açıklamaktır (Part of speech tagging). Yazıya başlamadan önce belirtmek isterim ki ne yazık ki Türkçede tam başarılı kodlanmış, eğitilmiş ve çalışan bir etiketleme yazılımı bu yazıyı yazarken yoktu (veya ben […]

Devam

TF-IDF

Yazan : Şadi Evren ŞEKER Bu yazının amacı, metin madenciliği (text mining) olarak da geçen ve doğal dil işleme (natural language processing) ve veri madenciliği (data mining) konularının ortak çalışma alanı olan metinler üzerinde istatistiksel incelemeler konusunda kullanılan TFIDF kavramını açılamaktır.  TF-IDF kavramı IR (information retrieval, bilgi getirimi) gibi konuların altında bir sıralama (ranking) algoritması […]

Devam

SimHash (Benzerlik Özeti)

Yazan : Şadi Evren ŞEKER Bilgisayar bilimlerinde, özellikle metin işlemenin yoğun olduğu, arama motoru gibi uygulamalarda dosyaların veya web sitelerinin birbirine olan benzerliğini bulmak için kullanılan bir algoritmadır. Algoritmaya alternatif olarak klasik hash fonksiyonları kullanılabilir. Yani, örneğin iki sayfasnın ayrı ayrı hash değerleri alınıp bu değerleri karşılaştırmak mümkündür. Ancak simhash algoritması, bu yönteme göre daha […]

Devam

n-gram

Yazan: Şadi Evren ŞEKER Verilen bir dizilimdeki (sequence) tekrar oranını bulmaya yarayan yöntemdir. İsmi n ve gram kelimelerinin birleşiminden oluşmaktadır. Buradaki n, tekrarın kontrol edildiği değerdir. Gram ise bu tekrarın dizilim içerisindeki ağrılığını ifade etmek için kullanılmıştır. Örneğin bir dizgi (string) içerisindeki n-gram değerini bulmak isteyelim ve buradaki n değeri 2 olsun (n = 2) […]

Devam

Evrimsel Diller (Evolutionary Languages)

Yazan : Şadi Evren ŞEKER Evrimsel diller temel olarak bir doğal dilin (natural language) geçirmiş olduğu evrimi ve bu evrimin dilde yaptığı değişiklikleri inceler. Evrimsel dil çalışmalarının bilgisayar bilimlerindeki yeri, dilbilim ve doğal dil işleme ile ilgilenen insanların dillerdeki bu değişimleri bilgisayar dünyasına uygulama merakıyla başlamıştır. Bu anlamda bilgisayar bilimleri için evrimsel diller literatürde, yapay […]

Devam

Dilin Derecesi (Rate of Language)

Yazan  : Şadi Evren ŞEKER Veri işilemede (veri güvenliği veya veri tabanı gibi teorilerde) bir verinin içinde bulunduğu dilin (language) derecesinden bahsedilebilir. Burada derece (rate) ile kastedilen verinin değişim oranınını bulmaktır. Basitçe verinin entropisinin (dağınımının, entropy) verinin uzunluğuna bölümü ile elde edilir r = H(M) / N Yukarıdaki formülde r, dilin derecesini, H(M) derecesini sorguladığımız […]

Devam

Özyineli Diller (Recursive Languages)

Yazan : Şadi Evren ŞEKER Özyineli diller matematik, mantık veya bilgisayar bilimlerinde geçen muntazam dillerden (formal language) birisidir. Genellikle kararverilebilir yani Turing makinesi (Turing machine) tarafından işlenebilir diller olarak kabul edilirler. Özyineli diller Chomsky hiyerarşisinde yer almamaktadır. Bir özyineli dili tanımlamak için iki önemli tanım yapılır. Birincisi dilin içerdiği alfabeden üretilebilen güç kümesinin (power set) […]

Devam