Yazan : Şadi Evren ŞEKER

Bu yazının amacı, özellikle metin madenciliği veya bazı istatistiksel doğal dil işleme (statistical natural language processing, NLP) çalışmalarında geçen kavram-metin masfufunu (term-document matrix) açıklamaktır.

Basitçe seyrek bir matris üzerinde terim sayıları tutulmaktadır. İki boyutlu bir matrisin bir boyutunun metinlere diğer boyutunun da terimlere ayrıldığını düşünün. Bu matriste, her metinde o terimden kaç tane olduğunun sayısı bulunacaktır.

Basitçe aşağıdaki şekilde iki metnimiz bulunduğunu kabul edelim:

metin 1 : java bazı bilgisayar mühendisliği bölümlerinde eğitimi verilen bir programlama dilidir.

metin 2 : bazı bilgisayar mühendisliği projelerinde java programlama dili kullanılmaktadır.

Yukarıdaki iki metin için aşağıdaki şekilde bir matris olacaktır:

Yukarıda örnek olarak verilen bu tabloda, sadece iki metin alındığı için ve metinlerde geçen kelimeler birbirine çok yakın olduğu için sıfır sayısı fazla olmamıştır. Ancak okuyucu, metin sayısı arttıkça ve metinler arasındaki benzer kelimeler azaldıkça sıfır sayısının artacağını ve masfufun, daha seyrek olacağını görmelidir.

Yukarıdaki bu matris, metin madenciliğine temel teşkil etmekte ve bu matris üzerinde yapılan çeşitli işlemlerle metin madenciliği fonksiyonları çalıştırılabilir.


Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir