Yazan : Şadi Evren ŞEKER

Bu yazının amacı, bilgisayar bilimlerinde özellikle istatistiksel doğal dil işleme (Statistical Natural Language Processing, NLP) ve metin madenciliği (text mining) , bilgi getirimi (information retrivial) gibi konularda geçen vektör uzayı modelini (vector space model) açıklamaktır.

Bu modelleme yöntemine göre herhangi bir metin veya metin parçasını vektörel olarak göstermek ve bir uzay içerisinde modellemek mümkündür.

Örneğin bir yöneyi (vektör, vector) her boyuttaki değeri ile göstermemiz gerekir. Misal olarak [1,2] vektörünü iki boyutlu uzayda aşağıdaki şekilde çizilebilir:

İki boyutlu uzayda ilk boyut ve ikinci boyut yukarıdaki temsili resimde gösterilmiştir. Buna benzer şekilde bir vektörün sonsuz sayıda boyutu olabilir. [1,2,1,3,2,1,2,3,2,1,2,2,1,3] şeklinde 14 boyutlu bir vektörden bahsedebiliriz. Bu vektörün gösterimi veya çizilmesi gerkçekten gerekmemektedir çünkü amaç birbiri ile ilişkisi olmayan boyutlarda farklı değerlere sahip bir vektörü temsil etmektir. Buradaki önemli nokta bu boyutların arasında ilişki bulunmamasıdır. Yukarıdaki temsili şekilde de ilk okulda öğrenilen ve birbirine dik olan eksenlerin ilişkilerinin olmaması kabulüne dayanılarak çizim yapılmıştır. Diğer bir deyişle birinci boyutun kaç olduğunun 2. boyuta veya ikinci boyutun kaç olduğunun 3. boyuta bir etkisi yoktur.

Bir metnin vektörel olarak gösterilmesi ise çok farklı şekillerde olabilir. Örneğin sık kullanılan yöntemlerden birisi terim frekansının sayılmasıdır (term frequency). Bu konuda daha önceden yayınlanan yazıya bakılarak bu işlemin hangi adımlarla yapıldığı görülebilir.

Diğer yöntemler ise bunlarla sınırlı kalmamak şartıyla, Metin Etiketleme (POS Tagging), n-gram sayımı, veya LSA (Gizli Anlambilimsel Tahlil, Latent Semantic Analysis) şeklinde sayılabilir.

Vektör uzaylarının kullanılmasının bazı avantajları, doğrusal cebir (linear algebra) kullanılarak işlenebilen veri yapılarının elde edilmesi, ikilik tabandaki sayılar yerine ağırlıkların hesaba katılabilir olması, vektörler arasında tanımlı olan bütün fonksiyonların metinler arasında da tanımlanabilir olması (örneğin kosinüs benzerliği (cosine similarity) gibi), metinler üzerinde sıralama (ranking) fonksiyonlarının çalıştırılabilir olması, metnin tamamı yerine bir parçası üzerinde çalışabilir olması şeklinde sayılabilir.

Bunun yanında bazı dez avantajlarına bakacak olursak. Genelde bu tip özellik vektörlerinin çıkarılması sonucunda çok yüksek miktarda özellik içeren veriyle uğraşmak gerekir. Örneğin imdb sinema yorumları içeren web sitesinden çektiğimiz 62,000 yorum için ingilizcedeki 160,000 civarında farklı kelimenin kullanıldığını ve bu kelimeleri tutan özellik vektörümüzün 7GB civarında veri olduğunu ve bu veriyi bilgisayarın RAM’ine yüklesek bile işlemek için yer kalmadığını ve özel yöntemler geliştirmemiz gerektiğini burada belirtebilirim.

Terim frekansının yanında anlambilimsel yaklaşımlar kullanılarak bu boyutların azaltılması mümkündür.

Vektör uzay modelinin en büyük dez avantajlarından birisi, metin boyutu uzadıkça kullanışsız hale gelmesidir. Çünkü uzayan metinler birbirine benzemeye başlar ve metinleri ayırt etmede önemli rol oynayan kelime farklılıkları azalır. Ayrıca kelimeler arasındaki benzerlikler göz ardı edilmektedir. Örneğin ağaç kelimesi ile ağaçlar kelimesi farklı iki kelimedir ve farklı metinlerde geçmesi halinde iki metin birbirinden farklı olarak sınıflandırılacaktır. Oysaki metinler arasında anlamsal bağlantılar olabilir.

Ayrıca metin içerisindeki kelimelerin sırası da vektör uzay modelinde kaybedilmektedir. Örneğin bir kelimenin nerede geçtiği önemsizdir.


Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir