Yazan : Şadi Evren ŞEKER

Bu yazının amacı, özellikle veri madenciliği konularında sıkça kullanılan bilgi kazanımı (information gain) konusunu açıklamaktır. Bilgi kazanımı basitçe Shannon’un bilgi teorisinden (Shannon’s information theory) gelmekte olup temeli termodinamik konularına kadar dayanmaktadır. Bu yazıda basitçe bilgisayar bilimleri açısından anlamını anlatıp hızlıca bir örnek üzerinden nasıl hesaplanacağını göstereceğiz.

Bilgi kazanımı (information gain) kavramının kolay anlaşılabilmesi için entropi (entropy) kavramının anlaşılması gerekir ve basitçe bilgi kazanımı, entropinin tersidir denilebilir. Şayet okuyucu entropi konusunu bimiyorsa burada durup ilgili bağlantıya tıklayarak önce bu konuyu okuması tavsiye edilir.

Bilgi kazanımını çok basitçe ifade edecek olursak, 0 ile 1 arasındadır, entropinin tersidir ve verilen bir özellik için verilen sınıflandırma sonuçlarının ne kadar değer ile kazanılabileceğini gösterir. Yani örneğin her sınıf için özellik ayrı bir değer alıyorsa mesela 10 farklı sınıfın her birisi için 10 farklı değer alan bir özelliğimiz varsa bu durumda entropi 0 çıkacak ve bilgi kazanımı 1 çıkacaktır. Bunun anlamı elimizdeki bilgi ile sınıf arasında birebir bağlantı kurulabildiğidir. Buna karşılık elimizdeki özellik, sınıflardan ne kadar bağımsızsa bilgi kazanımı da o kadar düşük çıkacaktır.

Bilgi kazanımı hesaplanırken, o anda veri kümesinde bulunan bütün veriler ve hesaplanması istenen belirli bir verinin üzerinden gidilir. Bu hesaplaması yapılacak olan belirli veriye örnekleme (misal, sampling) ismi verilir ve bütün veri kümesi üzerinden bu örneklemeye ait hesaplama yapılır.

Bilgi (information) hesaplaması sırasında kullanılacak olan formül yukarıdaki şekildedir. Buna göre herhangi bir misal (M ile gösterilmiştir) için o sınıftaki (S ile gösterilmiştir) değerlere göre frekansına bakılır. Ayrıca yukarıdaki formülde |M| değeri, o sınıftaki misallerin sayısını ifade etmektedir.

Yukarıdaki şekilde her örnek için bilgi değeri hesaplandıktan sonra kazanım (gain) hesaplanması mümkündür.

Genelde tam bu adımda bilgi parçalara bölünür ve bölünen parçalar (partition) üzerinden işlem yapılır. Bu durum için ise hesaplama aşağıdaki şekilde yapılabilir:

Yukarıdaki formülde her bir i parçası için yapılan bilgi hesaplaması verilmektedir.

Kazanım ise bu durumda aşağıdaki şekilde hesaplanabilir:

Yani herhangi bir X özelliği için kazanım değeri, o özelliğin bağlı olduğu bütün parça ve sadece o özelliği ilgilendiren parça arasındaki farka eşittir. Bu iki değerin hesabı da yukarıda verilmiştir (yazıdaki ilk ve ikinci formüller).

Şimdi yukarıda anlattığımız bu değerlerin gerçek bir uygulama üzerinden nasıl hesaplandığını görelim.

Örnek veri kümemiz aşağıdaki şekilde olsun:

Örneğin sınıf değerinin bilgi kazanımını (information gain) hesaplamak istiyor olalım. Yukarıdaki formüle göre, 14 toplam satırdan 5 tanesi sınıf 2 ve 9 tanesinin sınıf 1 olduğunu dikkate alarak aşağıdaki eşitliği yazıyoruz. Önce bilgi değerlerini hesaplayacak sonra da kazanımı bulacağız:

İlk bilgi değeri bütün parçanın hesaplandığı yani 14 satırın tamamının dikkate alındığı ve 9/14 ve 5/14 olarak iki ihtimalin hesaba katıldığı durumdur. Bu durum aynı zamanda entropi olarak da düşünülebilir.

İkinci bilgi hesabımızda özellik 1 kullanılacak. Buna göre veri kümemizin ilk 5 satırında Ali, sonraki 4 satırında Evren ve son 5 satırında Şadi özellikleri var. Buna göre tabloyu 3 parçaya bölersek :

Yukarıdaki yeni tabloya göre her özellik parçasının ayrı ayrı hesaplanarak denklemde yerine yazılması gerekir:

Yukarıdaki formülde mavir renkle belirtilen durum 1. özellik için (x1) 5, 4 ve 5 parçadan oluşan ve her parça için ayrı ayrı Sınıf1 ve Sınıf2 değerlerinin sayıldığı durumdur. Yani ilk 5 satırlık parçanın 2 satırı Sınıf1 ve 3 satırı Sınıf2 olduğu için 2/5 ve 3/5 şeklinde iki değer alınmıştır. Diğerleri de benzer şekilde hesaplanmıştır.

Son adımda bu iki değer arasındaki farkı hesaplayabiliriz:

olarak bulunur.

Yukarıda bulunan bilgi kazanımı, bütün veri kümesindeki Özellik1 için bütün sınıflar arasındaki kazanımı göstermektedir.

Bu değeri yorumlayacak olursak, Özellik 1’de bulunan isimler kullanılarak sınıfların %24.6’lık bir kısmına ulaşılabilir diyebiliriz.


Yorumlar

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir