Hataya Meyil (Error Gradient) – Bilgisayar Kavramları

Yazan : Şadi Evren ŞEKER

Yapar sinir ağlarının eğitimi sırasında kullanılan bir terimdir. Buna göre sistemde bulunan sinapsislerden bir tanesindeki ağırlığın değişmesinin bütün sisteme etkisinin hesaplanması beklenir. Aslında bu hesap sistemin eğitilmesi için gerekli olan en önemli bilgiyi vermektedir. Çünkü sistem bu ağırlık değerlerini güncelleyerek daha iyi sonuçlar elde etmeye çalışmakta ve şayet bu güncelleme sonucunda hata miktarı azalıyorsa güncellemeyi gerçekleştirmektedir.

Bu hata miktarını (E) aşağıdaki şekilde hesaplamak mümkündür:

Yukarıdaki ilk eşitlikte toplam hatanın, her nöron için olan hatanın toplamı olduğu gösterilmektedir. (p sistemdeki toplan nöron sayısıdır).

İkinci eşitlikte ise hata miktarının ölümü için sapmanın karesi yöntemi kullanılmıştır. Yani daha açık anlatılması gerekirse gerçekleşen değer (y) ile hedeflenen değer (t) arasındaki fark hata miktarını verir. Ancak bu değer eksi veya artı olabilir. (basit bir doğrusa regrezizasyon düşünülebilir) Bu durumda hata miktarının karesi alınarak hata miktarları artı değerde toplanmış ve toplan hata bu her bir noktadaki hataların karelerinin toplamı olmuş olur.

Bu ikinci eşitlikteki o değerleri ise sinir ağımızın çıktılarını (output) ifade etmektedir.

Hata meyili konusunda yaptığımız ilk tanıma geri döner ve her noktadaki değişimin hataya etkisi olduğunu hatırlarsak. Yukarıda verilen eşitliğin her nokta için değişimi (differentiation, türev) hesaplanmalıdır. Dolayısıyla hatanın türevini aşağıdaki şekilde alabiliriz:

Yukarıdaki eşitliklerde türev ve toplamın yer değiştirme özelliği kullanılmıştır. Yukarıdaki denklemde zincir kuralı (chain rule) kullanılırsa:

Yukarıdaki denklemde zincir kuralı kullanılarak aynı değere bölünmüş ve çarpılmıştır. Sonuç değişmemekte ancak iki farklı terim elde edilebilmektedir. Bu terimlerden soldakini:

Şeklinde yazabiliyoruz. Çünkü verilen y noktası için hatanın zaten o noktanın istenen (Target) değere olan uzaklığı olduğunu biliyoruz. Bu değerin hata miktarı olduğunu düşünürsek sisteme negatif yöndeki etkisi ile yukarıdaki eşitliği elde etmiş oluruz.

İkinci terimi yazarken de eşitliğinden faydalanabilir. (bu eşitliğin detayı için nöron’un kullanımı başlıklı yazıyı okuyabilirsiniz):

Yukarıdaki denklem sayesinde yo terimlerini veren türev toplamların türevi olarak ifade edilebilir.

Bu iki terim üzerinde işlem yapılırsa, sonuç olarak toplam hatanın verilen bir noktadaki ağırlığa göre değişimi (türevi) yukarıda gösterildiği gibi elde edilir. Bu denklem dikkatle incelenirse bütün y terimlerinin etkilenmiş halinin seçilmiş olan y noktasındaki hata ile çarpımıdır. Bu hata hesabı G ile ifade edilen hata meyilini (error gradient) hesaplamakta kullanılır ve μ sembolü ile gösterilen öğrenme oranı çıkarılarak ifade edilir.

İlgili Yazılar

Jensen Shannon Mesafesi (Jensen-Shannon Divergence)

Kullback Leibler Uzaklığı (kullback-leibler divergence)

Sınıflandırma (Classification)

Entailment (İcap)

Linear Regression (Doğrusal İlkelleme)

Sensitivity Specificity (Hassasisyet ve Hasiyet)

Bir cevap yazın Cevabı iptal et