Yazan : Şadi Evren ŞEKER

Literatürde Quantile Normalization olarak geçen ve çoğu Türkçe kaynakta da kantil normalleştirme olarak çevrilen kavramı (ben kelimenin kökü olan qunatity, yani sayısal veya kemiyet olarak gelen kelimeyi kullanmayı tercih ettim) açıklamaktır.

Kemmi normalleştirme basitçe iki veya daha fazla farklı özellikteki veri kümesinin benzer dağılımlara sahip hale getirilmesi için kullanılan bir istatistiksel normallşetirme (normalization) yöntemidir. Buna göre veri kümesinde bulunan sayıların değerlerinden çok sıralamada kaçıncı sırada oldukları önemli olup normalleştirme sistemi bunun üzerine kuruludur.

Sistemin çalışmasını bir örnek üzerinden inceleyelim:

A    15    4    3
B    12    1    4
C    13    4    6
D    14    2    8

Yukarıdaki şekilde verilmiş 3 farklı veri kümemiz olsun (A’dan D’ye kadar olan her satır için sayısal değer içeren her kolon farklı bir veri kümesi olarak düşünülmüştür)

Bu veri kümelerinin istatistiksel özellikleri birbirinden  ve karşılaştırılmaları hata olur. Bu yüzden kemmi normalleştirmeyi kullanarak aynı istatistiksel dağılım özelliklerine getirmeye çalışıyoruz.

İlk adımımız her değerin o kolondaki kaçıncı sırada olduğunu belirlemek:

A    4.    3.    1.
B    1.    1.    2.
C    2.    3.    3.
D    3.    2.    4.

Yukarıda her elemanın ilgili kolondaki sıralaması verilmiştir. Ardından her kolonu küçükten büyüğe göre kendi içerisinde sıralıyoruz. Örneğin ilk kolonumuzdaki veriler {15, 12, 13, 14} sıralamasında idi, bunları küçükten büyüğe sıraladığımızda {12,13,14,15} sırasını elde etmeyi bekleriz. Kolonların sıralanmış halleri aşağıdaki şekildedir:

A    12    1    3
B    13    2    4
C    14    4    6
D    15    4    8

Sıralamadan sonra her kolonun aynı özelliğe sahip dağılım olması için aslında her sıranın ortalamasını buluyoruz. Yani, aynı özellikte dağılıma sahip olacakları için ortak dağılımın birinci ikinci … sırasındaki elemanların özelliğini bulacağız. Bunun için her sıradaki elemanın ortalamasını buluyoruz:

A    12    1    3    (12+1+3)/3 = 16/3 = 5.3
B    13    2    4    (13+2+4)/3 = 19/3 = 6.3
C    14    4    6    (14+4+6)/3 = 26/3 = 8.6
D    15    4    8    (15+4+8)/3 = 27/3 = 9

Şimdi elde ettiğimiz bu ortalama değerlere göre her kolondaki ilgili sırada bulunan değeri güncelleyebiliriz. Yani ilk sıralamada 1. sırada olan değerlerin tamamına 5.3, ikinci sırada olanların tamamına 6.3 … yazarak kolonlardaki değerleri güncelleyeceğiz:

A    9      8.6    5.3
B    5.3    5.3    6.3
C    6.3    8.6    8.6
D    8.6    6.3    9

Yeni haliyle bütün kolonlarda aynı sayılar bulunmakta olup kolonlar arasındaki farklılıklar (örneğin her kolonun ortalaması, standart sapması vs.) ortadan kalkmıştır. Her kolon aynı istatistiksel dağılım içerisinde göreceli olarak özdeş konularda olan değerlerle güncellenmiştir.

Yorumlar

    1. Şadi Evren ŞEKER Article Author

      Bakın sayılarla oynamaya başlamadan önce basit bir bilgiyi hatırlamakta yarar var. Temel olarak 4 tip sayı kümesi vardır:

      1. Nominal: Yani her değerin birbirinden farklı sembollerle gösterildiği ve semboller arasında ilişki tanımı olmayan sayı kümesi (örneğin meyvalar kümesi = {elma, armut, muz} gibi )
      2. Ordinal (sıralı): Yani sayma sayıları ile ifade edilebilen sayılar kümesi. Birinci ikinici gibi sıralamaya tabi tutulabilen kümeler. Örneğin bir meyvayı beğeniyorum, az beğeniyorum, beğenmiyorum, hiç beğenmiyorum gibi kümedeki elemanların sıralanabileceği durumlar.
      3. Interval (aralık): Sayılar üzerinde toplama çıkarma işlemleri yapabildiğiniz kümeler. Örneğin bir işletmedeki kişilerin maaşları 5.000, 10.000 ve 20.000 lira olsun. Bu durumda ikinci kişi ilk kişiden 5bin lira fazla ve üçüncü kişiden 10bin lira az almaktadır denebilir.
      4. Oranlar (ratio): Bir aralık ve bu aralıktaki durumu belirler. Aralıklar açık uçlu da olabilir (örneğin reel sayılar kümesi gibi). Bu sayı kümesinde daha önceki bütün işlemler yapılabildiği gibi ilave olarak orantılamak da mümkündür. Mesela bir işin %10’u bitti şeklinde değer konulabilir.

      Şimdi bu sayı kümelerine bakıldığında kemmi normalleştirme olması için en azından sayı kümemizin sıralı (ordinal) değerde olması gerekmektedir. Örneğin nominal değerler için normalleştirme kullanılamaz. Yani sizin veri kümenizdeki yes / no gibi durumlar için kullanmanız uygun olmaz. Bununla birlikte farklı sayı kümesi tipindeki değerleri normalleştirdiğinizde de en düşük seviyeye indirmiş olursunuz. Örneğin oransal bir sayı kümesi ile sıralı bir sayı kümesini aralarında normalleştirirseniz bu durumda oransal özellik taşıyan kümenin özelliklerini kaybetmiş ve sıralı (nominal) özelliğe indirmiş olursunuz.

      Kısacası sorunuzun cevabı sondaki durum kümesi hariç evettir. Ancak bedeli sayılarınızın normalleştirme öncesi taşıdığı özellikleri feda etmektir (değer mi değmez mi sizin vereceğiniz bir karar).

      Başarılar

  1. yalçın

    Bu bir konu dışı mesaj.

    Ben okudugum lise ile birlikte labirent kategorisinden bir yarismaya katiliyoruz. Ancak yapmak istedigimiz robotta istedigimiz ozelliklerini saglayabilecek bir algoritma bulamadik. Bilmiyorum belki vardir ama arastirdigimiz sure icerisinde hic rastlayamadik. Baska yazilariniz da labirent cozen robotla ilgili verdiginiz bilgilerde konuya oldukca hakim oldugunuz ortada.-bu mesaji buraya yaziyorum cunku guncelligi daha fazla- Sizden yardim istiyoruz. Istedigimiz yardim da balik tutmayi gostermeniz.

    Bana balik verme, balik tutmayi ogret.
    -cin atasozu

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir