Birliktelik Kurallarının Pay Ölçümleri (Interest Measures for Association Rules)

Yazan : Şadi Evren ŞEKER

Yapay zeka çalışmalarında kullanılan araçlardan birisi de, veri ve veri kümeleri arasındaki birliktelik kurallarının (munasebet kurallarının, association rule) belirlenmesidir. Özellikle büyük veri tabanı (very large database, VLDB) çalışmalarından çıkan, münasebetlerin tespiti problemi için çeşitli yöntemler ortaya atılmıştır. Yöntemlerin detayına geçmeden önce problemi daha iyi tanıyabilmek için bir örnek verelim.

Örneğin bir süper markette çay ve çay kaşığı satın alan müşterilerin çoğu, şeker de satın alıyorsa, bu durum bir kampanya oluşturmak için yeterli bilgiyi sağlayabilir. Ürünlerin satışı arasındaki münasebetin bulunmasında kullanılan bu yöntemler, örneğin bir bilgisayar ağındaki saldırıların tespiti için veya biyobilgi (bioinformatics) çalışmalarında veya web sayaflarının münasebetinin belirlenmesinde kullanılabilir.

Birlikteliğin çıkarılmasında kullanılan algoritmalardan bazıları aşağıdaki şekilde sıralanabilir:

Apriori algoritması , bilinen en iyi algoritmalardan birisidir. Sığ öncelikli arama (breadth first search) yaklaşımını kullanır. Ayrıca kendisine münhasır bir aday üretim fonksiyonu bulunmaktadır ki, arama miktarını oldukça azaltmaktadır.
Eclat Algoritması, arama kümelerinin kesişimlerinden istifade ederek derin öncelikli arama (depth first search) yolunu takip eder.
Frequent Pattern Algoritması ( Sık Örüntü Algoritması), apriori algoritmasına alternatif olarak, sık veri tekrarı olması durumunda önerilmiştir. Kendisine münhasır bir fp-tree ( sıklıkların tutulduğu bir ağaç yapısı) kullanmaktadır ve parçala fethet (divide and conquere) yaklaşımını takip eder.

Münasebet Yöntemlerinde kullanılan ölçümler

Yukarıda sayılan ve sayılamayan algoritmaların sonucu olarak çıkan, veriler arasındaki münasebetlerin, dorğu bir şekilde karşılaştırılabilemesi için çeşitli ölçü yöntemleri geliştirilmiştir.

Bu yöntemler aşağıdaki şekilde sıralanabilir:

Kapsam (Coverage)

Bazı kaynaklarda mukaddem destek veya önden gelen destek (antecedent support) olarak da geçmektedir. X->Y şeklindeki bir kuralın nekadar sıklıkta, veri tabanı üzerinde uygulabilir olduğunu ölçmektedir

Basitçe verilen X değerinin desteğine veya olasılık değerine eşittir

Coverage(X->Y) = supp (X) = P(X)

Olarak hesaplabilir. Diğer hesaplama yöntemlerine temel teşkil etmektedir.

All-Confidence (Tam İtimat), eleman kümesi (itemset) Z’den üretilebilen bütün kuralların en az bir itimat desteğinin tam-itimat(Z)’de bulunması durumudur.

Bu ölçü yöntemi için aşağıdaki formül kullanılabilir

Yukarıdaki formülde bulunan max(support(z elemof Z)) değeri, Z içindeki en yüksek desteğe sahip olan elemana işaret etmektedir. Supp(Z) değeri ise bir önceki ölçüm birimi olan ve yukarda anlatılan kapsam hesaplamasıdır.

Collective Strength (Müşterek Kuvvet), ölçümü için aşağıdaki formül kullanılabilir:

Yukarıdaki formülde geçen v(Z) gösterimi, ihlal değerini (violation) verirken, E[] gösterimi ise beklendik değeri (expected value) belirtmektedir.

Müşterek kuvvet değeri, sıfır ile sonsuz arasındaki bir pozitif değeri taşıyabilir. Bu değerin 0 olması, elemanlar arasında negatif ilişki bulunmasına (correlation) ve sonsuz ise pozitif ilişki bulunmasına işaret eder. Müşterek kuvvet değerinin bir ölçü olarak kullanıldığı yerlerde, şayet veri kümesindeki değerlerin, orta ve düşük ihtimallerinin Z kümesinde yer almayan ve gözlemlenen değerlerinin, beklenen değerlerini (expected values) ihlal etmesi halinin, sayıca yüksek olması durumunda, müşterek kuvvet değeri 1’e yakın çıkmaktadır.

Conviction (Kanaat)

Aşağıdaki şekilde hesaplanabilir:

Kanaat, değeri itimat ölçümüne alternatif olarak geliştirilmiştir. Kanaat değeri hesaplanırken, X elemanlarının, Y elemanı olmaksızın görülme olasılıkları hesaplanır; şayet X ve Y görülme frekansları bağlı ise, X’in Y’den bağımsız olarak görülme olasılığı hesaplanır.

Bu anlamda, kanaat değeri ilgi değerine (lift, aşağıda anlatılacaktır), benzemektedir. Ancak ilgi değeri, yönlü bir ölçüm olup ardışık bilgileri değerlendirmede kullanılamaz.

Leverage (Manivela, Kaldıraç)

Manivela yöntemi, X ve Y’nin birlikte bulunmaları arasındaki farkı ölçmektedir ve X ve Y değerlerinn istatistiksel olarak bağı olması halini hesaplamaktadır.

Manivela(XàY) = P(X ve Y ) – (P(X)P(Y))

Olarak hesaplanabilir.

Daha kolay anlaşılabilmesi için, bir satış verisi üzerinde X ve Y ürünlerinin beraber satılmasının X ve Y’nin ayrı ayrı satılmasından ne kadar fazla olduğunu bulmak olarak düşünebiliriz.

İlgi (interest)

Bazı kaynaklarda kaldırmak anlamında da (lift) kullanılmakta olup X ve Y’nin istatistiksel olarak bağımsız olması halinde, ne kadar birlikte geçtiklerini bulmaktadır.

Dikkat edilirse, yukarıdaki formül, bir önceki manivela değerinin hesabına benzemektedir. Tek farkı, manivela ölçümünde fark alınırken burada bölme işlemi kullanılmasıdır. Yani ilgi değeri oransal bir sonuç çıkarır.

İlgili Yazılar

Rapid Miner ile K-NN Uygulaması

Kemmi Normalleştirme (Quantile Normalization)

JAVA dilinde WEKA ile kod geliştirilmesi

Sorenson-Dice Katsayisi (Dice Sorensen Coefficient)

Weka Knowledge Flow

Caching Mekanizmaları

Bir cevap yazın Cevabı iptal et