Web Madenciliği (Web Mining)

Yazan : Şadi Evren ŞEKER

Web madenciliği, veri madenciliğinin bir alt dalı olup web üzerindeki bilgileri işleyerek analiz etmeyi amaçlar. Temel olarak 3 grup altında incelenebilir:

  • Web kullanım madenciliği

  • Web içerik madenciliği

  • Web yapı madenciliği

Web kullanım madenciliği (web usage mining) çalışmalarında, kullancıların web sayfaları ile olan ilişkileri incelenmektedir. Örneğin kullanıcıların tıklama alışkanlıkları ve sıklıkları, dolaştıkları siteler, hangi sayfaya hangi sayfadan sonra girdikleri, en çok hangi reklamlara tıklandığı, resim içerikli mi yazı içerikli mi yoksa video içerikli mi sitelere daha çok tıkladıkları gibi sorulara cevap aranır. Bu soruların cevapları karşılıkılı olarak ilişkilendirilmeye çalışılır. Örneğin “video içerikli sayfaları dolaşan kişiler mi resim yoğun siteleri dolaşan kişiler mi daha fazla internetten alışveriş yapmaktadır?” şeklinde karşılaştırmalar yapılması mümkündür.

Web kullanım madenciliği, genelde sunucu kayıtlarını (server logs), kullanıcıların bilgisayarlarına yüklenen ufak çerezleri (cookies) temel alarak istatistiksel sonuçlar üretmeye çalışır. Ayrıca günümüzde çeşitli kaynakların dağıttığı ve internet gezginine (browser) eklenerek kullanıcı hakkında istatistiksel bilgi toplayan araç çubukları (toolbars) da bulunmaktadır. Örneğin google toolbar, alexa toolbar, yahoo toolbar gibi araç çubukları kullanıcı davranışlarını istatistiksel amaçla toplamaktadır.

Web yapı madenciliği (web structure mining) aslında bir çizge kuramı (graph theory) çalışması olarak düşünülebilir. Bu gruptaki çalışmalar, webte bulunan kaynakları kullanarak birer çizge çıkarmayı (graphic) ve bu çizge üzerinde analizler yapmayı hedeflerler. Örneğin hangi sitelerin, hangi sitelere bağlantı (link) verdiği bilgisi bir grafik şeklinde çizilebilir. Buradan en çok bağlantı alan veya en çok bağlantı veren siteleri analiz etmek mümkündür. Benzer şekilde site içeriklerinde kullanılan bilgilerin de çizgeye dökülmesi ve analiz edilmesi mümkündür. Bir sitenin kendi içindeki bağlantı yoğunluğu veya resim yoğunluğu veya kullanıcı ile iletişimi sağlayan formların yoğunluğu site yöneticilerine veya site tasarımcılarına faydalı bilgiler sunabilir. Bu tip sitenin içeriğine yönelik analizler de yine web yapı madenciliğinin bir alanı olarak düşünülebilir.

Web içerik madenciliği (web content mining) çalşmaları ise web sitelerinin içeriğine yoğunlaşır. Örneğin sitenin içerisindeki sayfaların dillerini tespit etmek, kullanılan kelimelerin yoğunluğunu bulmak, otomatik olarak anahtar kelime (keyword) çıkarımı yapmak veya sitelerin kategorize edilmesi (şiddet, cinsel içerikli, sohbet, oyun, haber, spor vs.) bu tip çalışmalara birer örnektir. Bu çalışma grubunda içerik analizi yapılması sırasında doğal dil işleme (natural language processing) veya resim işleme (image processing) gibi konulardan istifade edilmektedir.

Yukarıdaki her üç yöntem için de genel olan bir durum ise çeşitli istatistiksel yöntemlerden yararlanıldığıdır. İstatistiksel modellerin çıkarılması ve çeşitli amaçlara yönelik olarak bu modellerin kullanılması analizlerin bir parçası olmuştur.

 

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir