Yazan: Şadi Evren ŞEKER
Bilgi çıkarımı konusu, genellikle bir metin üzerinde doğal dil işleme kullanılarak belirli kriterdeki bilgileri elde etmeyi hedefler. Bu işlem sırasında örneğin bir kalıba uygun olan verilerin çıkarılması istenebilir. Amaç çok miktardaki veriyi otomatik olarak işleyen bir yazılım üreterek insan müdahalesini asgarî seviyeye indirmektir. Bilginin çıkarılacağı ortam genellikle yazılı metinlerdir ancak bu metinlerin bulunacağı ortamlar değişebilir örneğin veri tabanları, internet üzerindeki dökümanlar veya taranmış metinler bu verinin kaynağını oluşturabilir.
Bilgi kelime anlamı olarak verinin işlenmiş ve anlaşılabilir veriyi ifâde etmektedir. Dolayısıyla veri kaynağı olan metinlerden işlenmiş bilginin çıkarılması işlemine bilgi çıkarımı denilmektedir. Örneğin gazate haberleri veri kaynağı olarak kabul edilsin. Bu veri kaynağından şirket birleşmeleri ile ilgili bir bilginin çıkarılması işlemine bilgi çıkarımı denilebilir. (a şirketi ile b şirketinin birleştiğinin gazete haberlerinden anlaşılması gibi)
Bilgi çıkarım işleminin en zor adımlarından birisi de veriyi işlerken belirli bir yapıya oturtmaktır. Örneğin internet üzerinde yayınlanan verilerin herhangi bir standart yapısı bulunmamakta, veriler dağınık halde istenildiği gibi yayınlanmaktadır. Bu verilerin düzenli bir hale getirilmesi için XML ve benzeri teknolojilerden faydalanarak bilgi çıkarımı işleminin basitleştirilmesi hedeflenmektedir. Bu konudaki güncel uygulamalardan birisi de internet üzerinde yayın yapan kurumların birer ağ hizmeti (web service) kurarak uygulamaların karşılıklı iletişimine izin vermeleridir.
Ayrıca çok sayıda yazılım bilgi çıkarımı aşamasına alt yapı hazırlamak amacıyla çeşitli ortamlardan (örneğin internet) veri toplayarak bunları düzenli bir halde yapılandırır.
Güncel uygulamalarda bilgi çıkarımı sırasında sık rastlana problemler şunlardır:
- Varlık isimlerinin algılanması (Named Entity Recognition): Bu konu, bir veri kaynağında geçen varlıkların ve isimlerinin algılanmasını hedefler. Bu varlıklar kişi, bina, yer, soyut varlıklar veya sayısal ifadeler olabilir.
- Eş Atıf (Coreference) : Aynı varlığa işaret eden birden fazla kelimenin tespiti. Örneğin zamirlerin isimlere atıfta bulunması gib. Bu bağlantılar sonucunda bir isim zinciri elde edilebilir.
- Terim Çıkarımı (Terminology Extraction): Verilen metne ait terimlerin çıkarılması