Türkçe Doğal Dil İşleme

23 Aralık 2015 günü Yazılım Buluşmaları kapsamında Dr. Aşkın Karakaş‘ın sunduğu “Türkçe doğal dil işleme ve semantik analiz” adlı etkinliğe katıldım. Biraz etkinlik içeriğini, biraz da kendi aldığım notları paylaşmaya çalışacağım.

Öncelikli olarak doğal dil işlemeye neden gerek duyarız sorusuna yanıt verelim. Verinin depolanabilmesi için yapısal bir halde olması gerekir. İlişkisel veya değil her hangi bir veritabanında yapısal olmayan veri depolanamaz. Türkiye’de sözlük sitelerinde, küresel olarak bakıldığında Wikipedia‘da bulunan bilginin metin formatında olması yapısal olmayan veriye örnek gösterilebilir.

DBpedia gibi topluluklar Wikipedia içerisindeki bilgiyi yapısal hale getirerek bunu webde erişilebilir kılar. Böylece karmaşık sorgularla, webdeki farklı veri setlerine bağlamanızı sağlar.

Bilginin metinlerden ayrılması, sınıflandırılması ve aranabilir hale getirilmesi arama motoru geliştiricileri için önemli bir konudur. Bu sebeple Schema.org gibi veri yapısı şemaları ortaya çıkaran topluluklar oluşturulmaktadır. Schema.org; Google, Microsoft, Yahoo ve Yandex tarafından desteklenmektedir.

Metinlerin içerdiği bilgiler LSA gibi istatiksel hesaplamalarla sınıflandırılmaya çalışılsa da gerçek hazine bilginin anlamsal karşılıklarını ve ilişkilerini bulmakta yatar. Bu konuda her dil için ayrı çalışma yapılması gerekmektedir. Türkçe üzerine hazırlanmış olan Zemberek yaygın olarak kullanılmaktadır.

Etkinliğin devamında “Özgeçmişlerden ve İş İlanlarından Doğal Dil İşleme Yöntemleri ile Bilgi Çıkarımı” çalışmasının detayları anlatıldı.

Diğer ontoloji siteleri;

Otomatik Mühendis