Merhaba! Bu yazımda doğal dil işleme (natural language processing) konusuna giriş yapacağız. İnsanlık tarihi boyunca çeşitli dilleri anlamak ve geliştirmek için yöntemler geliştirmiştir. Taş üzerine yazmaktan kağıtlara kadar yazmaya giden süreç artık bilgisayar belleklerine kadar yazmaya kadar ilerledi. Her ne kadar tarih öncesinden beri bilgisayar ilk olarak basit matematiksel işlemler için kullanılmışken bugün daha fazlasını sözcükleri işlemek için yapıyor. İnsanoğlu bilgisayarlar için insan gibi düşünme özelliği geliştirmeye başladığından itibaren doğal dil işleme de kendisini gösterdi. Bu alanda herkesin aklında tek bir soru vardı, "Bilgisayarlar konuşabilir miydi?". Bu soru belki ilk başta hayal bile değilken bugün ise "Bizden daha iyi düşünebilirler mi? İnsanın düşünmesine gerek var mı?" sorusuna cevap aramaya kadar neden oldu.
Doğal Dil İşleme Nedir?
Doğal dil işleme(natural language processing), dil bilimi ve bilgisayar biliminin birleştiği bir alandır. Yapay zeka teknolojileri insan gibi düşünen bilgisayarlar geliştirmek üzerine bir alandır ve bu alan ile insan dilleri de incelenmiş, bu alanda insan ile bilgisayarlar arası iletişim incelenmiştir. Bilgisayarlar insanların konuşmalarını inceliyor, analiz ediyor, kelime ve noktalama işaretlerine kadar anlıyor ve hatta kendisi bir metin üretebiliyor. Doğal diller ise günümüzde insanların alfabe, dil kuralları vb. yapılarının olduğu dillerdir ve bilgisayar bu dilleri analiz etmektedir. Doğal dillerdeki her bir nesne, bilgisayarlar için anlamlı hallere dönüştürülür ve ileri düzey algoritma/matematiksel işlemler kullanılarak yapay zeka teknolojileri alanında çalışmalar yapılır.
Doğal Dil İşleme Tarihi
Doğal dil işlemenin tarihi ise 1950 yılında Alan Turing'in "Computing Machinery and Intelligence" isimli makalesi ile başlamıştır ama bu makale özellikle yapay zekanın başlangıcıdır. Bu yöntemde bir sorgulayıcının sorularına göre makineler ilgili cevaba göre cevap vermeye çalışacak ve bir insan gibi düşünecektir. Bu makaleden sonra artık yapay zeka dünyası bizim dünyamıza adım atmaya başlamıştır. 1960'da MIT'de geliştirilen ELIZA ilk sohbet robotu olarak tarihte yer almıştır. İnsanlar ile iletişim kurabilen bu robot, önceden tanımlanmış kalıplara göre insanların cevaplarını eşleştirebilir. Ayrıca önceden belirli yanıt kalıplarına göre kendisi yeni kalıplar üretebiliyor. Ayrıca soru sormaya çalışabiliyor. 1980'li yıllarda ise metinsel ontoloji çalışmaları, metin sınıflandırma çalışmaları başlamıştır. Ayrıca bu yıllardan sonra özellikle chatbot çalışmaları başlamıştır. Yine 1980'li yıllarda Natural Language Processing(Doğal Dil İşleme) çalışmaları başlamıştır. İlerleyen dönemlerde ise makine öğrenmesi ve Python'un popüler olması ile artık doğal dil işleme çalışmaları da ilerlemiştir. 2010'lu yıllarda ise derin öğrenme modelleri ile artık bilgisayarlar insanlar gibi düşünebilmektedir ve insan gibi metin üretebilmektedir. Daha iyi anlıyor, analiz ediyor, kelime-cimle-noktalama işaretlerini anlayabiliyor.
Doğal Dil İşleme Kullanım Alanları
Özellikle insanların çeşitli dilleri daha hızlı anlaması için analiz yapma, çeviri, tanımlama vb. işlemler yapılmaktadır. İnsanların konuşmalarındaki hissiyatı kolayca analiz etme yapılabilmektedir. Ayrıca insanların sorularına mantıklı cevaplar üretilmesi gerçekleştirilmektedir. İnsanların konuşmalarını tanımayı da sağlamaktadır. Makineler ile diller arası çeviri yapılabilmektedir. Günümüzde makine çevirisi, konuşma tanıma, duygu ve anlam üzerinden analiz yapma, soru-cevap için chatbot geliştirme, metin sınıflandırma alanları için ayrı ayrı kullanılmaktadır. Bu alanlar için özellikle iyi yapay zeka modelleri geliştirilmektedir, örnek olarak ise metinler üzerinde işlem için BERT kullanılabilmektedir. Ayrıca bugün bütün bu işler için özelleştirilmiş modellerde vardır. Gemini, GPT vb. modeller bu alanlar için tüm işleri yapabilmektedir. Bu modellerin yanında ise Gemma, LLAMA vb. herkes ile paylaşılan modeller de vardır.
Doğal Dil İşleme Alt Başlıkları
Bu alanda özellikle çeşitli önemli çalışmalar yapılmaktadır. Cümleler, kelimeler, çeşitli noktalama işaretleri vb. üzerinde çalışmalar yapılmaktadır. Kelimelerin bilimsel olarak değerlendirilmesi, her bir dilin kendi söz dizimi, her bir metinsel ifadenin anlam bakımında analizi ve bazı durumlarda anlamsal belirsizliğini araştırmaktadır.
Kelime Bilimi : Kelimelerin kök bilimini, etimolojisini, dilin kendi toplumu ve diğer toplumların dilleri arasındaki ilişkisini incelemektedir.
Sözdizimi(Syntax) : Doğal dillerdeki cümle kurma ilke ve kurallı yapılarını incelemektedir. Cümle esnekliği ve dil bilimi açısından önemlidir.
Anlamsal Analiz (Semantic): Semantik ise anlam bilimi olmaktadır. Sözcüklerin ve cümlelerin anlamı olarak ikiye ayrılmaktadır. Özellikle durum bağlamı, aynı sözcük- farklı anlam vb. için önemli konuları vardır.
Anlam Belirsizliği(Disambiguation) : Kelimelerin anlamınnı , bağlamının, farklı anlama gelip gelmemesi vb. belirsizlikler için bu alan üzerinde işlemler vardır.
Doğal Dil İşleme Araştırma Konuları
Varlıkların isimlerini anlama, metinleri normalizasyonu , metinleri özetleme, metinleri sınıflandırma gibi araştırma konuları vardır.
Varlık İsmi Tanıma(NER) : Özel isimleri tespit etmek, tarih ve saat bilgisini anlamak, yer, kişi, kurum, kuruluş ve her türlü özel ismi anlamak ve belirtmek içindir.
Metin Sınıflandırma(Text Classification) : Metinlerin kelime ve cümlelerine göre hangi alan ile ilgili(örnek olarka eğitim, spor vb.) tespit etmek için kullanılır.
Özetleme(Summarization) : İki alt özetleme vardır. Çıkarıcı özetleme, metinde yer alan kelime ve cümlelere göre özetleme yapmaktadır. Soyutlayıcı özetleme ise metinde yer almayan kelime ve cümleler üzerinden özetleme yapmaktadır.
Metin Normalizasyonu(Text Normalization) : Yüksek hata oranları tespiti, analiz için gerekli normalizasyon işlemlerinin yapılması ile ilgilir.
Bu alanda ise diğer yazılarımı okumak için beni takip etmeyi unutmayın :)