Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT) bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırması sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen bu yöntemin başarısını test etmek amacıyla farklı sayıda dillerden oluşan metinler içeren dört veri kümesi kullanılmıştır. Önerilen yöntemde bir (1) boyutlu yerel ikili örüntüler (1B-YİD) ile dokümanlardan elde edilen öznitelikler farklı makine öğrenme yöntemleri ile sınıflandırılarak metinlerde DT işlemi gerçekleştirilmiştir. Dört farklı veri kümesi için elde edilen DT başarı oranları sırası ile %86,20, %92,75, %100 ve %89,77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.