Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler,Journal of the Faculty of Engineering and Architecture ofGazi University, 31(4): 1085-1094, 2016

[ X ]

Tarih

2016

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.

Açıklama

Anahtar Kelimeler

metin tabanlı dil tanıma, yerel ikili örüntüler, doğal dil işleme

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon