Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler

[ X ]

Tarih

2016

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT) bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırması sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen bu yöntemin başarısını test etmek amacıyla farklı sayıda dillerden oluşan metinler içeren dört veri kümesi kullanılmıştır. Önerilen yöntemde bir (1) boyutlu yerel ikili örüntüler (1B-YİD) ile dokümanlardan elde edilen öznitelikler farklı makine öğrenme yöntemleri ile sınıflandırılarak metinlerde DT işlemi gerçekleştirilmiştir. Dört farklı veri kümesi için elde edilen DT başarı oranları sırası ile %86,20, %92,75, %100 ve %89,77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.

Açıklama

Anahtar Kelimeler

Bilgisayar Bilimleri, Yazılım Mühendisliği,Dil ve Dil Bilim

Kaynak

Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi

WoS Q Değeri

Scopus Q Değeri

Cilt

31

Sayı

4

Künye