Yazar "Noyan, Tuba" seçeneğine göre listele
Listeleniyor 1 - 2 / 2
Sayfa Başına Sonuç
Sıralama seçenekleri
Öğe A new content-free approach to identification of document language: Angle patterns(Gazi Univ, Fac Engineering Architecture, 2022) Noyan, Tuba; Kuncan, Fatma; Tekin, Ramazan; Kaya, YilmazGraphical/Tabular Abstract Language identification (LI) in text mining is the process of detecting the natural language in which a document or part of it is written. LI aims to mimic a human's ability to recognize certain languages from text by computer algorithms. LI can be defined as a classification problem subject based on the information used in word or character size for any document. When the literature is examined for LI application, it is seen that various linguistic or statistical-based approaches are used. Linguistic methods are methods that perform LI according to a special word or character of a language. These methods are applied based on the special rules of the languages. When we look at the statistical methods, it shows that the words or characters that make up the language depend on their frequency and distribution. The statistical approaches used are content -independent methods. The semantic context of the text is not concerned with its content. According to linguistic methods, it does not provide sufficient information about the content of the text. The proposed model in this study is a statistical approach. Figure A. Proposed block diagram for LI Purpose: In this study, a new LI approach using the angle information between the UTF-8 values of the characters in the text is proposed. The proposed angle pattern method is used for feature extraction from texts. Angle patterns method is a statistical approach. In the angle method, there are two distance parameters, R and L, which express which neighborhood to look at from the reference point to the left and right. Theory and Methods: To test the proposed approach, four datasets, two created by the authors and two publicly available on the Internet, were used. By using the features obtained by the angle pattern method, classification process was carried out with different machine learning methods such as Random Forest, Support Vector Machine, Linear Discriminant Analysis, Naive Bayes and K-nearest neighbor. Language identification performance results determined from four different data sets were observed as 96.81%, 99.39%, 93.31% and 98.60%, respectively. Results: According to the performance results achieved as a result of the study, it has been determined that the proposed angle pattern method provides important distinguishing information in language identification application. It is thought that the proposed approach in this study can be used in many different text mining applications such as spam recognition, text categorization, as well as LI application.Öğe Doküman dili tanıma için içerik bağımsız yeni bir yaklaşım: açı örüntüler(Siirt Üniversitesi, 2021) Noyan, Tuba; Kaya, YılmazMetin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı için kullanılmıştır. Açı örüntüler yöntemi istatistiksel bir yaklaşımdır. Önerilen yaklaşımı test etmek için çeşitli şekillerde oluşturulan dört veri seti kullanılmıştır. Elde edilen öznitelikler Rastsal Orman (RO, Random Forest), Destek Vektör Makinesi (DVM, Support Vector Machine), Liner Diskriminant Analiz (LDA, Linear Discriminant Analysis), Naive Bayes (NB) ve K-en yakın komşu (Knn, k-nearest neighbors) olmak üzere farklı sınıflandırma yöntemlerinde kullanılmıştır. Dört farklı veri seti kümesinden belirlenen DT başarım sonuçları sırası ile %96,81, %99,39, %93,31 ve %98,60 olarak gözlenmiştir. Açı yönteminin R ve L şeklinde iki parametresi bulunmaktadır. Farklı örüntülerin yakalanması için bu parametrelerin farklı değerleri için de denemeler gerçekleştirilmiştir. Genel olarak R=1 ve L=1 için yüksek başarılar gözlenmesine rağmen bu parametrelerin değerlerine deneme yanılma yoluyla karar verilmesi gerekir. Bunun yanında önerilen yaklaşım karakter uzunluğuna göre test edilmiştir. #100, #200, #300, #400 ve #500 karakter sayısı içeren metinler için DT gerçekleştirilmiştir. Sonuçlar incelendiğinde metin uzunluğu arttıkça başarının daha iyi olduğu belirlenmiştir. Kabul edilebilecek seviyede bir başarı oranı elde etmek amacıyla metin uzunluklarının #200 karakter ve daha fazla uzunlukta olmasının gerektiği belirlenmiştir. Yapılan çalışma sonucunda ulaşılan başarım sonuçlarına göre önerilen açı örüntüler yönteminin DT uygulamasında önemli ayırt edici bilgiler verdiği belirlenmiştir.