Doküman dili tanıma için içerik bağımsız yeni bir yaklaşım: açı örüntüler
dc.contributor.advisor | Kaya, Yılmaz | |
dc.contributor.author | Noyan, Tuba | |
dc.date.accessioned | 2024-12-24T18:12:56Z | |
dc.date.available | 2024-12-24T18:12:56Z | |
dc.date.issued | 2021 | |
dc.department | Enstitüler, Fen Bilimleri Enstitüsü, Elektrik-Elektronik Mühendisliği Ana Bilim Dalı | |
dc.description | Fen Bilimleri Enstitüsü, Elektrik-Elektronik Mühendisliği Ana Bilim Dalı | |
dc.description.abstract | Metin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı için kullanılmıştır. Açı örüntüler yöntemi istatistiksel bir yaklaşımdır. Önerilen yaklaşımı test etmek için çeşitli şekillerde oluşturulan dört veri seti kullanılmıştır. Elde edilen öznitelikler Rastsal Orman (RO, Random Forest), Destek Vektör Makinesi (DVM, Support Vector Machine), Liner Diskriminant Analiz (LDA, Linear Discriminant Analysis), Naive Bayes (NB) ve K-en yakın komşu (Knn, k-nearest neighbors) olmak üzere farklı sınıflandırma yöntemlerinde kullanılmıştır. Dört farklı veri seti kümesinden belirlenen DT başarım sonuçları sırası ile %96,81, %99,39, %93,31 ve %98,60 olarak gözlenmiştir. Açı yönteminin R ve L şeklinde iki parametresi bulunmaktadır. Farklı örüntülerin yakalanması için bu parametrelerin farklı değerleri için de denemeler gerçekleştirilmiştir. Genel olarak R=1 ve L=1 için yüksek başarılar gözlenmesine rağmen bu parametrelerin değerlerine deneme yanılma yoluyla karar verilmesi gerekir. Bunun yanında önerilen yaklaşım karakter uzunluğuna göre test edilmiştir. #100, #200, #300, #400 ve #500 karakter sayısı içeren metinler için DT gerçekleştirilmiştir. Sonuçlar incelendiğinde metin uzunluğu arttıkça başarının daha iyi olduğu belirlenmiştir. Kabul edilebilecek seviyede bir başarı oranı elde etmek amacıyla metin uzunluklarının #200 karakter ve daha fazla uzunlukta olmasının gerektiği belirlenmiştir. Yapılan çalışma sonucunda ulaşılan başarım sonuçlarına göre önerilen açı örüntüler yönteminin DT uygulamasında önemli ayırt edici bilgiler verdiği belirlenmiştir. | |
dc.description.abstract | Language identification (LI) in text mining is the study of detecting the natural language in which a document or part of it is written. In this study, a new language indetification approach from the text using the angle information between the UTF-8 values of the characters is proposed. The proposed angle method is used for feature extraction from texts. Angle patterns method is a statistical approach. Four datasets generated in various ways were used to test the proposed approach. Obtained features were used with different classification methods such as Random Forest (RF), Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Naive Bayes (NB), and K-nearest neighbor ( Knn).The LI performance results determined from four different data sets were observed as 96.81%, 99.39%, 93.31% and 98.60%, respectively. Angle pattern method has two parameters, R and L. Trials were also carried out for different values of these parameters in order to capture different patterns. Although high successes are observed for R=1 and L=1 in general, the values of these parameters need to be decided by trial and error. In addition, the proposed approach has been tested according to character length. LI was performed for texts containing #100, #200, #300, #400 and #500 character numbers. When the results are examined, it has been determined that the success is better as the length of the text increases. It has been determined that text lengths should be #200 characters or more in order to achieve an acceptable success rate. According to the performance results achieved as a result of the study, it was determined that the proposed angle pattern method gave important distinguishing information in LI application. | |
dc.identifier.endpage | 56 | |
dc.identifier.startpage | 1 | |
dc.identifier.uri | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=tqUiYt63sTQLTpozMJ92QosvNRsfsBkOU64tKFGrf1K2HkSIzhv-S_kRByJ8TF-5 | |
dc.identifier.uri | https://hdl.handle.net/20.500.12604/3178 | |
dc.identifier.yoktezid | 696487 | |
dc.language.iso | tr | |
dc.publisher | Siirt Üniversitesi | |
dc.relation.publicationcategory | Tez | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.snmz | KA_20241218 | |
dc.subject | Elektrik ve Elektronik Mühendisliği | |
dc.subject | Electrical and Electronics Engineering | |
dc.title | Doküman dili tanıma için içerik bağımsız yeni bir yaklaşım: açı örüntüler | |
dc.title.alternative | A new content-free approach to identification of document language: angle patterns | |
dc.type | Master Thesis |