Yıl: 2016 Cilt: 31 Sayı: 4 Sayfa Aralığı: 1085 - 1094 Metin Dili: Türkçe İndeks Tarihi: 29-07-2022

Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler

Öz:
Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT) bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırması sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen bu yöntemin başarısını test etmek amacıyla farklı sayıda dillerden oluşan metinler içeren dört veri kümesi kullanılmıştır. Önerilen yöntemde bir (1) boyutlu yerel ikili örüntüler (1B-YİD) ile dokümanlardan elde edilen öznitelikler farklı makine öğrenme yöntemleri ile sınıflandırılarak metinlerde DT işlemi gerçekleştirilmiştir. Dört farklı veri kümesi için elde edilen DT başarı oranları sırası ile %86,20, %92,75, %100 ve %89,77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.
Anahtar Kelime:

A novel feature extraction approach for text-based language identification: Binary patterns

Öz:
Language identification (LI), which is a major task in natural language processing, is the process of determining the language from a given content. In this paper, a novel approach, which is based on the probability of the use of the characters that have the similar orders with respect to their UTF-8 values, was proposed. In order to evaluate and validate the proposed approach, four datasets, which contain texts in different numbers of languages, were employed. In the proposed approach, the features that were exacted by one-dimensional local binary pattern (1D-LBP) method were classified by various machine learning methods. Achieved LI accuracies in each of four employed datasets were 86.20%, 92.75%, 100% and 89.77%, respectively. The results showed that the proposed approach yields high success rates and it is an efficient way of language identification.
Anahtar Kelime:

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • Selamat A., Ng C.C., Arabic script web page language identifications using decision tree neural networks, Pattern Recognition, 44 (1), 133-144, 2011.
  • Takçı H., Ekinci E., Minimal feature set in language identification and finding suitable classification method with it, Procedia Technology, 1, 444-448, 2012.
  • Xafopoulos A., Kotropoulos C., Almpanidis G., Pitas I., Language identification in web documents using discrete HMMs, Pattern Recognition, 37 (3), 583-594, 2004.
  • Nie J.Y., Cross-language information retrieval, Synthesis Lectures on Human Language Technologies, 3 (1), 1-125, 2010.
  • Li H., Ma B., Lee C.H., A vector space modeling approach to spoken language identification, IEEE Transactions on Audio, Speech, and Language Processing, 15 (1), 271-284, 2007.
  • Nakamura S., Markov K., Nakaiwa H., Kikui G., Kawai H., Jitsuhiro T., Zhang J.S., Yamamoto H., Sumita E., Yamamoto, S., The ATR multilingual speech-to-speech translation system, IEEE Transactions on Audio, Speech, and Language Processing, 14 (2), 365-376, 2006.
  • Kaya Y., Ertuğrul Ö.F., Tekin R., An Expert Spam Detection System Based on Extreme Learning Machine, Computer Science and Applications, 1 (2), 132-137, 2014.
  • Selamat A., Omatu S., Web page feature selection and classification using neural networks, Information Sciences, 158, 69-88, 2004.
  • Haltaş A., Alkan A., Karabulut M., Performance analysis of heuristic search algorithms in text classification, Journal of the Faculty of Engineering and Architecture of Gazi University, 30 (3), 417-427, 2015.
  • Gültepe Y., Ünalır M.O., Rendering ontology based Turkish national health data dictionary and enrichment with medical informatics standards, Journal of the Faculty of Engineering and Architecture of Gazi University, 29 (3), 637-644, 2014.
  • Mani I., Maybury M.T., Advances in automatic text summarization, 293, Cambridge: MIT press, Massachusetts-USA, 1999.
  • Chong L.K., Kamprath C.K., Machine translation and telecommunications system, U.S. Patent No 5497319, March 5, 1996.
  • Takcı H., Soğukpınar İ., Letter based text scoring method for language identification, International Conference on Advances in Information Systems, İzmir-Türkiye, 283-290, October 20-22, 2004.
  • Evans D.A., Grefenstette G.T., Tong X., Method of identifying the language of a textual passage using short word and/or n-gram comparisons, U.S. Patent No: US7359851, Washington, DC: U.S. Patent and Trademark Office, April 15, 2008.
  • Cavnar W.B., Trenkle J.M., N-gram-based text categorization, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas- Nevada-USA, 161-175, April 11-13, 1994.
  • Popescu M., Dinu L.P., Kernel methods and string kernels for authorship identification: The federalist papers case. International Conference on Recent Advances in Natural Language Processing (RANLP- 07), Borovets-Bulgaria, September 27-29, 2007.
  • Popescu M., Grozea C., Kernel methods and string kernels for authorship analysis Notebook for PAN at CLEF, Conference and Labs of the Evaluation Forum, Rome-Italy, September 17-20, 2012.
  • Popescu M., Ionescu R.T., The Story of the Characters, the DNA and the Native Language, Eighth Workshop on Innovative Use of NLP for Building Educational Applications, Atlanta-GA-USA, 270-278, June 13, 2013.
  • Ahmed B., Cha, S.H., Tappert C., Language identification from text using n-gram based cumulative frequency addition, Proceedings of Student/Faculty Research Day, CSIS, Pace University, 12.1-12.8, May 7, 2004.
  • Burçin K., Vasif N.V., Down syndrome recognition using local binary patterns and statistical evaluation of the system, Expert Systems with Applications, 38 (7), 8690-8695, 2011.
  • Takçı H., Güngör T., A high performance centroidbased classification approach for language identification, Pattern Recognition Letters, 33 (16), 2077-2084, 2012.
  • Prager J.M., Linguini: Language identification for multilingual documents, 32nd Annual Hawaii International Conference on Systems Sciences, HawaiiUSA, 1-11, January 5-8, 1999
  • Suzuki I., Mikami Y., Ohsato A., Chubachi Y., A language and character set determination method based on N-gram statistics, ACM Transactions on Asian Language Information Processing, 1 (3), 269-278, 2002.
  • Ng C.C., Selamat A., Improved letter weighting feature selection on arabic script language identification, First Asian Conference on Intelligent Information and Database Systems, Dong Hoi City-Vietnam, 150-154, April 1-3, 2009.
  • Li Q., Chen Y.P., Personalized text snippet extraction using statistical language models, Pattern Recognition, 43 (1), 378-386, 2010.
  • Sibun P., Reynar J.C., Language identification: examining the issues, In: Proc.5th Symposium on Document Analysis and Information Retrieval, Las Vegas-Nevada-USA, 125-135, April 15-17, 1996.
  • Song Y., Dai L., Wang R., An automatic language identification method based on subspace analysis, IEEE International Conference on Multimedia and Expo, New York-NY-USA, 598-601, 28 Jun - 03 Jul 2009.
  • Takci H., Diagnosis of breast cancer by the help of centroid based classifiers, Journal of the Faculty of Engineering and Architecture of Gazi University, 31 (2), 323-330, 2016.
  • Özocak A., Yurtcu Ş., Prediction of compression index of fine-grained soils using statistical and artificial intelligence methods, Journal of the Faculty of Engineering and Architecture of Gazi University, 31 (3), 597-608, 2016.
  • Köklü M., Kahramanlı H., Allahverdi N., A new accurate and efficient approach to extract classification rules, Journal of the Faculty of Engineering and Architecture of Gazi University, 29 (3), 477-486, 2014.
  • Jiang C., Coenen F., Sanderson R., Zito M., Text classification using graph mining-based feature extraction, Knowledge-Based Systems, 23 (4), 302- 308, 2010.
  • Tan S., An effective refinement strategy for KNN text classifier, Expert Systems with Applications, 30 (2), 290-298, 2006.
  • Botha G.R., Barnard E., Factors that affect the accuracy of text-based language identification, Computer Speech & Language, 26 (5), 307-320, 2012.
  • Hayta Ş.B., Takçı H., Eminli M., Language Identification Based on n-Gram Feature Extraction Method by Using Classifiers, IU-Journal of Electrical & Electronics Engineering, 13 (2), 1629-1639, 2013.
  • Yavanoğlu U., Sağıroğlu, Ş., Automatic web based language identification and translation system, Journal of the Faculty of Engineering and Architecture of Gazi University, 25 (3), 483-494, 2010.
  • Baldwin T., Lui M., Language Identification: The Long and the Short of the Matter, Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Los Angeles-USA, 229- 237, June 1, 2010.
  • Kaya Y., Uyar M., Tekin R., Yıldırım S., 1D-local binary classification of epileptic EEG signals, Applied Mathematics and Computation, 243, 209-219, 2014.
  • Kaya Y., Ertuğrul Ö.F., A novel approach for spam email detection based on shifted binary patterns, Security and Communication Networks, 9 (10), 1216- 1225, 2016.
  • Witten I.H., Frank E., Data Mining: Practical machine learning tools and techniques, Morgan Kaufmann Publishers, San Francisco-USA, 2005.
APA KAYA Y, Ertuğrul Ö (2016). Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. , 1085 - 1094.
Chicago KAYA Yılmaz,Ertuğrul Ömer Faruk Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. (2016): 1085 - 1094.
MLA KAYA Yılmaz,Ertuğrul Ömer Faruk Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. , 2016, ss.1085 - 1094.
AMA KAYA Y,Ertuğrul Ö Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. . 2016; 1085 - 1094.
Vancouver KAYA Y,Ertuğrul Ö Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. . 2016; 1085 - 1094.
IEEE KAYA Y,Ertuğrul Ö "Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler." , ss.1085 - 1094, 2016.
ISNAD KAYA, Yılmaz - Ertuğrul, Ömer Faruk. "Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler". (2016), 1085-1094.
APA KAYA Y, Ertuğrul Ö (2016). Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 31(4), 1085 - 1094.
Chicago KAYA Yılmaz,Ertuğrul Ömer Faruk Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 31, no.4 (2016): 1085 - 1094.
MLA KAYA Yılmaz,Ertuğrul Ömer Faruk Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, vol.31, no.4, 2016, ss.1085 - 1094.
AMA KAYA Y,Ertuğrul Ö Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi. 2016; 31(4): 1085 - 1094.
Vancouver KAYA Y,Ertuğrul Ö Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi. 2016; 31(4): 1085 - 1094.
IEEE KAYA Y,Ertuğrul Ö "Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler." Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 31, ss.1085 - 1094, 2016.
ISNAD KAYA, Yılmaz - Ertuğrul, Ömer Faruk. "Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler". Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 31/4 (2016), 1085-1094.