Yıl: 2010 Cilt: 16 Sayı: 3 Sayfa Aralığı: 235 - 245 Metin Dili: Türkçe İndeks Tarihi: 29-07-2022

Exploiting Redundancy to Achieve Lossy Text Compression

Öz:
Kaynak dil her ne olursa olsun metin dosyaları, kayda değer miktarda tekrar (fazlalık) içerebilmektedir. Veri sıkıştırma, bu fazlalığı kullanarak ileti etkinliğini artırmayı ve bilgi depolama masrafını azaltmayı amaçlar. Geleneksel olarak, kodlanan verinin çözülmesi sırasında kaybın tolere edilemeyeceği kritik uygulamalarda kullanılmak üzere, çok çeşitli kayıpsız sıkıştırma algoritması geliştirilmiştir. Belirli bir dereceye kadar veri kaybının tolere edilebileceği kritik olmayan uygulamalar için, daha iyi etkinlik elde etmek adına, kayıplı sıkıştırma algoritmalarından faydalanılabilir. Bu çalışmada, karakter tabanlı kayıplı sıkıştırma sağlamayı hedefleyen üç yeni teknik - Harf eşleme (LM), düşürülen sesliler (DV), ve karakterlerin değiştirilmesi (RC) modelleri - kullanılarak geleneksel sıkıştırma algoritmalarının performansının iyileştirilmesi öngörülmektedir. Adı geçen modeller İngilizce ve Türkçe örnek metinler üzerinde çalıştırılarak sonuçları karşılaştırılmıştır. Buna ek olarak çalışmada, önerilen modeller Huffman Kodlaması ve Aritmetik Kodlama gibi yaygın olarak kullanılan geleneksel sıkıştırma algoritmalarına ön yüz olarak kullanıldığında kaydedilen performans iyileşme değerleri de yer almaktadır. Makale kapsamında, gelecekteki çalışmayla ilgili olarak, herbir modelin mevcut performansını artırmaya yönelik çeşitli öneriler de sunulmuştur.
Anahtar Kelime:

Fazlalıktan Yararlanarak Kayıplı Metin Sıkıştırma Gerçekleştirimi

Öz:
Regardless of the source language, text documents contain significant amount of redundancy. Data compression exploits this redundancy to improve transmission efficiency and/or save storage space. Conventionally, various lossless text compression algorithms have been introduced for critical applications, where any loss after recovery is intolerable. For non-critical applications, i.e. where data loss to some extent is acceptable, one may employ lossy compression to acquire superior efficiency. We use three recent techniques to achieve character-oriented lossy text compression: Letter Mapping (LM), Dropped Vowels (DV), and Replacement of Characters (RC), and use them as a front end anticipating to improve compression performance of conventional compression algorithms. We implement the scheme on English and Turkish sample texts and compare the results. Additionally, we include performance improvement rates for these models when used as a front end to Huffman and Arithmetic Coding algorithms. As for the future work, we propose several ideas to further improve the current performance of each model
Anahtar Kelime:

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • Bose, R. and Pathak, S. 2006. “A Novel Compression and Encryption Scheme Using Variable Model Arithmetic Coding and Coupled Chaotic System”, IEEE Transactions on CCts and Systems. 848-857.
  • Broder, A. and Mitzenmacher, M. 1996. “Pattern-based Compression of Text Images”, Proceeding of Data Compression Conference, March 31-April 3, 1996, Snowbird, Utah, USA. 300-309.
  • Gilchrist, J. and Cuhadar, A. 2007. “Parallel Lossless Data Compression Based on the Burrows-Wheeler Transform”, AINA 2007. 877-884.
  • Howard, P. G. 1996. “Lossless and Lossy Compression of Text Images by Soft Pattern Matching”, IEEE Transaction. 210-219.
  • Jorgensen, P. E. T. and Song, M. 2009. “Analysis of Fractals, Image Compression, Entropy Encoding, Karhunen-Loève Transforms”, Acta Applicandae Mathematicae: An Int’l Survey Journal on Applying Math. and Mathematical Appls. 108 (3), 489-508.
  • Kaufman, Y. and Klein, S. T. 2004. “Semilossless Text Compression”, Prague Stringology Conf., Aug. 30 - Sept. 1, 2004, Prague, Czech Republic.
  • Kewley-Port, D. Burkle, T. Z. and Leed, J. H. 2007. “Contribution of Consonant Versus Vowel Information to Sentence Intelligibility for Young Normal-Hearing and Elderly Hearing-Impaired Listeners”, Acoustical Soc. of America. 2365–2375.
  • Korodi, G. and Tabus, I. 2008. “On Improving the PPM Algorithm”, ISCCSP 2008. 1450-1453.
  • Kruger H., Schreiber R., Geiser B. and Vary, P. 2008. “On Logarithmic Spherical Vector Quantization”, ISITA 2008. 1-6.
  • Lee, Y. H., Kim, D. S., and Kim, H. K. 2009. “Class-Dependent and Differential Huffman Coding Of Compressed Feature Parameters For Distributed Speech Recognition”, ICASSP 2009. 4165 – 4168.
  • Lewand, R. E. 2000. “Cryptological Mathematics”, The Mathematical Association of America, USA.
  • Liu, G. and Zhao, F. 2007. “An Efficient Compression Algorithm for Hyperspectral Images Based on Correlation Coefficients Adaptive Three Dimensional Wavelet Zerotree Coding”, Int’l Conf. on Image Processing. 341-344.
  • Nagarajan, S. and Sankar, R. 1998. “Efficient Implementation of Linear Predictive Coding Algorithms”, IEEE Southeastcon ‘98. 69-72.
  • Nevill, C. and Bell, T. 1992. “Compression of Parallel Texts”, Inf. Processing & Mgmnt., 28, 00-00.
  • Palaniappan, V. and Latifi, S. 2007 “Lossy Text Compression Techniques”, ICCS 2007. 205-210.
  • Palit S. and Garain, U. 2006. “A Novel Technique For The Watermarking Of Symbolically Compressed Documents”, DIAL 2006. 291-296.
  • Pollo, T. C., Kessler, B. and Treiman, R. 2005. “Vowels, Syllables, and Letter Names: Differences Between Young Children’s Spelling in English and Portuguese”, Journal of Experimental Child Psychology. 92 (2), 161-181.
  • Shang, J., Liu, C. and Ding, X. 2006. “JBIG2 Text Image Compression Based on OCR”. SPIE 2006.
  • Shukla, P.K., Rusiya, P., Agrawal, D., Chhablani, L. and Raghuwanshi, B.S. 2009. “Multiple Subgroup Data Compression Technique Based on Huffman Coding”, CICSYN 2009. 397-402.
  • Witten, I. H, Bell, T. C., Moffat, A., Nevill-Manning, C. G., Smith, T. G. and Thimbleby, H. 1994a. “Semantic and Generative Models for Lossy Text Compression”, The Computer Journal. 37 (2), 83-87.
  • Witten, I. H, Bell T. C., Moffat A., Nevill-Manning C. G., Smith T. G. and Thimbleby H. 1994b. “Textual Image Compression: 2-Stage Lossy/Lossless Encoding of Textual Images”, Proceedings of the IEEE. 82 (6), 878-888.
  • Ye, Y. and Cosman, P. 2001. “Dictionary Design for Text Image Compression with JBIG2”, Proceedings of IEEE for Image Processing. V. (10), 818-828.
  • Ye, Y. and Cosman, P. 2003. “Fast and Memory Efficient Text Image Compression with JBIG2”, Proceedings of IEEE for Image Processing. V. (10), 944-956.
  • Zhou, J. and Chen, P. 2009. “Generalized Discrete Cosine Transform”, PACCS 2009. 449-452.
APA CELIKEL CANKAYA E, PALANIAPPAN V, LATIFI S (2010). Exploiting Redundancy to Achieve Lossy Text Compression. , 235 - 245.
Chicago CELIKEL CANKAYA Ebru,PALANIAPPAN Venka,LATIFI Shahram Exploiting Redundancy to Achieve Lossy Text Compression. (2010): 235 - 245.
MLA CELIKEL CANKAYA Ebru,PALANIAPPAN Venka,LATIFI Shahram Exploiting Redundancy to Achieve Lossy Text Compression. , 2010, ss.235 - 245.
AMA CELIKEL CANKAYA E,PALANIAPPAN V,LATIFI S Exploiting Redundancy to Achieve Lossy Text Compression. . 2010; 235 - 245.
Vancouver CELIKEL CANKAYA E,PALANIAPPAN V,LATIFI S Exploiting Redundancy to Achieve Lossy Text Compression. . 2010; 235 - 245.
IEEE CELIKEL CANKAYA E,PALANIAPPAN V,LATIFI S "Exploiting Redundancy to Achieve Lossy Text Compression." , ss.235 - 245, 2010.
ISNAD CELIKEL CANKAYA, Ebru vd. "Exploiting Redundancy to Achieve Lossy Text Compression". (2010), 235-245.
APA CELIKEL CANKAYA E, PALANIAPPAN V, LATIFI S (2010). Exploiting Redundancy to Achieve Lossy Text Compression. Mühendislik Bilimleri Dergisi, 16(3), 235 - 245.
Chicago CELIKEL CANKAYA Ebru,PALANIAPPAN Venka,LATIFI Shahram Exploiting Redundancy to Achieve Lossy Text Compression. Mühendislik Bilimleri Dergisi 16, no.3 (2010): 235 - 245.
MLA CELIKEL CANKAYA Ebru,PALANIAPPAN Venka,LATIFI Shahram Exploiting Redundancy to Achieve Lossy Text Compression. Mühendislik Bilimleri Dergisi, vol.16, no.3, 2010, ss.235 - 245.
AMA CELIKEL CANKAYA E,PALANIAPPAN V,LATIFI S Exploiting Redundancy to Achieve Lossy Text Compression. Mühendislik Bilimleri Dergisi. 2010; 16(3): 235 - 245.
Vancouver CELIKEL CANKAYA E,PALANIAPPAN V,LATIFI S Exploiting Redundancy to Achieve Lossy Text Compression. Mühendislik Bilimleri Dergisi. 2010; 16(3): 235 - 245.
IEEE CELIKEL CANKAYA E,PALANIAPPAN V,LATIFI S "Exploiting Redundancy to Achieve Lossy Text Compression." Mühendislik Bilimleri Dergisi, 16, ss.235 - 245, 2010.
ISNAD CELIKEL CANKAYA, Ebru vd. "Exploiting Redundancy to Achieve Lossy Text Compression". Mühendislik Bilimleri Dergisi 16/3 (2010), 235-245.