基於詞彙式大字符集、二階預測模型之文本資料壓縮

題名:	基於詞彙式大字符集、二階預測模型之文本資料壓縮
其他題名:	Text Compression Based onWord-Based Large Alphabet and Order-Two Prediction Model
作者:	古鴻炎溫智旻
關鍵字:	資料壓縮大字符集算術編碼
期刊名/會議名稱:	2005 NCS會議
摘要:	本論文研究基於詞彙式大字符集之文本資料壓縮方法，將中、英文檔案以詞彙為單位剖析出 token，再對token 以二階混合式預測模型或部分匹配預測模型來估算出現機率，接著以算術編碼對該機率編碼。由於字符集很大，影響預測模型的處理速度，因此我們也研究一些可以加快處理的方法。將上述想法實作為實際可壓縮、解壓縮的程式後，作壓縮率的測試實驗，再和PPMd、bzip2、及GZIP 程式作比較。對於中文檔案，我們的平均壓縮率，比PPMd 好1.12%，比bzip2 好5.48%，比GZIP 好17.02%。對於英文檔案，平均壓縮率則比PPMd 好0.29%，比bzip2 好2.04%，比GZIP 好12.08%。所以，文本資料壓縮率的改進，相當不容易，而本研究或多或少都得到了一些改進。議
日期:	2006-10-13T08:09:43Z
分類:	2005年 NCS 全國計算機會議

文件中的檔案：

檔案	描述	大小	格式
ce07ncs002006000232.pdf		600.46 kB	Adobe PDF	檢視/開啟

在 DSpace 系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

逢甲大學校園典藏知識庫