題名: 基於詞彙式大字符集、二階預測模型之文本資料壓縮
其他題名: Text Compression Based onWord-Based Large Alphabet and Order-Two Prediction Model
作者: 古鴻炎
溫智旻
關鍵字: 資料壓縮
大字符集
算術編碼
期刊名/會議名稱: 2005 NCS會議
摘要: 本論文研究基於詞彙式大字符集之文本資料 壓縮方法,將中、英文檔案以詞彙為單位剖析出 token,再對token 以二階混合式預測模型或部分匹 配預測模型來估算出現機率,接著以算術編碼對該 機率編碼。由於字符集很大,影響預測模型的處理 速度,因此我們也研究一些可以加快處理的方法。 將上述想法實作為實際可壓縮、解壓縮的程 式後,作壓縮率的測試實驗,再和PPMd、bzip2、 及GZIP 程式作比較。對於中文檔案,我們的平均 壓縮率,比PPMd 好1.12%,比bzip2 好5.48%, 比GZIP 好17.02%。對於英文檔案,平均壓縮率 則比PPMd 好0.29%,比bzip2 好2.04%,比GZIP 好12.08%。所以,文本資料壓縮率的改進,相當 不容易,而本研究或多或少都得到了一些改進。議
日期: 2006-10-13T08:09:43Z
分類:2005年 NCS 全國計算機會議

文件中的檔案:
檔案 描述 大小格式 
ce07ncs002006000232.pdf600.46 kBAdobe PDF檢視/開啟


在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。