題名: | 基於詞彙式大字符集、二階預測模型之文本資料壓縮 |
其他題名: | Text Compression Based onWord-Based Large Alphabet and Order-Two Prediction Model |
作者: | 古鴻炎 溫智旻 |
關鍵字: | 資料壓縮 大字符集 算術編碼 |
期刊名/會議名稱: | 2005 NCS會議 |
摘要: | 本論文研究基於詞彙式大字符集之文本資料 壓縮方法,將中、英文檔案以詞彙為單位剖析出 token,再對token 以二階混合式預測模型或部分匹 配預測模型來估算出現機率,接著以算術編碼對該 機率編碼。由於字符集很大,影響預測模型的處理 速度,因此我們也研究一些可以加快處理的方法。 將上述想法實作為實際可壓縮、解壓縮的程 式後,作壓縮率的測試實驗,再和PPMd、bzip2、 及GZIP 程式作比較。對於中文檔案,我們的平均 壓縮率,比PPMd 好1.12%,比bzip2 好5.48%, 比GZIP 好17.02%。對於英文檔案,平均壓縮率 則比PPMd 好0.29%,比bzip2 好2.04%,比GZIP 好12.08%。所以,文本資料壓縮率的改進,相當 不容易,而本研究或多或少都得到了一些改進。議 |
日期: | 2006-10-13T08:09:43Z |
分類: | 2005年 NCS 全國計算機會議 |
文件中的檔案:
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
ce07ncs002006000232.pdf | 600.46 kB | Adobe PDF | 檢視/開啟 |
在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。