題名: | 以 Viterbi 中文名片地址欄位的後處理 |
作者: | 王元凱 范國清 莊堯棠 陳泰宏 |
關鍵字: | viterbi OCR 相關字 後處理 候選字 |
期刊名/會議名稱: | 1999 NCS會議 |
摘要: | 現今市面上所銷售的 OCR 系統,在針對印刷體文字影像轉換成文字方面已經有很高的辨識率,但是在辨識名片影像時,由於受限於名片的大小,使得文字多半過小,以致於 OCR 系統常無法有良好的辨識率。 換句話說,名片地址欄位中的文字,經過 OCR 處理後,正確字元並不會全部都位在第一候選字,甚至有些名片在以 OCR 處理後,會有遺漏字的出現,也就是說在前十名的候選字中依然不包含正確字元。如何運用統計方法來做中文名片地址欄位的後處理,以將正確字元找出來,是本文所要討論的問題。 本論文使用維特比演算(viterbi)比藉著事先從地址資料庫計算得到前後相關字統計八訊,從前十名候選字中找到正確字元,或在遺漏字的位置插入機率較高的字元,去補正 OCR 的結果。實驗以100張名片做測試,正確率可以由原 OCR 的78.44%提高到93.53%。 |
日期: | 2006-11-13T01:41:43Z |
分類: | 1999年 NCS 全國計算機會議 |
文件中的檔案:
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
ce07ncs001999000159.pdf | 503.89 kB | Adobe PDF | 檢視/開啟 |
在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。