題名: 以 Viterbi 中文名片地址欄位的後處理
作者: 王元凱
范國清
莊堯棠
陳泰宏
關鍵字: viterbi
OCR
相關字
後處理
候選字
期刊名/會議名稱: 1999 NCS會議
摘要: 現今市面上所銷售的 OCR 系統,在針對印刷體文字影像轉換成文字方面已經有很高的辨識率,但是在辨識名片影像時,由於受限於名片的大小,使得文字多半過小,以致於 OCR 系統常無法有良好的辨識率。 換句話說,名片地址欄位中的文字,經過 OCR 處理後,正確字元並不會全部都位在第一候選字,甚至有些名片在以 OCR 處理後,會有遺漏字的出現,也就是說在前十名的候選字中依然不包含正確字元。如何運用統計方法來做中文名片地址欄位的後處理,以將正確字元找出來,是本文所要討論的問題。 本論文使用維特比演算(viterbi)比藉著事先從地址資料庫計算得到前後相關字統計八訊,從前十名候選字中找到正確字元,或在遺漏字的位置插入機率較高的字元,去補正 OCR 的結果。實驗以100張名片做測試,正確率可以由原 OCR 的78.44%提高到93.53%。
日期: 2006-11-13T01:41:43Z
分類:1999年 NCS 全國計算機會議

文件中的檔案:
檔案 描述 大小格式 
ce07ncs001999000159.pdf503.89 kBAdobe PDF檢視/開啟


在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。