題名: 以MMB 演算法改良中文網站自動分類系統的效能
其他題名: Using MMB Algorithm to Refine the Performance of Chinese Web Site Automatically Classified System
作者: 駱思安
李中彥
徐俊傑
關鍵字: 多重關係貝氏方法
知識管理
決策支援系統
網站分類
中文斷詞
期刊名/會議名稱: 2005 NCS會議
摘要: 每一個網站中包含著許許多多的文字,分散 在網站內的每一個網頁中,而這些文字一部分是 描述網站隸屬於何種類別,另一部分則是與隸屬 類別毫無關係的雜質。因此,如能有效地去除網 站中的雜質文字,即能成功地提昇中文網站自動 分類的效能。本研究提出WSACS(Web Site Automatically Classified System),一個中文網站 自動分類系統,有效地去除網站中的雜質文字, 並採用MMB(Multimembership Bayesian)的方式 來推論網站的類別隸屬。 WSACS 有三大模組,知識建構模組採用應 用程式滲透測試的方式,探勘出網站中網頁的超 鏈結架構和文句,並運用CKIP 斷詞器將文句做 適當的切割並賦予詞性,僅留下詞性為名詞的詞 彙讓去除贅詞和同義詞決定單元來過濾以產生 網站詞集,最終運用計算pij 和‾pij 值的公式, 用以產生網站詞集各自的pij 和‾pij 值;推論引 擎模組以MMB 為理論基礎來推論網站的類別 隸屬;知識學習模組則在固定的時間內,自動學 習詞彙、pij 和‾pij 值,以確保推論知識的正確 性。
日期: 2006-10-24T01:31:13Z
分類:2005年 NCS 全國計算機會議

文件中的檔案:
檔案 描述 大小格式 
ce07ncs002006000171.pdf156.02 kBAdobe PDF檢視/開啟


在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。