題名: | 以MMB 演算法改良中文網站自動分類系統的效能 |
其他題名: | Using MMB Algorithm to Refine the Performance of Chinese Web Site Automatically Classified System |
作者: | 駱思安 李中彥 徐俊傑 |
關鍵字: | 多重關係貝氏方法 知識管理 決策支援系統 網站分類 中文斷詞 |
期刊名/會議名稱: | 2005 NCS會議 |
摘要: | 每一個網站中包含著許許多多的文字,分散 在網站內的每一個網頁中,而這些文字一部分是 描述網站隸屬於何種類別,另一部分則是與隸屬 類別毫無關係的雜質。因此,如能有效地去除網 站中的雜質文字,即能成功地提昇中文網站自動 分類的效能。本研究提出WSACS(Web Site Automatically Classified System),一個中文網站 自動分類系統,有效地去除網站中的雜質文字, 並採用MMB(Multimembership Bayesian)的方式 來推論網站的類別隸屬。 WSACS 有三大模組,知識建構模組採用應 用程式滲透測試的方式,探勘出網站中網頁的超 鏈結架構和文句,並運用CKIP 斷詞器將文句做 適當的切割並賦予詞性,僅留下詞性為名詞的詞 彙讓去除贅詞和同義詞決定單元來過濾以產生 網站詞集,最終運用計算pij 和‾pij 值的公式, 用以產生網站詞集各自的pij 和‾pij 值;推論引 擎模組以MMB 為理論基礎來推論網站的類別 隸屬;知識學習模組則在固定的時間內,自動學 習詞彙、pij 和‾pij 值,以確保推論知識的正確 性。 |
日期: | 2006-10-24T01:31:13Z |
分類: | 2005年 NCS 全國計算機會議 |
文件中的檔案:
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
ce07ncs002006000171.pdf | 156.02 kB | Adobe PDF | 檢視/開啟 |
在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。