題名: | 中文新聞文件的關聯法則探勘 |
作者: | 許中川 陳俊男 胡勝傑 林彥成 邱宣諭 |
關鍵字: | 文件資料探勘 關聯法則 中文斷詞 關鍵詞擷取 分佈差異 |
期刊名/會議名稱: | 1999 NCS會議 |
摘要: | 新聞文件記錄每天發生的重要事件,在這些大量的新聞文件中,往往蘊含重要的資訊。本研究提出一個自動化探勘架構,從大量的新聞文件中擷取出有用的關鍵詞彙,以關聯法則進一步萃取出潛藏的知識。在探勘過程中,針對中文新聞文件結構的特殊性,我們以結合詞庫式斷詞與統式斷詞的混合式斷詞法進行中文斷詞;根據新聞撰寫經驗法則,提出四個處理程序,取得新聞文件中較具代表性的關鍵詞彙;為切合新聞文件知識開採需求,使用概念階層樹建構背景知識與關鍵詞彙,搭配改良後的關聯法則,提出四個關聯模式:第一個是基本關聯法則,第二個是結構化資料與高頻詞彙關聯,第三個是結構化資料與同類詞彙關聯,第四個為非結構化資料的分佈差異。最後我們以實驗驗證此探勘架構的可行性。 |
日期: | 2006-11-08T03:12:35Z |
分類: | 1999年 NCS 全國計算機會議 |
文件中的檔案:
檔案 | 描述 | 大小 | 格式 | |
---|---|---|---|---|
ce07ncs001999000113.pdf | 868.39 kB | Adobe PDF | 檢視/開啟 |
在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。