簡體

語言文字應用


1999 年 第 3 期.頁 103 - 109

自動分詞中未登錄詞問題的一攬子解決方案

陳小荷

摘要

確定未登錄詞邊界是漢語自動分析中特有的一個問題,未登錄詞的種類和數量之多,是處理大規模真實文本的嚴重障礙。本文分析了現有的解決未登錄詞問題的各種方案,提出兩趟分詞、在“分詞碎片”中計算單字成詞概率和未登錄詞概率的一攬子解決方案,並報告一個初步的、令人鼓舞的開放測試結果。

[英文版 | 目錄 | 語言文字應用 | 其他文獻 | 訂講表格| 查詢 ]


Mail icon 如有任何意見或建議,歡迎電郵至 hkier-journal@cuhk.edu.hk