摘要 確定未登錄詞邊界是漢語自動分析中特有的一個問題,未登錄詞的種類和數量之多,是處理大規模真實文本的嚴重障礙。本文分析了現有的解決未登錄詞問題的各種方案,提出兩趟分詞、在“分詞碎片”中計算單字成詞概率和未登錄詞概率的一攬子解決方案,並報告一個初步的、令人鼓舞的開放測試結果。
摘要
確定未登錄詞邊界是漢語自動分析中特有的一個問題,未登錄詞的種類和數量之多,是處理大規模真實文本的嚴重障礙。本文分析了現有的解決未登錄詞問題的各種方案,提出兩趟分詞、在“分詞碎片”中計算單字成詞概率和未登錄詞概率的一攬子解決方案,並報告一個初步的、令人鼓舞的開放測試結果。
[英文版 | 目錄 | 語言文字應用 | 其他文獻 | 訂講表格| 查詢 ]