語言文字應用

1999 年第 3 期．頁 103 - 109

陳小荷

摘要

確定未登錄詞邊界是漢語自動分析中特有的一個問題，未登錄詞的種類和數量之多，是處理大規模真實文本的嚴重障礙。本文分析了現有的解決未登錄詞問題的各種方案，提出兩趟分詞、在“分詞碎片”中計算單字成詞概率和未登錄詞概率的一攬子解決方案，並報告一個初步的、令人鼓舞的開放測試結果。

如有任何意見或建議，歡迎電郵至 hkier-journal@cuhk.edu.hk。