摘要 字母詞語大多是術語和專名,也是漢語自動分詞中的未登錄詞,其正確識別與否不僅關係到大規模中文文本自動分詞和標注,也關係到信息檢索、搜索引擎、機器翻譯等應用軟件的質量。本文對大規模真實文本中的字母詞語的使用情況進行了考察,對其自動提取進行研究,並就漢語文本字母詞語自動提取的難點進行了分析,給出了一些建議。
摘要
字母詞語大多是術語和專名,也是漢語自動分詞中的未登錄詞,其正確識別與否不僅關係到大規模中文文本自動分詞和標注,也關係到信息檢索、搜索引擎、機器翻譯等應用軟件的質量。本文對大規模真實文本中的字母詞語的使用情況進行了考察,對其自動提取進行研究,並就漢語文本字母詞語自動提取的難點進行了分析,給出了一些建議。
[英文版 | 目錄 | 語言文字應用 | 其他文獻 | 訂講表格| 查詢 ]