摘要 經過分詞處理的大型漢語語料庫是進行語言學和計算語言學研究的重要資源。一致性是衡量分詞語料庫質量的重要標準之一。本文列舉了導致分詞語料庫出現不一致的主要結構類型,討論了“語法詞”與“心理詞”的區別,指出分詞語料庫以切成“心理詞”為宜。“心理詞”的模糊性決定了嚴格意義的完全一致對分詞語料庫是不可能實現的,我們所追求的目標應調整為受控條件下的一致性。
摘要
經過分詞處理的大型漢語語料庫是進行語言學和計算語言學研究的重要資源。一致性是衡量分詞語料庫質量的重要標準之一。本文列舉了導致分詞語料庫出現不一致的主要結構類型,討論了“語法詞”與“心理詞”的區別,指出分詞語料庫以切成“心理詞”為宜。“心理詞”的模糊性決定了嚴格意義的完全一致對分詞語料庫是不可能實現的,我們所追求的目標應調整為受控條件下的一致性。
[英文版 | 目錄 | 語言文字應用 | 其他文獻 | 訂講表格| 查詢 ]