簡體

語言文字應用


2003 年 第 4 期.頁 16 - 24

語料庫加工中的規範問題──談《信息處理用現代漢語詞類標記集規範》

靳光瑾、郭曙綸、肖航、章云帆

摘要

本文就制定《信息處理用現代漢語詞類標記集規範》闡述我們對於規範問題的看法和做法。規範不是強制的,只規範加工結果,不規範加工過程。《規範》研制的目的在於為中文信息處理研究提供一套可以作為國家規範的現代漢語詞類標記集體系,以便各個中文信息處理系統能夠使用規範統一的詞類標記集。這個《規範》試圖解決詞類標記的統一問題,該《規範》的特點是:繼承性,單功能性,通用性和可擴充性。本文還主要討論了關於研制規範的一些原則性問題和小類標記問題,最後給出基於《規範》的詞性標注在真實語料中的覆蓋實驗數據。

關鍵字: 詞類標記集,規範,語料庫

[英文版 | 目錄 | 語言文字應用 | 其他文獻 | 訂講表格| 查詢 ]


Mail icon 如有任何意見或建議,歡迎電郵至 hkier-journal@cuhk.edu.hk