簡體

語言文字應用


2009 年 第 2 期.頁 130 - 141

漢語語料庫大規模統計與小規模統計的對比

郭曙綸

摘要

本文以上海市中小學語文教材語料庫作為對比統計樣本,對比統計了大規模漢語語料庫與小規模漢語語料庫在覆蓋率及分布率兩個方面的數據,統計分析表明:1. 高頻字比率隨着文本規模的增大而下降。2. 總字次數同平均出現次數及總字種數,呈正相關關係。3. 在覆蓋率方面大規模統計與小規模統計以及單個的小文本統計三者之間都存在着很大的差異。4. 在字種數方面,單個的小文本統計與合計文本統計之問有較大差異,而大規模統計與小規模統計之間相差不大。5. 從分布率來看,上海市語文教材不同文本之間的共用字是很少的,不能籠統地說,認識500多個漢字就能認識文本中80%的漢字。

關鍵字: 大規模統計,小規模統計,漢語語料庫

[英文版 | 目錄 | 語言文字應用 | 其他文獻 | 訂講表格 | 查詢 ]


Mail icon 查詢有關資料,請電郵致 hkier-journal@cuhk.edu.hk