簡體

教育資料與圖書館學


2003 年 .第 40 卷第 3 期.頁 325 - 344

中文OCR文件檢索測試集之製作與應用

蔡孟竹、曾元顯

摘要

本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影像轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查詢主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall和諧係數的統計驗證,這三位判斷者在20道查詢主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。

關鍵字: 光學文字辨識,資訊檢索,測試集,成效評估,中文檢索

[英文版 | 目錄 | 教育資料與圖書館學 | 其他文獻 | 訂講表格| 查詢 ]


Mail icon 查詢有關資料,請電郵致 hkier-journal@cuhk.edu.hk