簡體

教育資料與圖書館學


2005 年 .第 42 卷第 4 期.頁 523 - 544

自動化研究主題探勘方法及其在計算語言學之應用

林頌堅

摘要

由於科學研究的規模日益龐大而且研究的工作也愈來愈複雜,研究人員與科技管理人員需要一套能夠有效地探勘研究主題的方法。過去我們針對這個問題提出一系列文本處理與文字資訊探勘的技術,其中主要為關鍵語詞抽取技術以及資訊視覺化技術。關鍵語詞抽取技術以研究領域中的論文文字資料做為輸入,自動化抽取關鍵語詞來代表領域中的重要主題。資訊視覺化技術則將這些語詞和它們之間的關係呈現在二維的圖形,提供使用者可以透過產生的圖形了解該領域的重要主題和它們的發展情形。其餘還包括了語詞共現估計、主題相關程度計算以及論文映射等技術。本論文將這些技術整合起來並應用到國內的計算語言學領域,確認這個領域研究與發展的重點。結果發現計算語言學早期著重於各種語言知識的計算理論化,以因應機器翻譯的需求;中期和近期則有語音處理和資訊檢索等更多的應用出現,而應用的技術則傾向採用具有強健與容易實作等特性的統計導向方法。

關鍵字: 研究主題探勘,文本處理,文字資訊探勘,資訊視覺化,計算語言學

[英文版 | 目錄 | 教育資料與圖書館學 | 其他文獻 | 訂講表格| 查詢 ]


Mail icon 查詢有關資料,請電郵致 hkier-journal@cuhk.edu.hk