國立政治大學 資訊科學學系 劉昭麟所指導 王瑞平的 應用平行語料建構中文斷詞組件 (2011),提出StarDict關鍵因素是什麼,來自於中文斷詞、中英平行語料、未知詞、交集型歧異。
-->
-->
StarDict進入發燒排行的影片
應用平行語料建構中文斷詞組件
為了解決StarDict 的問題,作者王瑞平 這樣論述:
在本論文,我們建構一個基於中英平行語料的中文斷詞系統,並透過該系統對不同領域的語料斷詞。提供我們的系統不同領域的中英平行語料後,系統可以自動化地產生品質不錯的訓練語料,以節省透過人工斷詞方式取得訓練語料所耗費的時間、人力。在產生訓練語料時,首先對中英平行語料中的所有中文句,透過查詢中文辭典的方式產生句子的各種斷詞組合,再利用英漢翻譯的資訊處理交集型歧異,將錯誤的斷詞組合去除。此外本研究從中英平行語料中擷取新的中英詞對與未知詞,並分別將其擴充至英漢辭典模組與中文辭典模組,以提升我們的系統之斷詞效能。我們透過兩部分的實驗進行斷詞效能評估,而在實驗中會使用三種不同領域的實驗語料。在第一部分,我們以
人工斷詞的測試語料進行斷詞效能評估。在第二部分,我們藉由漢英翻譯的翻譯品質間接地評估我們的系統之斷詞效能。由實驗結果顯示,我們的系統可以有一定的斷詞效能。
-->