語言是人類進行溝通的基礎,尤其是隨著國際化發(fā)展程度越來越高,不同國家之間的往來越來越頻繁,不同語言之間的翻譯也變得愈加重要。在國際化發(fā)展迅速的今日,單純依靠人工翻譯已經(jīng)不能滿足人們日常溝通、閱讀的需求,因此機器翻譯應運而生。近年來,隨著國內外研究學者對機器翻譯系統(tǒng)的開發(fā)和改進,機器翻譯已經(jīng)在各個領域中都出現(xiàn)了廣泛的應用。
然而,機器翻譯的質量還不能夠滿足特殊領域的需求,例如對于某些學術論文、文學作品中的專有詞匯的翻譯準確度還較低,因此機器翻譯系統(tǒng)的語言分析和處理技術還有待進一步發(fā)展。若要提升機器翻譯的質量,消除詞語的歧義是首要任務[6-10]。通常一個詞語具有多種詞義,這種歧義稱為詞匯歧義。而詞語在與其他詞匯構成短語時,受到固定搭配,通過短語構造的句法語義規(guī)律可以消除這一歧義;除了詞匯歧義外,自然語言中還存在著結構歧義,是同形短語產(chǎn)生的歧義,通常需要從語義關系和句法結構方面進行消除。
語義規(guī)則是一種常用于剔除歧義的規(guī)則,對于外顯型歧義除了可以運用上下文的句法關系進行歧義剔除,還可以直接利用語義知識進行語法分析來排除歧義;對于內含型歧義,無法通過句法關系進行歧義剔除,只能依靠語義知識進行歧義剔除。本文設計了一種基于數(shù)據(jù)挖掘的二元語義算法,發(fā)掘詞語組合的語義規(guī)律并轉換成二元語義規(guī)則集。將二元語義規(guī)則模式與句法分析規(guī)則進行結合后,應用于機器翻譯的歧義消除中,并對其應用效果進行了評價。
本系統(tǒng)是基于XMMT系統(tǒng)進行優(yōu)化后的二元語義模式規(guī)則排歧,其排歧規(guī)則與XMMT系統(tǒng)類似。傳統(tǒng)XMMT系統(tǒng)排歧是由兩部分組成,CFG產(chǎn)生式和偽等式,分別是描述短語、句子的組成模式和約束條件、分析結果的構造過程。只要是合理的LISP表達式,均可以出現(xiàn)在偽等式中,所以可以將語義評價函數(shù)加入到原有的句法分子規(guī)則中。優(yōu)化后的排歧規(guī)則是將二元語義模式庫中的規(guī)則與語義組合進行匹配,將不合語義項、組合、句法排除,然后將所有可能的組合保存為中間結果并評分,經(jīng)進一步分析得到最終排歧結果。本系統(tǒng)所嵌入的語義評價函數(shù)為Semantic Value函數(shù),進行語義評價的算法。首先調用Semantic Value算法進行句法和語義分析,在二元語義模式規(guī)則庫中找出相應的二元語義模式規(guī)則集;計算待歸約成分中每一項組合與二元語義模式規(guī)則集的語義匹配度;如果二者之間的最高匹配度規(guī)則Best.rule高于閾值θrule,那么則認為結果合理;否則,則認為該項不符合語義;將合理的結果利用Best.rule規(guī)則進行處理并進行計分,若結果最終得分高于最小語義評價得分閾值θresult,則結果合理;否則返回fail。
基于XMMT系統(tǒng)進行優(yōu)化,設計了一種基于數(shù)據(jù)挖掘的二元語義算法,發(fā)掘詞語組合的語義規(guī)律并轉換成二元語義規(guī)則集,在漢英翻譯中展現(xiàn)了較好的排歧效果,主要結論如下:
1) 獲取二元語義模式規(guī)則包括子目標發(fā)現(xiàn)和二元語義模式規(guī)則集兩個步驟,通過關聯(lián)規(guī)則挖掘,可以由子目標模式獲取二元語義模式規(guī)則集;
2) 嵌入的語義評價函數(shù)Semantic Value,進行句法和語義分析,進行匹配度計算,完成排歧過程;
3) 優(yōu)化后的系統(tǒng)排歧效果得到改善,詞義排歧正確率為79.9%,結構排歧正確率為85.7%,比原系統(tǒng)分別提高了8.6%和3.9%。 |