搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 1859|回覆: 0

[漢語言文學] 關於新的句法標註模型探索(2)

[複製鏈接]
沙舟 發表於 2013-8-29 18:09 | 顯示全部樓層 |閱讀模式
  : 中國漢學網
人類的自然語言符合經濟性原則,而缺省結構恰恰體現了這一原則。藉助句子的前後上下文省略一些成分,人們仍然能夠理解,但對計算機來說卻是一種挑戰。句法標註的根本目的是讓計算機能夠正確提取句子的語法和語義知識。缺省結構在真實語料中大量出現,常常使得原本正常的句法結構變得異常,難以按已有規則進行標註。這是任何句法標模型都必須面對的問題,目前PSGTM和DGTM都還沒能夠很好地解決。以DGTM為例,在很多情況下,DGTM不但不能正確標註缺省結構,反而在一些語言規則的強制限定下給出違背真實語法或語義結構的標註結果,形成干擾信息。請看以下4個句子:
  句1:我看一下下書
  句2:(真是好書啊?)我看一下
  句3:我看一本書
  句4:(好多書啊!)我看一本
  句2是句1的賓語省略句,句4是句3的賓語省略句。(為簡便起見,把『一下』、『一本』作為一個詞處理)。
  問題出在句4。句1和句3的依存結構是不同的,然而句2和句4卻有了相同的依存結構。因為句4省略了『書』,根據DG理論,『一本』必須依存於獨立謂語成分『看』。於是『看一本』和『看一下』依存結構相同,實際上違反了句3的正確結構。當然,我們可以採取補救措施,為d1標註一個特殊的依存關係屬性Cerror(即依存失敗),但這不是好辦法。
  
  三、改進DGTM
  
  美國認知語言學家蘭蓋克(Ronald w.Langach.er)分別於1987年、1991年出版專著【認知語法基礎】一、二卷,開創了認知語法(CG)理論,關於語法結構有如下觀點:如果一個構件A使另一構件B的一部分抽象變為具體,那麼構件A就叫做概念自主(coneep.tually autonomos)的構件,構件B就叫做概念依存(conceptually dependent)的構件。
  舉例來說:獨立地看,『一本』隱含一個抽象的、可數的、可用『本』量化的事物,可表示為『一本(x)』。『書』使『x』變得具體,因此『書』是概念自主的,『一本』是概念依存的。從信息表達的角度來看,『書』表達了相對完整而具體的信息,因此是概念自主的;『一本』表達了不完整不具體的信息,因此是概念依存的。從數學表達式的角度來看,『一本』類似函數,『書』類似參數,函數的地位顯然是第一位的,決定了對參數的處理過程和返回參數。例如,『舊書』與『一本書』的區別不在『書』,而在『舊』和『一本』。再從閱讀認知過程來看,當人們讀到『一本』時,實際上已經在期待『一本』後面那個具體事物跟着出現。為什麼我們覺得『我看一本』是缺省句?因為『看』和『一本』相對『書』都是概念依存的,因此人們會判定,『我看一本』的缺省成分可能是『書』。而讀到『我看書』時,人們不會認為這是一個省略句,因為『書』表達的信息已經自足了。
  由此有足夠的理由認為:在句法結構中,『一本』應是『書』的父結點,而不是按傳統的補足中心原則,中心成分總是限定成分的父結點。依存成分是自主成分的父結點,這一原則可以稱為依存中心原則(Dependency Head Principle,DHP)。採取這種原則的DGTM必然會有不同的標註結果。
  深入研究發現,僅僅採用DHP是不夠的,DGTM的其他參數也需要改變。例如,『看(x)』和『一本(x)』這兩個表達式在與其他詞語組合時是有區別的。『看(x)』與『我』組合時由『看』與『我』產生聯繫。『看』與『一本(x)』組合時卻是『x』(書)與『看』發生聯繫。代表表達式與其他詞語組合的成分稱為返回參數,不同表達式的返回參數是不同的。例如。『一本(x)』返回參數為『x』,『看(x)』返回參數為『看』。正因為如此,表達式『看(一本(書))』成立,『一本(看(書))』不成立。另外,表達式『(x)一下』的返回參數為『x』,即『看』;表達式『(x)看』的返回參數為『看』。根據這些定義,句1、2、3、4的改進DGTM。
  根據函數、輸入參數、返回參數的關係,各句結構的逆構造過程如下:
  句1:我看一下書:(((我)看(x))一下)(書)=((看(x))一下)(書)=看(x)(書)=看(x=書)
  句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)
  句3:我看一本書:((我)看(x))(一本(書))=看(x)(書)=看(x=書)
  句4:我看一本:(我)看(一本(x))=看(x)
  句1和句3的x有明確取值,為完整句。句2和句4則是缺省句。基於看(x)和一本(x)的知識,可以預測並判定缺省結構及其成分。
  直觀看來,改進DGTM與原DGTM的標註結果有了很大的差異由於不採用補足中心原則,因此改進DGTM標註結果並不符合在補足中心原則影響下人們長期以來形成的語感。但更符合人們閱讀認知經驗,而且可以按函數標準給出形式化地解釋,其解釋結果符合句子本身的語法和語義結構,沒有錯誤和干擾信息。因此,改進DGTM更適合計算機處理,更符合句法標註的本來目的。
  
  四、結語
  
  PSGTM的語法理論基礎是PSG,DGTM的語法理論基礎是DG,改進DGTM的DHP受CG的啟發,其語法理論基礎應該是CG。但CG只是從理論上提出了『概念自主』和『概念依存』的概念,並沒有嚴格定義和證明依存成分與自主成分之間的主從關係。在CG的實際應用中,存在有時自主成分為短語中心語,有時依存成分為短語中心語的情況。
  根據CG理論,『above』是『above the table』的中心語。『lamp』是『lamp above the table』的中心語。然而,根據CG對概念自主和概念依存的界定,相對『ta-ble』和『lamp』,『above』是概念依存的,具有兩個抽象部分『(x)above(y)』,『lamp』使『x』具體化,『table』使『y』具體化。如果嚴格執行DHP,『above the table』和『lamp above the table』的中心語都應該是『above』。但這樣一來,怎樣解釋『move the lamp above the table』中『move』直接依存『lamp』的關係?根據改進DGTM,可以定義『(x)above(y)』的返回參數是『x』以解決這一問題,但CG不會這樣處理,而是將『lamp』限定為『lamp above the table』的中心語,從而與『move』直接聯繫,這樣就不符合DHP的要求。
  因此,改進DGTM的語法理論基礎不可能是CG,必須構建一種新的語言模型。目前我們正融合哲學二元論與本體論、心理學、信息科學、網絡通信模型、離散數學、語言學(依存語法、認知語法、範疇語法)、藝術學等理論的相關概念和原理,結合人的一般認知經驗,建立一種新的句法標註模型,並初步用於經典漢語句式的表徵,取得了較好效果。

小黑屋|舉報|桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

關於我們|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

快速回覆 返回頂部 返回列表