搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 1690|回覆: 0

[漢語言文學] 關於新的句法標註模型探索(1)

[複製連結]
酒滿茶半 發表於 2013-8-29 18:08 | 顯示全部樓層 |閱讀模式
  : 中國漢學網
論文摘要:由於自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在。基於大規模標註語料庫的語義處理已經成為發展趨勢,語料標註本質上就是語言知識(包括語義)形式化。現有句法標註模型主要包括基於短語結構語法(PSG)和基於依存語法(DG)的句法標註模型,還存在一些局限性。文章在現有句法標註模型的基礎上結合認知語法(CG)的有關理論提出改進思路,以探索新的句法標註模型。
  
  人類社會發展的基本軌跡是:原始社會―農業社會―工業社會―信息社會。人工智能的目標是用計算機模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息社會的制高點。語言是人思維的物質外殼,人不可能離開語言而具備真正屬於人的高級智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義十分複雜,而基於現有計算機軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探索新的句法標註模型,進行大規模的語義標註,基於語料庫進行語義知識獲取和自然語言處理。
  
  一、句法標註模型
  
  語言的複雜性在於語言與認識的關係。語言具有意義,而意義是入對主客觀世界的認識結果。主客觀世界的複雜性決定了意義的複雜性,進一步決定了語言的複雜性。語言本身又可以視為人的主客觀世界中的一部分,因此語言研究是一種特殊的認識活動,是人對語言的認識。由此可見,語言離不開認識。人對主客觀世界的認識可以如此描述:認識主體藉助認識工具按照認識方法處理認識對象獲得認識結果。認識是由多種認識因素(主體、工具、方法、對象)共同作用的活動,認識結果是這一活動的產物,被多種認識因素共同決定,任何一種認識因素的改變必然導致認識結果出現或大或小的差異。顯然,認識結果與認識對象不能等同,是認識主體對認識對象的選擇性反映,認識具有主觀能動性。從這個意義上講。認識不可能也不應該去被動地還原認識對象,而是從符合主體目的性出發,力求簡單有效地描述和預測認識對象。借用模型的概念,認識結果就是認識對象的模型(model),認識就是建立認識對象的模型,簡稱建模(modeling)。這是一種實用主義認識觀。
  模型一般分為心理模型(psychological model)、數學模型(mathematical model)和物理模型(physical model)。心理模型是認識對象在人認識中的定性關係,是數學模型的基礎;數學模型是認識對象在人認識中的定量關係,是物理模型的基礎;物理模型是人藉助特定材料和工具按照認識對象的數學模型實現的物質結構。傳統意義上的建模主要指建立數學模型和物理模型,一般意義上的建模還包括建立心理模型。人的認識能力是有限的,表現在:人不能建立任意認識對象的心理模型,也不能建立任意心理模型的數學模型,也不能建立任意數學模型的物理模型。由於具有明確的實用主義特點,建模在理工科領域大行其道,在文科領域也逐漸受到青睞。人類將二進制數學模型成功實現為電晶體物理模型,並開發出越來越複雜和先進的計算機軟件和硬件,從而進入資訊時代。20世紀以來一些主要或次要的語言理論都或多或少應用了數學模型,特別是一些面向語言計算的語言理論。隨着計算機技術的飛速發展,人們對計算機自動或輔助處理語言信息的需求越來越大。但計算機的根本缺陷在於,凡是不能建立數學模型的信息都無法處理。傳統語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數學模型研究語言,稱為語言數學模型,簡稱語言模型(1anguage model)。統計語言模型(sta-tistical language model)就是一個成功的例子。但統計語言模型的性能取決於訓練語料的規模和質量。目前,由於語料的不斷積累和計算機技術的不斷進步,語料規模已不成問題,語料中包含語言知識的數量和質量才是關鍵。
  計算機的語言知識主要來源於人。將語料中包含的語言知識標註出來,有助於計算機獲得更豐富、更有價值的語言知識,從而提高語言處理水平,這就是語料標註(corpus tagging)。一般認為主要包括詞彙標註(1exical tagging,分詞、詞結構標註、詞性標註、詞義標註等)、句法標註(syntax tagging,語法樹標註、語義樹標註等)、語篇標註(discourse tagging,語體標註、領域標註等)等內容。經過標註的語料還可以用於語言學研究、語言教學、語言測試、詞典編撰等諸多理論研究和實踐應用領域,越來越受到人們重視,並形成一門新興學科――語料庫語言學(corpus linguistics)。目前,相對句法標註,詞彙標註有更成熟的規範、準確率更高的技術和更大的標註規模。句法標註的主要困難在於,沒有一個真正成熟的語法或語義標註模型。句法結構尤其是語義結構很難統一描述,現有的句法理論還不完善,難以制定統一規範,標註主觀性很大,自動標註準確率比較低。因此,句法標註成了語料標註的瓶頸問題。由於句法知識在語言知識中的重要地位,有理由相信:如果有了大規模、高質量的句法標註語料庫,圍繞語料庫的各種研究和應用有可能在現有基礎上產生質的飛躍。因此,研究句法標註模型應是當務之急。語料庫語言學屬於交叉學科,句法標註模型是語料庫語言學的基礎理論,又與語言學的句法理論密切相關。一方面可以借鑑現有句法理論,另一方面,也可以從語料庫語言學的角度研究句法,提出新的句法標註模型。
  二、現有句法標註模型
  
  句法標註(Syntax Tagging,ST)以句子的語法知識和語義知識為標註對象,是語料標註的重點、難點所在,要以一定的語法理論為基礎。根據語法理論制定的句法標註規則、過程和結果,稱為句法標註模型(Syntax Tagging Model,STM)。短語結構語法(PhraseStructure Grammar,PSG)和依存語法(DependencyGrammar,DG)是現有句法標註的兩種基礎語法理論,彼此卻有很大的不同。基於PSG的句法標註模型稱為短語結構句法標註模型(PSG―based Tagging Mod―el,PSGTM),基於DG的句法標註模型稱為依存句法標註模型(DG―based Tagging Model,DGTM)。根據現有語料標註的實踐結果來看,PSGTM與DGTM都存在一定缺陷。
  美國語言學家喬姆斯基(Noam Chomsky)於1957年出版專著【句法結構】,從而奠定了短語結構語法(PSG)的理論基礎。其後發展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅動的短語結構語法(HPSG)、廣義短語結構語法(GPSG)等。到目前為止,PSG仍然是最重要的句法標註基礎理論,為世界上眾多語料庫項目所採用和發展。法國語言學家特思尼耶爾(Lucien Tesnire)於1959年出版專著【結構句法基礎】,從而奠定了依存語法(DG)的理論基礎。其後發展起來的許多語法理論可以直接或間接歸到這一流派,如詞彙依存語法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對PSG而言,DG偏重於語義,在CD、KD上表現得十分明顯。另外,DG更簡潔、直觀、經濟,適應性更強,因此反而有後來居上之勢,目前已經成為世界上較為通用的句法標註基礎理論。不過,在具體的句法標註實踐中DGTM還是暴露出一些問題,『對一些沒有明確依存關係的成分,標註起來則有些力不從心』,存在『依存失敗』現象,最突出的是難以標註缺省結構。缺省結構一直是句法標註中經常出現而且很難解決的問題。

小黑屋|舉報|桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

關於我們|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

快速回覆 返回頂部 返回列表