搜狗

百度

搜狗

360

搜狗

谷歌

搜狗
查看: 2248|回覆: 2

[漢語詞典] 漢字簡化引發語言混亂 將令子孫後代無法正確閱讀典籍

[複製連結]
已綁定手機
已實名認證
延章 發表於 2012-10-4 22:56 | 顯示全部樓層 |閱讀模式
前言:

華夏文化能延續數千年,其功當歸漢字的嚴謹造字規律及六書的系統化。秦漢以降,漢字造字規律固化(漢字造字常用五書,則除通假以外的象形、會意、指事、形聲、轉注),以至於漢字字體雖數有變化(篆-楷-宋),而其字形結構始終如一。此則華夏文化罹盡千災萬難而傳承不斷的基礎——文化載體,漢字。


然而,近代五四新文化以來,華夏文化正面臨滅頂之災:一、文化基礎——其載體漢字遭全面破壞;二、華夏文化系統結構遭受從根挖起——陰陽理論及其啟發的春秋以降諸子百家學說,被西漸之『科學』等文化思維徹底替代。


無論近代以來的知識分子是居於救國救民之善意,或是居於謀求一己私利,其所作之對華夏文化的整體性破壞,將使其成爲華夏民族,乃至全人類的罪人,待華夏文化重立世界,其罪行必將曝世。


本文將從技術角度淺探簡化漢字對漢語言的系統性破壞。另註:本文主體內容摘引自『北大中文論壇


原作者        柔昆  北大中文論壇
原題:從技術角度爲我們的簡體字挑挑刺!
本帖主題:漢字簡化引發語言混亂 將令子孫後代無法正確閱讀典籍
摘引之正文如一樓始
已綁定手機
已實名認證
 樓主| 延章 發表於 2012-10-4 22:59 | 顯示全部樓層
從技術角度爲我們的簡體字挑挑刺!          柔昆

  【首先需特別聲明:本帖並非鼓吹什麼『繁體字比簡體字好』、『廢除簡體字』之類激進觀點,而是希望我們的簡體字能夠與時俱進,針對實際情況,作一些必要的『除蟲』與修訂(Service Pack)。】

  在此列出一百三十五個漢字(簡化字):
——————————————————————————————
擺 板 辟 表 別 並 卜 布 才 采 彩 參 嘗 廠 沖 蟲 仇 丑 出 當
黨 淀 吊 冬 斗 發 范 豐 復 干 谷 刮 廣 櫃 合 哄 後 胡 劃 回
匯 伙 獲 飢 幾 家 奸 姜 借 盡 據 卷 克 夸 困 累 厘 漓 里 歷
簾 梁 了 羅 霉 蒙 彌 面 蔑 裊 寧 苹 仆 鋪 朴 千 簽 秋 曲 確
舍 沈 勝 適 術 松 蘇 台 壇 體 同 塗 團 挽 萬 系 纖 弦 咸 向
須 旋 熏 葉 傭 涌 游 於 余 吁 郁 欲 御 願 岳 雲 芸 贊 髒 扎
占 折 征 症 只 志 制 致 鍾 種 冢 周 朱 注 准
——————————————————————————————

  然後,請讓我平靜地告訴大家:正是這一百三十五個簡化字,會將我們的漢字引入困境(註:當中個別字如『鞦韆(鞦韆)』,影響不太大,爲完整計,一併羅列於此)。

  簡化字作爲十幾億中國人的官方語言,在過去近五十年間,逐漸爲社會公眾所廣泛承認、接受與普遍使用。這個當初由中華人民共和國文化部、教育部及中國文字改革委員會聯合頒布實施的【漢字簡化方案】,無疑是非常成功的,簡化字筆劃簡單、書寫方便,給人們的工作、學習、生活帶來了方便。

  隨著現代科技不斷發展,人們的生活已與計算機密不可分。在古文典籍的電子化過程中,上述一百三十五個簡化字所引發出來的混亂,卻近乎是一種災難。

  因漢語言文學研究上的需要,古文典籍我們應當以繁體原文形式進行存檔。一篇經一校、二校、三校,準確無誤的簡體字文章,一經電腦程式轉換爲繁體字,立刻湧現出大量『錯別字』:「陸游」成了「陸游」,「胡適」成了「胡適」,「錢鍾書」成了「錢鍾書」,「怒髮衝冠」成了「怒髮衝冠」,「這裡那裡」成了「這裡那裡」,「爲什麼」成了「爲什麼」,「九萬里」成了「九萬里」……

  這一切,我們卻不能責怪程式設計師或計算機,二者確已盡了力。程序的編制完全忠實於固定算法,電腦的運作也完全忠實於程序邏輯;若一定要責怪的話,只能怪『天』!若計算機的普及早那麼四、五十年,若制定【漢字簡化方案】的專家學者們使用過計算機,反覆地論證過『在計算機上處理漢字的問題』,這一百三十五個簡化字所引發的災難,恐怕就絕不會發生了。

  單純從技術的角度出發,我可以明確地這樣告訴大家:若維持上述『一百三十五個簡化字』的現狀不作任何改變,那麼試圖通過程序方式自動將簡體字轉換成繁體字,幾乎是不可能做到準確無誤的!因爲簡、繁體漢字之間快速準確的轉換,基於這樣一個必要條件:簡體字與繁體字應當是一一對應的;就象『漢』對應於『漢』、『華』對應於『華』、『實』對應於『實』這樣直截了當;若簡體的『系』字,可對應『系系系』、『於』可對應『于于』……且這種『一對多』的關係是近乎隨意的,那麼便沒有任何電腦程式能夠準確地處理了(事實上,人腦進行這種辨別也相當困難——請您試試分辨以下繁體字:『陸游』與『陸游』、『台州』與『台州』、『天台山』與『天台山』、『五台山』與『五台山』!(註:前一個詞才是正確的))。

  若從經濟的角度出發,即便最終能完美地實現了這樣的程序,也將會是一件『勞民傷財』、得不償失的事情——計算機要經過極其複雜的運算,才能準確轉換一篇幾百字的文章。

  古人云:亡羊而補牢,未爲遲也。我覺得,要從根本上解決這個問題,其實並不難。只要文化部、教育部等『官方機構』對簡化字作一次『有時代特色』的小小的修訂(計算機領域的專業術語叫做『補丁(Service Pack)』),將可能引致繁簡轉換混亂的所有簡化字(上述『一百三十五個簡化字』的統計數字,估計仍會有個別遺漏,請以官方統計數據爲准),逐一細拆,逐一重新制定對應的簡化字,或直接保留有歧義的原繁體字(例如:爲『於』與『於』分別制定兩個不同的簡化字,或仍直接保留『於』字;爲『系』、『系』與『系』字分別制定三個不同的簡化字,或仍直接保留『系』與『系』字……),並強制全社會推行。

  需強調的是:這不僅僅是典籍電子化的需要,這也是中華民族傳統文化代代傳承的需要;我們沒有任何理由、任何藉口,讓優美的傳統漢語言文字自我們這一代斷子絕孫!我們沒有任何理由、任何藉口,讓我們的後人從此再也無法寫出無『錯別字』的繁體字文章!

  這不是我們這一代人的權利,而是我們理應承擔的義務。

RE:從技術角度爲我們的簡體字挑挑刺!
  現在我們用電腦轉換五百字的簡體文章爲繁體,用時無需0.1秒,而轉換之後,逐字校對這五百字的繁體文章,則恐怕需要近十幾分鐘、甚至半個小時!簡體繁體,同宗同源,都是漢字——爲什麼要存在這種混亂情形呢?一篇簡體字的文章,0.1秒之內,讓使用繁體字的台灣、香港人也能看得懂,這難道不是一件大好事情麼?即便從『一國兩制』、『一國兩字』的角度看,也是一件功德無量、利國利民好事情!爲什麼我們要白白地付出那麼多無謂的校對的時間與精力呢?

  前面說過,因漢語言文學在學習、研究上的需要,古文典籍應當是以繁體原文的形式保存的。大學念過古典文學、古代漢語的朋友,相信會明白這一點。在古文、古漢語領域,甚至可以這樣說:繁體字才是中文系的『官方語言』。

  由於存在上述簡、繁體字之間轉換的混亂,我們在【中華詩詞】系列軟體當中,以簡化字收錄古詩詞、文言文,其實是很不『保險』的。即便我們校對得再仔細,可有一點是確定的:我們收錄的這些詩詞、古文,根本無法準確地轉換成繁體字,也無法忠實地展現其歷史原貌。

  我個人覺得這是件令人十分悲哀的事情。這近乎是一種『徒勞』。我自以爲是在學習、搜集、整理祖宗傳下來的文化精粹,孰知我所做的這一切,我所努力整理的這一切,在祖宗眼中,只不過是一堆數也數不清的錯誤。

  目前在我們製作的繁體字輸入法當中,解決的方法是『以詞定字』。當輸入者打『這裡』時,我們輸出『這裡』;打『關於』時,我們輸出『關於』……這樣可以避開大部分常見的繁簡字錯誤。然而這也僅是『治標』而已,因爲輸入法的詞彙是無法無限制擴充的,即便可以擴充到十萬詞組,重碼也會隨之大量增加,多得讓人無法接受。

  此外還有一個困難。輸入法輸入繁體字與電腦自動轉換繁體字之間,還存在著某種微妙差異。直接輸入漢字時,輸入者的主動分詞與干預,也可起到減少錯誤的作用。

  考慮這一句話:

  我在三元裡面館吃麵前忘了下醋。

  這句子有些古怪,只作爲一個特例。輸入者能夠快速準確地分詞(將一個句子,拆分成一個個詞組):

  我-在-三元里-麵館-吃麵-前-忘了-下醋。

  而電腦自動分詞的結果則可能是這樣的:

  我-在-三元-裡面-館-吃-面前-忘了-下醋。

  『以詞定字』自動轉換成繁體就會變成這個樣子:

  我在三元裡面館吃麵前忘了下醋。

  而正確的繁體字應該是這樣的:

  我在三元裡面館吃麵前忘了下醋。

RE:從技術角度爲我們的簡體字挑挑刺!

  我們強調繁體字的重要性,並非要宣揚復古,而是出於文獻研究、整理上的實際需要。歷史是嚴肅的,文字也是嚴肅的。正因其嚴肅,我們才需要在某些情形下,忠實地記錄、忠實地還原其原始面貌。筆者試圖提出一個最簡單的解決方法而已。

  有一則笑話是這樣的:

  前蘇聯太空人發現,在太空失重狀態下,原子筆無法在紙上正常寫字,無法及時記錄太空實驗的結果。於是地面的蘇聯科學家想盡千方百計,試圖解決這個難題。他們耗費了三年時間,斥資幾十億盧布,結果仍然以失敗告終。垂頭喪氣的蘇聯專家只好偷偷向美帝國主義的科學家們學習:究竟美國人是如何解決這個世紀難題的——結果,他們驚訝地發現,美國太空人用鉛筆!

  我覺得,與其想盡千方百計,試圖編制極端複雜的電腦程式來解決這個『超級難題』,莫如給簡化字打個小小『補丁』,修正那一百三十五個『問題漢字』,那將是最簡單,而且一勞永逸的解決方法。

  我們不妨對照一下英文ASCII碼的排列方式。英文有大寫、小寫之分,與我們的簡體、繁體字有一點點類似。我們在搜尋引擎中輸入大寫字母,搜尋引擎能自動將這些輸入轉換成小寫(這相當於我們輸入簡體字、程序能『零時間』地自動轉換成繁體字),這歸功於英文字母內碼的排列方式。雖然我們每個人所用的英文鍵盤排列方式似乎是無序的,但儲存在電腦中的字母,則嚴格按照字母表順序,且大、小寫字母之間一一對應,總是相差32(即2的5次方)。將一個大寫字母的內碼值加上32(即,加二進位的100000或十六進位的20),即可轉換成一個小寫字母,反之亦然。

  雖然英文字母只有26個,而漢字有成千上萬,但在處理方法上,我覺得漢字內碼的設計,原本也可以參考英文的作法——

  以國家規定的【簡化漢字方案】(註:修正後的方案)爲標準,將所有漢字劃分爲兩大類:(Ⅰ).簡繁異體(同時擁有簡化寫法與繁體寫法的漢字,如『漢』對應『漢』、『華』對應『華』等等),(Ⅱ).簡繁同體(只有一種寫法的漢字,如『定』、『列』、『格』等等)。相應地,在電腦處理時,可以將漢字內碼劃分爲三大區域:

  [1]簡體字區域(這個區域對應於前面分類(Ⅰ)中的簡體字部分);
  [2]繁體字區域(這個區域對應於前面分類(Ⅰ)中的繁體字部分);
  [3]簡繁同體漢字區域(這個區域對應於前面分類(Ⅱ)中的其餘漢字部分)。

  當然,這種處理方法基於如下假設:簡/繁體字是一一對應的。

  這樣一來會有什麼好處呢?設區[1]可收錄4096個(2的12次方)簡體字,區[2]可對應4096個繁體字,區[3]包括剩餘的數萬漢字。

  當我們輸入某個漢字時,若其內碼屬於區[1],意味著它是一個簡體字,想將它轉成繁體字,只需將其內碼加上4096(2的12次方),即可得到對應的繁體字。

  若某個漢字內碼>4096,且<8192(2的13次方),那意味著它是一個繁體字,且擁有對應的簡體字,想轉簡體,只需將其內碼減去4096(2的12次方),即可得到對應的簡體字。

  若某個漢字內碼>8192(2的13次方),那意味著它是一個區[3]的漢字,無所謂繁簡體轉換,因爲在任何時候都只有一種寫法,在繁/簡體轉換時,電腦只需直接返回該字即可。

  那麼這種方式的漢字內碼是最好處理的。繁體/簡體字之間的轉換,幾乎可以做得跟英文大、小寫轉換一樣漂亮,快速而完美!

  問題是,現在我們每一台計算機漢字內碼的編碼順序,居然是以字頻+拼音+筆劃的方式編排的,絲毫不顧及計算機處理漢字的方式。這套通行全國的計算機內碼方案的設計者,估計是一些語言文字方面的專家,然而很遺憾,他們自己可能並不用計算機,更不會用計算機來進行程序設計!

RE:從技術角度爲我們的簡體字挑挑刺!

  與那個曾經全社會推行、驚世駭俗的『二簡』大巫相比,這個小小的提議,只不過是一個極溫和、極細微的『一繁小補丁』而已。

  認識到簡化字當中存在的個別問題,理性地、細緻地加以拾掇修補——我覺得,這才是科學的、理性的、實事求是的態度與方法。

  畢竟『實踐是檢驗真理的唯一標準』。

  『一簡』(有別於『二簡』,暫且生造一個說法)這個程序,當然不是憑空從天上掉下來的,它經過了無數專家學者反覆推敲、論證;在大體方向是正確的(程序算法本身,不存在邏輯問題)前提下,它也可能會在某些細節方面,存在小問題、小漏洞(Bug),干擾『一簡』程序的正確運行;事實(程序測試的結果)也足以證明,這Bug確確實實地存在,在某種程度上,甚至對程序運行結果的正確性,造成了較大的干擾或影響。

  ——這一切,在計算機的世界裡,是完全合理、也完全正常的。全球最大的某軟體公司,還定期地、經常性地發布升級補丁呢。

  那麼,爲什麼我們不能爲『一簡』發布升級補丁,將它修補得更合理、也更科學一些呢?畢竟語言文字不是『死』的,語言文字本身,也允許不斷發展、不斷完善。

  簡化字 Ver 1.0 (一簡)被證明是正確的、成功的;
  簡化字 Ver 2.0 (二簡)被證明是錯誤的、失敗的;
  試問,爲什麼我們不能發布『簡化字 Ver 1.0.1』,對個別的已知的問題加以修復呢?

  難道,明知有錯,拒不整改,保持下去,長此以往,……錯誤就會不再是錯誤了嗎?
已綁定手機
已實名認證
 樓主| 延章 發表於 2012-10-4 23:01 | 顯示全部樓層
必須糾正原作者,余未尚承認並自願接受簡化字——胡哥說,被逼的——我承認,他是對的。

小黑屋|舉報|桂ICP備2022007496號-1桂公網安備 45010302003000桂公網安備 45010302003000

關於我們|網站地圖|華韻國學網|國學經典

掃一掃微信:Chinulture|投稿:admin@chinulture.com

快速回覆 返回頂部 返回列表