漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍

延章 · 發表於 2012-10-4 22:56

前言：

華夏文化能延續數千年，其功當歸漢字的嚴謹造字規律及六書的系统化。秦漢以降，漢字造字規律固化（漢字造字常用五書，則除通假以外的象形、會意、指事、形聲、轉注），以至于漢字字體雖數有變化（篆-楷-宋），而其字形結構始終如一。此則華夏文化罹盡千災萬難而傳承不斷的基礎——文化載體，漢字。

然而，近代五四新文化以來，華夏文化正面臨滅頂之災：一、文化基礎——其載體漢字遭全面破壞；二、華夏文化系统結構遭受從根挖起——陰陽理論及其啟發的春秋以降諸子百家學說，被西漸之“科學”等文化思維彻底替代。

無論近代以來的知識分子是居於救國救民之善意，或是居於謀求一己私利，其所作之對華夏文化的整體性破壞，將使其成為華夏民族，乃至全人類的罪人，待華夏文化重立世界，其罪行必將曝世。

本文將從技術角度淺探簡化漢字對漢語言的系统性破壞。另注：本文主體内容摘引自“北大中文論壇”

原作者柔昆北大中文論壇
原題：从技术角度为我们的简体字挑挑刺!
本帖主題：漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍
摘引之正文如一樓始

延章 · 發表於 2012-10-4 22:59

从技术角度为我们的简体字挑挑刺! 柔昆

　　【首先需特别声明：本帖并非鼓吹什么“繁体字比简体字好”、“废除简体字”之类激进观点，而是希望我们的简体字能够与时俱进，针对实际情况，作一些必要的“除虫”与修订（Service Pack）。】

　　在此列出一百三十五个汉字（简化字）：
——————————————————————————————
摆板辟表别并卜布才采彩参尝厂冲虫仇丑出当
党淀吊冬斗发范丰复干谷刮广柜合哄后胡划回
汇伙获饥几家奸姜借尽据卷克夸困累厘漓里历
帘梁了罗霉蒙弥面蔑袅宁苹仆铺朴千签秋曲确
舍沈胜适术松苏台坛体同涂团挽万系纤弦咸向
须旋熏叶佣涌游于余吁郁欲御愿岳云芸赞脏扎
占折征症只志制致钟种冢周朱注准
——————————————————————————————

　　然后，请让我平静地告诉大家：正是这一百三十五个简化字，会将我们的汉字引入困境（注：当中个别字如“秋千(鞦韆)”，影响不太大，为完整计，一并罗列于此）。

　　简化字作为十几亿中国人的官方语言，在过去近五十年间，逐渐为社会公众所广泛承认、接受与普遍使用。这个当初由中华人民共和国文化部、教育部及中国文字改革委员会联合颁布实施的《汉字简化方案》，无疑是非常成功的，简化字笔划简单、书写方便，给人们的工作、学习、生活带来了方便。

　　随着现代科技不断发展，人们的生活已与计算机密不可分。在古文典籍的电子化过程中，上述一百三十五个简化字所引发出来的混乱，却近乎是一种灾难。

　　因汉语言文学研究上的需要，古文典籍我们应当以繁体原文形式进行存档。一篇经一校、二校、三校，准确无误的简体字文章，一经电脑程序转换为繁体字，立刻涌现出大量“错别字”：「陸游」成了「陸遊」，「胡適」成了「胡适」，「錢鍾書」成了「錢鐘書」，「怒髮衝冠」成了「怒發衝冠」，「這裡那裡」成了「這里那里」，「為什麼」成了「為什么」，「九萬里」成了「九万裡」……

　　这一切，我们却不能责怪程序员或计算机，二者确已尽了力。程序的编制完全忠实于固定算法，电脑的运作也完全忠实于程序逻辑；若一定要责怪的话，只能怪“天”！若计算机的普及早那么四、五十年，若制定《汉字简化方案》的专家学者们使用过计算机，反复地论证过“在计算机上处理汉字的问题”，这一百三十五个简化字所引发的灾难，恐怕就绝不会发生了。

　　单纯从技术的角度出发，我可以明确地这样告诉大家：若维持上述“一百三十五个简化字”的现状不作任何改变，那么试图通过程序方式自动将简体字转换成繁体字，几乎是不可能做到准确无误的！因为简、繁体汉字之间快速准确的转换，基于这样一个必要条件：简体字与繁体字应当是一一对应的；就象“汉”对应于“漢”、“华”对应于“華”、“实”对应于“實”这样直截了当；若简体的“系”字，可对应“系係繫”、“于”可对应“于於”……且这种“一对多”的关系是近乎随意的，那么便没有任何电脑程序能够准确地处理了（事实上，人脑进行这种辨别也相当困难——请您试试分辨以下繁体字：“陸游”与“陸遊”、“台州”与“臺州”、“天台山”与“天臺山”、“五臺山”与“五台山”！(注：前一个词才是正确的)）。

　　若从经济的角度出发，即便最终能完美地实现了这样的程序，也将会是一件“劳民伤财”、得不偿失的事情——计算机要经过极其复杂的运算，才能准确转换一篇几百字的文章。

　　古人云：亡羊而补牢，未为迟也。我觉得，要从根本上解决这个问题，其实并不难。只要文化部、教育部等“官方机构”对简化字作一次“有时代特色”的小小的修订（计算机领域的专业术语叫做“补丁（Service Pack）”），将可能引致繁简转换混乱的所有简化字（上述“一百三十五个简化字”的统计数字，估计仍会有个别遗漏，请以官方统计数据为准），逐一细拆，逐一重新制定对应的简化字，或直接保留有歧义的原繁体字（例如：为“于”与“於”分别制定两个不同的简化字，或仍直接保留“於”字；为“系”、“係”与“繫”字分别制定三个不同的简化字，或仍直接保留“係”与“繫”字……），并强制全社会推行。

　　需强调的是：这不仅仅是典籍电子化的需要，这也是中华民族传统文化代代传承的需要；我们没有任何理由、任何藉口，让优美的传统汉语言文字自我们这一代断子绝孙！我们没有任何理由、任何藉口，让我们的后人从此再也无法写出无“错别字”的繁体字文章！

　　这不是我们这一代人的权利，而是我们理应承担的义务。

RE:从技术角度为我们的简体字挑挑刺!
　　现在我们用电脑转换五百字的简体文章为繁体，用时无需0.1秒，而转换之后，逐字校对这五百字的繁体文章，则恐怕需要近十几分钟、甚至半个小时！简体繁体，同宗同源，都是汉字——为什么要存在这种混乱情形呢？一篇简体字的文章，0.1秒之内，让使用繁体字的台湾、香港人也能看得懂，这难道不是一件大好事情么？即便从“一国两制”、“一国两字”的角度看，也是一件功德无量、利国利民好事情！为什么我们要白白地付出那么多无谓的校对的时间与精力呢？

　　前面说过，因汉语言文学在学习、研究上的需要，古文典籍应当是以繁体原文的形式保存的。大学念过古典文学、古代汉语的朋友，相信会明白这一点。在古文、古汉语领域，甚至可以这样说：繁体字才是中文系的“官方语言”。

　　由于存在上述简、繁体字之间转换的混乱，我们在《中华诗词》系列软件当中，以简化字收录古诗词、文言文，其实是很不“保险”的。即便我们校对得再仔细，可有一点是确定的：我们收录的这些诗词、古文，根本无法准确地转换成繁体字，也无法忠实地展现其历史原貌。

　　我个人觉得这是件令人十分悲哀的事情。这近乎是一种“徒劳”。我自以为是在学习、搜集、整理祖宗传下来的文化精粹，孰知我所做的这一切，我所努力整理的这一切，在祖宗眼中，只不过是一堆数也数不清的错误。

　　目前在我们制作的繁体字输入法当中，解决的方法是“以词定字”。当输入者打“这里”时，我们输出“這裡”；打“关于”时，我们输出“關於”……这样可以避开大部分常見的繁简字错误。然而这也仅是“治标”而已，因为输入法的词汇是无法无限制扩充的，即便可以扩充到十万词组，重码也会随之大量增加，多得让人无法接受。

　　此外还有一个困难。输入法输入繁体字与电脑自动转换繁体字之间，还存在着某种微妙差异。直接输入汉字时，输入者的主动分词与干预，也可起到减少错误的作用。

　　考虑这一句话：

　　我在三元里面馆吃面前忘了下醋。

　　这句子有些古怪，只作为一个特例。输入者能够快速准确地分词（将一个句子，拆分成一个个词组）：

　　我－在－三元里－面馆－吃面－前－忘了－下醋。

　　而电脑自动分词的结果则可能是这样的：

　　我－在－三元－里面－馆－吃－面前－忘了－下醋。

　　“以词定字”自动转换成繁体就会变成这个样子：

　　我在三元裡面館吃面前忘了下醋。

　　而正确的繁体字应该是这样的：

　　我在三元里麵館吃麵前忘了下醋。

RE:从技术角度为我们的简体字挑挑刺!

　　我们强调繁体字的重要性，并非要宣扬复古，而是出于文献研究、整理上的实际需要。历史是严肃的，文字也是严肃的。正因其严肃，我们才需要在某些情形下，忠实地记录、忠实地还原其原始面貌。笔者试图提出一个最简单的解决方法而已。

　　有一则笑话是这样的：

　　前苏联宇航员发现，在太空失重状态下，圆珠笔无法在纸上正常写字，无法及时记录太空实验的结果。于是地面的苏联科学家想尽千方百计，试图解决这个难题。他们耗费了三年时间，斥资几十亿卢布，结果仍然以失败告终。垂头丧气的苏联专家只好偷偷向美帝国主义的科学家们学习：究竟美国人是如何解决这个世纪难题的——结果，他们惊讶地发现，美国宇航员用铅笔！

　　我觉得，与其想尽千方百计，试图编制极端复杂的计算机程序来解决这个“超级难题”，莫如给简化字打个小小“补丁”，修正那一百三十五个“问题汉字”，那将是最简单，而且一劳永逸的解决方法。

　　我们不妨对照一下英文ASCII码的排列方式。英文有大写、小写之分，与我们的简体、繁体字有一点点类似。我们在搜索引擎中输入大写字母，搜索引擎能自动将这些输入转换成小写（这相当于我们输入简体字、程序能“零时间”地自动转换成繁体字），这归功于英文字母内码的排列方式。虽然我们每个人所用的英文键盘排列方式似乎是无序的，但储存在电脑中的字母，则严格按照字母表顺序，且大、小写字母之间一一对应，总是相差32（即2的5次方）。将一个大写字母的内码值加上32（即，加二进制的100000或十六进制的20），即可转换成一个小写字母，反之亦然。

　　虽然英文字母只有26个，而汉字有成千上万，但在处理方法上，我觉得汉字内码的设计，原本也可以参考英文的作法——

　　以国家规定的《简化汉字方案》(注：修正后的方案)为标准，将所有汉字划分为两大类：(Ⅰ).简繁异体（同时拥有简化写法与繁体写法的汉字，如“汉”对应“漢”、“华”对应“華”等等），(Ⅱ).简繁同体（只有一种写法的汉字，如“定”、“列”、“格”等等）。相应地，在电脑处理时，可以将汉字内码划分为三大区域：

　　[1]简体字区域（这个区域对应于前面分类(Ⅰ)中的简体字部分）；
　　[2]繁体字区域（这个区域对应于前面分类(Ⅰ)中的繁体字部分）；
　　[3]简繁同体汉字区域（这个区域对应于前面分类(Ⅱ)中的其余汉字部分）。

　　当然，这种处理方法基于如下假设：简/繁体字是一一对应的。

　　这样一来会有什么好处呢？设区[1]可收录4096个（2的12次方）简体字，区[2]可对应4096个繁体字，区[3]包括剩余的数万汉字。

　　当我们输入某个汉字时，若其内码属于区[1]，意味着它是一个简体字，想将它转成繁体字，只需将其内码加上4096（2的12次方），即可得到对应的繁体字。

　　若某个汉字内码>4096，且<8192（2的13次方），那意味着它是一个繁体字，且拥有对应的简体字，想转简体，只需将其内码减去4096（2的12次方），即可得到对应的简体字。

　　若某个汉字内码>8192（2的13次方），那意味着它是一个区[3]的汉字，无所谓繁简体转换，因为在任何时候都只有一种写法，在繁/简体转换时，电脑只需直接返回该字即可。

　　那么这种方式的汉字内码是最好处理的。繁体/简体字之间的转换，几乎可以做得跟英文大、小写转换一样漂亮，快速而完美！

　　问题是，现在我们每一台计算机汉字内码的编码顺序，居然是以字频+拼音+笔划的方式编排的，丝毫不顾及计算机处理汉字的方式。这套通行全国的计算机内码方案的设计者，估计是一些语言文字方面的专家，然而很遗憾，他们自己可能并不用计算机，更不会用计算机来进行程序设计！

RE:从技术角度为我们的简体字挑挑刺!

　　与那个曾经全社会推行、惊世骇俗的“二简”大巫相比，这个小小的提议，只不过是一个极温和、极细微的“一繁小补丁”而已。

　　认识到简化字当中存在的个别问题，理性地、细致地加以拾掇修补——我觉得，这才是科学的、理性的、实事求是的态度与方法。

　　毕竟“实践是检验真理的唯一标准”。

　　“一简”（有别于“二简”，暂且生造一个说法）这个程序，当然不是凭空从天上掉下来的，它经过了无数专家学者反复推敲、论证；在大体方向是正确的（程序算法本身，不存在逻辑问题）前提下，它也可能会在某些细节方面，存在小问题、小漏洞（Bug），干扰“一简”程序的正确运行；事实（程序测试的结果）也足以证明，这Bug确确实实地存在，在某种程度上，甚至对程序运行结果的正确性，造成了较大的干扰或影响。

　　——这一切，在计算机的世界里，是完全合理、也完全正常的。全球最大的某软件公司，还定期地、经常性地发布升级补丁呢。

　　那么，为什么我们不能为“一简”发布升级补丁，将它修补得更合理、也更科学一些呢？毕竟语言文字不是“死”的，语言文字本身，也允许不断发展、不断完善。

　　简化字 Ver 1.0 （一简）被证明是正确的、成功的；
　　简化字 Ver 2.0 （二简）被证明是错误的、失败的；
　　试问，为什么我们不能发布“简化字 Ver 1.0.1”，对个别的已知的问题加以修复呢？

　　难道，明知有错，拒不整改，保持下去，长此以往，……错误就会不再是错误了吗？

延章 · 發表於 2012-10-4 23:01

必须纠正原作者，余未尚承认并自愿接受简化字——胡哥说，被逼的——我承认，他是对的。

[汉语词典] 漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍

相關帖子

切换语言

[汉语词典] 漢字簡化引發語言混亂 將令子孫後代無法正確閱讀典籍

相關帖子

切换语言

[汉语词典] 漢字簡化引發語言混亂將令子孫後代無法正確閱讀典籍