字形整理与对应转换(2)

買櫝還珠 · 發表於 2011-1-24 13:35

来源: 中国汉学网

⑵阅读古书，继承文化遗产，也迫使我们不得不面对老式汉字。

传统的文化典籍都是用老式汉字印刷的，要继承文化遗产，就必然面对古书，就必须要学习老式汉字。这虽然不是普通人民大众的事，但毕竟有一大批人要从事这项工作。有人可能会认为，我们可以把古代文献典籍都翻译成现代文，大家就不用再学习老式汉字了。然而，要真正实现这一“宏伟蓝图”并不那么轻而易举。据报道，国家古籍整理出版规划部门的一位工作人员，在向记者介绍古籍电子出版物时说：目前在古籍数字化整理方面，国家还没有新政策出台，因为有些特殊的技术障碍。首先，繁体字没有国家统一标准，哪些该保留，哪些不能再用尚未最终确定。其次，繁体如何转换成简体成为一个研究课题，目前高校古委会与北京大学合作做这方面的研究，如何使这种转化符合国家语言文字工作委员会的要求还在探讨之中。第三是字库容量问题，比如《康熙字典》中有些文字不能在电脑上显示。古籍电子出版物原本投入很大，出版社要付稿费，要占市场，而他们还得面临繁简转化和造字的难题，畏难情绪是显而易见的。

即便能够实现，都翻译成现代文后，必然会丢失许多历史文化信息，譬如语言文化信息等。譬如我们要查证一个汉字是从何时开始出现和使用的，由于受到非对称繁简字、非对称异体字的烦扰，根本无法如愿以偿。例如在旧文献中明明意思不同的“Y”与“谷”、“後”与“后”、“Y”与“斗”等字，在新式汉字的文本中都变成了“谷”、“后”、“斗”等字，因此，要想查找“Y”、“後”、“Y”等字的来历，根本就没有可能。据说有一位在国内出过好些书，发表过好些文章的专家写了一篇题为“男尊女卑在汉语和德语中的对比”的稿子，立论是：汉字中，从“女”、从“母”的字多含贬义。这本来无可厚非，但他却举了“毒”字为例，并说：“从‘母’，贬义”。实际上老式汉字的“毒”字下边并不是个“母”，而是个“毋”。汉字简化后，把这两个部首合一，都写作“母”，因此造成了这样奇怪的“研究结果”。这说明，通过现代文本来了解古代文化，若作粗略的了解还是可以的，若要仔细研究的话，还是真正的古代善本、真迹才靠得住。要想做一个古代文化通，不学会老式汉字，恐怕是不大可能的。而要想使现代人能够很方便的学会老式汉字，将新老汉字一一对应、相互转换，无疑是最佳选择。

总之，“一一对应”，是我们高效、优质地学习和研究古代文化遗产的必然要求。只有一一对应，现代人才不会被错综复杂的对应关系所羁绊，才能顺利跨过老式汉字的门槛，才能方便地转写各种古文化遗产。

⑶“一一对应”，也是汉字信息化处理的必然要求。

汉字信息化处理过程中使用的电脑字库，也要求新老两种汉字体系能够一一对应、相互转换。由于不能一一对应、相互转换，给字库的编制带来了说不尽的烦恼。有人说，繁简转换问题只存在于人际之间，不存在于电脑方面，这实在是“井底之见”。

现在内地通行的字符集主要有两个：一个是收6763汉字的《信息交换用汉字编码字符集・基本集》（GB 2312－80），一个是收20902汉字的《汉字内码扩展规范》（GBK）。前一个字符集只能输入简体字，与之配套的还有一个专收繁体字的《信息交换用汉字编码字符集・辅助集》（GB/T 12345－90）。原则上后者是将GB 2312－80中的简化字用相应的繁体字替换而成，这些替代的繁体字具有与被替代的简化字相同的编码。关于繁体字替换简化字的原则，GB/T 12345－90 注明：“本标准原则上按照《简化字总表》中所列繁体字与简化字的对应关系进行替换。”“GB 2312 中，由于 60 年代汉字简化被精简的字有 103 个，这些被精简的字根据繁体字处理系统的需要增补于 88～89 区。”其实这一表述不完全准确，大约有三分之一左右并未将繁体字形放在88～89 区，而是将简化字形放在了88～89 区。例如：“丰”与“S”，汉字简化时精简了“S”字，以“丰”字替代，而 GB/T 12345 将被精简的“S”字，作为“丰”的繁体，置于 23-65，而将“丰”字置于 88-19。（《网路灯塔》）所谓 103 个“被精简的汉字”，只是就6763常用字的范围而言的，就7000通用字的范围而言，应该是132个（见下文《非对称繁简字总表》），更未包括被精简（废除）的大量异体字。例如，“N”和“”，作为“升”的异体字，被停止使用，GB/T 12345 亦未收录。对于只简化了其字义的某一个或几个义项的，如“干乾、后後、伙夥、么麽、于於、余馀、折摺、征徵”等，GB/T 12345 的处理则显得比较混乱。例如GB/T 12345 将“伙”置于 27-79，“夥”置于 66-23，与 GB 2312 编码相同，即以“伙”对应“伙”，以“夥”对应“夥”。另一种情况是，GB/T 12345 将“後”置于 26-83，对应 GB 2312 的“后”，将“后”置于 65-65，对应 GB 2312 的“後”；将“徵”置于 53-87，对应 GB 2312 的“征”，将“征”置于 65-71，对应 GB 2312 的“徵”，显然不甚恰当。这些问题的存在，都是与新老汉字不能一一对应密切相关的，并非计算机专家们水平差，如果妥善解决了一一对应的问题，一切问题都将迎刃而解。

第二个字符集（GBK）是一个向下与 GB 2312 编码兼容，向上支持 ISO 10646.1 国际标准的承上启下的标准。ISO 10646 是国际标准化组织 ISO 公布的一个编码标准，即 Universal Multiple-Octet Coded Character Set（简称 UCS），大陆译为《通用多八位编码字符集》，台湾译为《广用多八位元编码字元集》，它与 Unicode 组织的 Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1 国家标准的形式予以认可（即 GB 13000.1 等同于 ISO 10646.1）。ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字”（C 指中国，J 指日本，K 指朝鲜）。而其中的中国部分，包括了源自中国大陆的 GB 12345、《现代汉语通用字表》等法定标准的汉字和符号，以及源自台湾的 CNS 11643 标准中第 1、2 字面（基本等同于这个字符集的推出基本能应付通用汉字的信息化处理问题，为了解决更大范围内的汉字信息化处理问题，ISO/IEC 10646中日韩统一编码汉字Unified Ideographs Extension B（四万余字）也已经定稿，并从IRG上交ISO（国际标准化组织）WG2、SC2，2001年8月1日呈报ISO秘书处，纳入ISO/IEC 10646-2：2001发布出版。此前，ISO/IEC 10646-1：2000已于2000年10月5日出版公布。这样，ISO/IEC 10646所收入汉字（包括各种字体变形）已超过七万个，有人认为，除甲骨文、篆文外，已能很好地满足世界各地汉字使用的需要。但这是指研究方面，就社会的应用而言，目前大陆仍已BIG-5 编码为主，并没有接受GBK 规范的迹象。

问题还在于，字库虽然大了，由于一一对应的问题并未解决，两岸又没有一个统一的规范字表，致使CJK中大量充斥着互不被对方承认的不规范字。这在GBK 规范中也有反映。例如，有大量的应该类推简化的汉字并没有配上相应的简化字，例如“M”、“x”、“r”等字，就没有与之对应的“马”字旁。当用电脑写作时，如果遇到这类字，只得另外造字。然而手工造字，不仅费时费力、效果不佳，而且不能与他人共享和网上交流。这无疑给汉字的信息处理和交流带来了不便。问题更大的是，由于简化字和繁体字不能一一对应，在简化字文本和繁体字文本相互转换的时候，无法实现完全自动化，有时不得不亲自动手，逐个判断处理，大大影响了汉字信息处理的效率。计算机虽然号称“无所不能”，实际上它只适合于有规则的东西，面对毫无规则的繁简关系，任何软件都难以做到尽善尽美。譬如Microsoft Office2000等软件，虽然有智能化的繁简字转换功能，能根据上下文作出相应的用字选择，但其转换是以预先设定的词语搭配为前提的，凡设定之外的搭配就无能为力。如果实现了有规则的一一对应，所有与繁简转换相关的问题，将变得易如反掌。

总之，只有妥善解决了一一对应问题，两岸的汉字字库才能实现没有障碍的相互转换，才能让软件专家们从繁简转换的烦恼中解脱出来，从而可以腾出更多时间去做他们更应该做的事情。如果实现了一一对应，就可以消除那些“你有我无、我有你无”的非对应字，从而使整个字库的总量瘦身减肥，汉字的信息处理和信息交流也将变得更为方便。

[汉语词典] 字形整理与对应转换(2)

相關帖子

切换语言