《新华字典》和中小学语文教学课标将据此表改动
由教育部、国家语言文字工作委员会历时8年组织研制的《通用规范汉字表》自8月12日至31日向社会公开征求意见。
作为《中华人民共和国国家通用语言文字法》的配套规范,《通用规范汉字表》采用计算机统计技术,从海内外几十个语料库进行海量收集和筛选,最终收字8300个,按照字的通用程度划分为三级。字表发布后,社会各领域的现代通用汉字,原则上应使用表内字。
《新华字典》和《现代汉语词典》将根据这个汉字表进行改动和更正。
专家介绍,此次公布的字表使通常使用的汉字更加集中,字量增加,一些字如分类细致的农业用字退出,一些新字出现,新的字表体现了多元化、开放性,同时注重了文化传承。
统计数字显示,一般教学约需要3500字,600个常用字就可以覆盖书面语的80%,900多字可以覆盖书面语的90%,2400字可覆盖95%,5200字就可以覆盖书面语的99.9%。字表公布后,中小学语文教学课标将跟进改动,不会对学生考试产生影响。
国家语委副主任、教育部语言文字信息管理司司长李宇明强调,研制《通用规范汉字表》是国家文字政策的体现,关系到国家文化、教育、科技的发展及信息化建设,关系到大众的日常生活。从2001年开始,有关部门已先后召开各类会议80余次,邀请海内外专家学者3000多人次对字表修改了90余稿。
51个异体字被“释放”并恢复使用
在此次《通用规范汉字表》的研制中,人们取名时常用的一些异体字的存与废十分引人关注。在征求意见的汉字表中,曾被废除但人们仍在大量使用、禁而不止的51个异体字被“释放”并恢复使用。
例如,“喆”虽然这个字过去曾被“废除”,但因为它含有两个“吉”字,很多人在取名时,仍然坚持选用这个字。再如“淼”字也曾被废除,但许多老百姓还是喜欢选择“淼”字做名字。
“恢复使用这些异体字表明我国在语言文字政策上的人文关怀。”李宇明说,“今后我们对异体字不再简单地提‘淘汰、废除’,但在使用上仍然有明确要求。”
原则上不恢复繁体字
针对繁体字恢复和类推简化问题,研制组也进行过反复的研讨。最终确定原则上不恢复繁体字,将类推简化的范围严格限定在字表以内,允许字表以外的字有条件使用,但不类推简化。
此外,我国在研制《通用规范汉字表》的同时编制了《简繁汉字对照表》。
《通用规范汉字表》专家委员会副主任委员王宁教授强调,《通用规范汉字表》在研制过程中还同时建立了“教育科普综合语料库”(404万字)、“儿童文学语料库”(570万字)、“中小学语文教材文言文语料库”(560万字),有利于中小学语言文字教育的规范。
据悉,《通用规范汉字表》(征求意见稿)及有关材料将登载在《中国教育报》和中国语言文字网上。各界人士可通过电子邮件、信函和传真等方式提出意见和建议。
教育部已于12日公布收集意见的电子邮箱gfhzb@moe.edu.cn;通讯地址:北京市东城区朝阳门内南小街51号《通用规范汉字表》意见收集组,邮政编码:100010;传真:010-65286219。
[NextPage]为女性预留女旁和草头字
解密通用规范汉字表
酝酿多年的《通用规范汉字表》终于对外公示。
为什么要制定字表?字表中的汉字是如何筛选出来的?怎样规范地使用汉字?围绕这些问题,本报记者对主要设在北京师范大学的《通用规范汉字表》后期研制工作组进行了独家专访,揭开字表中8300个通用规范汉字背后的“秘密”。
8年甄选8300个汉字
此次公示的《通用规范汉字表》,一共收录了8300个汉字,共分为三级。
早在1988年,我国便出台了《现代汉语通用字表》(收字7000个)和《现代汉语常用字表》(收字3500个);时隔21年之后,为何要重新制定《通用规范汉字表》?对此北京师范大学文学院王立军教授表示,这主要是因为在信息化时代之下,人们的语言生活发生了巨大变化。
“任何规范都只适用于特定的时期,需要随着时代的发展而进行改革。”王立军教授解释说,原有的规范在当时指导人们用字发挥了重要的作用,但是由于当时的技术局限性,规范中也有一些疏漏,比如个别进入常用字的字通行度不高。另外,不同部门先后发布的规范,内容上并不完全一致,需要重新进行整合和优化。
《通用规范汉字表》研制项目从2001年启动,历时8年才得以完成。专家学者们已经充分研究了我国自1955年以来编制的多个原有字表的规范原则,并基本清理了历史遗留的用字规范问题。值得一提的是,此次发布的字表作为规范标准,是在《中华人民共和国通用语言文字法》发布后所制定的,它具有法律效应。
字表发布后并非一劳永逸。王立军教授表示,研制工作组已经考虑到了今后对字表进行修订的计划。按照目前的设想,有关部门今后将对字表“三年一小修,十年一大修”,根据字表的实际使用情况和社会需求的变化,适时地对字表进行微调。
每个规范字都有来历
能够入选一、二级字表的汉字,是根据其使用频率来确定的。专家们采用了9个信息庞大的“语料库”的数据进行了统计。据北师大文学院讲师卜师霞介绍,最为主要的两个语料库是“国家语委现代汉语平衡语料库”和“北京语言大学现代新闻媒体动态流通语料库”,收录的汉字量分别为9100万和3.5亿。
“仅现代汉语平衡语料库中,不重复的汉字就有8181个。”卜师霞老师介绍说,这个语料库中涵盖了从1919年至2002年的大量文字资料,除了报刊书籍、政府公文等印刷品和出版物外,就连并不起眼的产品说明书和广告中的用字情况,也都一并囊括其中。
使用频率最高的汉字究竟是哪个字?在对语料库进行统计时,专家学者们也掌握到了这个并不为人所知的有趣细节。教育部语言文字应用所的王晓明老师经过统计后发现,貌不惊人的“的”字在汉字中使用频率最高,在语料库中出现的次数,竟然高达169万多次。
“《通用规范汉字表》中收录的每个字,都有明确的来历。”北师大文学院讲师凌丽君说,汉字中有大量的异体字存在,为了确保字表中收录汉字的规范性,研制工作组的专家学者们对每个汉字的出处、正异对应关系都进行了检索和考证,为此甚至查遍了包括《四库全书》在内的典籍文献。[NextPage]
罕见姓氏得以被正名
“氾”、“仝”、“谿”、“缐”、“甯”,这些字曾被视为“泛”、“同”、“溪”、“线”、“宁”的异体字或繁体字;但是很少有人知道,它们其实原本也是姓氏。出于对家族传统的尊重,在此次制定的《通用规范汉字表》中,这些汉字首次以姓氏用字的身份,被保留在三级字表中。
字表研制专家工作组组长、北师大文学院教授王宁以“缐”字举例说,一些“缐”姓人士曾向专家们反映:“这个字中的部件‘泉’,给人流动的感觉,换作‘线’中的两个‘戈’,这层美好的意义就被破坏了。”而恢复这些罕见姓氏的本来面貌,将使得标志血脉传承的功能和文化内涵的姓氏用字得以保存。
一些汉字能够收入字表,是基于人性化的考虑。比如“喆”原本被视为“哲”的异体字,但是研制工作组的专家学者们经过调查发现,全国有两万多人的名字中选用了这个字。专家们接受了民众的意见,认为,“喆”字中两个“吉”并排看起来很祥和,比‘哲’字更适合取名,因而把它收入了三级字表,专门做姓名用字使用。
王宁教授说,此次制定字表的一个重要宗旨,就是“利国便民”。
还有一些异体字,出于对历史的尊重而得以保留。例如,谈到古代历史时常常要用到的“盩厔”(今陕西西安“周至”县)这两个古字,活字印刷发明者毕昇的“昇”字,《瑷珲条约》中的“珲”字,也都因其包含特定的历史文化意义,而被收入三级字表。
据了解,此次公示的字表中共恢复了51个异体字,调整了6个繁体字。不过这些异体字和繁体字并不能任意使用。王宁教授解释说,字表做了明确的规定,这些字只能限用于特定的地名或姓氏、人名用字;在一般意义上使用文字时,还不能随便写异体字和繁体字。
被遗漏有用字可补录
如果有些使用价值较高的字在此次公示的字表中有遗漏的话,可以在此次征求意见时进行补充。例如,考虑到姓氏用字的意义比较重大,《通用规范汉字表》在征求意见的说明中明确提出,在字表征求意见期间,相关人士可以直接向征求意见工作领导小组提供遗漏的姓氏用字,同时提交该用字准确的普通话读音、使用者信息(姓名、所在地、联系方式、证明人等),在经过验证明确该字是仍在使用中的姓氏后,可以在适当时候,将这个姓氏用字补录。
王宁教授最近就接到一封来信,提出一个十分罕见的姓氏“□”。王宁教授表示,对于这样的意见,工作组的专家学者都会一一进行核对和考证,如果证实其确有家族渊源,并且仍在使用,就会将其补录于字表中。
不过,并不是所有的姓氏都能够得到补录。研制工作组的专家们在与公安部合作研究时得知,全国有两千多个姓氏其实只有一人使用。“姓氏代表了家族的血脉传承,如果只有一个人使用,显然是不能成立的。”经过调查后,专家们发现,这些特殊的姓氏,其实大都是些错别字或者是“标新立异”之作。
为女孩预留“女旁”和“草头”字
有人建议:为了便于信息管理、信息交换,避免造成应用障碍,新生儿取名尽量采用字表中的字。对这一说法,民众中认识不一。对此专家们表示“取名字用字如何规定,这是户籍管理部门的事,语言文字主管部门不能单独作出决定。但在为三级字表收字时,已经尽量考虑到姓名用字的需要。”
在王立军教授看来,“如果为了取名字,8300个字绝对够用了。”如果将字表中的8300个字进行排列组合,再加上姓氏的话,可以组合出的名字数量是个天文数字。而凌丽君和卜师霞两位博士则指出,此前外界对于字表中字量的质疑,可能是将“规范”误解为“限制”从而引发的心理抗拒。
[NextPage]仔细浏览这份字表,也许就会发现,在很多细节上,专家学者已经为大众取名提供了很多便利。例如为了照顾给女孩子起名时常用“女旁”和“草头”字,专家们特意收录了一些并不常用的“女字旁”字。还有,“淼”、“堃”等在生活中几乎用不到的字,只是因为很多人喜欢在取名时用,此次也特意保留了下来。
对于这些汉字,专家们都已经对其字义做过非常严格的考察。凌丽君博士举例说,有些“女”字旁的汉字,仅凭字形无法判断其意义,通过查阅工具书或古今典籍后发现,有些字义是贬义的,完全不适合用于取名,这样的汉字就会从字表中剔除出去。
8300个规范字够用吗
曾有一些消息灵通人士提出:现在进入国际编码的汉字已有近8万个;此次字表中的规范汉字却只有8300个,仅凭这些字真的够用吗?对此王宁教授回应说:“汉字不是越多越好,而是适用为好。比如全套的《十三经》,是公认的文化经典,词汇非常丰富,不过才使用了6000个左右不重复的字。”
从文字使用频率的统计来看,真正的通用汉字其实也不多。王立军教授介绍说:“字频排列在3000以后的汉字,已经很少使用了;统计表明,仅仅书写现代汉语文本的用字,一、二级字表的6500字就覆盖全部语料的99.8%,加上三级字表的1800字,余下的字用处实际很少了。”
在字表研制中,采用计算机数据库技术进行研究的王晓明老师表示,研制初期,原本搜集的汉字达到1.2万个;但仔细考察后,很多属于异体字、古文字隶定字或偶尔用一次的罕用字,甚至是音义不全的疑难字,这才逐渐减少到8300字。另外,如果人们偶然需要使用表外字,还可以选用历史通用字形来使用。
王宁教授总结说:“有用的字不缺,没有的字不入,罕用的字不禁,这样的字符集才能好用。”
(编辑:李明达)