关于汉语的字和词的数量的宏观估计.doc_第1页
关于汉语的字和词的数量的宏观估计.doc_第2页
关于汉语的字和词的数量的宏观估计.doc_第3页
关于汉语的字和词的数量的宏观估计.doc_第4页
关于汉语的字和词的数量的宏观估计.doc_第5页
已阅读5页,还剩22页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于汉语的字和词的数量的宏观估计现代汉语拉丁化拼音文字词表现代汉语拉丁化拼音文字汉语拼音方案(稍许修订)增补标调法汉语拼音正词法基本规则现代汉语词典(和其它规范词典)的词汇、词语一一定型其他相关法律法规的基本原则。现代汉语拉丁化拼音文字词表目前收集到的词汇约有十二万个。现代汉语拼音文字的词汇达 126 657条按汉字计,单字词约八千条,实际上多数单字本身并不是词。另有注音单字约四百五十个,多音单字约六百五十个。双字词约八万条。三字词约两万条。四字词约两万条。五字及五字以上词语(短语、歇后语、谚语、惯用语)约两千五百条。名词有待于扩充。包括:古今中外人名姓氏世界各地地名(国名、企事业单位名等)山脉,河流,湖泊等地理名词天文名词医药、疾病名词(新名词)科学技术名词文学艺术名词体育名词电子通讯名词动物名词植物名词物件名称名词缩略语等等,总集应该达到40万以上。词表词语分组及数量:分部 字数 累计比例()A 111711170.882B 701481315.538C 2446 105771.931CH5455 160324.307D 7861 238936.207E 673 245660.531F 4371 289373.451G 6378 353155.036H 6500 418155.132IJ 8239 500546.505JU1271 513251.003K 3129 544542.470L 6378 608325.036LY 366 611980.289M 4757 659553.756N 2599 685542.052NY 116 686700.092O 97 687670.077P 2920 716872.305Q 3773 754602.979QU1124 765840.887R 2103 786871.660S 2615 813022.065SH7723 890256.098T 5223 942484.124UVW 4189 984403.308X 61591045994.863X095Y 76481136346.038YU24651160991.946Z 34041185032.688ZH71541266575.648合计126657100.000其中“ I、 U、 V”组用于特殊用途,不计数。“ I”组存放部分单音注音汉字;“ U”组存放部分多音注音汉字;“ V”组存放部分双字和三字注音汉字。“JU、QU、XU”组包括“炯、穷、兄”等声音开头的词语。“LY、NY”组包括“吕、女”等声音开头的词语。按词长(每个词语汉字字数即音节)分词长数量比例()01字词7874 6.21702字词 7793561.53203字词 1878214.82904字词 1965515.51805字词127906字词 56807字词 26308字词8009字词 16210字词1711字词2812字词 313字词 314字词 115字词 7 1.904合计126657 100.000多字词语是由基本词汇组成的。有的是文言文成分(成语)占主要地位,形成了固定搭配。例如:三K党世界家岁现象(五十九岁现象)山穷水尽疑无路,柳暗花明又一村踏破铁鞋无觅处,得来全不费功夫先天下之忧而忧,后天下之乐而乐有心栽花花不开,无心插柳柳成荫怎么写,让实践来完成。本人没有能力把所有辞书上的词语汇集起来。让感兴趣的人加入吧。如果有人赐给我一万条词语(电子版),我经过过滤,有一千条纳入了本词表,本人会赠给你十二万条词语。本贴由值班版主王良辰于2007年8月18日 17:39:56修改过现代汉语拉丁化拼音文字 Wangk Liangchenkb = Wang2 Liangchen27 = Wng Lingchn多元字母标调法: 1声-v,w; 2声-k,b; 3声-f,t; 4声-p,y; 5声-x。本贴由王良辰于2007年8月18日17:28:04在汉语拼音与输入法论坛 - 汉语拼音第一网站发表.关于汉语的字和词的数量的宏观估计字的方面,我们已根据统计资料作出过结论,现代汉语一般用字量的上限是5000个。这个结论有来自多方面的统计支持,其中王小波黄金时代、王小波白银时代、王朔动物凶猛、王朔过把瘾就死、檀香刑、中华人民共和国刑法、基督教圣经Bible、姚国华全球人文审思共六个不同来源(不同作者)八部书累计字数 160万,用字 4935个(何况已包括一两百生僻字在内)。另有,金庸笑傲江湖(上)(下)、老舍四世同堂三本书累计字数148万,用字4224个。未能合并统计,但可以肯定地说,任何一个普通人,甚至任何一个文化人(文字专家除外),能把上面两组中的任一组基本读下来,识字量就足够了。词的方面,我们也应该有一个粗略的估计,如果总以为前面有一座无限的、不可认知的大山,那样不利于对汉语的正确认识,不利于开展汉语教育工作。这次王良辰先生公布了其在整理现代汉语拉丁化拼音文字词表中已收集到的词汇达 126 657条。按词长(每个词语汉字字数即音节)分布:词长数量比例()01字词7874 6.21702字词 7793561.53203字词 1878214.82904字词 1965515.51805字词127906字词 56807字词 26308字词8009字词 16210字词1711字词2812字词 313字词 314字词 115字词 7 1.904合计126657 100.000从上表可见,词汇的数量主要集中在双字词上面,这是汉语的一个非常重要的特性,是汉语表意的最主要方式。为了对汉语词汇作机器化的处理,我提出过一个班氏“词结”的新概念(见班氏“词结”论),“词结”是一种三字以上的、比词的结构松散、比词组的结构紧密的一个组合体,它是介于词和词组之间的一个层次。“运动场、跑马场、涮羊肉、留级生、中医院”等这些东西,以前一般认为它们是“词”,但对语言文字的信息处理发展到现代,对语料的处理手段发展到机器处理的时候,再把这些看作是“词”,就会引来不少的麻烦和困惑。班氏提出,在汉语中,两字的定义为词(有数量不多的一字词和极少量不可切分的三字四字词,可作为特例看待),三字四字的定义为词结,把它们看成是2+1、1+2、2+2、2+1+1等表现形式的词结。这样,人工或机器判断词与非词就容易得多了,进行切分、汇集、统计、组合等操作处理也就简单快捷得多了。1982年修订版的、32开本1243页的大部头新华词典“收单字一万二千个,收词约两万六千条,其中一般语词约占60%,社会科学和自然科学词语约占40%。”1983年第二版1994年修订的、32开本1722页的大部头现代汉语词典在前版“所收条目,包括字、词、词组、熟语、成语等,共计五万六千余条”的基础上,扩展到“六万余条”。据以上种种,汉语的基本词汇大约就在五六万范围。这个基本词汇包括语词和社会常见词汇(高频的、通用的),但不包括非常见的人名、地名、事件名、公司名、医药名、罕见动植物名、科技名词等专业术语,这些专业词汇应该算在社会知识、百科知识的范畴的。如果进一步用班氏词结的标准来切分、处理,则汉语的基本词汇量大约在三万左右(参考上述两种词典可知)。所以,摆在汉语教育者、修习者面前的基本字词量,大概就是4800个字、3万条词,这是有一系列统计资料支持的比较客观的估算。对汉语的基本字词量作出正确的估算有什么意义呢?长期以来,不管是外国人或华人中国人,都人云亦云地过分夸大了汉语学习的难度,甚至怀疑汉语的科学性。统计资料客观地显示了,汉语使用的字、词量只需要远远低于英语的单词量就足够了。我查了一下上述提到的两种词典,“猪肉、牛肉、羊肉”这类词条根本没有收入词典。由于汉语有“字”(语素、词素)这个层次,汉语的大部分词汇都是语素组合词,词义是可以自释的,星期一至星期日、一月至十二月,这些也不需要作为“词”来特别记忆处理,甚至外科、内科、儿科、妇科等等都是“可有可无”的词,这是汉语的一个独特的性质,是英语等不可比拟的。本贴由值班版主班门斧于2007年8月21日 03:33:43修改过本贴由班门斧于2007年8月21日02:12:03在汉语拼音与输入法论坛 - 汉语拼音第一网站发表.按词长(每个词语汉字字数即音节)分词长数量比例()01字词7874 6.21702字词 7793561.53203字词 1878214.82904字词 1965515.51805字词127906字词 56807字词 26308字词8009字词 16210字词1711字词2812字词 313字词 314字词 115字词 7 1.904合计126657 100.000从这个统计看出,我们在打文章时需要输入单字的概率是6.217使用词语输入的概率是93.783由统计是得不出这个结论的,显然的数据与结论脱节。现在都是这各情况,摆一大堆数据好像很认真专业似的,其实结论和数据根本不符。完全是为了结论强摆数据,而不是根据数据得结论,也不是知道是故意的,还是不懂逻辑乱下结论。最新一代中文输入法汉字词语码编码技术作者:曾养志 曾巍 曾嵘【摘 要】本技术根据汉字起源于象形文字,经指事、象形、形声、会意、转注和假借而发展演化、始终具有“形声相益”的特性,以汉语言文字中能独立存在和运用的单字、双字、三字及四字以上词组、词语、短语、诗词和科技词语等作为一个编码单位,采用“反切相拼定音节,声母加形识末字”的方法,使汉语因同音字、词太多而存在的大量重码得以识别,从而实现词语、成语、诗词以及科技词汇的盲打;词语编码改变后缀,可快速切换对应英语等外语词汇;用单位简称编码改变前缀或后缀,可切换全称或对应外语名称。本编码原理符合汉语言构词特性和发音逻辑思维,平均码长短,易学易用,得心应手,录入速度快。除普通版本外,可按不同学科专业延伸专业词语编码。本编码除适用于中文输入和信息处理及各类电子词典、辞书及汉英词典词条的检出外,也可开发为手写编码检出汉字词语,同时又是学生学习外语的强有力工具。编码熟悉后,还可作为新闻记者、文秘人员和学生的速记码。 电子计算机问世以来,汉字的计算机输入技术一直是中文信息处理的关键。大量常规信息报纸刊物、书籍、科技文献、电子图书、日常公务、网络信息、商业贸易及工农业生产和民众生活等,无不涉及汉字的电子计算机处理。因此,汉字的编码成了中国汉语言文字工作者及计算机制造厂家重要的研究课题。八十年代初,王永明率先推出了“五笔字型输入法”,随后又有全拼、双拼、自然码、智能拼音等编码问世。迄今,已专利的汉字输入法达数百种。五笔字型、拼音码等较优秀的编码已得到广泛推广,为中国的计算机汉字输入和信息处理作出了重要贡献。然而,目前已推广应用的汉字编码技术,多数仍停留在汉字特有的“单字”处理上,还没有一种完善的、真正体现汉语特点并以词语为主的输入技术。对此,国家语委会主任许嘉璐曾指出:“目前,中文信息处理虽然已实现了字处理,但这只是信息处理的初级阶段。要实现计算机中文信息的高速处理,.就必须超越字处理阶段,对(汉语)语言中的词、短语和句子以及语言的应用规律进行深入的研究,同时,在此基础上制定电子计算机所用的语言和文字规范与标准”(科技日报1997年)。微软公司中国研究院院长李开福在向比尔.盖茨作述职报告时指出:“.我们在寻求更好的计算机中文输入方面所做的工作。”他接着“着重介绍了中文输入方面的研究,谈到了不同的中文输入方法。我发现,比尔早已明白了中文输入的困难所在以及拼音和五笔等输入方法的利弊。我指出,如果中文输入的速度提高一倍,在每两小时的工作时间里,我们就可以帮助中国的计算机用户节省10亿个小时”。以上指出了汉字输入法的现状及希望通过研究所要达到的目的。目前的汉字编码不外如下系统,即:区位码和电报码,由于不易记忆又只能录入单字,难以推广;形码,以五笔字型为代表,这是以构成汉字字型结构的笔划及所谓“字根”进行汉字拆分,再与键位和“区”给定特定的码号与相应的键名对应。经过培训的专业人员具有较快的录入速度。五笔字型的发明在特定历史时期功不可没,其应用和普及程度也较广。然而,由于其编码着眼点为汉字的单字,不可能真正解决词语的编码。拼音码有全拼、双拼和智能拼音等。无论那种拼音码,其优点是不必拆分组合,拼读符合人们的听想思维习惯,编码反应直接,懂得拼音规则和韵母组合的代码键,上机即会,不用培训,不会忘记。然而,因汉语的发音仅限于418个音节,汉字字数太多,每个音节必然有大量同音字,当按下任一拼音组合的键位后,屏幕提示行即出现大量重码。尤其那些将单字、双字、三字乃至多字词组和短语都一律规定为4码者,当键入某一个编码时,大量的单字、双字词、三字词乃至多字词或短语就同时出现,录入者得反复地去“翻页”,有时须在多次“翻页”中的数百个词语里去寻找所需的那个唯一词组或词语。按汉语拼音方案设置的“全拼”码,韵母组合和词组拼写很多相混,如“xian”为“先、线、现、”等48个单字,而“西安、西岸、系按”也是同样的拼法。“xianshi”不知是“西安市”还是“现实、显示、现时、县市”。键入“ji”,出来“几、及、既、”等110多个单字,加一个“e”,则是“接、节、”等40多个单字,而录入者需要的是“饥饿”或“嫉恶如仇”等词组,用“jie”就拼不下去了。这种情形涉及整个汉语拼音音节中的很多部分。其次,汉语毕竟不是拼音文字,中国从小学学习汉语拼音,但很多大、中学生都不能掌握规范的拼音,用起来错误仍然很多。目前已推广的许多编码,由于存在大量重码,需要不断“翻页”,或因编码不科学、难记忆而影响录入速度,尤其是只着眼于单字的编码技术,是不能真正解决汉字的录入问题的。形码是按汉字结构的基本笔画或繁杂部首进行拆分组合,拼音码虽然抓住了发声这一重要特征,然而,发声是任何一种语言都具有的特性。那么,汉字的特性是什么呢?中国的汉字,从新石器晚期的刻画符号开始,历经3000余年发展到殷商时期的象形文字,在象形文字基础上发展演化而成为系统的汉字。汉字发展演化的方法,就是所谓“六书”。“六书”者,即象形、指事、会意、形声、假借和转注。“象形者,画成其物,随体诘诎”。“指事者,视而可识,查而可见”。“会意者,比类合谊,以见指撝”。“假借者,本无其字,依声托事”。“转注者,建类一首,同意相受”(许慎:说文解字序)。及至现代,汉字虽然几经改革和简化,结构和数量发生了很大变化,但基本上仍保留上述特性。许慎在说文解字叙中说:“仓颉之初作书,盖依类象形,故谓之文。其后形声相益,即谓之字”。汉字虽非仓颉一人所能发明,但这段话却指明了汉字的形成是“依类象形”的。“形声相益”,就是汉字不仅具有“声”(发音)的特性,而且具有“形”的特性。汉语的发音为418个音节。所有的汉字,无论是8000余单字的新华字典,还是4万余的康熙字典,其发音都在这些音节范围。这就是汉字同音字-词多的根本所在。如此多的同音单字,如何区别每个字的意义呢?这就是依靠每个单字构成的“形”。这个“形”,一是由最早的原初字构成,其次是在原初字的基础上经指事、会意、形声等六书所衍生确立的偏旁部首。例如“丁”字是象形字,而现代语言中“ding”这一音节共有22个单字(新华字典),其中以“丁”字为发音基础加不同的偏旁部首,就构成了不同意义但仍然发“ding”音的单字就有18个,以“定”字加偏旁部首衍生的有5个。这些都发“ding”音的字如何区分呢?这就是汉字发明者赋予每个字的“形”部首来加以识别。丁加口旁为叮咬的叮,丁加言旁为预订的订,丁加目旁为用眼睛盯上,丁加金属为铁钉的钉,丁加页(头)为顶,丁加田为町,丁加玉(王)为玉佩的响声玎,丁加病头为一种疮,丁加耳旁为耳垢的耵,丁加酉为酒泡的药剂酊,丁加水是一种水剂汀,丁加革为补鞋底的靪,丁加食旁是一种陈设的食品饤。部首一加,发音不变,意义却清楚明白,一目了然。以“登”(deng)字为基本字形加不同部首衍生出12个发“deng”音的单字,占这个音节的80%。“fang”这一音节共收单字19个,都是由“方”这一原初字加不同部首组合而成,这种情形在400多个音节中随处可见;另一种组合:则是由一个原初象形字作偏旁部首,再加不同的字组成,其发音随后面所加的那个字的读音而发,从而又构成了大量具有同类性质而意义不同的字的系列。如“牛”字是原初象形字,以“牛”作部首衍生的字,说文解字49字,新华字典收“牛”部为46字,其中许多字义已发生了变化。依此类推,凡人之属皆从人(亻、彳),凡草之属皆从艹,凡木之属皆从木等等,这就是汉字以部首分类的依据。所以,汉字只用一种特性如发音或“形”都无法反映单字和词组的特性。可以说,“形声相益”是汉字演化和扩展的主要方法,电子计算机时代的汉字编码也应以此作为基本的识别方法和原则。现代汉语中,描述各类事物并以文字作为信息载体传递的文章,是由词组和短语构成的。实际上,国家标准局公布的6763个单字中,有1000余个是不能单用的,只是组词的单元,如“琵琶、枇杷、菝葜、荸荠”等。有些虽可单用,但组词后就很少单用了,这类单字也有1000多。因此,老是花功夫去研究单字是没有必要的。随机统计了有代表性的文稿,双字词占41.74%(35.846.9%),三字词占20.17%,四字词占21.76%,五字以上及短语占7.08%。单字仅占9.25%,包括虚词“的、地、和、与、及”等。此外就是科技论文和著作,这类文章除普通词汇外,有大量专业技术词汇和术语。随机统计了科技论著中的12397个字词,有双字词4636个,占总字数的37.39%,比普通文章略低。三字词2934个,占23.67%,比普通文章多。四字词1958个,占16.04%,大大高于普通文章中的5.25%。五字至八字词或短语749个,占6.04%,普通文章中仅占1.51%。这表明,科技文章中多字词语的使用频率比普通文章高,因科技词语本身就是以多字词为主的。国家编订的汉语主题词表(“自然科学”版),其中“B”这一声母16个音节共收入主题词3456个,其中双字词505个,三字词822个,四字词1017个,五字词567个,六字词290个,七字以上254个,单字却没有。科技文章中普通词汇与科技词汇之比为4624:6249=1:1.35。这表明,对于科技工作者,既使普通汉语词语的编码问题完全解决了,但在写作科技文章时,仍有一半以上的专业技术词汇须一个单字一个单字地录入。此外,各类电子词典,其汉字词语和汉英词典词条的检出,都只能一个个单字录入在显示屏上组合成词语后才能检出和汉英翻译。可见,汉字的编码如果忽视了科学技术词语的编制和研究,仍然是一种不完全的编码技术。不难看出,迄今推广应用的各种输入法,还没有真正解决汉语以词语为主的编码,更谈不上科学技术词语的编码了。本技术根据汉字“形声相益”的特性和现代汉语词语的应用范围,以汉语中双字词、三字、四字以上词语、短语及固定的简单句作一个编码单位,采用“反切相拼定音节,声母加形识末字”的方法。“反切拼音”是我国宋朝以后用于汉字注音的方法,为一字之声母与另一字之韵母快速相拼,优点是简洁明快、节省码长,与“双拼”相似。“声母加形识末字”:双字词、三字词第一个字由“反切相拼”定其所在之音节,末字用其声母加部首识别。4字以上则只需反切相拼定音节,以后各字用声母组合。短语或中间有停顿的固定短句在停顿处用后缀省略。由于许多单字具有词的性质或有时可能单独用到,仍将单字编码列出。文章中最常用到的虚词、连词、形容词和付词用一键输入。编码方案如下:(1)汉字偏旁部首的调整和“0”部首的设置:本发明采用“反切相拼定音节,声母加形识末字”的方法,因为末字需要用部首识别,而传统习用的偏旁部首多者为213部,少者也有188部。其中50余部不规范,不仅识别困难,且计算机的键位也难以合理安排,所以对传统部首进行了调整改进。即将各类字典中列为“难检字”表中的500余单字绝大部分划为“零”部首,用键名“o”键代表,有些则归入相应的规范部首。(2)单字编码:词语码录入已很少用到单字了。但一些具有词汇性质的名词、动词及姓氏、名号和古汉语等涉及的单字仍不少,因此仍将其编码列出。单字用3码,编码规则是:“反切相拼定音节,重码部首来识别”,例如“中”字,汉语拼音为“zhong”,“双拼”为“vs”,当键入“zhong”或“vs”时,屏幕提示行出现“中、重、种、钟、肿、众、终、盅、忠、衷、踵、舯、螽、冢、塚”等同音字。本发明规则:反切相拼定音节为“vs”,若需其中某字时,只需在“vs”后面加该字的部首即可检出。“中”字部首不规范加“o”为“vso”,“重”字横底加“/”为“vs/”,“种”字禾旁加“h”为“vsh”,“钟”字金旁加“j”为“vsj”,“肿”字月旁加“y”为“vsy”,“众”字人旁加“r”为“vsr”,“终”字丝旁加“s”为“vss”,“盅”字皿底加“m”为“vsm”,“忠”字心底加“x”为“vsx”,“衷”字点上加“”为“vs”,“踵”字足旁加“z”为“vsz”,“舯”字舟旁加“v”为“vsv”,“螽”字虫底加“i”为“vsi”,“冢”字豕底加“u”为“vsu”,“塚”字提土加“t”为“vst”等。这样,上述15个单字的重码就可用各字所具有的部首区分而没有重码。(3)双字词的编码:双字词用4码,编码规则是:“反切相拼定音节,声母加形识末字”。反切相拼定准第一个字的音节,第二字用声母加部首识别。如“实际”一词,先键入“ui”这一音节,接着键入“际”字的声母“j”,“际”字的部首为“耳”旁,“耳”的声母发音为“e”,所以加“e”为“uije”。与“实际”发音相同者还有:“世纪”的“纪”为丝旁,加“s”为“uijs”,“时机”的“机”为木旁,加“m”为“uijm”,“事迹”的“迹”为走之,加“z”为“uijz”,“试剂”的“剂”为利刀,加“d”为“uijd”,“史记”的“记”为言旁,加“y”为“uijy”,“史籍”的“籍”字为竹头,加“v”为“uijv”,“诗集”的“集”为“佳”上,加“j”为“uijj”,“石鸡”的“鸡”字为鸟旁,加“n”为“uijn”,“实据”的“据”为提手,加“t”为“uijt”,“诗句”的“句”为口部,加“k”为“uijk,“时局”的“局”为尸头,加“u”为“uiju”。这样,发音相同必然为重码的词组就用部首切分开了。双字词中尚有少量同音词组的末字同形,也会出现重码,但未超过6个,经再次拆分即可做到全无重码。(4)三字词的编码:三字词用5码,其规则是:“反切相拼定音节,声-声加形识末字”。词组第一字反切相拼定准其音节,第二字用声母,第三字用声母加部首识别。例如:“中国人”为“vsgro”,人字部首不规范为“o”),“中国热”为“vsgrh”,“中国字”为“vsgzg”,“中国话”为“vsghy”,“中国画”为“vsgh/”;“第一班”为“diybw”,“第一版”为“diybp”,“第一榜”为“diybm”等等。(5)四字及四字以上词组或短语的编码:四字词编码用5码,五字词用6码,六字词用7码,七字词用8码,八字词用9码,九字以上用10码。其规则是:“反切相拼定音节,其余声母来识别”。第一个字反切相拼定准音节,其余各字用其声母识别即可,例如:“中国人民”为“vsgrm”,“人民解放军”为“rfmjfj”,“百闻不如一见”为“blwbryj”,“不到长城非好汉”为“budiifhh”,“矮子里面拔将军”为“alzlmbjj”等等。(6)固定短语和句子的编码:固定短语和句子多在成语或名人名言中出现,如“横眉冷对千夫指,俯首甘为孺子牛”等。编码规则:前半句编码加后缀。如“横眉冷对千夫指,俯首甘为孺子牛”为“hgmldqfvv”。如只需前半句,则前半句编码键入后不重复最后那个编码即可。有两次停段者,全句再加一相同码号,如“不破不立,不塞不流,不止不行”为“bupblll”。只需“不破不立,不塞不流”为“bupbll”。(7)诗词曲赋的编码:从“诗经”、“楚辞”开始的诗词曲赋,是我国文化艺术的瑰宝,历来为人民所喜爱,常用于学习、咏颂和引用。编码规则:以完整诗句编码上半句,需全句则加后缀。如“红军不怕远征难”为“hsjbpyvn”,若要整句“红军不怕远征难,万水千山只等闲”则为“hsjbpyvnn”。五律、七律要全诗一次出现,只需在第一半句编码后加/q,如moscmkjs/q即为“暮色苍茫看劲松,乱云飞渡仍从容。天生一个仙人洞,无限风光在险峰”。对于词赋,则按自然语句录入。(8)单位及机构名称编码:在新闻稿件及公务文件中,常涉及世界各国、国际组织、政府机构、高等院校、研究院所、金融财贸和工商企业等机构名称。这些名称一般常用简称,如发表公报、签订条约或协议等又须用全称。“美国”为简称,“美利坚合众国”为全称。“法国”为简称,“法兰西共和国”为全称。“中共中央”为简称,“中国共产党中央委员会”为全称。“全国人大”为简称,“全国人民代表大会”为全称等。编码方案:一律用简称编码,需全称时加后缀/q。“美国”为“mzgo”,“mzgo/q”则为“美利坚合众国”。“波黑”为“bohh”,“bohh/q”则为“波斯尼亚和黑塞哥维那共和国”。“中共中央”为“vsgvy”,“vsgvy/q”则为“中国共产党中央委员会”。上述国家、国际组织、政府、高校、研究院所以及单位、部门的简称,必须用公知公用的简称,否则不能正确检出。(9)词语和机构名称切换英语等和科技拉丁语的编码:科技文化、经济贸易、旅游、新闻媒体和各行各业都涉及外语,记者也常在文章中直接用英语陈述,尤其是各类电子词典中汉英词典词条的检出等,都需要按中文词语原意译成英文。本编码发明了汉语词语、科技词语和机构名称的英语、法语和科技拉丁语快速切换方法。编码为:在汉字词语和机构名称简称编码基础上,加后缀或改变后缀即可。英语加后缀/e,拉丁语加/l,法语加/f,德语加/g,西班牙语加/s等等。先按编码规则输入汉语词语,屏幕出现该词语的汉字词条,如只需该汉字词语,则击空格键上屏,若需将该词语转换为英语,则不击空格键而在其编码后加后缀/e,即出现相应的英语。如:mzgo美国,mzgo/q美利坚合众国,mzgo/ethe uited sates,mzgo/eqthe uited sates of america。yngo英国,yngo/ebritain,yngo/q不列颠和北爱尔兰联合王国,yngo/qeunited kingom of great britian and northenr ireland等等。科技文章需要英语、拉丁语学名索引或注释时,只需在该词语的汉字编码后改变后缀即可。(10)外语缩写作编码:报章、教材和科普文章中,常用英语缩写如WTO,FAO,DNA,RNA,APEC,CCTV等。编码方法:用缩写原文加前缀和后缀构成。英语加e,拉丁语加l,后缀则根据需要而变化。如efao粮农组织,efao/q联合国粮食和农业组织,efao/efood and agricultural organization of United Nations 。eapec亚太经合组织,eapec/q亚洲和太平洋地区经济合作组织,eapec/eAsia and Pacific ocean area economic cooperte organization。ecctv中国中央电视台,ecctv/eChina centre televition 。eopec石油输出国组织,eopec/ethe organnization of petroleum euporting countries等等。本编码容词量大,编码字典第一版收词语13万余,双字词组达47000余,重码最多6个。赞汉字 中华汉字,生动形象。传播文明,盖世无双。 连缀成句,顿挫抑扬。书法字体,各具特长。 篆书隶书,古色古香。行书流畅,正楷端庄。 狂草奔放,凤舞龙翔。对联形式,汉字独创。 左右工整,能简能详。既便言志,又供观赏。 世界上最美丽的文字-汉字一 历史 甲骨文汉字是世界上最古老的三大文字系统之一。其中,古埃及的圣书字、两河流域苏美尔人的楔形文字已经失传,仅有中国的汉字沿用至今。 传说中,汉字起源于仓颉造字。黄帝的史官仓颉根据日月形状、鸟兽足印创造了汉字,造字时天地震惊“而天雨粟,鬼夜哭”。从历史角度来看,复杂的汉字系统不可能由一个人发明,仓颉更可能在汉字的搜集、整理、统一上做出了突出贡献,所以荀子解蔽中记载“好书者众矣,而仓颉独传者,一也”。 有观点认为周易中的八卦对汉字形成有较大影响,但支持者甚少。二 原始文字 文字发明前的口头知识在传播和积累中有明显缺点,原始人类使用了结绳、刻契、图画的方法辅助记事,后来用特征图形来简化、取代图画。当图形符号简化到一定程度,并形成与语言的特定对应时,原始文字形成。 1994年,湖北杨家湾大溪文化遗址出土了大量陶器,其上170多种符号中,部分特征与甲骨文有较大类似之处。这一发现将原始汉字的形成过程推定到距今6000年以前。此外,山东大汶口出土的陶器上的象形符号,西安半坡彩陶上的几何符号等,都可能是原始文字形成中(或形成前)不同阶段的表现。 但是,商朝以后的汉字和这些几何符号是否一脉相承?这个问题还在争议中。许多学者提出,这些符号不一定是汉字的前身,甚至不能绝对肯定是文字符号。三 从象形到表意 泰山封山刻石,相传为李斯所书从甲骨文到小篆,汉字经历了从象形文字到表意文字的发展过程,字形逐步脱离事物的具体形象。这一时期的汉字称为古文字。 商周时期的甲骨文已经是一种比较完整的文字体系。在已发现的4500多甲骨文单字中,目前已能认出近2000字。与甲骨文同期,青铜器上铸造的文字称为金文或钟鼎文,西周时期的散氏盘、毛公鼎具备很高的史料和艺术价值。 秦始皇统一中国后,李斯在大篆和六国古文的基础上,进行规范和整理,制定出了小篆作为秦朝的标准书写字体,统一了中国的文字。小篆呈长方形,笔画圆润流畅。 小篆解决了各国文字间出现大量异体字的情况,“书同文”的历史从此开始。文字的统一有力促进了民族间文化传播,对中华民族的认同和中国的统一发挥了重要作用,为世界文字史所罕见。 汉字的发展经历了许多不同的演变。初期汉字系统的字数不足,大量事物以通假字表示,使文字表述存在较大歧义。为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段。但事物众多,不可能都用单一汉字表示,且汉字数量的过度增加又引发了汉字本身的学习困难,汉语逐步从单字表意演变为词语表意为主导。 四 造字及组成 在秦始皇统一汉字后,汉字的数量也在不断地增加,很多新造的字不断出现: 隋文帝杨坚原为随国公,但因“随”字的“辶”有不稳定之意,故去掉“辶”,而造“隋”字作为国号。 唐朝时,武则天根据“日月当空”之意而造字“曌”(同“照”字)作为她的名字。 五代刘岩取“飞龙在天”之意创了自己名字内的“龑”字。 在近代,由於大量西方知识的涌入,也造了许多字。例如随着“Beer”传入中国,如何用汉字表达是一个问题,最初译为皮酒,后觉不妥,於1910年左右创造了“啤”字译为“啤酒”。为了表示英制的单位,还造了一些多音节的字,如浬(海里)、嗧(加仑)、瓩(千瓦)、呎(英尺)等。不过这些多音节的字在1977年7月20日大陆中国文字改革委员会和国家标准计量局发出关于部分计量单位名称统一用字的通知中被淘汰,在大陆地区已不再使用,但台湾等地仍可见到。 目前由於信息化及用字的规范,汉字已经不再任意增加新字。唯一的例外是元素周期表中的各种元素,如“氦”、“氯”、“氡”、“锗”、“铬”、“铀”等。这种造字方法还在一直沿用,用于新元素的命名。化学元素的造字规律详见元素。 六书是汉字构成的分析,在周礼中就提到了六书,但是没有说明具体内容。东汉许慎在说文解字中详细阐述了“六书”的汉字构造规律:象形、指事、会意、形声、转注、假借。其中,象形、指事、会意、形声四项为造字原理,是“造字法”;而转注、假借则为用字规律,是“用字法”。惟要注意的是,“六书”是对汉字产生的整理及分类,并不是造字的法则。 五 现代汉字形成 小篆笔画以曲线为主,后来逐步变得直线特征较多、更容易书写。到汉代,隶书取代小篆成为主要书体。隶书的出现,奠定了现代汉字字形结构的基础,成为古今文字的分水岭。 汉代以后,汉字的书写方式逐步从木简和竹简,发展到到在帛、纸上的毛笔书写。草书、楷书、行书等字体迅速出现,不仅满足了公文和日常需要,还形成了浓郁东方特色的书法艺术。古代印刷术发明后,出现了用于印刷的新字形宋体,在现代又陆续出现了黑体、仿宋等字形。 六 汉字的语文知识 “永”字八法编辑 字形 汉字是一种方块字,每个字占据同样的空间。汉字包括独体字和合体字,独体字不能分割,如“文”、“中”等;合体字由基础部件组合构成,占了汉字的90%以上。合体字的常见组合方式有:上下结构,如“笔”、“尘”;左右结构,如“搞”、“刘”;半包围结构,如“同”、“趋”;全包围结构,如“团”;复合结构,如“赢”、“斑”等。汉字的基础部件包括独体字、偏旁部首和其他不成字部件。 汉字的最小构成单位是笔画。 书写汉字时,笔画的走向和出现的先后次序,即“笔顺”,是比较固定的。基本规则是,先横后竖,先撇后捺,从上到下,从左到右,先外后内,先外后内再封口,先中间后两边。不同书写体汉字的笔顺可能有所差异。 七 读音 汉字是多种方言的共同书写体系,每个字代表一个音节。中国现今以普通话作为标准读音,普通话的音节由一个声母、一个韵母及声调确定,实际用到1300多个音节。由于汉字数目庞大,因而存在明显的同音字现象;同时还存在同一个汉字具有多种发音的情形,称为多音字。这一情况在不同方言中有一定差别,但在汉语中是普遍存在的。 汉字虽然以表意为主,但并非不存在表音成分,最常见的是人名、地名,其次就是外来词的音译,比如沙发。此外,还有部分原有的表音词,如“救火”、(一命)“呜呼”。但即使如此,还是有一定表意成分,特别是国内的人名、地名。而即使是国外的人名、地名,也存在某些表意的低限,比如“Bush”绝不能音译成“不死”。 由于汉字自汉朝到20世纪似乎没有经过多少变化,汉字没有直接表现汉语发音的变化。必须进行专门的研究才能推测它们在上古汉语和中古汉语的发音。 有学者认为,汉朝之前,一个汉字可以代表两个音节,次要音节和主要音节。详见上古汉语。 汉字在日语中的读音有“音读”和“训读”之分,往往一个字有很多读法。 在朝鲜语中则大致为一字一音,没有训读。 受日本影响,其他汉字使用国后来也使用了一些多音节的字,如浬(海里)、嗧(加仑)、瓩(千瓦)等。但是在大陆地区由于官方废除已基本不使用,台湾偶尔还在使用,一般人也明暸其意思。 八 注音 最早的注音方法是读若法和直注法。读若法就是用音近的字来注音,许慎的说文解字就采用这种注音方法,如“埻,射臬也,读若准”。 直注法就是用另一个汉字来表明这个汉字的读音,如“女为说己者容”中,使用“说者曰悦”来进行注音。 以上两种方法都有先天上不完善的地方,有些字没有同音字或是同音字过於冷僻,这就难以起到注音的作用,例如“袜音韈”等。 魏晋时期发展出了反切法,据传是受使用拼音文字的梵文影响。汉字的发音可以通过反切法进行标注,即用第一个字的声母和第二个字的韵母和声调合拼来注音,使得所有汉字发音都有可能组合出来。如“练,朗甸切”,即“练”的发音是“朗”的声母与“甸”的韵母及声调所拼成。 近代以来,又发展出了汉字形式的注音符号(俗称)以及很多拉丁字母注音方法。注音符号仍是台湾教学的一部分,而目前中国最为广泛使用的是汉语拼音。 由於汉字以本身表义为主,注音方面较为薄弱。这个特性使得上下千年的文献,不至於产生如同使用拼音文字的西方世界一样,用字措辞太悬殊的差距,但也造成推断古代声韵的难度。例如“庞”从“龙”而得声,但今日北京话前者读“pang”,後者为“long”。如何解释这样的差异,就是音韵学所探讨的课题。 九 汉字与词语 汉字是汉语表形的最小单位,类似於英语的“字母”。但是,和“字母”不同,汉字同时也有表意成分,因此类似於“英语词组”中的单个“单词”。因此汉字是介於英语中“字母”和“单词”间的一个成分,对於这一点,从数量上也可以得出。 词语是汉语表意的最小单位,类比於英语的“词汇”和“词组”的总称。绝大多数汉字可以独立构成词语,比如“我”,类比於英语中的单一字母构成的词汇,比如“I”。大多数词语都是由两个以上的汉字构成的,不过,和英语中“词汇”和“字母”的关系不同,词语的意思往往和其中各个汉字独立构成词语时的意思有相关性,因此相当程度上简化了记忆。 汉字的高效率,体现在几千个常用字,可以轻松组合出数十万词语,不过,从另一方面来说,准确掌握这数十万词语的搭配形式和用法也成了一种负担。汉语常用词汇约为几万条,总词汇量约有百万条,虽然从数量上来说显得有些令人望而却步(英语四级不过4000个词汇),但由于大多数汉字构词法的表意性,要基本掌握并非遥不可及。因此,仅就词汇而言,其学习难度并不高;相比之下,掌握同样数量外文词汇的记忆强度则要大得多。 这种组词的高效率保证了汉字系统的稳定性,即词汇增加、语言发展而基础汉字基本不变。 十 汉字的数量 汉字的数量并没有准确数字,日常所使用的汉字约为几千字。据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,简体与繁体的统计结果相差不大。 历史上出现过的汉字总数有8万多(也有6万多的说法),其中多数为异体字和罕用字。绝大多数异体字和罕用字已自然消亡或被规范掉,除古文之外一般只在人名、地名中偶尔出现。此外,继第一批简化字后,还有一批“二简字”,已被废除,但仍有少数字在社会上流行。 汉字数量的首次统计是汉朝许慎在说文解字中进行的,共收录9353字。其后,南朝时顾野王所撰的玉篇据记载共收16917字,在此基础上修订的大广益会玉篇则据说有22726字。此后收字较多的是宋朝官修的类篇,收字31319个;另一部宋朝官修的集韵中收字53525个,曾经是收字最多的一部书。 另外有些字典收字也较多,如清朝的康熙字典收字47035个;日本的大汉和字典收字48902个,另有附录1062个;台湾的中文大字典收字49905个;汉语大字典收字54678个。20世纪已出版的字数最多的是中华字海,收字85000个。 在汉字计算机编码标准中,GB2312收录简体汉字6763个,GBK收录简体、繁体及日语、韩语汉字20912个,Big5收录繁体汉字13053个,而Unicode的中日朝统一汉字基本字集则收录汉字20902个,另有两个扩展区,总数高达七万字。 十一 汉字的影响 对其他文字的影响 汉字书写体系也是世界上最主要的源文字之一,在汉字的影响下,还产生过: 契丹文 女真文 西夏文 古壮字(方块壮字) 古白字(方块白字) 古布依字(方块布依字) 字喃 但它们都因各种原因而消亡,汉语中的女书,如今也无几人能识。日语的假名(仮名)、以及朝鲜语的谚文()在创制时也都很大程度上受到汉字字形的影响。 此外如蒙古文、满文、锡伯文等也是在汉字书写方式和书写工具的影响下,将从右向左书写的源自阿拉米文字的书写方式改为从上到下书写,文字的结构也随之有所变化。 十二 现在或曾经使用汉字但非使用汉语的地区与国家 由于汉字和发声的联系不是非常密切,很容易被其他民族所借用,如日本,朝鲜和越南都曾经有过不会说汉语,单纯用汉字书写的历史阶段。汉字的这个特点对于维系一个统一的汉族一个充满各种互相不能交流的方言群体的民族起了主要的作用。 汉字对周边国家的文化产生过巨大的影响,形成了一个共同使用汉字的汉字文化圈,在日本和朝鲜半岛,汉字被融合成它们语言的文字“汉字()”和“汉字()”。直到现在,日语中仍然把汉字认为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论