


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅谈汉字特征字母及其提取规则所谓特征字母,是指那些最能表征汉字轮廓特点的汉字字母。人们看到一个汉字时,一般首先注意到的是它的轮廓特征,然后才是它的局部细节。这就是汉字的认知规律。从图形识别的角度来看,汉字认知更加注重轮廓性和整体性,字形的细微变化并不会给汉字认知造成多大影响。因此,特征字母一定是构成汉字轮廓的汉字字母。研究发现:人们通常是从汉字左上角开始,沿着顺时针方向扫描汉字轮廓的(见下图)。因此,最能表征汉字轮廓特点的特征字母,首先是构成汉字左上角的汉字字母,其次是构成汉字右上角的汉字字母,再次是构成汉字右下角的汉字字母,最后是构成汉字左下角的汉字字母。 对于左右结构的汉字来说:左上角特征字母通常就是字首首字母(第一个字母);右上角特征字母通常就是字身首字母;右下角特征字母通常就是字身末字母(最后一个字母);左下角特征字母通常就是字首末字母(见下图)。 因此,左右结构汉字的特征字母依次是字首首字母、字身首字母、字身末字母和字首末字母。对于上下结构的汉字来说:左上角特征字母通常就是字首首字母;右下角特征字母通常就是字身末字母;右上角特征字母有时是字首首字母(如“京”字),有时是字首末字母(如“简”字),有时是中间字母(如“雪”字),难以确定;左下角特征字母有时是字身首字母(如“苡”字),有时是字身末字母(如“全”字),有时是中间字母(如“罢”字),同样难以确定。对于多数上下结构的汉字来说,人们通过一次扫描还无法辨识出汉字,还要进行第二次扫描,即扫描字身左上角和右上角,扫描的角度较第一次要小些。字身左上角特征字母通常就是字首首字母,而字身右上角特征字母的位置则难以确定(见下图)。 因此,上下结构汉字的特征字母依次是字首首字母,字身末字母和字身首字母。正因为上下结构汉字的辨识需要进行两次扫描,所以,人们辨识上下结构汉字所花费的时间要比辨识左右结构汉字要多些;正因为上下结构汉字的特征字母为3个,比左右结构汉字的特征字母数量少1个,所以,人们对上下结构汉字辨识的错误率比上下结构汉字要高些。这就是在汉字结构类型中,左右结构汉字数量占绝对优势的原因(见下表)。对7785个常用汉字结构类型的统计数据:结构类型独体上下左右包围字 数323164875055754占总字数百分比(%)4.14921.10564.9339.813对于半包围结构汉字,其特征字母的提取类似于上下结构汉字或左右结构汉字。对于全包围结构汉字,仍然需要进行两次扫描,第一次是对汉字外轮廓的扫描,第二次是对汉字内轮廓的扫描,第二次扫描角度较上下结构汉字要大些(见下图)。 第一次扫描提取的特征字母是字首首字母和字首末字母,第二次扫描提取的特征字母是字身首字母和字身末字母。因此,全包围结构汉字的特征字母依次是字首首字母、字首末字母、字身首字母和字身末字母。正因为全包围结构汉字的辨识需要进行两次相同角度的扫描,所以,人们辨识全包围结构汉字所花费的时间甚至比辨识上下结构汉字还要多些;正因为全包围结构汉字的特征字母为4个,与左右结构汉字的特征字母数量相同,比上下结构汉字的特征字母数量多1个,所以,人们对全包围结构汉字辨识的错误率比上下结构汉字要低些,与左右结构汉字大体相当。这就是在汉字结构类型中,全包围结构汉字数量比较少的原因。对于独体字,其特征字母是独体字的首字母和末字母(见下图)。虽然特征字母只有两个,比其他结构汉字都要少些,但是,独体字的笔画数普遍较少,两个特征字母足以反映其轮廓特征。对两个特征字母的扫描识别速度显然比其他结构汉字要快些。这就是独体字特别容易识记、辨认速度最快的原因。 综合起来看,汉字的第1个特征字母应当是字首首字母,第2个特征字母应当是字身末字母,因为这两个特征字母最能反映汉字的轮廓特征,无论是什么样结构的汉字,它的首字母和末字母都是极易确定的。汉字的第3个特征字母应当是字身首字母,因为它除了能够反映汉字的外部轮廓特征之外,还能反映汉字的内部构造特点。不过,独体字是没有字首和字身之分的。为了统一规则,我们仿照们将独体字的第一个汉字字母视为字首,将其余汉字字母视为字身,这样一来,独体字也是由字首和字身两个部分组成的。特征字母的提取,应当遵循下列原则:若是提取汉字的一个特征字母,应当提取其字首首字母;若是提取汉字的两个特征字母,应当提取其字首首字母和字身末字母,或者提取其字首首字母和字身首字母;若是提取汉字的三个特征字母,应当提取其字首首字母、字身首字母和字身末字母。下表列出了5654个常用汉字特征字母组字次数的统计数据:汉字字母12345678字首首字母53110044753309571182470700字身首字母3851252646260985939589547字身末字母643503176113410814161071584根据表中统计数据,制作成下列坐标图便于比较: 观察上述坐标图发现:字首首字母的组字次数分布折线波动幅度最小,其最大波幅出现在2(一画竖)和6(两画竖)上,这说明字首首字母中所包含的竖笔最多;字身末字母的组字次数分布折线波动幅度最大,其最大波幅出现在4(一画捺)和8(两画捺)上,这说明字身末字母中所包含的捺笔(含点)最多;字身首字母的组字次数分布折线波动幅度居中,其最大波幅出现在2(一画竖)和5(两画横)上,这说明字身首字母中所包含的竖笔和横笔最多。从前面分析中已知,特征字母的组字次数分布折线波动越小,由这些特征字母所组成的词语字母组合的区分度就越高,用术语来说,就是这些词语字母组合的重码率就越低。因此,特征字母首选字首首字母,次选字身首字母,后选字身末字母。然而,鉴于字首首字母就是整个汉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中考语文模拟考试及答案
- 2025江苏苏州民族管弦乐团招聘模拟试卷附答案详解(突破训练)
- 2025呼伦贝尔扎兰屯市社会福利中心护理员招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025年山东省科创集团有限公司招聘(33人)考前自测高频考点模拟试题及一套完整答案详解
- 2025内蒙古鄂尔多斯生态环境职业学院人才引进38人模拟试卷及一套答案详解
- 2025年湖南邵阳邵阳市大祥区事业单位人才引进9人模拟试卷及一套答案详解
- 2025广东揭阳市惠来县校园招聘卫生专业技术人员80人模拟试卷(含答案详解)
- 2025湖南益阳市资阳区教育系统下属学校公益性岗位(保洁)招聘10人考前自测高频考点模拟试题及参考答案详解1套
- 高效文创合作协议书8篇
- 2025贵州福泉市4月招聘城镇公益性岗位考前自测高频考点模拟试题及参考答案详解一套
- 平安医院建设试题及答案
- 专项项目贡献证明书与业绩认可函(8篇)
- 2025年广东省广州市中考二模英语试题(含答案)
- 消防员心理测试题库及答案解析
- 2025小升初租房合同模板
- 放射科造影剂过敏反应应急处理预案
- 《大嘴巴纸玩偶》名师课件
- 2025年上海市高考英语热点复习:阅读理解说明文
- 国家管网集团合同范本
- 中医全科学科
- Unit 1 Teenage life单词变形-学生背诵与默写清单-2024-2025学年高中英语人教版(2019)必修第一册
评论
0/150
提交评论