


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅谈汉字特征字母及其提取规那么所谓特征字母,是指那些最能表征汉字轮廓特点的汉字字母。人们看到一个汉字时,一般首先注意到的是它的轮廓特征,然后才是它的局部细节。这就是汉字的认知规律。从图形识别的角度来看,汉字认知更加注重轮廓性和整体性,字形的细微变化并不会给汉字认知造成多大影响。因此,特征字母一定是构成汉字轮廓的汉字字母。研究发现:人们通常是从汉字左上角开始,沿着顺时针方向扫描汉字轮廓的见以下列图。因此,最能表征汉字轮廓特点的特征字母,首先是构成汉字左上角的汉字字母,其次是构成汉字右上角的汉字字母,再次是构成汉字右下角的汉字字母,最后是构成汉字左下角的汉字字母。左上角一右上角一右下角一左下角对于
2、左右构造的汉字来说:左上角特征字母通常就是字首首字母第一个字母角特征字母通常就是字身首字母;右下角特征字母通常就是字身末字母最后一个字母左下角特征字母通常就是字首末字母见以下列图。磁)字首首字置字首末字母因此,左右构造汉字的特征字母依次是字首首字母、字身首字母、字身末字母和字首末字母。对于上下构造的汉字来说:左上角特征字母通常就是字首首字母;右下角特征字母通常就是字身末字母;右上角特征字母有时是字首首字母如“京字,有时是字首末字母如“简字,有时是中间字母如“雪字,难以确定;左下角特征字母有时是字身首字母如“四字,有时是字身末字母如“全字,有时是中间字母如“罢字,同样难以确定。对于多数上下构造的
3、汉字来说,人们通过一次扫描还无法辨识出汉字,还要进展第二次扫描,即扫描字身左上角和右上角,扫描的角度较第一次要小些。字身左上角特征字母通常就是字首首字母,而字身右上角特征字母的位置那么难以确定见以下列图。字首首字£字身首字母f15字身未字母因此,上下构造汉字的特征字母依次是字首首字母,字身末字母和字身首字母。正因为上下构造汉字的辨识需要进展两次扫描,所以,人们辨识上下构造汉字所花费的时间要比辨识左右构造汉字要多些;正因为上下构造汉字的特征字母为3个,比左右构造汉字的特征字母数量少1个,所以,人们对上下构造汉字辨识的错误率比上下构造汉字要高些。这就是在汉字构造类型中,左右构造汉字数量占
4、绝对优势的原因见下表。7785个常用汉字构造类型的统计数据:构造类型独体上下左右包围字数323P164875055754占总字数百分比%对于半包围构造汉字,其特征字母的提取类似于上下构造汉字或左右构造汉字。对于全包围构造汉字,仍然需要进展两次扫描,第一次是对汉字外轮廓的扫描,第二次是对汉字内轮廓的扫描,第二次扫描角度较上下构造汉字要大些见以下列图。字首R字母字身首字母47字身末字母第一次扫描提取的特征字母是字首首字母和字首末字母,第二次扫描提取的特征字母是字身首字母和字身末字母。因此,全包围构造汉字的特征字母依次是字首首字母、字首末字母、字身首字母和字身末字母。正因为全包围构造汉字的辨识需要进
5、展两次一样角度的扫描,所以,人们辨识全包围构造汉字所花费的时间甚至比辨识上下构造汉字还要多些;正因为全包围构造汉字的特征字母为4个,与左右构造汉字的特征字母数量一样,比上下构造汉字的特征字母数量多1个,所以,人们对全包围构造汉字辨识的错误率比上下构造汉字要低些,与左右构造汉字大体相当。这就是在汉字构造类型中,全包围构造汉字数量比较少的原因。对于独体字,其特征字母是独体字的首字母和末字母见以下列图。虽然特征字母只有两个,比其他构造汉字都要少些,但是,独体字的笔画数普遍较少,两个特征字母足以反映其轮廓特征。对两个特征字母的扫描识别速度显然比其他构造汉字要快些。这就是独体字汉字的第1个特征字母应当是
6、字首首字母,第2个特征字母应当是字身末字特别容易识记、识别速度最快的原因。综合起来看,母,因为这两个特征字母最能反映汉字的轮廓特征,无论是什么样构造的汉字,它的首字母和末字母都是极易确定的。汉字的第3个特征字母应当是字身首字母,因为它除了可以反映汉字的外部轮廓特征之外,还能反映汉字的内部构造特点。不过,独体字是没有字首和字身之分的。为了统一规那么,我们仿照们将独体字的第一个汉字字母视为字首,将其余汉字字母视为字身,这样一来,独体字也是由字首和字身两个局部组成的。特征字母的提取,应当遵循以下原那么:假设是提取汉字的一个特征字母,应当提取其字首首字母;假设是提取汉字的两个特征字母,应当提取其字首首
7、字母和字身末字母,或者提取其字首首字母和字身首字母;假设是提取汉字的三个特征字母,应当提取其字首首字母、字身首字母和字身末字母。下表列出了5654个常用汉字特征字母组字次数的统计数据:汉字字母12345678字首首字母r5311004475330957118214707001字身首字母3851252646260985939589547字身末字母643503176113410814161071584根据表中统计数据,制作成以下坐标图便于比较:观察上述坐标图发现:字首首字母的组字次数分布折线波动幅度最小,其最大波幅出如今2一画竖和6两画竖上,这说明字首首字母中所包含的竖笔最多;字身末字母的组字次数分布折线波动幅度最大,其最大波幅出如今4一画捺和8两画捺上,这说明字身末字母中所包含的捺笔含点最多;字身首字母的组字次数分布折线波动幅度居中,其最大波幅出如今2一画竖和5两画横上,这说明字身首字母中所包含的竖笔和横笔最多。从前面分析中,特征字母的组字次数分布折线波动越小,由这些特征字母所组成的词语字母组合的区分度就越高,用术语来说,就是这些词语字母组合的重码率就越低。因此,特征字母首选字首首字母,次选字身首字母,后选字身末字母。然而,鉴于字首首字母就是整个汉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京农大动物生物化学课件
- 《现代物理发展概述》课件
- 教师培训课件:语文学习的理论探讨
- 焊接技术入门课件:基础理论及实践操作
- 中医养生与保健浅谈
- 2025年浙江省公务员行测B类真题及答案
- 3.LTE系统关键技术:MIMO
- 3G WCDMA核心网 (分组域)介绍
- 《合作伙伴激励》课件
- 《建筑施工中的铝模技术》课件
- 湖北省武汉市2025届高中毕业生二月调研考试数学试题及答案
- 扬州酒店行业分析
- 护理亚专科工作汇报
- 动态血糖管理-动态血糖监测CGM
- 2023年江苏无锡市初中学业水平考试地理试卷真题(答案详解)
- GB/T 4744-2013纺织品防水性能的检测和评价静水压法
- GB/T 24267-2009建筑用阻燃密封胶
- 2022年陕西省高中学业水平考试政治题(原题)
- 一带一路论文参考文献(70个范例参考),参考文献
- 销售谈判技巧课件
- 无锡鼋头渚课件
评论
0/150
提交评论