




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在设计领域中,许多问题都涉及到人类的视觉心理感受。目前,由于这些问 题必须要人的介入才能解决,就大大限制了设计的自动化进程。因此如何将这些 感性认识转化为计算机能够处理的定量信息,是一个值得探索的课题。 。本研究汉字印刷字符视觉心理尺度评价,其目标就是要寻找一种工程的手段 来解决评价汉字直观大小,这一通常被认为纯粹属于感性认识的问题。通过对已 有算法的分析,本文提出了一种新的汉字视觉心理尺度评价方法矩心特征 法。本方法将汉字的视觉心理尺度这一连续的、无法用物理量直接分析评价的问 题进行离散化,利用模式识别的手法加以研究。根据形状知觉尤其是汉字知觉的 心理法则,抽取汉字字符的黑点数、零次心距、一次心距、二次心距作为评价汉 字字符视觉心理尺度的依据,利用人工神经网络来构造边界,从而将汉字字符分 为“偏大”、“适中”和“偏小”三类。本方法以人类视觉心理本质为出发点,因 此从根本上克服了原有算法的不足。同时,实验也证实了本方法对于汉字印刷字 符视觉心理尺度评价的有效性。本研究的成果对于汉字字符设计具有重要的意 义,此外,也将对类似心理量的工程性处理产生一定的启示作用。 关键字 心理尺度有效特征心距模式识别神经网络 一一 。一 a bs t r a c t i nt h ef i e l do fd e s i g n i n g ,t h e r ea r es e v e r a l p r o b l e m sr e l a t i n g t ot h ev i s u a l p s y c h o l o g yo f h u m a n b e i n g s t h ed e p e n d e n c e o nt h ej u d g e m e n to f e x p e r t sw i l ls l o w d o w nt h e p r o c e s s o f d e s i g n i n g h o w t os o l v es u c h p r o b l e m sb yc o m p u t e r a u t o m a t i c a l l y ? t h a t w i l lb ea9 0 0 d q u e s t i o n t h i sr e s e a r c hf o c u s e so nt h ee v a l u a t i o no fp r i n t e dc h i n e s ec h a r a c t e r s v i s u a l p s y c h o l o g i c a ls c a l e ,w h i c hm e a n st o f i n daw a yt oe v a l u a t et h es c a l eo fc h i n e s e c h a r a c t e r sb y c o m p u t e r a f t e rd i s c u s s i n gs o m ea l g o r i t h m s ,w ec o m eu pw i t ho u rn e w m e t h o d c e m m ld i s t a n c e sa sv a l i df e a t u r e s t h ev i s u a lp s y c h o l o g i c a ls c a l eo f c h i n e s ec h a r a c t e r si sc o n t i n u a l ,w h i c hc a nn o tb ea n a l y s e dw i t hp h y s i c a lq u a n t i t y d i r e c t l y f o rt h i sr e a s o n ,t h en e w m e t h o di st od i s p e r s et h ep r o b l e ma n ds t u d yi t b y m e a n s o f p a t t e r nr e c o g n i t i o n d u r i n g t h ec o u r s ew ee x t r a c t e ds o m ef e a t u r e sw h i c hc a n r e f l e c tt h ev i s u a l p s y c h o l o g i c a ls c a l eo f c h i n e s ec h a r a c t e r s ,s u c ha ss u mo fb l a c k p o i n t s ,c e n t r a ld i s t a n c ed e g r e e0a n ds oo n a n dt h e n , b o u n d a r i e sw e r ef o r m e db ya n e u r a ln e t w o r k s ot h a tw ec a nd i v i d ec h i n e s ec h a r a c t e r si n t ot h r e ec l a s s e s b i g g e r p r o p e ra n ds m a l l e r o u rr e s e a r c hb a s e do nt h ee s s e n c eo fv i s u a lp s y c h o l o g y , w h i c h e n t i r e l yg o t o v e rt h el a c ko ft h ee x i s t i n g a l g o r i t h m s f u r t h e rm o r e ,t h er e s u l to f e x p e r i m e n t sh a sa l s op r o v e dt h ev a l i d i t yo f t h en e wm e t h o d t h ef r u i to ft h i sr e s e a r c h w i l lb e s i g n i f i c a n ti nd e s i g n i n g o f c h i n e s ec h a r a c t e r s m o r e o v e gi tm a yb ear e f e r e n c e t oa l lt h es i m i l a rp r o b l e m s k e y w o r d s p s y c h o l o g i c a ls c a l e v a l i df e a t u r e sc e n t r a ld i s t a n c e p a t t e r nr e c o g n i t i o n n e u r a ln e t w o r k 第一章绪论 1 1 问题的提出 第一章绪论 汉字由产生而沿用至今,已有数千年的历史,它对中华民族的统一与文明发 展有着不可磨灭的贡献。而语言文字信息处理与模式识别技术是近十几年发展起 来的新学科,也同样会影响到中华民族的未来发展。 自电子计算机问世以来,对人类社会、科学,以及文化的发展起着巨大的作 用,尤其是在语言文字信息处理与模式识别领域,其影响更为重大,从而对人类 社会的其它领域都产生了链式作用。语言文字信息处理,或者说中文信息处理, 这门科学技术是以计算机科学、语言文字学、历史学、心理学、逻辑学、生物学、 数学、物理学、电子学、声学、光电学、信息处理技术与通信技术等各种学科为 基础而综合发展起来的,而且还在发展中不断完善。中文信息处理技术将推动我 国的信息处理产业的进一步发展,这是不容忽视的。 有人说,新能源、新材料和信息是构成当今物质社会的三大要素,而信息则 是这三大要素的基础和先导。那么,中文信息处理技术在我国就应该是信息科学 的基础和先导,因而中文信息处理和模式识别引起了广大研究人员的注意。由于 我国社会中需要处理的信息绝大多数为汉字信息,而目前的计算机内部机制对汉 字不具备良好的适应性,汉字的输入、输出与处理都比较困难。而倘若计算机中 文信息处理这个问题得不到合理的解决,势必会影响各行各业都实现计算机现代 化管理这一目标,形成阻碍我国经济进一步发展的瓶颈。所以说,发展计算机中 文信息处理技术的需要最为迫切。对于模式识别来说,作为人工智能的一个分支, 已成为当代高科技研究和应用的重要领域之一。就模式识别发展的必要性来说, 随着计算机硬件的不断发展,其应用领域不断拓展,迫切要求计算机能更有效地 感知诸如声音、文字、图像、温度等人类赖以发展自身、改造环境的信息资料。 所幸,这一问题已引起广大研究人员的注意,在过去的十几年中已投入了大量的 人力、物力从事计算机模式识别的理论研究和实际应用,并在国民经济、国防建 设、社会发展和人民生活等各方面得到了一定程度的应用。 在我国,既涉及中文信息处理技术,又属于模式识别范畴、具有实用价值的 新兴学科,例如汉字识别、笔迹鉴定等,正引起越来越多的关注。相比较而言, 目前对于汉字视觉心理尺度评价这一课题的研究则显得较弱,成果不多,因此有 必要对其作进一步的研究和探讨。 第一章绪论 1 2 汉字视觉心理尺度研究的意义 在设计领域中,许多问题都涉及到人类的视觉心理感受,例如,色彩的和谐, 大小的均衡,风格的统一等等。因而对于这类问题,往往离不开人类的介入才能 解决。正因为人类的干预,就形成了系统自动化的瓶颈。这种干预的依据来自人 类对外部世界的认识与判断这一心理过程的结果。因此如何将这些感性认识转化 为计算机能够处理的定量信息,是一个值得探索的课题。 本研究汉字视觉心理尺度评价,正是汉字字符自动设计的瓶颈所在。一般, 汉字的字符设计过程主要分两个步骤:首先是单个字符的结构设计,然后则是字 符间大小的均衡。对于单字设计的自动化,可以用阶层分解合成法来解决j 。而 对于字间平衡过程,如果完全用人工手段的话,那么由于受周边字符的诱导作用, 会对该汉字视觉心理尺度产生影响,随着字数增多,信息处理工作量按指数规律 增长,这对于有庞大字数的汉字系统来说是无法穷尽的工作,几乎不可能作出至 善的均衡。因此寻找一种工程的手段来解决汉字视觉心理尺度评价的问题,实现 字间平衡的自动化,使至善的均衡成为可能,这对于字符设计具有重大的工程意 义。更重要的是,汉字视觉心理尺度自动评价问题的解决,将对类似心理量的工 程性处理产生一定的启示作用。 1 3 现有算法及存在问题 关于汉字的直观大小,日本学者较早展开了研究,曾经提出过几种评价的方 法,其中主要有扩展量法【2 】【3 】和扩展量一复杂度相关法4 1 两种算法。 1 3 1 扩展量法 这种方法首先将汉字视为平面上随机分布的黑象素的集合,从而引入了扩展 量( 仉) 这一概念。这里的扩展量指的是整个汉字字符对字符重心的标准方差, 即: 0 1 2 m = 位喜辜罴篮嚣纂 2 第一章绪论 其中,a r ,a y 表示汉字字符的重心位置。 该方法认为,汉字的直观大小吼,因此可以通过计算吼,根据其数值来 判断汉字的大小。但是,从实验结果( 图1 1 ) 来看,扩展量法并没有取得良好 的效果。很显然,象“永i 这样的放射状的汉字,由于黑象素点大量集中在中心, 其f 【o q ) 2 + ( y 一日,) 2 v ( x ,y ) d x d y 值自然偏小,因此,这里大小“适中”的放 射状汉字从实际视觉效果来看是明显偏大了。 避一学蕞 代永阕二 第会嵌夕 丁回口工 图11用扩展量法判断出的具有相同视觉心理尺寸的汉字 实质上,扩展量法的问题就在于汉字黑象素点的分布并不满足该算法所要求 的随机分布。前提得不到满足,结果自然就会出错。 1 3 2 扩展量一复杂度相关法 扩展量一复杂度相关法是对前种方法的修正。针对扩展量法将汉字作为随 机分布黑点的错误,该算法修改了扩展量的定义。该算法视汉字字符的外接凸多 边形为其势力范围( 图1 2 ) ,定义这个凸多边形相对字符重心的标准方差为扩展 量( 仃2 ) ,即: 0 2 2 m 川= 艨是壤筹器戮萋昌鼻 同样,a x ,钆表示汉字字符的重心位置。 第一章绪论 图12“永”字的势力范围 同时,再引入复杂度( c ) 的概念,具体定义如下 c : 垒 , m m ( ( x ,埽) r f = z 。一x 。, = y 。一y m i 。 其中,s v 表示笔画总长,x 。、x m i 。、y m 。、y 。则分别表示汉字字符 的最右、最左点的横坐标,和最高、最低点的纵坐标。 阪夕 f i i 长 ; 疚 。 7 加2 5 扩晨量葛 柏 5 图13 复杂度c 与扩展量c r 2 的关系 作出所有汉字在扩展量一复杂度平面中的分布,发现分布趋于线性,因此认 为,具有相同视觉尺寸的汉字应分布在一直线上( 如图1 3 ) 。 但是,直观大小相同的汉字的复杂度与扩展量之间的线性关系只是简单分析 推测的结果,并没有得到严格的证明。实际上,汉字视觉心理尺度不是用简单的 物理量可以衡量的,而是受到多维的、非线性的制约,因此,扩展量一复杂度相 关法的识别结果同样不尽人意( 如图1 4 所示) 。 4 。 熟州:,。 第一章绪论 月次 犬辞 元 撤 口视 图14 扩展量一复杂度相关法的识别结果 夕蟓 欲挨 理拶 里床 迁穗 良窍 力更 北楼 建之 央惩 总之,扩展量法和扩展量一复杂度相关法由于各自的缺陷而不能彻底解决汉 字视觉心理尺度评价的问题。而更关键的问题在于,这两种方法都未能揭示汉字 直观大小的视觉心理学本质。 1 4 本研究提出的方法 与以往的算法不同,本研究从影响汉字尺度的人类视觉心理本质出发,揭示 汉字视觉大小与笔画分布的关系,提出矩心特征法以解决汉字字符视觉心理尺度 的评价。 所谓矩心特征法就是以汉字字符的黑点数及各次心距为输入特征,用模式识 别的手段来评价汉字直观大小的一种方法。简单地说,本方法首先选取一定数量 字形各异的汉字作为样本,凭实际视觉心理感受将采样样本分为“偏大”、“适中”、 “偏小”三类。然后以各样本的特征量为输入,以人为评判的结论作为期望输出 窖闭御迎 毹旬八凳百部文鞭本目 通关田雹登土同_一日入 村太代大第谷和左丁丧 出信人正西音彀千运缝 工告再十算事 久完牛玉空经 回海界各格学斡阁起凝固一永健科火花荷遏会 第一章绪论 构造一个b p 人工神经元网络,利用该网络,即可实现对汉字字符直观大小的分 类。 1 4 1矩心特征法汉字视觉心理尺度评价的实现原理 在本研究中,我们采用模式识别的手段对汉字视觉心理尺度加以评价,因此 对于如何解决这一问题,可以用模式识别的研究方法加以解释。 模式识别从数学上来说是寻找一种从模式空间到类空间的多对一的映射关 系;本研究也遵循这一规则,是寻找一种从汉字字符空间( 模式空间) 到尺寸分 类空间( 类空间) 的多对一的映射关系【5 j 【6 j f 7 l 。 模式空f 司特征空间( 1 ) 特征空间( 2 )类空间 图i 5 本研究方案实现原理示意图 如图1 5 所示,在模式空间中各个类的模式所处的位置存在很大的随机性, 不能很好聚类,因此,必须抽出对分类有效的特征张成特征空间,使各模式在特 征空间中重新排列,更好地聚类。从模式空间到特征空间( 1 ) 的映射、从特征空 间( 1 ) 到特征空间( 2 ) 的映射就是特征提取的过程。该过程不改变模式总数,而只 改变模式在空间的排列。由图可知,特征空间( 2 ) 中各类模式相应的位簧分布已 经彻底分离,完全实现了分类。最后通过特征空间( 2 ) 到类空间的映射就能实现 汉字字符的视觉心理尺度评价了。 1 4 2 矩心特征法汉字视觉心理尺度评价的流程 本研究采用的是模式识别的方法,那么,它同样具有模式识别研究所常有的 系统实现过程。图1 6 显示了模式识别研究的一般流程刚9 】【1 0 1 。 第一章绪论 1识别对象的观测输入 图16 模式识别系统框图 本研究中的识别对象是以位图文件的方式输入的。首先利用w i n d o w s 的“画 图”工具将需要识别的汉字字符制作成1 0 0 1 0 0 象素的b m p 文件。然后对该b m p 文件作进一步的处理。因为尚处于研究阶段,而非实用阶段,还不要求海量的数 据,因此先采用这种速度慢,但处理简单的输入方式。否则,可以采用扫描仪将 识别对象输入计算机,这样,噪声的产生就不可避免。使得预处理工作加重。而 本研究的关注点并不在于此,因此就选择这种易于处理的输入方式。 2 、识别对象的预处理 本研究所涉及的预处理非常简单,只需要对图像进行数值化处理就可以了。 由于输入图像中无噪声,而且只存在黑白两种象素点,这样就不必消除噪声,也 不必设置闽值,只要直接令图像中的自象素点为0 ,黑象素点为l ,即准确地构 成该汉字字符所对应的二值矩阵。 3识别对象的特征提取 在预处理之后,就是对识别对象提取有效的特征。特征提取这一过程是整个 研究的关键所在,其成败就是取决于所取的特征是否有效。所以应该将更多的精 力化在特征提取的过程中,即使不可避免地采用多层特征提取映射的方法,基本 的出发点是不变的,总是寻求最有效的,与研究闯题最相关的特征。 根据汉字字符的方形的外部特征,本研究以方环为基础,提取了汉字字符的 黑点数以及各次心距作为反映汉字视觉心理尺度的有效特征。 另外,必须指出的是,本研究中所提取的各特征量中,各次心距的值受制约 于文字的重心相对于方环几何中心的偏心率,随着重心偏心率的提高,各次心距 作为反映文字视觉心理尺度的特征量的有效性将降低。但根据统计研究,可以证 实绝大多数汉字印刷字符的重心与几何中心几近重叠,只有极少数本身偏侧的汉 第一章绪论 字,如“广”、“厂”、“门”等,它们的重心与几何中心有较大偏离1 。因此本研 究是以零偏心率为前提的,未将字型偏侧的汉字考虑在内,但是,这将成为今后 研究的工作。 4识别对象的特征匹配 目前而言,特征匹配过程主要包括相似性度量和人工神经元网络两种实现方 法f 1 2 j f l 川1 1 “。 相似性度量是目前应用最为广泛的特征匹配方法。该方法直接以各样本点的 集合所构成的区域表示决策区,并以特征空间距离作为样本相似性度量的重要依 据。常用的特征空间距离函数主要要包括:m i n k o w s k y 距离、m a n h a t t a n 距离、 e u c l i d e a n 距离( 欧氏距离) 等十余种,其中最为常用的是欧氏距离。对于识别 对象与辞书的匹配,包括几种不同的方法:若识别对象在辞书库中具有唯一的标 准样本,则用普通的欧氏距离即可;若是识别对象具有多个分散的标准样本,则 可视情况而采用不同的方法,如样本平均法、距离平均法、最邻近法及m 近邻 折衷法等l l “。 而人工神经元网络作为一种较新的分类方法,在人工智能方面已经取得了较 多的应用场合 1 6 1 1 7 j 1 s l 。在汉字字符视觉一t l , n 尺度评价的研究中,同样采用这种 方法。其具体过程主要是把先前提取的特征量作为神经网络的输入,把分类结果 作为输出,然后根据各个采样样本的特征值让神经网络进行大量的学习,直至其 内部各节点函数的权值保持稳定。神经网络学习的结果就构成了模式识别的辞书 库。随后,将待测字符的有关特征量输入,输出的就是对该字符视觉心理尺度评 价的结果。 1 5 本文工作安排 首先,在第二章中,我们从人类视觉的形状知觉理论出发,分析影响汉字字 符视觉心理尺度的因素。在此基础之上,第三章中对能够反映汉字字符直观大小 的有效的特征量进行提取,并通过对采样样本的各特征值的分析,验证这些特征 量的有效性。第四章是构造实现汉字字符视觉心理尺度评价的b p 网络的具体过 程。在第五章中通过实验来分析本基于矩心特征法的汉字视觉心理尺度评价的正 确性。第六章作出结论,并且展望了今后的工作。 第二章影响汉字视觉心理尺度的因素 第二章影响汉字视觉心理尺度的因素 汉字的字体设计中包括字的结构,比例,笔调,动势、均匀和重心等因素, 在解决了这些问题之后才能达到紧凑、挺拔、整齐、匀称、美观大方和风格统一 的理想境界【1 9 】。外形轮廓大小、复杂度或笔画分布的不同都会引起汉字字符 视觉大小的差异。 2 1 汉字字符的外形轮廓 一般来说,图形的外形轮廓越大,自然看起来也显得越大。那么,对于汉字 来说,如何界定其外轮廓呢? 我们知道,汉字俗称方块字,它们的外部形象是矩 形。那么是否可以将字符的外接矩形的作为它的外轮廓,简单地依据外接矩形的 面积来衡量汉字字符的直观大小昵? 对于宋体字来说,大部分视觉心理尺度相当的汉字字符的外接矩形的大小还 是比较接近的,但也有因为汉字的结构、笔画而造成的差异。如图2 1 ( b ) 所示, 当“口”字和“馨”字充满同样大小的方框时,从视觉效果来看,“口”字明显 比“馨”字大了许多。因此,汉字外接矩形的大小与其视觉心理尺度有关,但不 能简单地将它作为衡量汉字视觉心理尺度的唯一标准。 口馨目囡 ( a )( b ) 图2 1 外接矩形与字符视觉心理尺度的关系 ( a ) 具有相同心理尺度的“口”字和“馨”字; ( b ) 具有相同大小的外接矩形的“1 5 1 ”字和“馨”字。 2 2 汉字的复杂度对视觉尺度的影响 所谓复杂度,就是指汉字笔画的多少。相对来说,如果外轮廓大小相同的话, 笔画较少,也就是复杂度较低的字,显得大;反之,笔画较多、复杂度较高的字, 9 _ ,_ _ h _ p _ _ 一一 第二章影响汉字视觉心理尺度的因素 显得小。将简化字和繁体字作一番比较,就会有这种感受( 图2 2 ) 。 宝寅为稳 梦萝与舆 图2 2 简化字与繁体字的视觉心理尺度比较 这可以用视觉心理学的邻近性原理1 2 0 1 来解释。根据邻近性原理,眼睛观察 图形时,会自觉地将互相靠近的成分组织起来。举例来说,对于空间分布的散点, 位嚣相近的容易被合成一组。如图2 3 所示,( a ) 组各点之间横竖距离相等,看起 来组成方格;( b ) 组各个散点在水平方向上比较接近,因此,看起来形成横行: 而( c ) 组各个散点在竖直方向上比较接近,因此,看起来形成直列。 图2 3 视觉组织的邻近性原理 ( c ) 那么,对于汉字来说,字符的复杂度越高,笔画越多,笔画之间的距离就越 接近,由于视觉的自觉组织能力,整个字符就显得越黑,从而造成视觉上的收缩 感,因此,字符相对就显得比较小。 2 3 汉字的笔画分布对视觉尺度的影响 观察图2 4 所示的两个图形,可以感受到:发射线状的图形由于四周白领域 楔状挤压感而显得比实际小,反之,封闭型的图形由于内部白领域的扩张感而显 1 0 第二章影响汉字视觉心理尺度的因素 得比实际大。 田回 图2 4 放射型图形与封闭型图形 同样,对于汉字来说,放射型的汉字,如“十”、“永”、“米”等,给人以向 中心收缩的感觉;而“口”,“日”、“田”等封闭型的汉字则给人以向外部膨胀的 感觉。因此,对笔画分布具有如此特点的两种汉字,要取得等大的视觉心理尺度, 前者应比后者写得更加舒展。 口田因国圆 图2 5 外轮廓大小不一的封闭结构汉字 现在我们再来分析封闭结构的汉字。如图2 5 所示的几个汉字同样都是封闭 型的,但由于内部自领域依次被分割而减弱了扩张感,为了取得等大的视觉感受, 就应该依次对它们的外轮廓作适当的放大。 2 4 小结 汉字的直观大小实质上是与人类视觉心理相关的概念,是无法用简单的物理 量来判断的。首先,文字作为一种图形,其直观大小受一般图形视觉心理法则的 支配: ( 1 )汉字字符的复杂度越高,笔画越多,整个字符就显得越黑,造成向内收缩 的视觉感受,因此,相对笔画简单的汉字来说,为了获得等大的视觉感受, 笔画多的汉字的外轮廓应适当放大。 ( 2 )放射型的汉字,如“十”等,由于四周白领域的扩张感,造成整个字符显 得向中心收缩,因而从视觉感受来说比实际外轮廓小:而有封闭白领域的 汉字,如“口”等,由于内部白领域的扩张感,而显得比实际外轮廓大。 故而,对于这两种字符,为了取得等大的视觉感受,前者的外轮廓应比后 第二章影响汉字视觉心理尺度的因素 者大许多。 ( 3 )n n n n p d n n 字,如“口”、“田”、“国”等,随着内部笔画的增多,内 部白领域被分割而削弱了扩张感,为了取得等大感,就应依次适当放大。 同时,汉字又不同于普通的图形,对汉字视觉尺度的感受还受到人们的文字 处理习惯,尤其是字体设计师心理定势作用【2 2 j 的支配: ( 1 )即使文字黑白逆转,仍在很大程度上保持上述倾向。 ( 2 1印刷字符应更充实整个矩形字框,故对角方向笔画也应更加舒展。 ( 3 )有些字,如“心”、“的”、“也”等,人们往往习惯将它们写得比较小一些 或扁一些,这种倾向在手书中更为明显。 根据以上的分析,本研究提出了将基于方环的、能反映上述规律的特征集作 为汉字视觉心理尺度评价的依据。再考虑到人类心理定势的作用,对汉字视觉心 理尺度的评价仍然离不开人的介入,因此采用取样的方法,人为地对样本作出评 价,以此为依据使其它汉字字符得到正确的评价。接下来,我们就讨论如何提取 有效的特征集。 第三章特征量提取 第三章特征量提取 汉字视觉心理尺度既是连续变化的,又具有多维的、非线性的制约,难以用 简单的分析方法加以评价。故本研究提出基于矩心特征法的汉字视觉心理尺度评 价。本方法拟将汉字分为“大”、“中”、“小”三类,用模式识别的手段加以评价。 为了保证识别的效果,首先要做的就是提取能够反映汉字字符直观大小的有效的 特征量。为了保证足够的精度,本研究选用7 2 号宋体字作为识别的对象。 3 1 同心方环的选用 按照宋体字的书写规范,绝大多数宋体字呈现出方块或类方块的形状特征, 如方形、菱形、三角形、梯形等。根据汉字字符的这一特点,将它分成若干个同 心方环,以方环为单位考察黑点的分布情况以获得能反映汉字视觉心理尺度的特 征量。 如图3 1 所示,将7 2 号宋体字分割成5 0 个同心方环,由内向外依次赋予序 号:i = 1 ,2 ,3 ,5 0 。 r 1 l 卜 r 5 0 图3 1 计测用方环 3 2 与汉字笔画分布有关的物理量 在提取特征量之前,有必要先定义一些与汉字笔画分布相关的物理量。 黑点数( s u m ) s u m 表示汉字字符笔画的总象素数。一般笔画越多,s u m 的值就越大。 第三章特征量提取 2 黑点分布( x ) x ( 卢1 ,2 ,3 ,5 0 ) 分别指分布在各个方环上的黑点数。 3 1 1 次矩分布( 协,) 巩。= x ,i “,( 卢1 ,2 ,3 ,5 0 ) ,即各方环上黑点数x 与其中心距的n 次方,这二者之积的分布。 下面以“揖”字为例,进一步说明上述定义( 图3 2 ) 。 工口 弭 ( a ) 。| | | | |f|fi| ( b )( c ) 图3 2“揖”字的各种分布图 ( a ) 黑点分布;( b ) 一次矩分布;( c ) 二次矩分布。 3 3 特征量的抽取 基于汉字视觉心理尺度的机制,本研究抽取了以下4 个量作为汉字视觉尺度 评价的特征值。 特征l :黑点数( s u m ) 同上一节中的定义,黑点数就是汉字字符中包含的总象素数,这个物理量直 接关系到汉字字符的重量感,多数情况下,s u m 的值越大,汉字的视觉心理尺度 1 4 第三章特征量提取 也越大。 特征2 :零次心距( 而) s 0 ( x ,f ) m 。= 舅百一,相当于整个黑点分布离原点的平均距离。 x , 零次心距关系到汉字字符的笔画分布,笔画越相对分布于外围, 而的值也 越大,一般汉字的视觉尺度也有增大的趋向。 特征3 :一次心距( m 1 ) ( d i 厂f ) 4 = 型百一,相当于整个一次矩分布离原点的平均距离。 d u 特征4 :二次心距( 以) 5 0 ( f ) m 2 = 型万一,相当于整个二次矩分布离原点的平均距离。 d 。,。 一次心距和二次心距的意义与零次心距类似,但对外围黑点加以更大的权 值。同样,还可以进一步提取三次心距、四次心距等高次距,但由于加权系数, 影响过大,反而削弱了字符本身黑点分布的作用,因此不适于作为评价汉字字符 直观尺寸的依据。 3 4 数据分析 根据以上的讨论可以确定,黑点数、零次心距,一次心距,二次心距这些特 征值都是与汉字字符的视觉心理尺度相关的。下面我们通过实验进一步分析它们 之间的具体联系。 第三章特征量提取 3 4 1样本的视觉心理尺度评价 要研究各个特征值与汉字字符直观大小之间的关系,必须要选取一定的样 本,通过对样本数据的分析,找出评价汉字字符视觉心理尺度的有效方法。 前文已经指出,本研究是以汉字字符的零偏心率为前提的,因此不选择本身 偏侧的汉字作为样本。为了保证对其它汉字字符识别的准确性,所选样本中必须 包含各种字形特征。我们选取了6 4 个字形各异的测试样本进行实验分析,包括 上下( “字”、“要”) 、左右( “幼”、“晴”) 、三段( “弼”、“谢”) 、半包围( “风”、 “道”) 、全包围( “口”、“国”) 等各种结构,笔画也有少( “一”) 有多( “囊”) 。 同时,选择没有明显个性,视觉尺度适中的“揖”字作为参考样本,每个样本汉 字只与周围八个参考样本作比较,防止周边诱导作用而产生错觉,以确保对它们 大小评价的有效可靠。图3 3 显示的是部分缩小了的测试样本,实际的样本尺寸 为7 2 号。 揖揖揖揖揖揖揖揖揖 揖照揖菊揖旭揖金揖 揖揖揖揖揖揖揖揖揖 揖风揖品揖乃揖王揖 揖揖揖揖揖揖揖揖揖 图3 3 汉字采样样本 据此,由多位协助者对6 4 个汉字样本的大小进行评价,经统计归纳,将它 们分成“偏大”、“适中”、“偏小”三类: 偏大“乞”、“酾”、“勺”、“回”、“幼”、“弼”、“武”、“乃”、“囊”; 适中“一”、“北”、“鼎”、“翕”、“口”、“日”、“田”、“国”、“十”、“宇”、 “直”、“请”、“顺”、“谢”、“需”、“普”、“要”、“敬”、“地”、“鸾”、 “马”、“蕃”、“丙”、“馨”、“中”、“明”、“医”、“宁”、“大”、“禁”、 “喜”、“平”、“妙”、“尺”、“道”、“心”、“曾”、“其”、“周”、“西”、 “照”、“菊”、“旭”、“金”、“风”、“品”、“王”、“吕”、“林”、“揖”; 偏小“乡”、“章”、“介”、“食”、“衣”。 3 4 2 特征值与汉字视觉心理尺度的关系 首先,计算出6 4 个样本的所有特征值,并对每个采样样本根据以上的评判 结果赋予不同的符号( 如表3 1 所示) ,然后通过作图分析这些特征值与汉字视 觉心理尺度的关系。 1 6 第三章特征量提取 样本黑点数零次心距一次心距二次心距符号 ( s u m )( m o )( m 1 )( m 2 ) 1 2 92 6 9 8 4 53 2 6 9 3 23 5 0 0 5 0( 适中) 北1 3 9 9 2 6 3 7 3 83 0 4 9 5 3 3 3 1 5 7 1( 适中) 鼎1 7 5 5 2 7 0 0 1 7 3 0 1 3 7 33 2 1 7 4 l( 适中) 乞1 1 9 4 2 7 5 7 1 13 2 3 5 0 73 4 6 1 9 4 口( 偏大) 酾2 3 5 42 7 4 5 9 63 1 3 7 6 53 3 6 4 6 6口( 偏大) 勺9 3 l2 9 2 5 6 73 2 5 8 1 23 3 8 7 6 0 口( 偏大) 翕1 7 4 42 6 4 0 0 22 9 6 7 9 43 1 8 7 4 4i i o ( 适中) 乡 j 1 6 42 3 0 2 4 l2 7 1 9 5 4 3 0 3 3 7 0( 偏小) 口 8 5 l2 7 9 6 1 22 8 1 3 9 62 8 3 2 8 7 ( 适中) 日1 1 0 22 7 9 5 9 22 9 5 7 7 73 0 6 7 3 6 ( 适中) 田1 4 2 32 6 6 6 8 3 2 9 3 2 6 33 0 3 2 0 2( 适中) 国1 7 4 02 7 7 1 3 23 1 1 2 7 53 2 7 4 4 8 ( 适中) 十5 7 12 3 9 2 9 93 05 1 1 73 3 7 9 9 4( 适中) 回1 5 6 62 9 4 9 6 83 2 6 5 1 73 4 4 1 5 3 r n ( 偏大) 宇1 0 6 22 6 1 5 6 33 0 6 5 6 93 2 ,8 2 6 2 ( 适中) 直1 3 6 52 7 7 7 1 43 0 2 5 8 43 2 3 6 0 3 ( 适中) 幼1 6 6 02 8 4 5 3 03 1 3 5 7 33 3 4 1 9 8 口( 偏大) 请1 5 7 82 7 2 3 8 23 0 3 8 8 43 2 2 1 9 4( 适中) 顺 1 9 4 7 2 6 9 7 9 53 0 6 1 6 83 2 8 1 5 5( 适中) 谢1 9 2 52 6 s 1 7 93 0 0 3 8 33 2 2 1 7 6( 适中) 需1 5 9 52 6 9 8 3 l3 0 6 7 4 23 2 8 0 2 9( 适中) 童 1 2 7 42 5 3 7 1 32 8 1 7 7 23 0 3 4 9 9 ( 偏小) 监 1 5 3 52 6 2 8 9 32 9 7 0 1 83 2 1 2 3 5 ( 适中) 日 要1 6 9 72 5 5 6 6 92 9 0 1 3 63 1 2 5 2 l( 适中) 敬1 9 2 52 6 6 2 1 33 0 2 2 1 23 2 2 8 2 l ( 适中) 地1 7 5 62 6 9 1 2 93 0 4 8 7 03 2 6 5 5 6 ( 适中) 弼1 8 5 52 7 4 2 4 33 1 3 4 6 63 3 7 0 3 2 口( 偏大) 鸾1 4 9 22 5 8 6 1 32 9 3 9 6 63 1 7 2 5 5 ( 适中) 马1 1 2 52 7 5 8 9 33 1 0 0 3 33 3 2 6 2 3 ( 适中) 蕃1 9 1 02 5 0 7 0 22 9 0 9 0 63 1 6 0 5 7 ( 适中) 表31 采样样本的特征值 1 7 第三章特征量提取 样本黑点数零次心距一次心距二次心距符号 ( s u m )( m o )( m i )( m 2 ) 丙 1 3 9 62 6 4 9 6 43 0 2 2 9 43 2 0 2 7 l( 适中) 馨 2 2 5 02 6 4 3 5 63 0 0 7 0 83 2 3 5 9 8( 适中) 介 1 0 8 72 5 1 8 2 22 8 6 7 9 2 3 1 5 4 7 8( 偏小) 由 9 6 52 6 2 9 1 23 0 3 9 7 2 3 2 2 8 7 6( 适中) 明1 5 9 22 6 7 9 9 63 0 4 8 7 03 2 4 3 0 l ( 适中) 医1 5 5 22 7 1 4 8 23 1 1 5 4 73 3 2 1 0 9 ( 适中) 宁8 6 52 6 7 2 1 43 1 5 8 6 7 3 3 5 7 4 4( 适中) 大9 6 52 39 1 3 02 9 6 4 4 0 3 2 7 9 4 9( 适中) 食1 5 0 52 5 6 9 1 72 8 5 9 0 9 3 0 9 9 5 5( 偏小) 禁1 8 1 22 6 8 0 4 l2 9 8 7 5 2 53 2 0 9 1 9 ( 适中) 喜1 4 6 02 5 8 3 5 62 9 2 3 8 7 3 1 7 9 2 0( 适中) 皿 1 1 0 22 4 1 6 7 02 9 1 0 2 4 3 i 9 3 5 9( 适中) 妙1 7 3 52 6 1 5 7 32 9 5 9 9 6 3 1 9 4 l l( 适中) 尺1 0 9 32 5 8 0 5 12 8 8 9 3 8 3 0 8 4 0 9( 适中) 道1 6 5 82 7 9 8 5 53 1 2 5 9 l 3 3 1 5 1 8( 适中) 武1 6 0 82 7 5 8 8 93 l1 5 3 1 3 3 4 6 5 5口( 偏大) 心1 0 5 32 8 6 0 7 8 3 0 9 9 6 73 2 7 1 2 5( 适中) 曾1 4 7 12 6 4 9 2 92 9 4 5 7 2 3 1 3 7 2 0( 适中) 其1 4 3 12 5 9 0 5 7 2 9 3 8 6 03 1 9 7 1 l ( 适中) 周1 6 3 52 6 6 8 2 62 9 8 1 0 83 1 7 6 9 ( 3 ( 适中) 西 1 5 8 8 2 6 7 8 0 92 9 9 6 1 7 3 1 8 2 8 7( 适中) 衣1 3 8 42 4 9 7 1 l 2 8 4 9 8 03 0 9 5 4 5 ( 偏小) 照1 8 0 02 7 1 8 3 33 05 1 1 8 3 2 2 5 9 5( 适中) 菊1 8 8 42 5 7 5 5 3 2 9 6 6 3 03 2 0 7 1 2( 适中) 旭1 7 5 12 6 4 5 0 63 0 0 3 3 3 3 2 1 6 3 4( 适中) 金1 4 3 32 6 4 9 4 1 3 0 3 1 4 73 2 6 3 1 2( 适中) 风1 4 0 72 4 7 3 4 2 2 9 0 2 6 33 1 3 4 8 7( 适中) n 口1 3 9 0 2 6 9 7 2 72 9 9 8 1 73 1 8 9 9 6 ( 适中) 乃1 2 4 8 2 8 7 4 3 63 1 7 4 1 53 3 6 3 5 4 口( 偏大) 王8 9 72 4 6 4 6 6 2 9 6 6 3 l3 1 8 4 9 0( 适中) 表31 采样样本的特征值( 续) 1 8 第三章特征量提取 样本黑点数零次心距一次心距二次心距符号 ( s u m )( m o )( m 1 ) ( m d 吕 1 0 7 02 6 9 4 3 02 8 9 8 5 93 0 3 4 5 4( 适中) 林 1 7 5 82 5 1 4 3 92 8 7 7 4 73 1 4 8 7 9( 适中) 囊 2 2 4 72 6 4 1 0 83 0 1 9 9 93 2 7 1 2 3口( 偏大) 揖1 7 2 32 6 7 6 3 83 0 0 6 6 33 2 0 4 4 7( 适中) 表3 1 采样样本的特征值( 续) i 样本在各个特征值轴线上的分布 ( a ) 圃 圃 ( c ) ( d ) 图3 4 单个特征值与视觉心理尺度的关系 ( a ) 黑点数与视觉心理尺度;( b ) 零次心距与视觉心理尺度; ( c ) 一次心距与视觉心理尺度;( d ) 二次心距与视觉心理尺度。 从图3 4 可以看出,每一个特征值与视觉心理尺度之间都有定的相关性, 但并不存在单调关系,也就是说,只依靠一个特征值是无法将汉字正确分类的, 必须选择适当的特征值张成特征空间,可望对识别有效。 1 9 第三章特征量提取 2 样本在多维特征空间的分布 作出所有样本在几个特征值所构成的多维空间中的分布,观察它们在各个二 维平面中的投影( 图3 5 ) ,可以发现,大小相同的汉字在二维特征平面的投影明 显聚类,说明各组特征对分类的有效性。 ( a ) 圃 a 叩 ,, o 一噜- r + ;滞。 “。”。每勰距”。“” ( b ) | | _ _ f 。p 圃 5 4”4 巳蒜距 4” ( c ) 图3 5 样本在多维特征空间的分布 ( a ) 样本在s u m m o 平面中的投影分布:( b ) 样本在m o - m i 平面中的投影分布 ( c ) 样本在m i - m 2 平面中的投影分布。 豳 同时,这些投影又是分散分布的( 这一点,在图3 5 ( c ) 中尤为明显) ,说明 所对应的两个特征量之间具有较小的相关性。而随着心距次数的升高,分布渐趋 线性,增大了这两个特征量之间的相关性而减小了对分类的贡献( 如图3 6 所示) 。 这又再一次证明了高次心距不适于作为评价汉字字符视觉心理尺度的特征量。 :酽枣m: 第三章特征量提取 3 5小结 d 。 。 釜铲 、矿 函 。 ” 虽心距 。 图3 6 样本在三次- 四次心距平面中趋于线性的投影分布 综上所述,本研究关于特征量提取可得出以下结论: ( 1 )黑点数和各次心距与汉字视觉心理尺度之间存在着一定的相关性,但这种 关系是非线性,非单调的,所以不能用单一特征量的分析方法来求取心理 尺度; ( 2 )具有相同视觉心理尺度的汉字在特征空间各个二维平面上的投影明显聚 类,因此可以采用模式识别的分类器来实现对汉字视觉心理尺度的评价; ( 3 )心距次数的升高对提高分辨率的贡献下降,因此一般选择3 4 个低次心距 作为特征量较为合适。 随后,我们可以利用提取的有效特征量以及对样本直观大小分类的结果来构 造实现汉字字符视觉心理尺度评价的人工神经元网络。 第四章实现汉字视觉心理尺度评价的工具人工神经元网络 第四章实现汉字视觉心理尺度评价的工具 人工神经元网络 通过前一章的讨论可知,汉字视觉心理尺度与各特征量之间存在着一定非线 性的关系,大小相同的汉字在特征空间各个二维特征平面上的投影明显聚类,这 实质上是一个模式识别中的分类问题。而非线性变换单元组成的前馈网络,即 b p 网络,所擅长的正是处理那种规律隐含在大量数据中的映射逼近问题,所以, 在这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厂房租赁的合同书
- 竞选文学社部长演讲稿
- 新闻传播文书试卷及答案
- 2025年小夫妻矛盾测试题及答案
- 广西社区笔试题型及答案
- 有关心理健康的演讲稿
- 家长会数学老师发言稿
- 2025年东莞试教地理真题及答案
- 风险评估模型优化-第21篇-洞察与解读
- 丽水家庭仓库管理制度
- 2025四川数据集团有限公司第二批员工招聘3人笔试历年参考题库附带答案详解
- 2025年甘肃省天水市供热有限公司招聘12人笔试历年参考题库附带答案详解
- 2025年一卷政治高考真题及答案
- 厨房火灾安全培训教材课件
- DB15∕T 3843-2025 新能源分布式电源并网技术规范
- 《锂电池的制造工艺》课件
- 海上风电场安全监测技术的现状与未来发展趋势
- 足浴前台礼仪培训课件
- 2025年幼儿园中、高级教师职称考试(综合素质)历年参考题库含答案详解(5卷)
- 美术基础 课件全套 第1-5章 美术简介 -中国民间美术
- 2024人教版七年级生物下册期末复习全册考点背诵提纲
评论
0/150
提交评论