已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于改进支持向量机的货币识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 货币识别是一个模式识别问题,主要包括以下三大部分:数据采 集、特征提取和分类器的设计。针对当今货币识别率低等问题,借鉴 典型相关分析融合思想和支持向量机的几何解释,利用两种不同的主 成分分析方法特征融合后,并将基于模糊支持向量域多分类算法应用 于货币识别。 货币特征提取方面,针对提取信息不全面的问题,基于粗糙集的 属性约简方法和典型相关分析融合思想,利用两种不同主成分分析方 法对特征向量进行降维,并且把条件属性与决策属性联系起来进行属 性约简,基于典型相关分析思想对两种不同特征进行融合。实验仿真 结果表明,该算法能在很好结合货币图像的全局与局部互补信息,且 融合后的提取算法优于以前单一的算法,响应时间相当。 训练算法采用一种基于几何思想的快速训练算法,其主要思想借 鉴最近点( n p a ) 算法和d i r e c t s v m 算法,不仅克服了传统训练 算法中求解二次规划算法的计算量大的缺点,而且算法的速度非常 快。实验仿真结果表明,算法性能比较高,训练时间比当前流行的训 练算法s m o 算法、d i r e c t s v m 算法都少。 多分类算法采用一种基于模糊支持向量域的多分类算法,该算法 基于紧密度的模糊隶属度思想,选择合适的惩罚因子,不仅减少了噪 音点的干扰,而且还减少了样本不平衡性对识别精度的影响。实验仿 真结果表明,该分类算法不仅获得了比传统货币识别方法高的识别 率,而且训练时间与其他支持向量机多分类算法相比有一定程度的减 少。 关键词货币识别;特征级融合;几何快速训练;模糊支持向量 域多分类 a bs t r a c t c u r r e n c yr e c o g n i t i o ni sap a t t e mr e c o g n i t i o np r o b l e m ,w h i c hi n c l u d e s f o l l o w i n gt h r e em a i np a a s ,d a t aa c q u i s i t i o n ,f e a t u r e e x t r a c t i o na n d c l a s s if i e rd e s i g n t oi m p r o v et h er a t eo fc u r r e n c yr e c o g n i t i o n ,b a s e do n t h ei d e a so fc a n o n i c a lc o r r e l a t i o na n a l y s i s ( c c a ) a n dg e o m e t r i c i n t e r p r e t a t i o n o fs u p p o r tv e c t o rm a c h i n e ( s v m ) ,a f t e rf u s i n gt w o d i f f e r e n tk i n d so fp r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) ,t h em e t h o db a s e d o nf u z z ys u p p o r tv e c t o rd a t ad e s c r i p t i o n ( f s v d d ) w a sp r o p o s e dt o r e c o g n i z et h ec u r r e n c y t og e tm o r ec o m p r e h e n s i v ei n f o r m a t i o no ff e a t u r ee x t r a c t i o nf o r c u r r e n c yr e c o g n i t i o n ,b a s e do nt h e i d e a so fr o u g hs e ta p p r o a c hf o r a t t r i b u t er e d u c t i o na n dc a n o n i c a lc o r r e l a t i o na n a l y s i s ( c c a ) ,a f t e ru s i n g t w od i f f e r e n tk i n d so fp r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) t or e d u c et h e d i m e n s i o no fp a p e rf e a t u r e s ,a t t r i b u t i o nr e d u c t i o nw a sd o n eb a s e do nt h e l i n kb e t w e e nc o n d i t i o na t t r i b u t e sa n dd e c i s i o na t t r i b u t e s t h e n ,t h et w o d i f f e r e n tf e a t u r e sw e r ef u s e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e m e t h o dc a ne f f e c t i v e l yf u s ed i f f e r e n tf e a t u r e s i ti ss u p e r i o rt op r e v i o u s a l g o r i t h mw i t hs i n g l ep c a ,a n dt h et r a i n i n gt i m ei sj u s tt h es a m e an e wf a s ta l g o r i t h mo fs v mb a s e do ng e o m e t r yw a sp r o p o s e d ,t h e m a i ni d e aw a sf o r m e db yt h en e a r e s tp o i n ta l g o r i t h m ( n p a ) a n d d i r e c t s v ma l g o r i t h m t h i sa p p r o a c hw i t ht h el o wt r a i n i n gt i m ec a n r e d u c et h e l a r g ec o m p u t a t i o n o f q u a d r a t i cp r o g r a m m i n g e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep e r f o r m a n c eo fa l g o r i t h mi sh i g h , t h et r a i n i n gt i m ei sl o w e rt h a ns m oa n dd i r e c t s v m 砀e a n d am u l t i - c l a s s i f i c a t i o nm e t h o db a s e do nf u z z ys u p p o r tv e c t o rd a t a d e s c r i p t i o n ( f s v d d ) w a sp r o p o s e d t or e c o g n i z et h ec u r r e n c yb yi t sv a l u e e s p e c i a l l y , f u z z ym e m b e r s h i po p e r a t o rw a sc a l c u l a t e db y t h et i g h t n e s so f p o i n t s ,a n dt h ep r o p e rp e n a l t yf a c t o rw a sc h o s e nt or e d u c et h ei m b a l a n c e o fs a m p l e s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sa p p r o a c hc a nn o to n l y i m p r o v et h ec u r r e n c yr e c o g n i t i o nr a t e ,b u ta l s or e d u c et h et r a i n i n gt i m e a n dt h ee f f e c to fn o i s ep o i n tt h a no t h e rs v mm u l t i c l a s s i f i c a t i o n s 1 1 k e yw o r d sc u r r e n c yr e c o g n i t i o n ;f e a t u r ef u s i o n ;g e o m e t r yr a p i d t r a i n i n g ;f u z z ys u p p o r tv e c t o rd a t ad e s c r i p t i o n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。 储虢眸 嗍砷皑月伊 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容, 可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技 术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 日 作者签名: 聊鼢盟嗍1 谚 硕七学位论文 第一章绪论 1 1 课题研究的意义与目的 第一章绪论 随着现代生产节奏的加快和生活习惯的改变,国内外各种自助服务设备应运 而生,如自动售票机、自动售货机、自动收费系统、自动存款机、纸硬币兑换机、 外币兑换机、自动充值机、自动售卡机等。这些系统无一例外需要大量用到纸币 识别接收器这一现金支付系统的关键设备。据统计,日本仅自动售货机有5 5 0 多万台,美国则多达7 0 0 多万台,在韩国,服役的自动售货机也达8 0 万台,欧 洲有5 0 0 多万台,国内最近几年自动售货机的年增长量均在1 0 0 以上。然而, 国内除台湾省能生产简易式纸币器之外其他厂家尚不能自主生产纸币识别接收 器,每年都要花费大量外汇从国外进口这种昂贵设备。另外,国外纸币器在中国 市场上的应用也远不如人意。另外,纸币接收器也是各大银行系统中纸币清分技 术中的关键设备。纸币清分技术是一项重要的银行业务,它具有识别纸币面值、 版面、正反面、缺损、脏污、真伪等多种功能,达到了以智能化机械工具代替手 工对纸币进行清分、整理的目的,是a t m 机配钞所使用的专用设备,它切实提 高了银行的业务效率。但国内清分机市场基本被一些国际知名品牌如德国的捷加 地( g + d ) 、日本的光荣、英国的得力莱等公司所垄断,而进口清分机的价格十 分昂贵、维护成本也非常高,其性能也并不完全符合国内目前流通旧钞较多的特 点的要求。所以,国内对纸币清分机有着迫切的需求。 纸币接收器中的关键技术为货币识别算法,且货币识别算法的好坏直接影响 自助服务应用设备或清分机的性能与价位。但是一直以来,出于国家利益和商业 利益的考虑,货币识别算法一直是各个公司严格保密的技术。货币识别就是识别 各种货币的国别和币值。由于不同面值货币大小、图案各异、材料复杂;流通过 程中所造成的污染、磨损、实褶皱、残缺等,造成货币特征类内距大、类间距小, 难以用预设阈值的模式匹配方法对其进行精确分类;所能获取的训练样本数量相 对于整体样本来说,比例很小;货币造币工艺及特征属国家机密而且货币识别的 关键技术也被几家公司多垄断;伪钞的制作水平的不断提高;各个国家的货币本 身处于不断的更新换代之中等原因都为货币识别的准确、快速识别带来了挑战。 另外,随着硬件成本的不断减低与相关智能算法的不断发展与完善,因此,基于 智能信息处理研究快速、高接受率的货币识别技术具有重要的意义和价值。它不 仅可以满足市场的需要,为国民经济做贡献;而且还能为国家节约大量外汇、为 出口创汇,获得丰厚利润,具有较大的经济效益和社会效益。 硕士学位论文 第一章绪论 货币识别问题,实际上,是一个模式识别问题,整个过程实质上实现如图 1 1 所示的由数据空间经特征空间到类别空间的映射,大致要经过数据采集和预 处理、特征提取与模式分类3 个主要变换过程。变换的结果通常导致模式维数的 降低( 减少特征数) 、多余的和不相关信息的剔除,并将数据模式转换成更合适 于后续分类工作所需要的形式。 图1 - 1 货币识别过程 1 2 国内外货币识别研究现状 国外很早就开始了货币识别技术的研究,并且一直处于领先地位,核心技术 被d e l a r u e 、n c r 等大公司所掌握,所生产的自助银行一元化处理的收付款 系统、清分机、a t m 机等自动化、智能化的产品在国际市场上占有很大的份额。 特别是日本的货币识别技术,已成功应用于日元、美元、欧元等的识别。日本学 者f u m i a l dt a k e d c 等人,早在1 9 9 4 年就提出将b p 神经网络用于货币识别,并 且用经遗传算法优化后的掩码技术减少神经网络的规模、提取货币的有效特征作 为网络输入数据,取得了理想的识别效梨i 】:1 9 9 5 年,他们提出了对掩膜用遗传 算法进行优化的改进算法,实验表明算法有效【2 】;1 9 9 8 年,他们又对掩膜技术进 行改进,提出了对称掩膜,使得纸币的四个面向变成了两个,减小了响应时洲3 】: 2 0 0 0 年,又提出了对称轴掩膜技术,提高了识别效率 4 1 。a n g e l of r o s o n o ,m a r c o g o r ia n dp a o l op a r i a m i 把光学传感器采集到关于货币的透射、反射信息作为多层 感知器神经网络的输入数据,进行多国货币识别,识别率达到了9 4 4 【5 】。2 0 0 3 年,e r h uz h a n g ,b oj i a n g ,j i n g h o n gd u a n ,z h e n g - z h o n gb i a n 等人提出将易获取、代表性强、且对不同的版本有很好的鲁棒性的货币图像的分 块边缘信息作为三层b p 网络的输入数据,主要对人民币进行识别,识别率高达 9 6 6 t 6 1 。2 0 0 2 年,a l ia b r o a d i ,s i g e r uo m a t u ,m i c h i f u m iy o s h i k a 等人突出用 p c a 提取货币信息中的主要相关信息,而后把基于有师学习的竞争型l v q 神经 网络作为分类器,用来识别1 0 种新旧不同的美元【7 1 。为了进一步提高识别率, 硕士学位论文第一章绪论 a l ia h m a d i 等人又提出首先把数据用s o m 模型映射,然后再用局部p c a 进行特 征提取,避免了p c a 只提取高阶信息的弊端,且提高了识别速度【8 】。另外, f a n h u ik o n g 等人用基于结构化风险最小化的高斯模型对人民币进行建模, 其参数用极大似然原则估计,再用k - l 变换,获得了比神经网络模型更高的可 靠性【9 】。随后,h n a s s a n p o u r ,a y a s e r i ,g a r d e s h i r i 用马尔可夫链对货币文本信 息进行建模,提高了识别效率【l0 1 。故由上看出,国外研究货币识别算法主要通 过特征提取的低维和有效性、神经网络分类器的设计及建模等方面来展开研究 的。但是一方面由于各个国家货币特征的不同,以及各个地方气候差异的不同导 致具体应用背景的不同;另一方面关键技术被国外长期掌握,不利于我国经济的 发展,故研究针对我国具体背景下的货币识别研究算法显得尤为重要。 而我国在货币识别技术上的研究起步比较晚,是自助设备已经在社会上广泛 应用才开始的,在此领域的专项研究尚处于初级阶段。目前许多科研所、企业都 投入了相当的人力、物力进行研究开发,取得了显著的成果,某些成果达到了国 际领先水平。据悉,天津戈德公司和沈阳的东宇集团近几年来一直在从事货币识 别的研发,东宇集团还发明了几项专利,但关键技术仍未过关,戈德公司仍每年 从国外进口数干套现金接收器,东宇集团至今未有成熟产品。 国内也有很多学者做了相关的研究,针对货币识别的研究,主流方法如下: ( 1 )模板匹配 通过人工寻找并分析大量货币的特征参数,找出不同货币的差异,完成特征 提取,建立每一种币值的标准特征集,组成标准特征库。识别时,将待识别纸币 的采样特征与标准特征库逐一进行模式匹配,根据匹配程度做出结论。 杨相珀、满庆丰、形春香等人利用“钞票在光透射作用下,表现出的光学特 性是一定的”这一原理,对光敏传感器采集来的货币信号建立各个币种、币值的 模板,识别时进行一一匹配,最后将其应用到了嵌入式系统中,满足其实时性要 求【1 1 1 。 吴萍萍、关宇东提出了两种用模板匹配识别变造币横竖条码的方法,此方法 通过计算机图像处理技术和数学形态学提取货币特征建立模板,实验结果方法均 精确快速有效【l2 1 。 刘红刚、贺建飚提出了基于模板匹配的纸币号码的识别系统,此方法通过对 纸币号码的处理建立字符模板进行匹配,具有较高的识别率和坚韧性,现已投入 使用【1 3 】。 虽然模板匹配有一定的科学性和应用价值,但它也有以下难以克服的缺点: 一方面,根据不同传输速度和各种规格要进行不同的设计和计算,设计得通 过分析大量的纸币,寻找需要识别的纸币特征参数,并以此设计算法,这种算法 硕十学位论文第一章绪论 需要耗损大量的时间,且局限性大;另一方面,由于涉及主观查找的因素,对于 新币种的引用,需要重复大量的劳动寻找新币种特征,建立新币种相应的模板, 很费时,不便于系统的升级;最后,由于货币长期流通过程中会不可避免的受到 磨损、污染和缺损,使得货币的票面情况复杂,造成同一币值纸币特征的分散, 识别效果不是很理想。 ( 2 )神经网络 人工神经网络( a n n ) 是模仿生物神经网络的结构提出的模型【1 4 】,它是由 大量简单的计算单元( 又称为节点或神经元) 广泛相连而构成的一种并行分布处 理网络。神经网络由于具有信息分布式存储、大规模自适应并行处理和高度的容 错性等,使其对不确定性模式识别具有独到之处【l5 1 。 神经网络的模式识别的过程分为下面两步【1 6 】:首先是学习过程,通过大量 的训练样本,对网络进行训练,根据某种学习规则不断对连接权值进行调节,最 后使网络具有某种期望的输出,即将训练样本正确地分类到所属类别中去,此时 可以认为网络学习得到了输入数据和样本之间的内在规律;接下来是分类过程, 对任一送入网络的样本进行分类。 早在1 9 9 9 年,重庆大学的张平、徐问之提出了一整套解决货币种类的识别 方案,该方案通过光学传感器的探头获得货币图像的采样点,并将其作为b p 神 经网络的输入值。在神经网络的设计中通过使用随机掩码减低网络规模,通过使 用高斯隐含层和对训练集的聚类分析确定隐元数和初始化参数,大大提高了训练 和学习的速度【1 7 l 。 殷泽兴、钱浙滨、李介谷等人提出了一种基于数学形态学和神经网络的货币 识别方法,该方法基g r a n u l o me t r i e s 定义的基础,运用“开”运算得到纹理的模 式谱,并以此作为纹理的特征向量,采用双隐层的人工神经网络模型进行分类, 达到识别的效果,正确率达到了9 3 以上【埔】。 谢凯、郝建新提出了利用传感器获取能表示货币时域模型特性的1 1 个参数 作为特征值来建立货币的模板,并基于模糊熵准则和误差平方准则的多学习方法 训练神经网络进行分类。此方法不仅克服了b p 算法单准则学习的局限性,而且 提高了识别效果【1 9 】。 刘家峰、刘松波、唐降龙提出了一种用于高速纸币清分的实时人民币识别方 法,该方法提取纸币图像的方向块特征,将人民币的长度和宽度作为识别特征, 采用了改进的k o h o n e n 网络设计了识别分类器,避免了b p 网络本省在实现过程 中受到参数初始化的影响,往往无法收敛,或者陷入局部最小的缺陷。实验结果 表明,提出的方法取得了较高的识别率,并且满足了实时性的要求并且已经在一 个实际的系统中的得到应用【2 。 4 硕士学位论文第一章绪论 张颍、陈雪波等人选取纸币图像的尺寸作为特征,用模糊逻辑推理方法识别 图像的面值,提取矩作为特征,采用三层的b p 神经网络来识别纸币的正反面, 并通过实验证明了此人民币识别系统的有效性和可行性【2 i 】。 李童、罗代升、王正勇将人民币号码图像进行特征提取,应用神经网络进行 识别。同时,用遗传算法对人工神经网络进行网络权值的优化,缩短了训练时间, 提高了识别率【2 2 1 。 曹步清、金瓯、贺建飚以人民币为例,采用红光、红外以及磁性等方法检测 人民币的性能参数,设计了基于b p 神经网络进行货币识别算法,以实现判断真 伪、并读出面额的目的。经过实验证明,具有良好的识别效果【2 3 1 。 早在二十世纪就有神经网络在货币识别上的应用,但神经网络先天理论上的 不足,使其结果只能是局部最优,即使用遗传算法优化效果也不是很明显;另外, 是基于风险结果最小化,即要求样本足够多,但在货币识别中很显然是不现实的。 所以,要求我们寻找合适货币识别本身的智能算法,满足识别率不断提高与训练 时间不断减小的发展趋势。 ( 3 ) 图像识别 曹丹华、刘斌呙、吴裕斌提出一种基于特征区域投影特征匹配的钞币面值识 别系统。针对不同面额的人民币,所选取的特征区域位置、大小和数目不同,建 立投影特征模板库,并采用分类比较和滑动匹配的方法提高算法速度和适应能 力。实验结果表明:利用该算法对人民币的识别速度达到2 0 0 张m i n ,可以满足 嵌入式系统对算法实时性的要求【2 4 1 。 李立杰、吴乐南、董璐利用图像处理技术对残损纸币进行自动识别,先用 p c a 有效地去除了图像中的大量冗余信息,在特征空间中利用图像的特征矢量 进行分析和识别,提高了处理速度【2 5 】。 陈慧鹏,杨亮亮等人研究了模糊集识别法在纸币清分中的应用,提出了一种 用于高速纸币清分机的实时人民币识别方法,该方法运用区域划分,提取纸币图 像的区域块特征,将人民币的灰度值作为识别特征,采用了模糊集识别方法和数 学形态学图像处理法。实验结果表明,此方法具有较高的识别率,并且满足了实 时性的要求【,2 6 1 。 金野、刘松波、刘家峰等人提出了一种基于边缘特征的纸币污损检测方法, 采用k i r s c h 算子提取两图像的边缘信息,利用边缘强度差的计算方法,将纸币 划分为若干个相互重叠的子区域,通过对子区域内污损特征统计,来判定该子区 域内是否存在污损。实验证明,该方法识别率高且稳定、可靠,满足实时要求, 该方法已成功应用到实际的纸币清分系统中【2 。 由上面可以看出,一方面,对于图像识别我们一般应用它的灰度信息建立相 5 硕士学位论文第一章绪论 应的模板,故其有模板匹配的局限性;另方面,一般应用于银行的纸币清分系 统中的新旧程度的识别与分类。 ( 4 ) 号码识别 纸币上的号码是纸币印刷数量的标识,每张没有重复,因此可以用来表示纸 币的身份,给公安机关提供破案线索和确凿证据,可以有效减少刑事犯罪活动具 有广泛的实用价值和广阔的应用前景f 2 引。目前,纸币识别号码技术在英、德、 日等发达国家已经比较成熟,相应的产品在银行业务中已经开始应用,而我国还 处于起步阶段【2 0 1 。 苑玮琦、张昱开发了一种能在捆钞的同时自动识别并记录下通过捆钞机上的 纸币号码的系统,该系统首先通过c c d 摄像头采集2 4 位彩色图像,经过逻辑脊 骨判断法分割、投影法定位、结构法识别几个过程输出号码串。实验结果表明, 该逻辑脊谷判断算法有效地提出了号码图像,穿越号码体距离法定位号码准确, 取得了较高的识别率【2 9 1 。 郭艳平、丁万山提出了一种基于投影法定位和分割美元号码的识别方法,该 识别方法利用字符的投影特征定位与分割纸币号码,并且提取其四种稳定且有效 的结构特征来实现美元号码的快速准确的识别,识别率达到9 9 5 t 3 0 】。 段敬红、栾丹提出了一种号码区域定位以及分割方法,在此基础上,建立了 相应的识别系统,并进行了实验研究。实验结果表明,系统具有较高的识别精度, 能较好地满足实时需求叫。 号码识别利用号码的唯一性一般应用于真假识别,但其响应时间是很高的, 且必须有完全号码的数据库,只有在国家权威银行才有数据,对商业货币识别应 用不现实。 ( 5 ) 其他建模 虽然将神经网络用于纸币识别得到了很大的发展。t a k e d a 提出以b p 网络设 计分类器。然而由于b p 网本身在实验过程中受参数初始化的影响,往往无法收 敛或陷入局部最小1 3 2 1 ,基于k o h o n e n 网络的纸币识别方法对噪音比较敏感,本 身的识别率有限。然而纸币识别系统对可靠性的要求非常高,要求识别率接近 1 0 0 ,因此考虑对货币识别重新建模,设计新的分类器。 孔凡辉、马吉权等提出了一种用于高速纸币清分的人民币识别方法,该方法 基于整张纸币的特征提取,采用了基于结构风险最小化的高斯混合模型( g m m ) 设计识别分类器。实验结果表明,提出的方法取得了较好的识别效果【3 3 】。 蒋琳琼、贺建飚提出采用改进的s m o 训练算法和d a g s v m 多值分类算法 构建支持向量机用于货币识别,充分发挥支持向量机解决小样本、非线性和高维 模式识别问题的优点。实验结果证明了该方案的有效性【3 4 1 。 6 硕十学位论文第一章绪论 然而,对于币面情况复杂的货币识别问题,只用一个简单的数学模型很显然 是达不到理想的识别效果,同时也是不科学的。另外,对于我们样本获取的有限 性,合理建立模型也具有挑战性。 由以上研究方法与应用背景可以看出,货币识别实际上是一个小样本、非线 性和高维的模式识别问题,主要包括数据采集、特征提取和分类器设计三个部分。 随着硬件技术的高速发展与智能信息处理算法理论的不断完善,将融合智能算法 应用于货币识别,获得更高更快的识别效果将是发展趋势。1 9 9 5 年,n v a p n i k 教授在统计学习理论的基础上提出了一种新的机器学习算法一支持向量机,它 有着传统方法所没有的优势,在很大程度上克服了传统机器学习面临的维数灾 难,局部最小点及过学习等难以克服的问题,并具有良好的泛化能力。近些年, 针对支持向量机的应用,很多学者做了相关研究,并成功应用到很多领域,如人 脸识别、图像识别、说话语音识别与手写体识别等领域。 文献 3 4 】已对支持向量机应用于货币识别进行了初步的探讨,本文对特征提 取和分类器设计两大方面做了进一步的深入研究,首先基于典型相关分析融合算 法改进了特征提取算法;其次,在研究支持向量机几何特性的基础上,提出将几 何快算算法用于训练;最后,将基于模糊支持向量域的多分类算法应用于面值识 别,该方法不仅比基于核的决策二叉树训练时间减少,而且识别精度高于基于球 结构的多分类算法,在识别率与响应时间之间达到了一个比较好的平衡。 1 3 本文的结构及主要内容 一方面,货币识别技术为国际少数几家公司所掌握,并严格对外保密;另一 方面,随着硬件技术的快速升级,相应的算法已适应不了各种复杂的情况,因此 研究面向嵌入式的智能性识别算法具有重要的意义和价值,本课题研究并完成了 以下内容: 本文共分五章,主要围绕数据的特征提取和货币分类识别进行阐述。首先, 对传统的p c a 加以改进,进行了特征级的信息融合和数据约简,获取了货币的 各方面的主要相关信息;其次,在对支持向量机深入分析的基础上,不仅利用其 直观的几何解释,对其应用于货币识别上的训练算法改进,而且还提出了将模糊 隶属度引入算法中,减少了噪音点的干扰;最后,对理论进行实验仿真,验证了 所提算法的可行性和应用价值。 各章内容组织如下: 第一章绪论。依据货币识别的广泛应用及目前国内外的研究现状,提出了 本课题研究的必要性和将智能学习算法应用于货币识别系统将是发展趋势。 第二章对传统的特征提取方法一p c a 进行了改进和融合,不仅约简了高 7 硕士学位论文 第一章绪论 维的数据,而且还有效融合了各种信息,在数据量较少的情况下,最大限度的保 留货币原始信息,为下一步的识别提取出了全面的信息。实验仿真结果表明,此 融合算法识别率高于单一的p c a 算法,且识别时间相当。 第三章在对支持向量机基本原理分析的基础上,针对货币识别的具体要求, 将基于几何的训练算法用于训练算法,大大减少了训练时间。实验仿真结果表明, 此方法训练时间比传统训练算法大大减少,且识别精度相当。 第四章在研究了常用支持向量机多分类算法的基础上,将基于模糊支持向 量机域的多分类算法应用于货币识别,该方法不仅引入模糊隶属度以减少噪音点 干扰,而且还选择合适的惩罚因子减少样本的不平衡问题。实验仿真结果表明, 此多分类算法识别率高于球分类算法,识别时间低于基于核聚类方法的多层次 s v m 分类树。 第五章总结与展望。对本文工作进行归纳总结并展望了课题的进一步研究 方向。 硕士学位论文第二章融合两种不同主成分分析的特征提取算法 第二章融合两种不同主成分分析的特征提取算法 2 1 货币识别特征提取研究现状 货币识别是模式识别问题,成功的货币识别很大程度上依赖于对特征的抽取 和选择【3 5 l 。而特征提取的关键就在于以较少的维数表示数据,而这样做的目的 是为了使后续分析更为容易,通过更为稳定的表示提高分类性能,删除多余的或 不相关的信息。它的研究肩负着两方面的使命,一是寻找针对模式的最具鉴别性 的描述,使此类模式的特征能最大限度地区别于彼类;二是在适当的情况下实现 模式数据描述的维数压缩,当描述模式的原始空间对应较大的维数时,这一点会 非常有意义,甚至必不可缺【3 6 l 。因此,提取有效的鉴别性特征是货币识别率提 高的关键步骤。 在对国内外货币识别特征提取研究的基础上,主要分为以下四大类: ( 1 ) 货币特征 在现今的验钞设备中,为了节省存储空间、提高处理速度,充分利用钞票的 光投射机理【1 1 , 1 9 】,即:钞票在光透射作用下,表现出的光学特性是一定的。并对 采集到的货币特征进行归一、加权、均值化处理,最终得到各类不同面额钞票的 模板。 具体原理如下:由于钞票生产工艺是严格的,使钞票的厚度严格一致,而且 钞票的纸张材料也是非常稳定的,所以钞票的透射光强主要由票面的反射系数决 定。由于每种面值的钞票图案信息是稳定的,其光谱反射率的变化也应该是稳定 的,那么透射光强的变化也应该是稳定的。因此,检测透射光强的变化可以测 定被检测的钞票特征,从而可以确定钞票的面额。 此方法虽然可以满足一定的嵌入式应用要求,但采集到的信息毕竟是少数, 而且也不足以表现货币的众多复杂特征,特别是针对在流通过程中损失信息的旧 币、或面额不同但物理特征类似的币种来说,识别率不是很理想。 ( 2 ) 数学形态学 早在1 9 9 9 年,殷泽兴等人【1 8 l 发现几乎各种货币都有很多很细的纹理,许多 图案也是由这种很细的线条组成,他们就考虑用这种很细的纹作为识别的特征进 行判断,作为神经网络的输入值。 具体原理如下:根据数字图像处理知识可知,模式谱能非常有效地表示出各 尺寸形状在图像中的分布,在模式谱曲线中,某一尺度下的一个大脉冲( 或凸包) 也就表明了该图像中该脉冲所对应尺度下的结构占最多。实验仿真时,为节约时 9 硕士学位论文第二章融合两种不同主成分分析的特征提取算法 间,在提取图像特征过程中,选用线性结构元素,经过差分后得到了维数较少的 特征向量,识别率达到9 3 以上。 很显然,此方法的识别率远远不能满足我们的要求,并且是为了在高分辨率 彩色复印机引用过程中,需要对其用户待复印件进行检测判断,以防止用来复印 货币,应用范围比较狭窄、单一,推广性不好。 ( 3 ) 方向块特征提取 刘家峰等人【2 0 】基于方向块的位置包含恶图像的分布信息的原理,基于纸币 图像的方向块特征,并结合人民币的长度和宽度,获取了比较全面的货币特征。 具体原理如下:方向像素特征首先将轮廓划分为一定的网格,在各个网格中 对每个点的不同方向的相临点分为若干类,因为方向像素在一个局部领域内各个 方向的多寡反映了图像在该领域的走向。 此方法巧妙地利用了人民币、意大利纸币不同币种的纸币长度有差别这一具 体事实,很显然,不具有通用性、且推广性差。 ( 4 ) 主成分分析 为了降低数据的处理维数和找到主要代表信息,a l ia h m a d i 等人【7 8 】等人用 主成分分析进行特征提取,取得了较好的实验效果。另外,孔凡辉等人【3 3 】也基 于整张纸币的特征提取,首先将纸币区域均匀划分为不同的行列,在每一个特征 块内计算像素的平均灰度作为这一区域的特征后,再用主成分分析进行特征降 维,减少了处理时间。 具体原理如下:主成分分析( p c a ) 是一种经典的特征提取方法,它是在均 方差误差最小的意义下获得数据降维的最佳变换,如果采用大本征值对应的本征 向量构成变换矩阵,则能对应地保留原样本中方差最大的数据分量,所以主成分 分析起了减少相关性、突出差异性的效果,在一定程度上较少了数据处理量、减 少了训练时间。 虽然p c a 的实验效果不错,但是其本质是由于该方法对各像素处理方法相 同,无法突出特定目标的光谱特性,因此它不适用于相关性较弱的图像,而适合 有较强相关性的多光谱图像。同时,此方法并没有考虑数据内的类别( 即为非监 督的) ,尽管有时候将数据投影到低维空| 日j 会出现分离的类别,但这种情况并不 是总存在,一般维数减低会使类别分离性变得不明显,用前几个主成分相关的向 量组成的空间不一定就是用于判别的最好空间。 2 2 货币识别特征提取的关键问题 由以上分析可以看出:以前的特征提取主要考虑减低维数,减少数据处理量, 可在一定程度上也损失了大量的相关信息,这些信息对于识别来说可能是至关重 1 0 硕七学位论文第二章融合两种不同主成分分析的特征提取算法 要的。另外,用不同的特征提取方法提取不同的特征可提供更多的信息,若能考 虑所提取的特征的互补性,则会得到更好的识别效果。故考虑将融合的思想引入 特征提取,实现货币信息的全面提取和分类精度的提高。 融合( f u s i o n ) 是将采集并集成各种信息源和多格式信息,从而生成完整、准 确、及时和有效的综合信息过程。多信息融合技术研究如何有效地综合利用多源 信息和相关信息,克服信息的不完备和不确定性,更加准确、全面地认识和描述 被测对象,从而做出正确的判断和决策。其实,融合的概念并不陌生,人和动物 一直在应用多种感官提高生存能力。比如,仅凭视觉或触觉难以判断食物的好坏, 但是如果结合视觉、触觉、味觉、嗅觉等多种感官就可以准确地进行判断。因而, 人类和动物本能地具有综合利用多种感官的信息更精确地获得对周围环境及其 危险辨别的能力,以提高生存的机会。同时,认知科学的相关研究【37 】表明,面 对未知对象,人和其他高等动物会自动提取出目标最有“意义”特征信息,然后 把它们组合起来作为识别的依据。如果现有的算法具备了这种“自适应”识别能 力,将会大大提高识别效果。 图像融合( i m a g ef u s i o n ) 是一种通过高级影像处理复合多源影像的技术。 一般采用特定的算法将两幅或多幅图像中的信息合并起来,生成新的图像。其目 的是将单一传感器的多段图像或异质传感器的信息加以综合,以消除多传感器信 息之间的冗余和矛盾,增强图像中信息透明度,改善解释的精度、可靠性以及使 用率,以形成对目标的清晰、完整、准确的信息描述。图像融合不是简单的叠加, 能产生新的蕴涵更多有价值信息的图像。图像融合是在信息融合技术之后出现 的。它的主要目的是根据不同传感器对同一场景得到的多幅图像对这一场景进行 完整的解释和理解。这些解释和理解不仅是建立在位置和几何上的,更重要的是 语义上的。根据融合过程中信息抽象的层次,可以在三个层次上进行融合,即像 素层、特征层和决策层。 当传感器提供的像素值决定某个目标的存在与否的时候,在融合过程中可以 直接应用像素值。像素值的融合方法主要是像素上的直接数学运算,包括差值、 梯度、比值、加权运算、多元回归等。这些数学运算实际上都是图像处理中的常 用方法,比如可以是对两幅或多幅图像的像素值进行的操作。当直接对两幅或多 幅图像进行像素层的融合存在困难时,可先对不同图像进行特征提取,再按各图 像上相同类型的特征进行融合处理。 目前的融合主要是基于特征层的融合,为了对货币获得完整一致的表述,将 单一的信息或不同类型的信息加以综合,消除单一图像信息之间的冗余性,减低 其不确定性,增强图像中的有用性、可靠性。在本课题研究中,由于目前针对货 币识别尚未有基于融合的特征提取算法,故在获取各种面值的货币在红外、紫外 硕士学位论文第二章融合两种不同主成分分析的特征提取算法 和磁信息下的图像特征的基础上,考虑对这些图像进行特征层融合,期望获得更 丰富、更精确、更可靠的细节信息,有利于图像的进一步分析、处理和理解。 特征级融合是从对各个传感器获得的源图像进行预处理和特征提取后获得 的特征信息进行综合选择。特征级融合是在中间层次上进行的信息融合,它既保 留了足够数量的重要信息,又可对信息进行压缩,有利于实时处理。本章考虑在 特征提取上不仅进行信息约简,而且还进行信息融合,在数据量较少的情况下, 将代表不同信息的数据进行融合,最大限度的保留货币原始信息,为高识别率的 实现做好准备。 2 3 融合两种主成分的特征提取 2 3 1 货币图像的两类特征提取 ( 1 ) 基于总体协方差的p c a 总体协方差的p c a 是不区分样本的类别,对所有训练样本求混合平均值, 然后用此平均值去规范化所有训练样本。设训练样本的维数为m ,共有p 类, q lq :,9 3 ,q 。分别表示每一类的训练样本的数目,n 为训练样本的总数,即 = g ,。第_ ,类训练样本集合表示为:= ,呓) ,其中 彩天h ,( 1 f q j ) ,g ,表示第类训练样本的个数。所有训练样本的总体协方差 矩阵定义为: 墨= ( # 一所) ( - m ) 7 ( 2 - 1 ) m 是所有训练样本的平均值: 肌= ! n 手j = i 羔i = l 一 ( 2 - 2 ) 计算墨的特征值和特征向量。取k 个较大特征值对应的特征向量,将选取 的特征向量标准正交化后记为u ,即u = u ,u k 】,u 是作为k 一变换的 一组最优投影轴,称为投影矩阵。首先用所有训练样本的混合平均值对所有训练 样本进行规范化处理: = _ 一m ,( 1 - ,p ,1 i q i ) ( 2 3 ) 然后将所有规范化后的训练样本向投影矩阵进行投影: 形7 = u r ,( 1 j p ,l f 吼) ( 2 - 4 ) 形7 表示第j 类的第i 个规范化后的i j i i 练样本的投影特征。这样可以获得一组 1 2 硕士学位论文第二章融合两种不同主成分分析的特征提取算法 投影特征w = 彬仅1s l g f ) ( 1 j p ) ,w 可作为样本鉴别的依据。 最后,把训练样本的向量空间压缩为趸维的特征空间,具体步骤如下:首先, 取总体协方差矩阵墨的k 个较大特征值所对应的标准正交化的特征向量作为 k l 变换的投影轴,通过投影可以将训练样本的向量空间压缩为一个k 维的特 征空间。 ( 2 ) 基于总类内散布矩阵的p c a 类内散布矩阵可以表示出属于某一类别的样本在其均值范围的散布情况,基 于样本总类内散布矩阵的p c a 充分考虑到训练样本数量及其类别信息,是p c a 类内平均值法,对各类的样本求出平均值,然后用各类的平均值去规范化各类内 样本,这样最大限度地保持了类内样本的同类信息,同时也有效地扩大了类间样 本的异类信息。类内散布矩阵可以表示为: p吼 r s w = ( 彳一嬲) ( 一班) ( 2 5 ) ,= i l = l m ,表示第- ,类训练样本的平均值: 口 _ - 上一一z x ( 2 6 ) t j f = 1 类似地,很容易求出基于昂的投影矩阵,为了使以后的测试样本与训练样 本具有可比性,必须用同一平均值对他们进行规范化,即用公式( 2 3 ) 规范化所有 训练样本,通过公式( 2 4 ) 求出训练样本的投影提取。 最后,把训练样本的向量空间压缩为另一个k 维的特征空间,具体步骤如下: 取样本总类内散布矩阵的k 个较大特征值对应的标准正交化的特征向量作为 k 一变换的投影轴,再通过投影可以将训练样本的向量空间压缩为另一个k 维 的特征空间。 2 3 2 基于粗糙集的p e a 约简 ( 1 ) 粗糙集基本概念 粗糙集理论【3 8 , 3 9 】是由p a w l a k 提出,主要思想是在保持分类能力不变的前提 下,通过对知识的约简,导出概念分类规则。下面是属性约简中用到的几个概念: 一般地,一个知识表达系统可以表示为有序四元组s = u ,r ,v ,f ) ,式中 u = “,而,毛) 为论域,它是全体样本的集合;r = c u d 为属性集合,其中子 集c = hl 江1 ,2 m ) 是条件属性集,反映对象的特征,d = d 为决策属性集, 反映对象的类别;a k ( 工,) 是样本x ,在属性a 。上的属性。 定义l 【蛔不可分辨关系,也叫等价关系,是对任一属性子集b 互r ,如 果对象 玉j ,u ,v reb ,当且仅当厂( 五)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电工知识考试题库及答案
- 酒店收购可行性研究报告
- 阿胶研究报告
- 风电场工程可行性研究报告设计概算
- 高空作业吊篮设备项目可行性研究报告申请报告模板
- 2025年班组长综合管理技能竞赛参考题库-中(多选题500题)
- 广西中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版)
- 2026年一级建造师一建机电实务案例分析考点重点知识总结100问
- 安徽中考物理5年(2021-2025)真题分类汇编:专题07 电功率、电热、电能综合(原卷版)
- 代征补充协议书
- 《义务教育英语课程标准(2025年版)》核心内容解读
- 煤矿井巷掘进过断层安全技术措施
- 非财务管理人员的财务知识培训ppt课件
- 汽车融资租赁业务流程图
- 《多边形的面积》单元教材分析PPT课件
- 【最新】七年级数学上册添括号课件(3)人教版 课件
- 浅析巴塞罗那德国馆
- 水利工程全套表格及填写范例(完整资料).doc
- 2021年《内蒙古自治区建设工程费用定额》取费说明
- 广东某超高层建筑电气工程调试方案(附示意图)
- 全国装配式建筑职业技能竞赛考试题库(全真题库)
评论
0/150
提交评论