(信号与信息处理专业论文)人民币序列号和面额号的分割与识别研究.pdf_第1页
(信号与信息处理专业论文)人民币序列号和面额号的分割与识别研究.pdf_第2页
(信号与信息处理专业论文)人民币序列号和面额号的分割与识别研究.pdf_第3页
(信号与信息处理专业论文)人民币序列号和面额号的分割与识别研究.pdf_第4页
(信号与信息处理专业论文)人民币序列号和面额号的分割与识别研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 摘 要 随着经济的发展和繁荣,纸币的流通量越来越大,银行或其它金融机构常需 要对序列号的信息进行采集用于分类和防伪。本文致力于基于图像处理的纸币序 列号自动识别技术的研究,实现了对于人民币纸币的序列号和面额号的分割与识 别。论文主要包括以下工作: 首先,在使用基本的图像处理方法对纸币图像进行预处理的基础上,本文重 点对纸币倾斜校正进行了研究,并根据纸币图像本身特点,提出了基于 hough 变 换的改进倾斜校正方法。 其次,本文在研究纸币图像的 sobel 和 canny 边缘检测结果和纸币本身的特 点以后,提出基于边缘检测和投影法的三步序列号分割方法,即序列号所在左侧 区域的定位、序列号与面额号所在区域的准确定位、序列号与面额号的辨别与分 割三个步骤。本文还对纸币的面向和倒置与否进行识别,使得算法可以应用于更 为复杂的情况。 最后,在上述研究的基础上对纸币序列号进行识别。将所有字符图像分为训 练数据和测试数据,以字符图像本身作为特征向量,利用支撑矢量机进行训练和 识别。论文对序列号的两种识别策略(即字母和数字混合识别,字母和数字分别 识别)进行了对比,结果表明将英文字母和阿拉伯数字进行分别识别的策略比二 者混合识别的策略更为可取。论文最后还对纸币面额号进行了识别。 关键词:纸币 倾斜校正 支撑矢量机 序列号 面额号 abstract abstractabstractabstractabstract with the development and prosperity of economy, the circulation of paper currency is growing rapidly. the banknote numbers are always collected for classifying the bankbill and identifying the counterfeit ones. based on the image processing methods, this dissertation investigates the techniquefor autoidentification of banknote number. the proposed algorithm realizes the positioning and identification of the banknote number and the denomination number. the paper is orgnized as follows: firstly, we introduced preprocessing method based on the basic technology of image processing, in which we mainly studied on the tilt-correction algorithms. an improved tilt-correction method based on hough-transform for banknote is presented. secondly, after studing on the edge detection results of sobel and canny algorithms, we present a new banknote number segmentation method based on edge detection and projection, which can be devided into three steps-the location of the area on the left of the serial numbers, the location of the area that the serial number and the denomination number located, the identification and segmentation of the serial number and the denomination number. the front versus back, as well as inversion, are also studiedin the dissertation. thirdly, based on the work above, the recognition algorithm of the serial number is discussed. all the character images are devided into two groups, the training set and the testing set. svm is applied to recognize the banknote number andallpixels of image are used as characteristic vector. in the experiment, the banknote numbers are recognized in two ways (the letters and numbers are recognized in mixed or separated way).the results show that the later is more advisable than the former. the recognition of denomination numbers are also discussed in the dissertation. keyword:keyword:keyword:keyword:paper-moneypaper-moneypaper-moneypaper-moneytilt-correctiontilt-correctiontilt-correctiontilt-correctionsupport-vector-machinesupport-vector-machinesupport-vector-machinesupport-vector-machine banknotebanknotebanknotebanknote numbernumbernumbernumberdenominationdenominationdenominationdenomination numbernumbernumbernumber 西安电子科技大学西安电子科技大学 学位论文独创性(或创新性)声明学位论文独创性(或创新性)声明 秉承学校严谨的学分和优良的科学道德,本人声明所呈交的论文是我个人在导 师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注 和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果; 也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明 并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期 西安电子科技大学西安电子科技大学 关于论文使用授权的说明关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文 的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、 缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位仍然为西安电子科技大学。 (保密的论文在解密后遵守此规定)。 本学位论文属于保密在年解密后适用本授权书。 本人签名:日期 导师签名:日期 第一章 绪论 1 第一章绪论 1.1 课题研究的背景 改革开放以来,我国国民经济持续、快速、健康的发展,与国际间的经济贸 易日益频繁,银行外币收付和兑换业务也随之大量增加。即使在电子货币兴起的 今天,纸币现金流通依然是目前国际金融界货币流通的最主要方式。但是,随着 纸币现金流通量不断增长,流通中纸币残损所占比例增大,假币也不时出现,严 重影响了人们的正常工作与生活。因此,对纸币识别、辨析、挑剔等工作,在各 家银行都是非常困难的问题。当前,大多数金融机构的现钞整点挑剔工作仍然依 靠繁重的手工操作进行,不仅费时费力,而且整点挑剔质量并不理想。此外,各 银行每天要给 atm 配钞,并按照中国人民银行不宜流通人民币挑剔标准1上缴 入库损伤券和完整券,这些工作若依靠手工操作,不但劳动强度大、用时长,还 存在劳动卫生条件差的问题。各银行为了提高服务效率和质量相互竞争,对纸币 自动化处理的要求越来越迫切。 人民币是 1948 年 12 月 1 日中国人民银行成立时开始发行的,到目前为止, 共发行了五套人民币。第五套人民币自 1999 年 10 月 1 日开始发行,共发行了 100 元、50 元、20 元、10 元、5 元、1 元六种纸币和 1 元、5 角、1 角三种硬币。之后 为了更进一步提高人民币的防伪功能,中国人民银行于 2005 年 8 月 31 日起发行 了 2005 版的第五套人民币,券种为 5 元、10 元、20 元、50 元、100 元2。与前四 套人民币相比,第五套人民币具有鲜明的特点。它不但在设计上体现了我国悠久 的历史,它的印刷技术也已达到了国际先进水平。人民币是中华人民共和国的法 定货币,每一张纸币都有一个序列号,即“一票一号”,因此序列号成为纸币的标 识,对于第五套人民币,序列号为双色横号码,左半部分为红色,右半部分为黑 色,这是不同于以往的特征。银行或其它金融领域常常需要对序列号的信息进行 采集用于分类和防伪。另外,在大面额纸币的序列号(横冠)下方,往往会有纸 币面额号,对面额号的识别也是至关重要的。显然对于银行等金融机构,由于现 金交易量极大,人工识别序列号和面额号是不可取的,对纸币的自动化识别是一 种必然趋势。 在 21 世纪,计算机技术得到普及与应用,基于模式识别技术和计算机视觉的 智能号码检测系统对提高劳动生产率、实现生产过程自动化具有重要意义。纸币 清分机综合运用了计算机技术、模式识别技术、系统控制技术、鉴伪技术以及精 密机械制造技术3,是一种高科技含量的现金处理设备,以智能化机械代替人工对 人民币序列号和面额号的分割与识别研究 2 纸币进行清分处理,正越来越广泛地应用于我国的金融领域。清分机具有识别纸 币面额、新旧、真伪、方位、残缺等多种功能,可以快速且自动化处理大量现钞, 因此,也被视为一个国家金融业现代化发展不可或缺的必需装备。目前第一、二、 三、四套人民币都已经停止流通,因此课题中主要针对目前流通的第五套人民币 纸币进行识别。 1.2 课题研究的意义 目前国内有各类银行业法人机构 3 万多家,乡镇以上的储蓄所及其它金融营 业网点近 200 万家4, 而只有少数的银行网点在使用纸币清分机, 并且多数是德国 、 美国、日本的进口产品,随着国民经济的进一步繁荣,国内金融领域对纸币清分 机的需求在未来几年内势必迅速增长。就纸币号码识别技术而言,在德、英、日 等发达国家已经比较成熟,相应的产品也已经开始应用于银行业务中,而我国还 处于起步阶段。 现阶段,我国自主研制的纸币清分机很少,功能也很有限,很难满足实时性 的要求,尤其是能够用图像处理的方法来识别纸币的纸币清分机才刚刚起步。目 前,我国金融机构配备的各种品牌的清分机基本是都是国外进口,国外进口的清 分机设计并不是基于人民币模型,所以其使用效果并不理想,且价格非常昂贵。 面对我国数量庞大的金融系统,研制出国产的适合于人民币模型的纸币智能处理 系统,已经成为一种迫切需要。 纸币号码识别可以自动识别纸币号码并登记有关交易信息,一旦发现所处理 的纸币为假币,就可以根据假币的身份标识(号码)来跟踪有关交易信息,确定使 用假币的交易者,从而实现对货币流通市场中的纸币的实时监控与有效管理。例 如:当纸币被暴力抢劫后,利用具有号码自动识别功能的纸币处理系统记录纸币 号码,将纸币号码与被抢劫号码数据库比较,若有相同号码出现,便可确认此纸 币为被抢劫的纸币,从而限制其流通,为公安机关提供破案线索和确凿证据,有 效地减少刑事犯罪活动。 在人民币号码印刷过程中会出现错号、重号、缺号等情况,如果这些工作都 是由人工检查完成,费时费力。为了及时发现这些错误,研究自动号码识别系统 是非常必要的。近年来,广东等地陆续发现了“hd90”、 “hb90”编号开头的百 元面额假人民币,人民银行及时与公安机关和有关金融机构通报了有关情况,并 要求金融机构对点验钞机具进行全面排查,防止误收误付。另外,近来不少的储 户投诉从 atm 机取出假币的现象,但由于证据不足而没有得到应有的赔偿。基于 此,有人提出一种在反馈单上提供人民币序列号的想法,此方案就应用到了人民 币序列号识别的技术。故而人民币序列号是一个很重要的防伪点,如何有效对假 第一章 绪论 3 币进行识别对反假钞工作具有至关重要的作用,本文研究的序列号与面额号的识 别就是其中最为关键的部分。 推广之,该技术也可以看作是一个比较独立的模块,可以广泛的应用于各种 无人售票机、自动售卡机、扫描仪等。随着交通收费和检测系统的自动化,车牌 号码和身份证号码的提取和识别也可以借鉴相关的技术和经验。 1.3 国内外纸币号码识别的现状与水平 目前,纸币识别技术在美国、英国、日本、德国等西方发达国家己经比较成 熟,在技术上采用模式识别、图像处理、计算机控制等检测控制技术,并在纸币 清分机、验钞打号机中得到了广泛的应用,其发展趋势是采用各个学科最新技术 不断提高整个系统的功能、质量和工作效率。 纸币清分机是一种能自动高效的完成对现钞的防伪检测,整点清分处理,保 证 atm 用钞、流通钞票质量标准的高端金融现金处理设备。目前纸币清分机国外 厂家主要有德国的 c&g、日本的东芝、英国的德利来、光荣、劳雷尔等公司5。 以前我国各种金融机构一直是采用人工完成纸币清分工作,但是随着经济的繁荣, 各种业务量的快速增加,部分银行开始采用国外进口的纸币清分机,进口清分机 价格昂贵,如英国德利来中型现金清分机的市场报价为 1300000 元;同品牌小型 的清分机 dlr3700e,市场报价为 380000 元;清华同方公司与东芝公司合作推出 的 cs-100cn 小型台式纸币清分机的市场报价为 258000 元4。由于在我国流通领 域中,软、旧、残纸币较多,现金量巨大,因此直接引进的国外产品适应性差, 大都存在对待清分纸币质量要求较高,清分效果不理想的问题。相比国外纸币清 分机现状,国内较为落后。多年来,我国清分机消费市场始终是由进口产品一统 天下。可喜的是,目前,清分机的研发工作已经成为国内金融机具制造业实现其 自动化的目标之一,且于近期有所突破。第一款拥有自主知识产权的国产小型纸 币清分机松花江 cf2000 由哈尔滨比绍特科技发展有限公司率先研制成功, 并批量 投放市场,而沈阳信达、清华同方等公司的清分机也相继研制成功6。 目前市场上比较成熟的验钞打号机有 scancoun-2000 美元验钞打号机、sy-1e 多国货币验钞打号机等。scancoun-2000 美元验钞打号机具有紫外线、红外线、光 谱纸成份分析、磁性分布、图像等鉴别真伪功能,能迅速而准确地识别假钞,此 外它还具有电子眼图像模式识别探测功能,1988 年以后印刷的各种面额的美元纸 币都可鉴别。工作时,当遇到假钞能发出蜂鸣报警,并将假钞吐出且显示鉴别结 果。sy-1e 多国货币验钞打号机,采用磁性分布、纸张油墨、红外分布、紫外反射 、 光谱成像等七种以上特征点技术进行定位、定值提取判别,快速准确,并且独有 动态打号功能,能真实记录纸币号码,轻松工作,有据可依。近年来,为了开发 人民币序列号和面额号的分割与识别研究 4 拥有自主知识产权、性能更优越的产品,国内的金融设备公司正积极从事纸币验 钞打号设备的研制与销售。如北京奇宝电子有限公司、北京凯文斯科技发展有限 公司等,这些公司研制和销售的是同一型号的产品,都是引进国外的技术,并没 有真正研制出拥有自主知识产权的产品。南京航空航天大学与南京新创验钞设备 有限公司合作开发了一种基于单片机的纸币识别系统7,以线阵 ccd 为纸币图像 的采集设备,采用单片机进行纸币图像的处理及序列号的识别,但这套系统存在 难以提高序列号的识别速度的问题。 沈阳工业大学的郑传琴8和哈尔滨工业大学的 张庆峰9分别利用面阵ccd摄像机和接触式cis图像传感器, 研制了一种基于dsp 的纸币号码识别系统,取得了一定的成果。尽管国内诸多公司或机构已经在这方 面有一定的研究成果,但依然没有研制出智能便携式纸币打号机,更没有成熟的 产品投入到市场。 在国内高校中,也有不少学者对人民币纸币进行了研究,如迂雪峰10和丁瑞 昕11等分别设计了纸币清分机, 郭艳平4对币种和币值的识别进行了较为深入的研 究,李亮、丁万山12设计了基于 arm 内核的纸币号码识别系统,虽然这些学者取 得了一定的研究成果,但纸币识别的技术尚未成熟,还存在很多的不足。本文试 图在纸币序列号识别这一特定的领域,对采集来的人民币图像进行相关处理,正 确高效地提取人民币纸币号码和面额等有用信息,以达到学习与研究的目的。 1.4 序列号识别的基本处理步骤 序列号识别系统一般包括图像数据库建立、纸币图像预处理模块(主要为纸 币倾斜校正) 、纸币序列号区域定位与分割模块、序列号与面额号的识别模块等。 本文所作的主要研究工作都是围绕着序列号的自动识别这一个核心问题(面额号 的情况是类似的) ,通过对图像处理与识别技术中各种已有算法的分析与研究,充 分利用人民币的先验知识与信息,设计出应用于纸币号码识别的有效方法。需要 说明的是,本文的工作主要为算法研究,不涉及系统的硬件实现。 1图像数据的采集 图像采集的目的是为后续的图像识别算法提供准确而真实的纸币图像数据, 因此图像数据获取的准确性、真实性就依赖于图像采集模块的硬件性能。图像传 感器的种类有:ccd 图像传感器,cis 图像传感器和 cmos 图像传感器等。而本 文由于缺少必要的硬件条件,实验中的图像都是在以下条件下获得的: (1) 以普通数码相机为工具;(2) 采用各种深色均匀背景;(3) 面额为 50 元和 100 元;(4) 纸币新旧程度不一,包括磨损、扭曲等情况;(5) 相机镜头与纸币平 面相对平行;(6) 照明光线均匀;(7) 存在纸币倒立放置和反面放置的情况;(8) 纸 币上下边沿与水平轴成小角度倾斜() ;(9) 不同分辨率条件。30 30+ 第一章 绪论 5 我们在以上条件下采集各种纸币图像,得到了若干类型的图像组成的库,库 中图像具有较好的普遍性、全面性。首先通过对采集的所有图像的分析,我们把 采集到的图像进行了分类。对各种可能出现的情况进行了分析,发现图像中的号 码区域位置相对固定,这是一个很好的先验知识,在后续处理中得到了很好的利 用。 2纸币图像预处理 本文中主要利用边缘信息来对纸币的序列号和面额号进行定位,所以预处理 首先是对图像进行边缘检测,本文对各种边缘检测算子进行了实验与分析,最终 选用 sobel 和 canny 边缘检测算子。其中,sobel 边缘检测算子能获得强边缘,这 样我们就能轻易得到纸币图像的边界直线,但是由于图像对比度、纸币扭曲等原 因,边界直线往往断裂为若干较短的直线,我们以 hough 变换为基础,对其进行 改进得到一种鲁棒性较好的改进纸币边缘检测算法。通过以上改进算法获得纸币 的倾斜角度后,我们对纸币的边缘图像进行旋转,获得校正以后的边缘图像。 3纸币序列号区域定位与分割 边缘检测算子中,sobel 算子检测强边缘,canny 可以同时检测弱边缘和强边 缘,得到丰富的边缘细节。在纸币序列号(横冠)一侧细节相对较少,而非序列 号的右侧部分细节极为丰富,我们可以利用人民币的这种细节差别对序列号进行 初步定位。本文提出基于边缘检测和投影法的三步序列号分割方法,首先用 sobel 算子边缘检测结果对纸币进行定位分割,获得准确的纸币图像;然后利用 canny 算子边缘检测结果进行初步分割,获得序列号所在左侧区域;最后利用 sobel 算子 检测边缘实现准确序列号分割,同时分割出面额号。 在完成了图像中号码区域的定位以后,这使得全部目标信息集中在相当小的 区域,这也使得二值化处理变得容易。对整幅图像的全局阈值分割显然其效果具 有笼统性,而对上述目标区域的二值化则可能具有更好的分割效果,这种方式在 不同光照的情况下适应能力也较好。 字符分割是依据序列号的定位结果,从序列号图像中准确地把各个序列号分 割成相互独立的子图像作为识别的数据源,是序列号识别中关键的一步,其分割 的准确性直接影响识别的结果。在分析垂直投影分割算法的基础上,针对垂直投 影分割可能产生字符粘连和分裂的情况,本文根据字符间距,字符宽度和幅度等 先验信息,结合垂直投影法对序列号进行分割,取得了比较满意的分割结果。 4序列号与面额号的识别 序列号的识别是纸币识别的最终目的,前面步骤的最终目的都是为其服务, 本文利用支撑矢量机方法来进行识别。首先,将序列号字符归一化到统一尺寸, 然后直接将字符图像本身作为特征列向量,并将所有字符图像分为两部分:一部 分作为训练数据,一部分作为测试数据,前者对构造的 svm 分类器进行训练获取 人民币序列号和面额号的分割与识别研究 6 相关参数,后者测试分类器的性能。本文利用分类器对两种不同的策略进行了实 验(即字母和数字混合识别;字母和数字分别识别) ,结果表明后者不但在时间上 有所缩短,而且识别率更高,是更为可取的方法。本文最后还基于投影法对面额 号图像进行了分割,并对纸币面额进行了识别。 1.5 本课题的技术难点 号码识别技术研究最为成熟与应用最广的为车牌识别系统13-14,纸币号码识 别可以借鉴相关技术与经验,但是它也存在自身的特点与难点。纸币号码识别存 在的主要难点包括15: (1) 由于纸币是软性的。字符图像可能会因扭曲而出现变形的问题,纸币以不 同方向进入识别器时也可能出现倒的字符图像等等,这些问题是在纸币号码识别 系统出现的特殊问题。 (2) 纸币在流通过程中,会产生油渍、折痕、磨损甚至人为添加文字等污染, 这些不确定性污染在一定程度上破坏了纸币本身的信息,给纸币序列号的定位与 识别带来了极大的困难。 (3) 字符点阵的分辨率低。 纸币上的序列号字符是在纸币图像上分割提取出来 的,受到图像采集系统本身的限制,使得字符所占的像素比较少,特征信息丢失 较多,给识别带来困难。 (4) 相似性。有些字符在形状上存在很强的相似性,如“0”和“o”、“1”和 “i”、“8”和“b”、 “2”和“z”等。 (5) 实时性要求高。 纸币序列号系统要求能对检测到的纸币进行及时的图像采 集、图像处理、序列号识别等一系列操作,这就要求序列号的定位和识别速度较 高,需要时间复杂度较小的算法。 字符识别虽然有较成熟的理论和实验,但是由于纸币识别系统的特殊性,要 准确的识别各种情况下的纸币序列号还是具有一定的难度。本文就是针对纸币识 别中的一些关键问题展开了研究。 1.6 本文的主要内容和组织结构 本文主要研究纸币图像的自动处理技术,通过图像数据的预处理、图像分割、 图像识别等算法,达到对纸币图像的智能化处理。具体的研究内容包括纸币图像 预处理、纸币号码区域定位、字符分割和特征提取、字符识别等。而对于纸币处 理的关键在于纸币号码区域定位、字符分割和特征提取,其中纸币号码区域的定 第一章 绪论 7 位又决定其后的字符识别过程,因此纸币号码的定位是影响最终识别结果的重要 步骤。 本文是对作者研究生期间在纸币识别领域研究工作的概括总结,全文共分五 章,结构安排如下: 第一章:绪论部分,主要介绍了本课题研究的背景,课题研究的意义、纸币 号码识别的基本组成以及论文的主要内容与章节安排。 第二章:对图像预处理相关理论进行了介绍,包括边缘检测、图像分割和倾 斜校正以及 hough 变换的基本原理和实现的具体步骤。 第三章:通过对纸币本身特点的分析,提出了一种改进的基于霍夫变换的纸 币倾斜校正方法。通过对 sobel 和 canny 算子对纸币图像边缘检测结果的分析, 提 出一种基于边缘检测和投影法的三步序列号分割方法,实现了对纸币的序列号和 面额号进行定位与分割,从而使得在此基础上可以进行后续的序列号与面额的识 别。 第四章:使用支撑矢量机对纸币序列号进行识别,并对比了字母和数字混合 识别,以及字母和数字分别识别两种策略,此外还对面额进行了识别。 第五章:对本论文的全部工作进行了总结,并对下一步工作进行了展望。 第二章 纸币图像的预处理 9 第二章纸币图像的预处理 图像预处理是纸币识别前的重要工作,其目的是为了提高纸币图像的识别率。 本文中涉及的纸币图像预处理技术主要包括图像边缘检测、图像分割和纸币倾斜 校正等三个方面。 2.1 边缘检测 图像的边缘是图像最基本的特征之一,所谓边缘是指其周围像素灰度有阶跃 变化的像素的集合。根据检测边缘的执行方式不同,边缘检测技术大致可分为以 下两类:串行边缘检测技术和并行边缘检测技术。前者首先要检测出一个边缘初 始点,然后根据某种相似性准则寻找与前一点同类的边缘点,这种确定后继相似 点的方法称为跟踪。显然这类方法是不适合用于纸币图像的自动化处理。并行边 缘检测技术通常借助空域微分算子,通过其模板与图像卷积完成,因而可以在各 个像素上同时进行,从而大大降低了时间复杂度。一般,并行边缘检测可分为一 阶导数检测和二阶导数检测两种。这是基于如下两个基本准则来找到图像中亮度 快速变化的地方16:(a)找到亮度的一阶导数在幅度上比指定的阈值大的地方;(b) 找到亮度的二阶导数有零交叉的地方。 2.1.1 一阶导数检测 一幅数字图像的一阶导数是基于各种二维梯度的近似值,所以一阶导数检测 也叫梯度检测法16-19。在边缘灰度值过渡比较尖锐且图像中噪声比较小时,梯度 算子的效果比较好。梯度检测法的原理比较简单,对于一个连续二维图像函数 ,它在位置的梯度定义为下列向量:),(yxf),(yx (2-1) = = y f x f g g f y x 从向量分析中我们知道,梯度向量指向坐标的的最大变化率方向。在边缘),(yxf 检测中,一个重要的量就是这个向量的大小,用表示,这里,f (2-2) 2/122 )( yx ggfmagf+= 人民币序列号和面额号的分割与识别研究 10 这个量给出了在方向上每增加单位距离后值增大的最大变化率。 一般来f ),(yxf 讲也将称为梯度(尽管不完全正确) 。梯度向量的方向也是一个重要的量。令f 表示向量在处的方向角。然后,由向量分析得到:),(yxf ),(yx (2-3)arctan(),( x y g g yx= 这里,角度是以轴为基准度量的。边缘在处的方向与此点的梯度向量的方x),(yx 向垂直。 根据模板的大小和系数值的不同,常用的梯度算子有 roberts 算子、prewitt 算子、sobel 算子。对于图 2.1 中显示的 3*3 大小的区域表示图像邻域中的灰度级, 三种梯度算子的模板公式分别为 图 2.1 图像 3*3 邻域示意图 (2-4) = = )( )( 68 59 zzg zzg y x (2-5) += += )()( )()( 741963 321987 zzzzzzg zzzzzzg y x (2-6) += += )2()2( )2()2( 741963 321987 zzzzzzg zzzzzzg y x 其中,roberts 算子由于没有清楚的中心点所以很难使用,prewitt 算子和 sobel 算 子的区别在于中心系数,权值 2 用于增加中心点的重要性而实现某种程度的平滑 效果,所以在噪声抑制特性方面略胜一筹。 2.1.2 其他边缘检测算子 常见的其他边缘检测算子有如下几种:laplacian 算子16、log 算子16、canny 算子20-21等。其中 laplacian 算子是如下定义的二阶导数 (2-7) 2 2 2 2 2 y f x f f + = 在实践中,常用的两种模板公式为 (2-8)(4 86425 2 zzzzzf+= z1z2z3 z4z5z6 z7z8z9 第二章 纸币图像的预处理 11 (2-9)(8 987643215 2 zzzzzzzzzf+= 拉普拉斯算子一般不以其原始形式用于边缘检测是由于存在以下原因:作为 一个二阶导数,拉普拉斯算子对噪声具有无法接受的敏感性;拉普拉斯算子的幅 值会产生双边缘;拉普拉斯算子不能检测边缘的方向。由于以上原因,拉普拉斯 算子在边缘检测中的所起的作用包括: (1)利用其零交叉的性质进行边缘定位; (2)确定一个像素是在一条边缘暗的一边还是亮的一边。高斯型的拉普拉斯算子 (laplacian of a gaussian, log)中使用高斯型函数的目的就是对图像进行平滑处理, 使用拉普拉斯算子的目的是提供一幅用于零交叉确定边缘位置的图像,其计算公 式为 (2-10) 2 2 2 4 22 2 )( r e r rh = 其中,是标准差,是关于 的二阶导数。 222 yxr+=hr canny 边缘检测器是通过寻找的梯度最大值来查找边缘,梯度由高斯),(yxf 滤波器的导数来计算。该方法使用两个阈值检测强边缘和弱边缘,若它们连结到 了强边缘,则只输出强边缘。因此,这种方法更适合用于检测真正的弱边缘。对 于该方法总结如下20-21: (a) 图像中使用带有指定标准偏差的高斯滤波器来进行平滑,从而可以减少 噪声。 (b) 对图像中的每一点计算其局部梯度和边缘方向 2/122 ),( yx ggyxf+= ,边缘点定义为梯度方向上其强度局部最大的点。)/arctan(),( xy ggyx= (c) 第二条中确定的边缘点会导致梯度幅度图像中出现脊。然后,算法追踪所 有脊的顶部,并将所有不在脊的顶部的像素设为零,以便在输出中给出一条细线, 这就是众所周知的非最大值抑制处理。 脊像素使用两个阈值 t1 和 t2 做阈值处理, 其中 t1t2。值大于 t2 的脊像素称为强边缘像素,t1 和 t2 之间的脊像素称为弱 边缘像素。 (d) 最后,算法通过将 8 连接的弱像素集成到强像素,执行边缘链接。 2.2 图像分割 图像分割始于上世纪 50 年代,其研究己有几十年的历史,借助各种理论至今 已提出了各种类型的分割算法,而且这方面的研究仍在积极进行中。目前,较多 的传统图像分割算法是从灰度图像出发的,这些算法往往并不能简单地应用到彩 色图像分割22-23和纹理图像分割24中,学者们正努力对更为复杂的图像类型进行 分割。目前不少学者倾向于把图像分割方法分为两大类:基于数据驱动的分割方 人民币序列号和面额号的分割与识别研究 12 法和基于模型驱动的分割方法。但二者的分类界限并不明显,有时甚至是相互重 叠的。基于数据驱动的分割方法直接对当前图像数据进行操作,虽然也利用有关 先验知识,但不依赖于先验知识;基于模型驱动的分割方法则直接建立在先验知 识的基础上。常见的图像分割方法有阈值法25、分水岭算法26、区域生长法27、 分裂合并法28、多尺度分析方法29、偏微分方法30等。 阈值法是一种常用的原理简单,实现容易的图像分割方法。该方法基于对灰 度图像的一种假设:目标或背景内的相邻像素间的灰度值是相似的,但不同目标 或背景的像素在灰度上有较大差异,反映在图像直方图上,不同目标和背景则对 应不同的峰。选取的阈值应位于两个峰之间的谷,从而将各个峰分开。根据阈值 个数不同,阈值法分为单阈值法和多阈值法。 阈值分割的基本原理31为:假设原始的灰度图像为,根据某一规则在),(yxf 中找出一个灰度值 t 作为阈值,将图像分为两部分,分割后的二值化图像),(yxf 为:),(yxg (2-11) l; (7) 查找的最大值,并以产生该最大值的 k 为阈值进行二值化。 22 / ab 人民币序列号和面额号的分割与识别研究 14 2.2.3 迭代法 迭代法的基本思想32是,初始阈值选取为图像的平均灰度 t0,然后用 t0将图 像的像素点分作两部分,计算两部分各自的平均灰度,小于 t0的部分为背景 ta, 大于 t0的部分为目标 tb,计算 t1=(ta+tb)/2,将 t1作为新的全局阈值代替 t0, 重复以上过程,直至 tk收敛,即 tk+1=tk。 算法实现的具体步骤如下: (1) 计算图像灰度直方图; (2) 求出图像的最大灰度值和最小灰度值,分别记为 zmax和 zmin,令初始阈值 t0=(zmax+zmin)/2; (3) 根据阈值 tk将图像分为前景和背景,分别求出两者的平均灰度值 ta,tb; (4) 根据 tk=(ta+tb)/2 求出新阈值; (5) 若 tk+1=tk,则tk+1为所求的最佳阈值, 结束迭代; 否则 k=k+1,转步骤(3)。 2.2.4 熵阈值方法 八十年代以来,许多学者将 shannon 信息熵的概念应用于图像阈值化,其基 本思想都是利用图像的灰度分布密度函数定义图像的信息熵,根据假设的不同或 视角的不同提出不同的熵准则,最后通过优化该准则得到阈值,这就是熵阈值分 割方法4。kapur 等人38的方法假定目标和背景服从两个不同的概率分布: (2-14) t i tt p p p p p p ,., 00 (2-15) t l t i t i p p p p p p + 1 ,., 1 , 1 21 其中,图像灰度级 g=1,2,l,而为图像中的灰度出现的频率,那么像 l fff,., 21 素用 n 表示,则有,而表示灰度级 i 出现的频率,有 l fffn+=. 21 nfp ii /= ,。0 i p = = l i i p 1 1 定义目标熵和背景熵分别为: (2-16) t i i t t i b p p p p th 2 0 log)( = = 第二章 纸币图像的预处理 15 (2-17) t i l tt t i w p p p p th = += 1 log 1 )( 2 1 则熵定义为: (2-18) t tl t t ttwbt p hh p h ppththth +=+= 1 )1 (log)()()( 2 其中,。当达到最大时, = = i t it pp 1 t l t tt pph 2 1 log = = t l t tl pph 2 1 log = =)(tht 所对应的阈值就是最佳阈值,记为: * t (2-19)(max)( 1 * thth t li t = 2.3 倾斜校正 在一个图像处理系统中,获得图像后,一般要对其进行预处理。在汽车牌照 自动识别系统、票据电子影像系统、选票自动识别系统以及 ocr识别等系统中, 通过输入设备获得的图像不可避免地会发生倾斜,这给后面的图像分割、字符识 别等图像处理与分析带来困难,因此,在这些系统中,倾斜校正是图像预处理的 重要部分。纸币清分机采集图像是在纸币高速进纸过程中进行的,纸币会发生倾 斜。因此,倾斜校正是本系统图像预处理部分的重要环节,倾斜校正的好坏对后 续的图像分析和识别有较大影响。 纸币倾斜校正包括倾斜角度检测和图像的旋转,其核心在于如何检测出图像 的倾斜角。目前,倾斜角检测的方法有许多种,主要可分为 5 类:基于 hough 变换 的方法39-40,基于交叉相关性的方法41,基于投影的方法42,基于 fourier 变换的 方法43和 k-最近邻簇方法44。针对纸币本身的特点,还有人提出通过搜索纸币的 边界角点来确定纸币的倾斜角度6,该方法虽然实现简单,快速,但是算法鲁棒性 较差。当纸币图像本身变形,或者纸币图像存在缺角、折角,或者背景中存在干 扰等情况时,纸币图像的四条边界并不构成一个矩形,会获得多于四个的边界角 点,从而不能有效检测纸币的倾斜角。 2.3.1 hough 变换的基本原理 hough 变换4是对图像进行某种形式的坐标变换, 它将原始图像中一定的几何 形状的直线或曲线变换成参数空间的一个点。即图像空间中给定形状的直线或曲 线上的所有点都集中到参数空间中的某个单元而形成局部峰值45,这样就把在图 人民币序列号和面额号的分割与识别研究 16 像空间中检测直线或曲线的问题变成寻找参数空间中峰值单元的问题。 设直角坐标系中的一条直线方程为: (2-20)bkxy+= 其中,k 为该直线的斜率,b 为该直线在 y 轴上的截距。我们也可用参数表示 则为: (2-21)sincosyx+= 其中为从原点到直线的垂直距离,为从 x 轴算起的角度,这条直线在 平面中为一点,而在 x-y 平面中通过一点的一簇直线变换到平面时,将 形成一条类似正弦曲线的轨迹,也即在 x-y 平面上一个点对应平面上一条曲 线。若在 x-y 平面上有三个共线点,它们变换到平面上为有一公共交点的三 条曲线, 公共交点的参数就是共线直线的参数。 根据这个原理, 可以用 hough 变换提取直线,通常将 x-y 平面称为图像平面,将平面称为参数平面。对于 直线的检测问题而言,任意一条直线都可以用参数和完全确定下来。 图 2.2x-y 平面和平面关系示意图 2.3.2 hough 变换实现的具体步骤 利用 hough 变换检测直线的步骤可以概括如下4 37: (1) 在和合适的最大值和最小值之间建立一个离散的参数空间; (2) 建立一个累加器,并置每个元素为 0;),(a (3) 对边缘图上超过门限值的每一点作 hough 变换(对于二值图像即为黑色像 素点),即算出该点在平面上的对应曲线,并在相应的累加器上加 1,即 (2-22)1),(),(+=aa (4) 找出对应图像平面上共线点的累加器的局部极大值, 这个值提供了图像平 面上共线点直线的参数,从而可以确定该直线。 第二章 纸币图像的预处理 17 从上述 hough 变换的过程可以看出,如果图像中存在直线,那么在累加器 矩阵中必有一个对应的元素为局部极大值,其参数和对应该直线的参),(a 数,此时对应的就是图像中直线的倾斜角度。 * 2.4 本章小结 本章主要对纸币图像预处理的基本内容进行了介绍。第一节主要对用于边缘 检测的roberts算子、prewitt算子、sobel算子以及laplacian算子、log算子和 canny 算子进行了介绍和分析。第二节介绍了图像分割的方法,尤其是阈值分割方法, 讨论了 p-分位数法、otsu 法、迭代法和熵阈值方法。第三小节对用于纸币倾斜角 度检测的 hough 变换进行了介绍,并介绍了其具体实现步骤。 第三章 纸币序列号和面额号的定位与分割 19 第三章纸币序列号和面额号的定位与分割 3.1 纸币图像的倾斜校正 3.1.1 改进的纸币倾斜校正方法 理论上,对于纸币边界直线的检测,其上下边框对应最长的直线段,因此在 纸币图像倾斜检测中可以利用纸币边框为最长直线段的特征,通过 hough 变换来 搜索累加器的峰值,即找到纸币边框的位置直线。然而在实际应用中,由),(a 于图像对比度、纸币扭曲、图像数字化等原因,边界直线往往断裂为若干较短的 直线,如图 3.4 所示,图中存在 11 条较短的直线段,都存在于纸币的边界上,如 果纸币的倾斜角度为,则这些直线段的角度应该接近于或(+90)的角度。 基于本文方法的纸币倾斜校正的具体步骤为: (1) 对图 3.1 运用 sobel 算子检测图像边缘, 从而得到有效的纸币图像边界 (图 3.2) 。 图 3.1原图图 3.2sobel 边缘检测结果 图 3.3hough 变换直线检测图 3.4直线段叠加到原图(7) 人民币序列号和面额号的分割与识别研究 20 (2) 使用 hough 变换检测图像中的所有直线段,并求取它们的角度。 此时直线 段分别隶属于纸币的上下边界()和左右边界(),假设直线段总条数为(图 1 2 n 3.3、图 3.4) 。 (3) 去除某些非边界的直线段干扰,确定纸币候选倾斜角度。首先,分别 cand 统计步骤(2)中隶属于、的平均值、,及对应直线段条数、(有 1 2 c1 c2 1 n 2 n ) ,然后根据服从多数原则选取直线段较多的一类作为纸币的候选倾斜nnn=+ 21 角度 cand (3-1) ji xx, 高维空间实际上只需进行内积运算,而这种内积运算可以用原空间中的函数来实 现,我们甚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论