(信号与信息处理专业论文)基于内容的logo图像识别技术的研究与实现.pdf_第1页
(信号与信息处理专业论文)基于内容的logo图像识别技术的研究与实现.pdf_第2页
(信号与信息处理专业论文)基于内容的logo图像识别技术的研究与实现.pdf_第3页
(信号与信息处理专业论文)基于内容的logo图像识别技术的研究与实现.pdf_第4页
(信号与信息处理专业论文)基于内容的logo图像识别技术的研究与实现.pdf_第5页
已阅读5页,还剩96页未读 继续免费阅读

(信号与信息处理专业论文)基于内容的logo图像识别技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t h e 州1 1 1 l i 1 1 1 1 1 1 1 1 1 1 1 l l 删 y 17 5 4 4 0 6 r e s e a r c ha n ds o f t w a r er e a l i z a t i o no f c o n t e n t b a s e dl o g od e t e c t i o n a n d r e c o g n i t i o ns y s t e m 。 at h e s i ss u b m i t t e dt o s o u t h e a s tu n i v e r s i 够 f o rt h ea c a d e m i cd e g r e eo fm a s t e ro f e n g i n e e r i n g b y y a o w e i f e n g s u p e r v i s e db vs u d e r v l s e ( ib v p r o w a n gq i a o s c h o o lo fi n f o r m a t i o ns c i e n c ea n de n g i n e e r i n g s o u t h e a s tu n i v e r s i t y j a n n u 哪2 0 1 0 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:二昭粹日 期:碰 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 i - - _ 。一一 摘要 摘要 基于内容的l o g o 图像识别 技术的研究与实现 硕士研究生姚伟峰导师王桥 东南大学信息科学与工程学院 近年来,随着网络中多媒体内容尤其是图像和视频内容的迅速增加,政府和企业对 于开发出一套快速高效的图像中l o g o 检测与识别系统的需求越来越强烈,本论文的 目的就是开发出一套响应快速、识别准确的l o g o 识别系统以满足这一需求。 论文首先分析了l o g o 的特征以及人眼视觉机制,并结合目标识别领域的既有成 果,确定了以s i f t 结合k d 骶e 作为系统的技术方案。在模块设计和实现中,除了使用 既有的算法外,为了提高系统性能,我们还根据系统要求以及遇到的问题提出了一系列 新的算法:论文使用了基于对比度排序的特征点筛选算法在系统的识别效率和时间效率 之间进行折衷;提出了重复匹配点删除算法,用于解决实验中发现的重复匹配问题;提 出了基于距离的最长递增子序列算法,用于解决错误匹配问题;提出了基于中值点距离 的聚类算法,用于解决l o g o 定位时的外点问题;提出了根据不同应用模式自适应地 采取不同的匹配策略的想法,以充分利用各应用模式的特点,提高系统识别效率。这些 算法都从不同程度上提升了系统的性能。为了提高系统的可靠性,论文还分别对系统的 内存管理策略和线程安全策略进行了设计。最终,论文完成了具有“开放性、可扩展、 线程安全”特征的l o g o 识别系统l o g o f i i l d e r 系统的设计、实现与测试。 测试结果表明:系统在确认模式下的准确率达到了9 0 左右,在识别模式下的准确率 达到了8 7 左右,在i n t e l2 6 6 g h z ,3 g b 内存的p c 平台下识别时间不到1 秒。指标水 平略高于商用系统m a g e l l a i l 刑,较好地满足了设计需求。 关键词:l o g o 识别系统、识别准确度、时间效率、开放性、可扩展 a b s 啪l c t a b s t r a c t t h er e s e a r c ha n ds o f t w a r er e a l i z a t i o no fc o n t e n t b a s e d l o g od e t e c t i o na n dr e c o g n i t i o ns y s t e m c 孤d i d a t e :y a ow e i f e n g s u p e r v i s o r :w a n gq i a 0 s c h o o lo fi n f 0 眦a t i o ns c i e n c ea n de n 舀n r i n s o u t h e a s tu n i v e r s 咄c h i 舱 i nr e c e n ty e a r s ,、i t hi n t e m “sd e v e l o p m e 蝇b i l l i o n so fm u l t i i n e d i af i l e s ,e s p e c i a l l yi m a g e s 锄dv i d e of i l e s ,s p r e a di nt h en e w o r kr a p i d l y 觚dt h e i ra 删) 眦ti n c r e a s e sr a d i c a l l y b o t h g o v e m m e n t sa i l de n t e 椰s e sl l a 、,e 锄u 玛et 0d e v e l o pa l le 伍c i e n ta l l de 腩c t i v es y s t e mw 1 1 i c h c a i ld e t e c ta i l dr e c o 印i s el o ( 的si ni m a g e sa i l dv i d e o s t h em a i np u 印o s eo ft l l i sp 印e ri st o d e v e l o p 锄a c c u r a _ t el o g od e t e c t i o na n dr e c o 印i t i o ns y s t e m ,w h i c hc 锄r e s p o n s er a p i d l y f i r s t l o g o sc h 嬲尬t e r i s t i c sa n dt h ev i s u a lm e c h a n i s mo fm eh 啪锄e y e sa r ea n a l y z e d , 锄da s i f t + k d t r e e t e c l m i c a js o l u t i o ni sp r o p o s e db 硒e do nm et l l ea u l a l y s i s d 嘶n g m o d u l ed e s i 印锄di m p l e m e m 砒i o n ,i na d d i t i o nt oe v a l u a t i n ge x i s t i n ga l g o r i m m s ,s o m en e w a l g o r i t h m sw e r ep r o p o s e dt 0s o l v ep r a c t i c a lp r o b l e m s 锄l di m p r 0 v es y s t e l mp e r f l o m a i l c e :a f e 籼ep o i m ss o r t i n ga l g 矾t l l | nb a s e do np i x e lc o n t r a s ti sp r o p o s e dt om a k e 仃a d e o f fb e 觚e e n n l es y s t e m sa c c u r a c ya n dt i m ee 衢c i e n c y ;d u p l i c a t ed e l e t i o na l g o r i t h i t la n dd i 嗽m c eb a s e d l o n g e s ti n c r e a s i n gs u b s e q u e n c ea l g o r i t a r ep r e s e n t e dt or e s 0 1 v ed u p l i c a t em a t c m n ga n d e n d rm a t c h i n gp r o b l e m s ;a i lm e d i a n - d i s t a n c eb a s e dc l u s t e r i n ga l g o r i t h mi sp r o p o s e dt od e l e t e o u t l i e r sw h i l el o c a l i z i n gl o g 0 ;t 1 1 el a s tb u tn o tt h el e a s t ,as e l f 二a d p t i v em a t c l l i n gs n a t e g yi s p r o p o s e dt 0a d j u s tt o 铆od i a e r e n t 印p l i c a t i o nm o d e s a l lo fa _ b o v ei i n p r o v et h ep e o n n a n c e o ft h es y s t e mt od i 虢仃e n tp e r s p e c t i v e s f i n a l l y ,t h es y s t e m sr e l i a b i l i 锣s t r a t e g yi sd i s c u s s e d i n c l u d i n gm e m o 巧m a n a g e m e n ts t r a t e g y a n dt h r e a d - s a f cs 仃a t e 阱i nt h ee n d ,a n “o p e n , s c a l a b l ea 1 1 dt h i e a d s a f e l o g or e c o 印i t i o ns y s t e mw a sr e a l i z e db ys o r w a r ea i l dt e s t e d c o m p r e h e n s i v e l y e x p e r i 啪e n t sr e s u l t ss h o wt h ea c c u r a c ya t t a i n s9 0 i nv e r i f i c a t i o nm o d ea i l d 8 7 i l l r e c o 姐i t i o nm o d ew i t ht h et i m eo v e r h e a dl e s st h a l l ls e c o n di i lm ep cp l a t f o mo fi n t e l 2 6 6 g h zc p ua l l d3 g bm e m o 巧,w l l i c hm e e tt h ed e s i g nr e q u i r e m e n t sf a i r l ys a t i s 匆i n g k e yw o r d s : l o g or e c o 印i t i o ns y s t e m ,a c c w a c y ,t i m ee 伍c i e n c y ,o p e n ,s c a l a b l e l l l 目录 目录 摘要i a b s t r a c t i i i 目录v 第一章绪论1 1 1 研究背景与研究内容l 1 1 1 研究背景与应用场景l 1 1 2 研究对象及内容3 1 2 研究重点。5 1 3 论文主要工作和创新点6 第二章方案设计9 2 1l o g o 设计特征。9 2 2 识别思路的选择9 2 3 局部特征的选取原则1 3 2 4 特征检测子的选择1 3 2 4 1 角点特征。1 4 2 4 2 斑点特征1 9 2 4 3 比较与选择2 2 2 5 特征点描述子的选择2 3 2 5 1 基于邻域像素绝对关系的描述子2 3 2 5 2 基于邻域像素相对关系的描述子2 5 2 5 3 比较与选择2 7 2 6 匹配度量准则的选择2 8 2 7 索引结构的选择2 9 2 7 1 基于h a s h 表的索引结构2 9 2 7 2 基于树型结构的索引结构31 2 7 3 其他索引结构3l 2 7 4 比较与选择3 2 2 8 总结3 2 第三章系统架构设计3 5 3 1 基本架构选型3 5 3 2 系统架构说明3 6 3 2 1 模型组训练模块3 7 3 2 2 模型组索引结构生成模块3 7 3 2 3 识别模块。3 7 第四章模块设计与实现3 9 4 1 图像预处理模块3 9 4 1 1g r a p h i c s m a g i c k 简介3 9 4 1 2 模块设计4 0 4 2 特征提取模块4 l 4 2 1 尺度空间的生成4 l 4 2 2 特征点的检测4 3 4 2 3 描述子的生成。4 6 v 东南大学硕士学位论文 4 9 5 ( ) 5 2 5 2 5 3 5 7 5 7 6 1 6 :! 6 2 6 5 6 5 6 5 6 5 6 6 6 6 6 8 6 8 6 8 6 8 7 ( ) 7 l 7 l 7 :! 7 z i 7 5 7 7 7 7 7 8 7 9 8l 8 5 8 9 v i 第一章绪论 1 1 研究背景与研究内容 第一章绪论 1 1 1 研究背景与应用场景 2 0 世纪9 0 年代以来,随着互联网技术和多媒体技术的飞速发展,海量的图像和视频 文件通过互联网以及其他电子媒介广泛传播。由于图像和视频强烈的感官效果和感性说 明能力,使得图像和视频逐渐超越文本成为网络信息的主要载体,在w e b 2 o 时代占据 越来越重要的地位。 在各种类型的图像中,有一类我们称为标识图像( 如商标、企业徽标等,下文统称 l o g o ) 的图像占据了特殊的地位。所谓l o g o 图像是指具有权属、类别等表征意义的 小尺寸图像。l o g o 图像一般叠加在其他图像上或是作为其他图像的内容而存在,起到 宣示权属以及宣传的作用,是具有很强信息表达作用的图像组成部分。因此,对图像中 的l o g o 进行检测、识别和分析具有很大的实际应用价值。 下面列出了l o g o 识别的几个具有代表性的应用场景: ( 1 ) 体育赛事广告效果的评估 图卜l2 0 0 5 上海f 1 方程式赛车大赛现场 图1 1 展示了2 0 0 5 年上海f 1 方程式赛车大赛的赛场一景。我们可以看到赛场的护栏 上出现了中国石化( s i n o p e c ) 的商标,在赛车上还有壳牌( s h e l l ) 、沃达丰( v o d a f o n e ) 等商标, 它们都是赛事或车队赞助商。 目前,世界各地大大小小的公司都倾向于通过赞助体育活动的方式来扩大品牌的影响 力,主要做法是在比赛现场或是运动器械、运动员服装上印刷赞助商的商标、l o g o 等 【1 3 】。而赞助体育赛事需要较高的花费,因此赞助商希望能够保证本公司的商标达到一 定的上镜率,从而保证自己的投资回报率。目前,已有一些市场调研机构提供了帮助赞 助商评估投资回报率的服务,他们的主要做法是:组织大量人力通过观看视频的方式来 东南大学硕士学位论文 评估赞助商商标的可见性( 主要是每次出现的持续时间以及可见区域占视频总区域的百 分比等) 。研究表明,操作人员盯着屏幕超过1 0 分钟后将漏掉9 0 的视频信息,从而使 这项工作失去意义刚;另外操作人员不同的主观评价标准也会影响结果的客观性。为了 保证结果的准确性和权威性,这些机构不得不组织更多的人力多次反复进行确认,这使 得人工监视的方式既昂贵又欠缺客观性。因此,这些公司希望开发出一套能够自动识别 图像中l o g o 的系统,这样机构只需要组织少量的人力对识别出的结果进行验证就可以 了,从而最终达到快速客观的效果。 ( 2 ) l o g o 超链接 在浏览网页的时候,我们往往很喜欢网站为我们提供的各种这样的超链接:我们只需 要点击网页内容中我们感兴趣的名词,如果该名词存在超链接的话,浏览器就会为我们 打开该名词对应的网站。比如说我们在一则关于i b m 的新闻中,点击带有超链接的i b m 单词,浏览器就会转到i b m 公司的主页。 那么,能不能在图像中也实现这个功能呢? 想像一下这个场景,用户在浏览f l 船网 站上的照片时,只需要轻击图像上他感兴趣的某个l o g o ,浏览器就会自动打开该 l o g o 对应的企业或组织的网站供用户参考。对用户而言,相对于冗长的网址,那些鲜 明、有特色的l o g o 记忆起来更容易也更深刻;对企业来讲,这也是一个新的品牌宣传 渠道,因此也会非常乐见由此带来的品牌关注度的提高;对网站方面来讲,除了改善了 网站的用户体验外,还会带来新的广告营收渠道。因此建立l o g o 超链接是一个多方都 存在的需求。 这时,如何识别出资源图片库中的每幅图像的l o g o 并为它添加超链接就成为一个问 题。使用人工标记的方法对于动辄上百万幅图像的图像库来讲显然是不实际的,因此开 发出一个自动l o g o 识别和标记系统成为一项亟待解决的任务。 ( 3 ) 商标权的保护 很多公司发现自己的商标、企业l o g o 容易被其他不法商家盗用,这不利于保护商标 的形象,也损害了本公司的经济利益和知识产权。目前普遍采取的方法是委托代理公司 进行人工调查来维护商标权,这种方法主要靠员工在网络上浏览相关图像资源来进行 的。由于人力的有限性,只能在每年的一段时期集中浏览某些网络资源,不能实现2 4 x 7 的全网监控,所以效果相对来讲并不明显。因此,需要开发出一个自动检测商标侵 权的系统。 上面展示的三个应用场景,涉及到网络生活的不同方面,但都有一个共同点,那就是 在它们的业务中l o g o 识别都是关键的环节。本论文的主要目的和最终成果就是设计并 实现一个满足上述应用场景的l o g o 识别系统。 2 第一苹绪论 1 1 2 研究对象及内容 本论文的目标是设计并实现一个适应多平台、多应用的l o g o 识别内核引擎,我们称 其为l o g o f i n d e r 系统。图l 2 和l 一3 分别给出了l o g o f i n d e r 系统在单机应用程序和分布 式系统中所处的地位。 ( 1 ) l o g o f i n d e r 在单机版系统中的位置 单机版l o g o 识别系统的一个有趣的应用是在移动终端上。作为移动终端的一个应用 程序,用户只要使用手机自带摄像头拍摄下他所感兴趣的l o g o ,应用程序就会自动登 录该l o g o 对应的网站,实现一站式自动上网。应用程序主要分为三个模块: ( 1 ) 图像获取。该模块的主要目的是获取用户感兴趣的图像数据,可以通过摄像头等 拍摄设备获取,也可以直接从其他电子媒介或是网络中获取。 ( 2 ) l o g o 识别。判断输入图像中是否含有l o g o 模板库中的l o g o ( 或商标) 。为了 使系统达到相当的性能指标或是在各性能指标之间进行折衷处理,图像预处理是一个重 要手段。 ( 3 ) 后处理。在识别到相应的l o g o 后,可以根据需求进行相应的后处理,如关联到 相应的网址等。 从图1 2 中可以看出,系统在单机版系统中处于核心的地位,是业务能否顺利完成的 关键部分。 ( 2 ) l o g o f i n d e r 在分布式系统中的位置 在大型图片网站的l o g o 超链接关联或是用于商标权保护的商标检测等应用中,由于 图像数据海量性以及应用要求的实时性,大多数情况下需要采用分布式系统来完成这些 任务。图1 3 给出了此类分布式系统的一种架构。 在分布式系统架构中,系统有多个客户端,每个客户端都可以独立发起识别任务。客 户端首先向全局控制模块提交任务,全局控制模块根据任务属性对任务进行分配,如果 是数据库查询业务就把任务分发给数据库服务器模块,如果是l o g o 识别任务就把任务 分发给负载均衡模块。负载均衡模块再根据其所管理的服务器结点的负载状态把任务分 配给它所管理的空闲服务器结点。我们设计的系统就作为该分布式系统的服务器结点存 在,为客户端提供核心业务。 东南大学硕士学位论文 图1 _ 2l o g o f i n d e r 在单机版系统中的应用示意图 客户端n 图1 - 3l o g o f i n d e r 在分布式系统中的应用示意图 综上所述,本论文的研究对象是数字图像或视频,研究的主要内容是设计一个适用于 多平台、多架构的系统来完成输入图像视频中的l o g o 识别任务,以供后续业务环节 的使用。 4 第一章绪论 1 2 研究重点 作为图像的内容,由于拍摄条件以及所处场景的复杂度是不受控的,因此l o g o 在图 像中会呈现出各种不同的形态。下面列出了l o g o 在图像中可能出现的五种情况: ( 1 ) l o g o 在图像中的位置不确定。与电视信号中电视台l o g o 总在图像的左上角不 同,本应用场景的查询图像中l o g o 图像所处的位置是不可预知的。在有些图像 中,l o g o 处在图像的边界,而在其他图像中,l o g o 又可能处于图像的中心位 置,图1 _ 4 ( a ) 展示了这种情况。因此,我们设计的l o g o 识别系统应该不依赖于 特定位置,即l o g o 位于图像中的任何位置都不会引起系统性能的降低。这就要 求系统采用的算法是移位不变的。 ( 2 ) l o g o 被部分遮挡。在很多情况下,由于在拍摄过程中l o g o 中的某些部分可能 被遮挡或者漏拍,这时我们就无法从图像中得到一个完整的商标。图1 4 ( b ) 展示了 这种情况,在该图中a l i c e 公司的l o g o 的一部分被模特遮挡了。 ( 3 ) l o g o 产生视角形变。由于实际拍摄过程中拍摄角度的不同以及l o g o 的载体的 摆放等原因,图像中的l o g o 会产生视角形变,主要包括二维以及三维空间上的 旋转,以及镜头的视角变换等。图1 4 ( c ) 展示了这种情况,图中h e i n e k e n 商标被 逆时针旋转了4 5 度左右。 ( 4 ) 图像成像条件不同。实际拍摄过程中,不可能保持成像条件恒定。光照,抖动以 及摄像设备的分辨率等因素都会对所获取图像的质量产生影响,这些影响包括: 噪声,运动模糊,对比度不均匀,对比度伸缩等。图1 4 ( d ) 展示了一幅示例图像, 在这幅图像中,l o g o 中的“z t e ”部分和“中兴”部分光照条件不一致,导致 了同一个l o g o 上的对比度不均匀。 ( 5 ) l o g o 之间复杂性不同。在实际应用中,l o g o 的复杂性和信息量可能会相差很 大。有些l o g o 构图比较简单因此提供的信息量就比较小,另外一些l o g o 的信 息量相对来讲就比较大。一般来讲含有文字的l o g o 所提供的信息量会比没有文 字的l o g 0 大得多。怎么处理l o g o 之间这种不平等的地位,也是我们在系统设 计过程中需要考虑的问题。 东南大学硕士学位论文 ( c )( d ) 图1 - 4l o g o 图例 我们所设计的l o g o f i n d e r 系统需要在待识别图像出现以上五种情况中的任一种或几 种的情况下仍然能够保持较高的识别准确率。这些问题都是实际图像中经常出现的问 题,只有解决了这些问题,所实现的系统才具有更高的工程意义和实际应用价值。在系 统的设计和实现过程中,另一个重要的因素就是系统的时间效率,系统的响应时间是决 定系统用户体验的重要因素,一个识别正确但是响应时间漫长的系统是不实用的。 综上,本文的研究重点就是如何在系统的识别准确度和时间效率上进行折衷,从而设 计出一个既有较高识别效率同时又具有较短响应时间的l o g o 识别系统。 1 3 论文主要工作和创新点 论文在深入分析研究对象l o g o 本身的特征以及人眼视觉机制的基础上,结合目标识 别领域的既有研究成果,经过深入分析和仔细比较,选定以s i f t 结合k d 仃e e 作为系 统实现的技术方案。这虽然是一个研究界广为使用的经典方案,但论文的一大工作在于: 从特征检测子选择、特征描述子选择、匹配度量准则选择以及索引结构选择四个角度, 深入分析了各既有成果的优缺点以及与l o g o 识别应用场景的契合度,最终证明了该方 案对于l o g o 识别应用场合的合理性和最优性,而不仅仅是盲目的套用。 论文的另一个重要工作在于设计并实现了一个“开放性、可扩展”的适合于单机场景 和分布式系统场景的商用级l o g o 识别系统l o g o f i n d e r ,系统拥有完善的内存管理和错 误处理机制,并支持多线程操作。经过算法优化和代码优化,l o g o f i n d e r 系统在i n t e l 2 6 6 g h z ,3 g b 内存的p c 平台下的识别时间在8 0 0 毫秒左右,远低于一般的使用s i f t 算法的系统;系统的识别准确度达到了9 0 左右,略高于商用l o g o 识别系统 6 第一苹绪论 m a g e l l a n o m 。同时,系统还可以方便地替换算法模块以及其他模块,实现无损增量式升 级。 在系统实现过程中,涉及到以下五个创新点: ( 1 ) 基于对比度排序的特征点筛选算法。为了在系统的识别准确度和时间效率之间进 行折衷,通过对l o g o 图像特征的深入分析,论文使用了基于对比度排序的特征 点筛选算法,对所得到的特征点进行筛选。这一算法进一步降低了特征点的数量, 从而大大缩短了特征提取时间和匹配时间;同时由于l o g o 图像本身的特性,筛 选基本没有损害系统的识别性能。 ( 2 ) 重复匹配点删除算法。在算法实验过程中,我们发现了较严重的特征点重复匹配 现象,这一现象普遍存在于l o g o 识别应用场景中,对系统的查准率造成了较大 的影响,但目前的公开文献中均没有提出这一问题。为了解决这个问题,论文提 出了重复匹配点删除算法,该算法简单而实用,大大降低了无关l o g o 的得分, 从而提高了系统的查准率。 ( 3 ) 基于距离的最长递增子序列算法。为了解决错误匹配问题,论文充分利用了匹配 点间的拓扑约束,提出了基于距离的最长递增子序列算法,用于删除大部分误配 点,进一步提高系统的识别准确度。 ( 4 ) 基于中值点距离的聚类算法。在对查询图像中l o g o 进行定位时,为了有效删除 匹配点中的外点,论文提出了基于中值点距离的聚类算法,有效地提高了l o g o 定位的准确性。 ( 5 ) 自适应的匹配策略。为了充分利用不同应用模式各自的特点,论文对在对两种应 用模式进行深入分析的基础上,提出基于应用模式使用不同匹配策略的方法,对确 认模式和识别模式分别使用最近距离比匹配策略以及距离阈值限制下的n 近邻匹 配策略,从而提高了系统的性能。 7 第二章方案设计 第二章方案设计 在本章中,我们通过对l o g o 设计特征以及人眼视觉机制的分析,并结合目标识别领 域的既有成果,从特征检测子、特征描述子、匹配度量准则以及索引结构四个方面来设 计l 0 9 0 f i n d e r 系统的技术方案。 2 1l o g o 设计特征 l o g o 作为企业或组织对外的标志,起着宣传企业或组织的形象和文化的作用。作为 一种视觉语言,l o g o 需要有较强的视觉吸引力和记忆点,应使受众产生瞬间效应。下 面列出了l o g o 在设计过程中需要遵循的两个主要原则【5 。7 】: ( 1 ) 设计出的l o g o 需要达到醒目、简洁的要求。l o g o 在所在图像中需要达到自显 性的效果,这样才能在丰富的视觉元素中突出自己,抓住受众的目光,从而达到 宣传的效果,这就要求l o g o 在设计过程中使用较为鲜明的颜色,体现比较丰富 的层次感;为了让受众容易记住l o g o ,同时又要求l o g o 不要过于繁复,需要 使用简单的几何或文字组合来达到目的。 ( 2 ) l o g o 设计应具有通用性。l o g o 除了使用商品包装、装潢外,还要适宜电视传 播、霓虹灯装饰、建筑物、交通工具等,以及各种工艺制作及有关材料,包括压 印、模印、丝网印、彩印等,还有放大、缩小、灰度化等变换。做到近看精致巧 妙,远看清晰醒目,从各个角度、各个方向看都具有较好的识别性,确保在任何 使用条件下都清晰、可辨。 由上面两点可以看出,l o g o 应在各种场景条件下具有显著性的特征,这种特征主要 是通过其较为丰富的层次感来获得的,这些层次感从视觉角度来讲体现在像素的变化 上。如果在系统设计中能够充分利用这种特征,将对提高系统的性能产生比较大的助益。 2 2 识别思路的选择 l o g o 识别问题从范畴上来说属于目标识别领域的一个较为特别的子课题。因此,在 研究的开始我们首先把问题放到目标识别问题这个大的背景中去考虑,以借鉴识别领域 已经取得的成果和想法。所谓目标识别问题,其解决的问题就是如何用计算机来模拟人 眼认知事物、区分事物的过程,最终使计算机也能与人眼一样识别物体。 当前,学术界对人眼识别对象机制的研究仍然处于探索阶段,研究人员提出了包括基 于规则的识别、基于模板的识别以及基于反演集合的识别在内的各种假说来解释人眼的 视觉机制【1 4 。1 5 1 。其中,基于模板的识别由于理论简单、可操作性强,获得了计算机科学 家的广泛采用,取得了一系列的成果【1 5 】。我们的系统就是建立在基于模板的识别假说基 础上的。 认知心理学认为:人类之所以能够识别某个物体,是因为在之前我们已经对该物体进 行了学习,在学习过程中我们在大脑中建立( 记忆) 了该物体的模板,识别物体的过程就 是将被识别物体与我们记忆中的模板进行比对的过程【矧。这样,就可以把识别问题建模 9 乐雨大学硕士学位论文 成“模板匹配”问题。 研究人员对“选择目标的何种属性作为识别的模板”这一课题从两个方面进行了探索 【6 2 】:其一,最简单也是最直接的想法是认为目标图像本身就是模板,因为这种思想的基 本出发点就是将目标图像与查询图像进行逐像素地比对,因此我们把这种想法称为基于 像素的识别方法;另一种思路并不认为模板中的每个像素点具有相同的重要性,而是从 这些像素点中通过一定的准则挑选出一些重要性更高的点出来,并把对这些点的描述作 为目标图像的特征,在识别阶段仅在目标图像和查询图像的特征之间进行比对,这种思 路称为基于特征的识别。 在基于像素的识别方法中最经典就是基于互相关的匹配方法【6 3 1 。其基本思想就是:让 目标图像在查询图像上滑动,并计算每个滑动位置上目标图像与其覆盖的子图的归一化 互相关值;最后,具有最大互相关值的位置被认为是模板在目标图像中出现的最可能位 置,图2 1 展示了这个过程。 三: 予缯s 口卜 横叛7 _ 图2 - 1 模板搜索 但是,这种识别方法存在两个显著的不足: ( 1 ) 为了防止漏检,模板必须逐像素滑动,并在每个位置处计算归一化互相关值。这 相当于穷举法进行搜索。当目标图像很大时,这是一个相当耗时的操作,无法满足实时 性的需求。 ( 2 ) 该方法要求目标图像与模板图像处于基本相同的成像环境。如果查询图像中的目 标与给定的目标图像相比发生了尺度变化、光照变化、旋转等变换,就需要对查询图像 进行相应的预处理,这些处理不仅增加了方法的时间复杂度同时也降低了方法的识别准 确度。 针对这两个问题,研究人员进行了一定程度的研究和改进。为了使得基于像素的比对 算法适用于尺度变化和旋转的场合,k o i c l l it 锄a l 【a 等【8 】提出了参数式模板( p 觚蚰e t r i c t e m p l a t e ,p t ) 的概念:首先将模板图像进行一组尺度变换、旋转操作得到一组变换后的 图像,把这组图像作为模板图像的基,并认为查询图像中的模板图像可以表示成这组基 的线性组合。这样,通过将模板匹配问题转化成为如何求解线性组合系数的问题,解决 了模板尺度变化,旋转下的匹配问题。但是这种方法却增加了匹配的复杂度,每次匹配 1 0 第二苹方案设计 子图都要与一组模板基计算互相关值,这给本来就十分大的复杂度又增加了很大的负 担。y i h s i e nl i i l 【9 。o j 等对k d i c l l it 锄a k a 的算法进行了改进:他们使用极坐标转换的方法 解决了旋转的问题,同时将参数式模板从二维降到了一维,在一定程度上减少了算法的 时间复杂度。其他基于模板的方法在处理旋转和尺度缩放问题等问题使也采取了类似的 策略,这些方法的一个致命伤在于论文并没有对基图像的选取给出可操作的方法,也没 有公认的评价标准j 因此可操作性并不高。 另一方面,为了降低算法的时间复杂度,研究人员也做出了很多努力。b 锄e a 等人【l l j 提出了序贯相似性检测算法( s e q u e n t i a ls i m i l a r i 锣d e t e c t i o na l g o r i t h m ,s s d a ) 方法,提出 当模板图像与子窗口的累加距离超过预设阈值时就及时终止计算,从而减少了计算复杂 度。v 锄d e r b m g 等1 12 j 提出了两阶段模板匹配的方法来降低计算开销,主要做法是首先取 模板的一部分( 称为子模板) ,只有当子模板与子窗口的距离不大于给定阈值时才再计算 整个模板与窗口的相似度,否则直接认为模板图像与子窗口并不相似。k a w a n i s h i 【1 3 】提 出了一种基于累加距离下界的搜索空间剪枝策略,直接跳过不可能的搜索子空间,从而 缩小了搜索空间。j 从上面我们可以看到,基于像素的比对方法的两个固有问题并没有得到根本的解决, 只是一定程度上得到了减轻而已,无论是从实时性还是从准确率的角度来说都远没有达 到预期的性能。如图2 2 所示,( a ) 为含有t o y o t a 的l o g o 的查询图像,因为“t o y 部分的像素值与模板( b ) 不同而“o t a 部分与模板( b ) 相同,导致其各部分像素变化规 律不一致,从而使得基于像素的无法识别出该l o g o 。同样地,在查询图像中的l o g o 的某些部分被遮挡或是漏拍或是查询图像中l o g o 产生了部分形变的情况下,基于像素 的方法的识别效率也会急剧恶化。 t o y o t a ( a )( b ) 图2 2 基于像素方法无法解决情况示例 1 9 8 7 年,美国纽约州立大学著名的视觉心理学家i i n gb i e d e m a i l 【1 4 】提出了“组件识 别理论 ( r e c o g l l i t i o nb yc o m p o n e n t st h e o r b c ) 。在其经典论文 r p c 9 9 玎打幻刀一z 哆 i ,妒。聆p 玎括? 彳f 厅p d ,y 盯忍“,咒口珂f 坍口g e “玎沈,苫f 口 d 西z g 中,i r v i n gb i e d e m a n 通过详细的实验和分析提出了“局部特征在人眼识别对象的过程中起着非常重要的作 用 这一观点。i n ,i n gb i e d e n i l a n 认为,局部特征的存在是人眼辨识对象的依据,一旦 丢失这些特征将使得人类无法辨识对象。图2 3 展示了一个很有说服力的实验,在这个 实验中,第一列是五个不同的对象,在第二列中实验者去掉了每个对象的直线部分,在 垄堕奎堂堡主堂垡丝茎 这种情况下我们仍能大致分辨出各自是什么物体:而当这些图像中的直线之间的交点被 抹去时(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论