（信号与信息处理专业论文）基于dct压缩域的字符定位技术研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：71 大小：3.11MB 积分：0 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

（信号与信息处理专业论文）基于dct压缩域的字符定位技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要字符是人类信息的集中和重要表现，图像视频中的字符，包含有丰富的语义信息。采用现代图像处理技术将字符从图像，视频中自动提取出来，有助于分析理解图像视频的内容，实现基于内容的检索等。字符定位是进行字符提取及后续分析的首要步骤。目前多数字符定位技术研究都是在像素域进行的，但是由于图像视频通常都以压缩格式进行存储和传输，像素域处理方法必须首先将这些压缩格式的图像视频进行完全解压缩，然后才能进行定位研究，这样不仅影响系统处理的速度，同时也限制了这些技术在存储空间有限场合下的应用，无法满足目前快速发展的实时移动多媒体业务的需要。近年来压缩域图像处理技术的发展，提供了研究解决上述问题的新途径。压缩域图像处理技术是根据压缩形式下的图像视频数据特点，在不解压或少量解压的情况下，实现和像素域相同或相近的处理效果。本文根据图像中的字符特点结合现有的压缩域处理技术，对基于d c t 压缩域的字符定位技术进行了初步的研究。首先分析了基于d c t 压缩域的特征提取、分类、滤波、分割定位等阶段的实现方法，提出了一种面向j p e g 压缩图像的快速字符定位算法，在d c t 压缩域中实现了复杂背景图像中的字符区定位；然后剥基fd c t 的多尺度分析方法进行研究，提出了一种基于d c t 压缩域的多尺度字符定位算法。在快速字符定位算法中，首先从部分解码后的d c t 数据中提取出一种新的基于加权频率的字符区特征；接着采用自适应闺值分类法进行字符月字符子块的快速分类；在经过基于游程平滑算法的滤波过程之后，提出一种基于二次投影分割融合的字符区分割算法，实现了复杂背景下的字符区快速定位；并对实验结果进行了分析、比较和讨论。为了稳测不同尺寸的字符，本文在基于d c t 压缩域的多尺度方法研究中，对包括箍于d c t 压缩域的严格分数缩放算法、基于d c t 压缩域的双线性插值近似缩放算法进行了实现，并给出了基于d c t 压缩域的多尺度字符定位算法。目前，基于d c t 压缩域的字符定位技术研究还处于初始阶段，随着压缩域图像处理技术的快速发展、以及多媒体业务的迅速拓展，这一方向的技术研究具有广泛的应用前景和研究意义。关键词压缩域图像处理；字符定位；d c t ：投影法；自适应闽值：! ：! ! ，!：! ! 至三些奎兰三耋堡三耋堡! 鎏：，!：， a b s t r a c t t e x ti st h ec o n c e n t r a t i o na n do n ep o w e r f u lr e p r e s e n t a t i o no ft h eh u m a n i n f o r m a t i o n t h o s ec h a r a c t e r s ，w h i c he m b e d d e di ni m a g e s v i d e o s ，u s u a l l yp r o v i d e b r i e fa n di m p o r t a n ti n f o r m a t i o na b o u tt h ec o n t e n t ，a c t i n ga sau s e f u lk n o w l e d g e s o u r c ei ni m a g e v i d e o a n a l y s i sa n ds e r v i c e s ，s u c ha sc o n t e n t b a s e di m a g e v i d e o i n d e x i n ga n dr e t r i e v a ls y s t e m ，e t e u pt on o w ，m a n ye f f o r t sh a v eb e e nd o n ei nt h i s a r e a b u tl a r g ea m o u n to fi m a g ed a t aa n do t h e rf a c t o r s g i v e d i f f i c u l t i e st o a u t o m a t i c a l l yr e a l t i m e t e x tl o c a l i z a f i o n si ni m a g e s h o wt or e l i a b l yd e t e c ta n d l o c a l i z et e x ti n f o r m a t i o ni ni m a g e sq u i c k l yb e c o m e so n ec h a l l e n g ei ni m a g e v i d e o p r o c e s s i n g w i t ht h ed e v e l o p m e n to ft h ec o m p r e s s i o nt e c h n i q u e sa n dt h ew i d e l y a d o p t i o no ft h ei n t e r n a t i o n a li m a g e v i d e oc o m p r e s s i o ns t a n d a r d ，m o s ti m a g e s v i d e o s a r es t o r e da n dt r a n s m i t t e di nac o m p r e s s e df o r m ，t h e r ei sa ne m e r g i n gt r e n dt or e a l i z e i m a g ep r o c e s s i n go p e r a t i o n sd i r e c t l yi nc o m p r e s s e dd o m a i n ，w h i c hi so fg r e a th e l pi n r e a l - t i m ea n ds t o r a g e - l i m i t e di m a g e v i d e o p r o c e s s i n ga p p l i c a t i o n s a tp r e s e n tl e s s w o r kh a sb e e nd o n ef o rt e x tl o c a t i n gi nt h i sa r e at h a ni np i x e l d o m a i n i nt h i sp a p e r , ar e s e a r c ho nh o wt o e f f e c t i v e l yl o c a t et e x ta r e a si ni m a g e si n c o m p r e s s e dd c t d o m a i ni sp r e s e n t e d f i r s t ，a na n a l y s i so fd c td a t a ，w h i c hc a nb e g e tf r o mj p e gc o m p r e s s e ds t r e a mw i t ha ne n t r o p yd e c o d e r ，i sp r o p o s e d ；t h e nt w o k i n d so fc l a s s i f i c a t i o n sa r ea n a l y z e da n dr e a l i z e dt oe x t r a c tt e x tc o m p o n e n tf r o mt h e b a c k g r o u n d ；f i n a l l y ，ac o a r s e t o f i n ep r o j e c t i n ga l g o r i t h ma n dac o n n e c t e d c o m p o n e n t a n a l y s i sa l g o r i t h ma r ed i s c u s s e dt os e g m e n ta n d l o c a t ef i n a lt e x ta r e a s ，d u r i n gt h i sp a r t ， t w ok i n d so fs m o o t h i n ga n df i l t e r i n ga l g o r i t h mi sa l s oi n v o l v e d a na l g o r i t h mo ff a s t t e x tl o c a l i z a t i o n si ni m a g e sw i t hc o m p l e xb a c k g r o u n di st h e np r o p o s e d ，w h i c hc a n l o c a t et e x ta r e a si nd c t c o m p r e s s e dd o m a i n i no r d e rt od e t e c tt e x tw i t hd i f f e r e n t s i z e s ，t w ok i n d so fm u l t i r e s o l u t i o nm e t h o d si nd c td o m a i ni s a l s od i s c u s s e d ， i n c l u d i n gf r a c t i o n a ls c a l i n gi nd c t d o m a i na n db i l i n e a ri n t e r p o l a t i o nw h i c hc a ng e t f r a c t i o n a l s c a l i n ga p p r o x i m a t e l yi nd c td o m a i n t h e nam u l t i r e s o l u t i o n t e x t l o c a l i z a t i o na l g o r i t h mi nd c t c o m p r e s s e dd o m a i ni sp r o p o s e d r e s u l t si no u ri m a g e s e t ss h o wt h ee f f i c i e n c yo fo u rw o r k t e x tl o c a l i z a t i o ni nc o m p r e s s e dd o m a i ni so fe x t e n s i v ea p p l i c a t i o n s w i t ht h e d e v e l o p m e n ta n do u t s p r e a do ft h em u l t i m e d i ao p e r a t i o n s ，m o r ew o r kw i l lb ed o n ei n t h i sa r e a ，i i k e yw o r d ： c o m p r e s s e di m a g ep r o c e s s i n g ；t e x tl o c a l i z a t i o n ；d c t ；p r o j e c t i n g ； a d a p t i v et h r e s h o l d i v 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文巾不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京j i ：业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。馘：粤醐关于论文使用授权的说明 2 一。r 本人完全了解北京工业大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公御论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名：堑! 鏊丕导师签；艺兰厕，名：1 日期第1 章绪论信息是构成人类社会的最基本要素之一，它包含了人类社会所创造的全部知识的总合，可以被重复使用、共享、及扩增。在人类历史发展过程中，信息处理工具与手段的每一次革命性变革，都对经济、文化、社会发展以及社会管理等各个层面产生了极为深刻的影响，成为社会发展的巨大推动力。构筑一个立体的、全球的、交互的、数字化的、高智能化的多媒体信息网络系统，实现包括文字、图像、声音等多媒体信息的高速传递和处理，已经成为目前信息技术发展的主要方向之一。 1 1 基于压缩域的图像处理新一代图像，视频业务是目前信息技术发展的研究和开发热点之一，其核心特性是信息媒体的多样性、集成性及交互性。由于其涉及的数据类型复杂，数量庞大，给存储和传输带来了巨大的压力，只有将其进行高效的压缩，并以压缩格式进行存储和传输，才能使构架于网络上的图像视频业务成为可能。目前制定的一系列国际压缩编码标准，及其在多媒体领域的广泛应用，使得图像视频数据普遍都以压缩格式存在。另外，图像视频数据具有的无序性、非结构化特点，使其在实际应用中，必须要经过分析、处理、理解等操作，将其转化为结构化数据之后，才能够有效地加以利用。图像，视频的压缩和处理是多媒体技术的主要研究内容之一。传统的图像处理模式中，压缩和分析处理是相互分离的。压缩算法的设计和实现仅仅考虑在保汪一定重构质量的前提下以尽量少的比特数来表征图像数据，并未对可能存在的后续的分析处理等操作提供支持；而图像的处理技术研究也主要是针对原始图像数据进行的，即对非压缩格式的原始点阵数据进行操作“。对于普遍以压缩格式存在的图像视频而言，必须先将其进行完全解压缩，才能进行诸如平移、缩放、感兴趣区的提取、基于内容的检索等应用处理。二十世纪九十年代以来，基于压缩域的图像处理技术受到人们越来越多的重视，这是一种压缩和处理相结合的处理模式。它是直接作用在图像压缩数据上的操作，不仅能省略解压缩和再压缩的附加环节，同时由于压缩域的数据量一般远远小于原始数据，对于应用系统总体性能的提高非常有利；另一方面，图像压缩算法的设计和实现使其不仅具有较高的压缩效率和重建质量，还能够在一定程度上支持图像数据的基于内容的分析、处理和检索等操作。压缩域图像处理的主要研究内容包括两个方面：：。!苎塞三些奎兰三耋堡圭兰堡i 圣，： ( 1 ) 从数据处理的角度来看，研究在现存的压缩算法( 如j p e g 、m p e g 等) 所形成的压缩数据城内，如何克服压缩城的限制并充分利用压缩域的优势，寻找与原始数据集的分析、处理操作相对应的对等操作或近似对等操作，实现压缩域的数据处理，并达到和原始像素域操作相同或相近的处理效果。同时，如何降低压缩域内刺等操作的复杂度、压缩域对等操作对源数据操作的加速比以及与压缩比的关系也是研究中需要考虑的内容。近年来人们已经开始面向部分应用领域展开了一系列的研究，如利用压缩域数据处理优势，进行基于压缩域的人脸检测o 3 等。 ( 2 ) 从数据压缩的角度来看，研究新的支持压缩域直接处理的图像压缩算法。传统的编解码算法主要是去除图像视频数据帧内和帧间的冗余信息，以求在保证一定解码图像质量的前提下获得尽可能高的压缩比，压缩算法并未考虑图像视频数据的内容以及对基于内容的分析、检索以及码流可分级性等功能。新一代的多媒体压缩标准m p e g 一4 是以基于内容的压缩为主要特征，其引入的“对象”的概念，能够使更多的交互操作成为可能。例如，图像中的字符作为类特殊的对象，能够在一定程度上反映图像的内容，作为概念级的内容表达形式，可以帮助人们理解分析图像的内容。在许多应用场合，对这类对象进行特殊的编码处理是非常有意义的，属于典型的基于对象的编码o 3 。随着信息技术的快速发展，压缩域图像处理技术的研究具有越来越广泛的实用价值。其研究成果可以广泛应用于电视会议、远程教学、远程医疗、电子图书馆、数字化电视以及v o d 信息点播等，提高构筑于刚络之上的信息业务和应用系统的整体性能。 1 2 图像中的字符定位图像内容可以理解为一个简化了的层次模型“3 ，如图l 一1 所示：第一层为原始数据层，即图像的原始像素点，是未经任何处理和解释的图像表示，为进行图像分析、处理、解释的基础；第二层为物理特征层，反映了图像内容的低层物理特征，如颜色、纹理、形状、轮廓、图像内容的空间关系和时间关系( 对视频来说) 等；第三层为语义特征层，是人们对图像内容概念级的反映，一般是对图像内容的文字性描述。第三层：语义特征层 j( 是人们对图像中内容的概念级反映) 1 第二层：物理特征层 ( 图像的低层特征如颜色、纹理、形状等特征) f 第一层：原始数据层 ( 图像的原始像素点图1 - 1图像内容表征的层次模型目前，人们在对图像内容进行分析处理时，大多是通过物理特征来描述图像的内容信息，这与人们通常采用的语义层丽上的内容表述差别较大。而对图像( 包括视频) 来说，其所含的字符信息则在一定程度上反映了本蝠图像( 或小段视频) 的部分重要内容，并且是一种概念级的内容表达，对帮助人们理解图像的内容有着重要的作用，例如，图像中的产品名称、体育比赛画而的运动员姓名及其比分、播音员姓名、新闻内容字幕、v c d 字幕等。因此，直接基于具有语义特征的图像文字进行图像分析与处理，是图像处理技术的重要研究内容之一，对丁多种图像分析处理领域的实际应用有着重要的价值。首先，提取图像中的字符，对于基于内容的检索具有重要的意义。由于多媒体技术和计算机网络的飞速发展，图像的获取、创作、存储和传输等技术取得了巨大的进步，日益累积出庞大的图像信息源，一方面可吼提供更多更直观的图像信息，另一方面则由于信源的分散性，网络传播的随意性等，使得这些数字信息的分布是无序和非结构化的，人们身处这种大型的分布式网络环境之中，在寻找自己感兴趣的图像视频时犹如大海捞针，对图像信息检索工具的依赖目益增强。传统的基于文本的图像检索技术，必须依靠人工对图像进行标注，费时费力，并且带有明显的主观性，因此，这种采用刘图像人工建立关键词等文本描述信息的方式越来越不适应网络信息检索的要求”1 。为了突破文奉检索方式的诸多弊端，人们提出了基于内容的图像检索技术，即c b i r ( c o n l e n t b a s e d i m a g er e t r i e v a l ) 技术。它主要根据图像的内容特征作为其索引，自动实现图像的检索。这些内容特征不仅包括颜色、纹理等低层物理特征，同时也包括能够概念性的反映图像内容的高层语义特征。后者目前一股用半自动或人工方法实现，但这些方法在大型数据库或动态链接库中应用并不现实。“。而图像中的字符，通常足图像内容的概括和补充，包含有丰富的语义信息，如果对其进行自动提取，并将之作为索引，则能够自动的实现基于c b i r 语义级的检索。例如，可以通过自动提取视频节目中的播音员名字，将其作为个性新闻检索系统的索引，实现基于内容的新闻检索等。除此之外，图像中的字符提取对于网络安全也具有非常重要的意义。网络的开放性使其获得了快速的发展，但也使其缺乏足够的监督和管理，在图像视频信息大量涌现的同时，对其中不良信息进行识别阻断的需求也日益迫切。利用现代图像处理技术自动提取网络中图像中的字符信息，能够帮助人们快速分析理解其内容，实现更有效的信息过滤和安全监控。图像中的字符提取，还有助于实现基于对象的编码”1 、文本的自动录入分析 “13 、交通监控”1 、视频分析及作为旅游助手“”等。随着网络技术的日益普及和快速发展，图像中的字符自动提取研究有着非常广阔的应用前景和市场需求。而字符区的准确定位，则是进行图像中字符有效提取的重要前提和保证。 1 3 课题的提出及研究意义作为语义特征，图像中的字符信息对于人们理解、分析图像的内容具有很大的帮助，要获得这种语义特征，首先需要定位图像中的宁符区域，然后才能进行识别，并针对具体应用进行其他处理。近年来，有关字符定位的困内外研究非常活跃，并且取得了一定的进展。但是这些研究大部分都是在像素域进行的“1 ，对于当前普遍以压缩格式存在的图像视频，必须首先将其完全解码到像素域，然后才能对解压缩后的原始点阵数据进行相应的字符定位处理。这种附加的完全解码过程，会弓i 起处理时间的增加，不利于实时性要求较高场合下的图像，视频业务：同时，处理过程中计算资源的增加也会加重系统的存储负担，从而限制了其在存储空间有限场合下( 如移动多媒体业务) 的应用。压缩域图像处理技术的发展“，给人们提供了一种新的研究途径，即可以通过分析压缩码流的特点，直接在压缩域中实现字符区的定位。这样不仅处理的速度快，同时占用的存储空间也更少，有助于实现目前亟待发展的多种新型多媒体业务。在现有的图像压缩算法中，变换编码是一种比较经典的数据压缩基本方法。图像数据经过线性正交变换，能够从原先彼此密切相关的像素变换为统计上彼此较为相互独立、甚至达到完全独立的变换域系数矩阵。在各种正交变换中，k l 变换是一种均方误差准则下的最佳变换，变换后各系数之间是不相关的。但其变换矩阵与图像的统计特性有关，而且在一般场合没有可行的快速算法，在实用中第1 章绪论很不方便。而离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ，d c t 变换) 则被认为是一种准最佳变换，其性能与k l 变换相近，同时变换矩阵与图像内容无关，并且具有快速算法，因此在静止图像压缩编码标准j p e g 、视频压缩编码标准h2 6 1 ， h 2 6 3 ，m p e g i 2 4 等国际压缩编码标准中部采用了d c t 变换。面目前的图像视频大都是按照国际压缩编码标准进行存储和传输的，因此，研究基于d c t 压缩域的图像处理技术有着广泛的应用基础。本文通过研究图像中的字符特点，同时结合现有基于d c t 压缩域的图像处理技术，对基于d c t 压缩域的字符定位技术进行了初步的研究。论文工作对于诸如大型图像库中实现基于内容的快速检索等交互式实时移动多媒体业务的实现具有积极的意义。 1 4 论文工作及结构安排本文工作主要包括以下两部分内容：首先，提出了一种面向j p e g 压缩图像的快速字符定位算法。文章通过埘基于d c t 压缩域的特征提取及分类、平滑滤波以及字符区的分割方法进行研究，提出了一种基于d c t 压缩域的快速字符定位算法。该算法首先根据基于d c t 的 j p e g 压缩码流结构特点，从经过熵解码之后的d c t 数据巾提取出一种新的字符区特征：然后采用自适应阈值分类方法，将字符区和背景初步分离；接着利用基于游程平滑的滤波技术，以减小噪声背景的干扰；最后提出一种二次投影分割融合算法，实现了复杂背景下的字符快速定位。同时，本文对文献中采用的典型字符定位算法进行了仿真实现，并对实验结果进行了分析和讨论。为了检测不同尺寸的字符，本文还对基于d c t 域的多尺度分析方法进行了探索和实现，研究了基于d c t 压缩域的严格分数缩放算法、基于d c t 压缩域的双线性插值近似缩放算法，并提出了一种基于d c t 压缩域的多尺度字符定位算法。沧文整体的结构如下：第1 章绪论，提出课题，并介绍论文的主要工作和结构安排。第2 章背景综述，介绍课题的背景以及研究现状。首先分析和总结图像视频中的字符特点；然后对近年来国内外的相关技术研究加以介绍，包括基于压缩域的图像处理技术、像素域的字符定位技术、以及基于压缩域的字符定位技术的已有研究成果及现状。第3 章基于d c t 压缩域的快速字符定位技术研究，通过分析研究d c t 系北京工业大学工学硕七学位论文数特点，选择能够有效表征字符区特点的特征；研究了自适应闽值分类和b p 神经网络的两种特征分类器，实现了基于d c t 压缩域的j p e g 压缩图像中的字符区初步提取；研究了基于游程平滑及基于形态滤波的两种平滑去噪技术，并对基于投影和基于连通结构的两种字符区域分割算法进行了研究。最后提出了一种基于d c t 压缩域的复杂背景图像中的快速字符定位算法，本文同时对相关文献中的典型字符定位算法进行了仿真实现，在实验阶段将本文提出的方法与之进行了比较和讨论。第4 章d c t 压缩域的多尺度字符定位，为了实现基了二d c t 压缩域的图像中不同尺寸字符的定位，本文对两种d c t 压缩域下采样方法进行了分析和实现，包括基于d c t 压缩域的分数缩放算法、基于d c t 压缩域的双线性插值近似缩放算法。最后给出了基于d c t 压缩域的多尺度字符定位算法以及实验结果。总结与展望，对论文所做的研究工作进行总结，并展望下一步工作。最后，给出了参考文献、攻读学位期间发表的论文、参加的科研项目及致谢。第2 章背景综述第2 章背景综述二十世纪九十年代以来，压缩域图像处理技术的发展，推动了新型多媒体业务的快速发展，使得许多交互、实时的图像视频应用成为可能。巨大的应用潜力吸引了许多学者对这一新兴领域的研究和天注，压缩域图像处理技术也进而被引入到传统图像处理的诸多应用领域，例如进行人脸检测、字符定位等。对于字符定位，起初的研究是为了帮助实现二值文档类图像中的字符自动录入和分析。随着互联网技术的迅速普及和多媒体业务的不断拓展，人们越来越关注具有一定复杂背景图像中的字符定位技术研究。但目前国内外的相关技术研究大都是在像素域进行，如何利用字符的特点，并结合现有的压缩域处理技术，对图像中的字符区域进行快速有效的定位，已经成为当前字符定位技术研究中非常具有挑战性的课题之一。下面首先介绍压缩域图像处理技术的进展，然后结合图像中的字符特点，分另i j 对像素域处理模式及压缩域处理模式下的字符定位技术进行综述。 2 1 压缩域图像处理技术综述随着因特网的迅猛发展，大量的多媒体会话业务不断涌现出来，迫切要求能够保证两点之间或有限多点之间可以实现实时交互式的多种图像视频业务。传统的图像处理方法，面临着越来越多的挑战。为了突破传统处理模式的局限，1 9 9 6 年的图像压缩国际会议中，专门设立了j 玉缩域图像视频数据处理( c o m p r e s s e d d o m a i np r o c e s s i n g ) 论文报告会“，对压缩域图像处理技术进行了探讨和分析。压缩域图像处理技术已经逐渐成为多媒体研究领域的重要分支和研究热点。 2 1 1 压缩域处理的位置随着一系列国际压缩编码标准的制定、推广和应用，图像视频普遍都以压缩格式存储和传输。对图像压缩数据进行处理的两种模式：传统处理模式( 像素域处理模式) 与压缩域处理模式，分别如图2 1 中a ) 、b ) 所示。， ! ，：! ：，! 鎏三些奎兰三耋堡圭兰堡篁耋：，! a ) 传统处理模式不解码少量解码不编码少量编码 b ) 压缩域处理模式图2 1 图像压缩数据的两种处理模式可以看出，在压缩域进行图像处理，就是对图像压缩码流少量解码( 或不解码) 的情况下进行处理。图2 2 给出了典型的图像压缩编解码基本框图。其编码过程包括映射变换、量化、熵编码等。其中，映射变换就是要改变图像数据的特性，使之利于图像编码；量化过程是一个失真过程( 无损编码不需要量化操作) ，主要是根据人眼的视觉特性来设计的，其基本原则是不要太影响视觉效果：熵编码则能进一步消除符号编码的冗余，一般不会有失真，理想的编码结果是数据本身的信息熵。传统的处理方法是在像素域进行的，其图像的处理和分析足始于图2 2 中的位置。而对于普遍以压缩格式存储传输的图像视频来说，直接读取到的数据是处于位置处的压缩码流。在像素域处理模式下，这些具有较小数据量的压缩数据必须首先经过一个完全解压缩的过程，在得到图像视频的对应像素域数据之后，才能利用像素域的各种处理方法进行分析和处理。这一完全解压缩的过程显然会增加系统的开销，同时由于处理的是解压后的数据，因其数据量较大，不利于实现实时或存储空间有限场合下的图像处理。压缩域图像处理则可以在图2 2 中的位置、或处进行，面向的是未解码或部分解码的压缩数据。所谓“不解码”，就是在上述的位置上未进行熵解码之前进行压缩域的处理，而“少量解码”，就是在上述的位置、上进行熵解码或反量化之后进行处理。这样不仅处理的数据量较小，同时也可以避免解压再压缩的附加过程，不仅有助于实现目前许多实时多媒体业务的需要，同时对于目前亟待发展的存储空间相对有限的各种新的移动多媒体业务也具有积极的意义。 l 堡竺苎堡r + | 竺翌竺垫r + 1 兰些r 叫竺塑竺h 像? 溯? 黼骺桩缩翟压缩警i 淼i + i ：= ：l ： t 像素域处理圆圆| l一o-一一-p 一- 一一j 压缩域处理图2 - 2 图像处理所处的位置 2 1 2 压缩域处理技术现状 + 编 ! 码：部 i 分 -_-一：解：码：部分由于压缩域处理技术所具有的优势和巨大潜力，近年来很多学者围绕该领域进行了大量的研究。现有的国际压缩编码标准中大都采用了d c t 变换，且多数图像视频都采用国际标准进行压缩，因此目前基于d c t 压缩域的图像分析处理技术研究十分活跃。 ( 1 ) 基本操作传统图像处理中的基本操作主要包括一些代数运算，如标量加、标量乘、向量加、向量乘等，在图像的分析处理中具有重要的位置，能完成诸如两帧图像的渐隐过渡、给图像追加子标题等操作，并且在其他的复杂操作中也都要用到这些基本操作。根据d c t 的线性、正交特性，s m i t h 和r o w e “首先推导了这些基本操作在d c t 压缩域的对等操作，并给出了实现程序和实验结果，利用它们进行图像的增强，这些对等操作比传统的“解压缩，像素域处理，再压缩”模式快 5 0 1 0 0 倍。表2 1 所示为两种域中基本操作的对应关系。可以看出，除标量加外，其他d c t 压缩域的操作似乎都不比传统操作显得简单，但是d c t 压缩域的操作直接在压缩码流中进行，对成片的零值不用计算处理，其处理速度远高于在空域的操作。北京工业大学工学硕士学位论文表2 - 1 空域和d c t 压缩域的基本操作的对等操作操作原始数据域( 空域)d c t 压缩域标量乘 h i ，j = a f i ，j h i ，】_ a f i ，标量加班f ， = f i ，月+ b h o ，0 _ f o ，0 + 8 b 向量乘研f ，】= f i ，j g i ，j 】研f ，月= f i ，j g i ，j l 向量加州f 】= f i ，j 】+ g i ，j 】h i ，j 】_ f i ，j 】+ g i ，j 】 ( 2 ) 复杂几何操作 c h a n g 和s h e n “7 。“则着眼于复杂的几何操作，针对图像的平移、缩放、旋转等进行了一系列的研究。虽然对于一些特殊的几何变换，如9 0 。旋转，可以方便地通过d c t 变换的转置或符号转换来实现，但对于一般形式的几何变换，其压缩域对等操作的推导并非显而易见，而需要细致的算法设计，以达到良好的效果。c h a n g 和s h e n 分别独立地给出了自己的实现方式，二者均使用了逐行计算的方式，利用2 d 到1 d 的转换来简化计算，达到提高系统效率的目的。在针对d c t 变换压缩域的研究中，还有诸如完成对图像进行扭曲、剪切等编辑操作的算法。这些分析处理算法不仅具有较好的效果，而且处理速度远高于传统的分析处理算法，大大提高了分析处理系统的效率，使系统的整体性能得到了改善。 ( 3 ) 滤波和增强图像的边缘增强主要是为了改善原始图像的视觉效果，提高后续处理的分析能力，在图像的分析处理中占有重要的地位。传统的方法是对原始图像进行高通滤波得到图像的边缘轮廓，再结合原始图像进行边缘增强。b i a oc h e n ”等通过在d c t 域设计的低通和高通滤波算子，提取出图像的边缘轮廓，然后将得到的轮廓图像加到压缩码流中，实现了基于d c t 压缩域的边缘增强。 k o n s t a n t i n i d e s ”等提出了一种针对j p e g 压缩码流的图像边缘增强的方法，这种算法非常简单，不须要对压缩码流进行任何解码，而是直接修改j p e g 压缩码流文件头中量化表的系数以达到图像锐化的目的。因为边缘轮廓对应的是高频信息，故只须对d c t 域的高频系数进行合理的提升就可以了，而量化表中的系第2 苹背景综述数正好反映了d c t 系数所代表的频率：高频成分进行粗量化、低频成分进行细量化。因此，只要在解码端适当修改量化表中的系数，就可达到增强图像边缘的效果。 ( 4 ) 建立图像视频的索引随着基于压缩域的内容检索技术”的提出，如何直接从图像压缩码流中提取出图像的特征，建立起有效的索引成为压缩域图像检索技术的关键。近年来相关的研究非常活跃。基于d c t 的压缩码流中，单独由直流分量构成的d c 图是原始图像的微缩图，尽管分辨率低，仍能够捕捉到图像的关键内容，是一种有效的图像特征。它可以从基于d c t 的图像压缩码流中获取，用于视频中镜头边缘的检测、关键帧的提取以及其他视频检索应用。由于d c 图具有低通滤波的属性，因此在进行镜头边界检测时往往具有很好的鲁棒性。而m e n g 。”等则利用每一帧中d c 图的方差来估计i 帧中的灰度变化，以检测淡入淡出的渐进变化。颜色特征( 如颜色直方图等) 在图像视频检索中具有比较重要的意义。对于压缩码流来说，可以从d c 图中提取出相应的颜色特征。t a n ”“等通过对基于块的颜色直方图求取绝对差，估计出两个视频帧之间的相似程度。在构建颜色特征时，可以仅考虑量度值而忽略色度特征，但一般说来，仅有亮度特征提供的信息在图像视频检索中往往不够有效。因此w o n ”等根据视频中每一帧的y 、 c b 、c r 分量的d c 值首先获得基于亮度和基于色调的颜色直方图，同时结合其他特征等形成的特征向量，用以实现视频镜头边界的检测。纹理和边缘通常对应着d c t 变换域中的中、高频分量，因此可以通过分析变换域系数来分析纹理及边缘信息。b a o ”“等将低频d c t 系数的能量直方图作为视频帧的匹配特征，来检测镜头的转换。这种特征可以大致的描述出视频帧的全局纹理。s o n ga n dr a “利用前几个a c 系数作为该d c t 块的边缘能量值，进行边缘4 b - 边缘d c t 块的分类依据，近似可以达到3 3 s o b e l 算子的效果，能够得到一个大小为原图1 6 4 的粗边缘图，以此来大致检测视频中的剧烈变化区域。s h e ne ta 1 ”“仅根据其a c 系数，利用一个理想边缘模板，来估计边缘的强度和方向，这种方法不仅能够提取出粗边缘信息，其速度比传统的边缘检测算法快1 0 倍甚至更多，同时还可阻根据边缘图的变化率实现镜头的边界检测等。 a b d e l m a l e k 和h e r s k e y ”“提出了利用d c t 系数检测方向线的技术，他们发现在空域坡度为m 的直线在d c t 域中表现为坡度大约为l m 的直线。这样，可在 d c t 域中提取水平、对角、垂直方向的特征信息进行图像的匹配，并可对图像中复杂的线条对象进行分割。北京工业丈学工学硕士学位论文 s m i t h 和c h a n g ”2 1 利用4 4 块大小的d c t 变换编码方法来在压缩域直接提取图像的检索特征，他们把整个图像1 6 个滤波通道的方差与均值作为图像的匹配特征，并用f i s h e rd i s c r i m i n a t e a n a l y s i s ( f d a ) 来降低特征维。r e e v e s 。“等使用相似的方法进行纹理图像分类，对标准的j p e g 图像，在压缩域直接提取 d c t 的前八个a c 系数的方差作为特征进行图像的分类。除了上面提到的d c t 压缩域图像处理技术之外，随着小波变换在新一代静止压缩标准j p e g 2 0 0 0 以及多媒体数据压缩标准m p e g 一4 的静态纹理压缩中的应用，基于小波压缩域的分析处理技术研究也越来越受到人们的关注。小波变换由于其所具有的图像匹配、分类等特点比较突出，因此可利用各分辨率的能量及灰度直方图进行图像匹配与分类。面向小波压缩域的图像处理技术见文献。“3 所述。基于d w t ( d i s c r e t ew a v e l e tt r a n s f o l - m ，离散小波变换) 压缩域的图像处理算法基本上是利用小波各方向子带多分辨率的特点，提取各子带的期望、方差，组织各种直方图、计算对应予带之i l l j 的相关性、小波的极坐标表达法等实现的。压缩域图像处理技术适应了新一代网络多媒体应用的特点和要求，具有巨大的开发潜力。作为一个新兴的研究方向，压缩域图像处理技术的研究才刚刚起步，在许多方面还需要进行更深入的研究和探讨。 2 2 字符定位技术综述图像视频中的字符，包含有丰富的语义信息，是图像内容概念级的表达，采用现代图像处理技术将图像中的字符自动提取出来，不仅可以实现图像内容的快速录入、分析、识别：同时，随着基于内容的检索技术和数字图书馆的迅速发展，手持移动终端图像没备的只益普及，要求能够对图像视频实现灵活、快速的信息提取和查询，这些需求不断推动着图像视频中字符信息自动提取技术向前发展。字符定位是图像视频中进行文字信息分析的第一步字符定位的效果对于后续的字符分析、识别等具有重要的影响。根据待处理图像陛质的不同，目前图像中的字符处理技术，大致可以分为以下两类： ( 1 ) 面向文档类图像文档类图像，是诸如报刊杂志、文件资料、单据报表等经扫描仪扫描后获取的图像。这类图像的主要特点是字符所在的背景通常比较单一。其字符定位主要是帮助进行版面分析及字符提取等。第2 荦背景绿述 ( 2 ) 面向普通图像及视频与文档类图像相比，普通图像视频往往具有较为复杂的背景，字符和背景之间通常具有更多的粘连。根据字符获取方式的不同，可以将图像中的字符分成两类。1 。一类是图形字符，即人工嵌入到图像视频中的具有规范形态和排列的文字，如字幕信息等，如图2 3 中a ) 所示。这种字符通常是被人为嵌入到图像视频中，对其间的人、事、物等加以描述和说明，因此与图像视频的内容紧密相关。二般会以标准字形出现，但有时也会采用一些如旋转、变形、阴影、空心等技术以产生某种特殊效果。另一类是场景字符，通常是经摄像机等图像获取设备拍摄到的三维场景中的文字信息，如车牌，道路指示牌，广告条幅等，如图2 3 中b ) 所示。由于拍摄角度、光照等条件的影响，这种字符容易产生扭曲、变形；且易受到场景中其他物体的遮挡和影响而有缺损，同时镜头也可能会导致运动模糊现象出现。场景字符可以是在平面上的，如路牌：也可以不在平面上，如罐头瓶的标签。这都造成场景字符无论从形状，还是颜色、姿态都比图形字符更复杂、更不规则。在导航、侦查监控等领域，场景字符往往比图形字符具有更重要的意义m 1 。 a ) 图形字符b ) 场景字符图2 - 3 图像视频中的字符图像特点及字符种类不同，相应的定位算法研究往往具有不同的特点。但归结起来，它们都是基于待定位的目标字符在图像视频中不同于背景的结构特点、分布特点以及运动特点等进行相应的算法设计。下面首先给出图像视频中的字符特点，然后介绍目前国内外相关领域的字符定位技术研究。：。：! ：，! ，!：，! ，：! 望三些查兰三兰堡圭兰堡坠圣：：! ! ! ：! ! ：， 2 2 1 图像中的字符特点图像中的字符往往具有下列特点：颜色亮度通常认为相邻的字符，或者同一字符的内部具有相同或者相近的颜色。在某些特殊的情况下，字符内部的颜色亮度会呈渐进变化的状态。对比度一般说来，字符和背景之间会存在一定的对比度。通常情况下，图像中的图形字符一般会具有较高的对比度。但在视频中，有时字符和背景之间的对比度可能会比较低，这主要是由于背景往往会随着时间和空问而发生变化，在背景变化时，可能会有部分字符的颜色亮度和背景正好相近或相同，这种情况在视频中持续的时间一般会很短。边缘字符由线条或笔画构成，具有一定的几何结构，同时由于字符和背景之间存在一定的对比度，使得图像视频中的字符区通常存在有大量的边缘。研究发现，不同语言形式的字符，具有的边缘特点也有差别，例如，拉丁文字往往表现出很多的垂直边缘。尺寸图像视频中字符尺寸的不确定度很大，但是一般过小的字符可以不予考虑。在普通字幕信息中，字符的尺寸通常比较规范和固定，具有4 n n _ t 或相同的尺寸，但在视频片断的开始结束处以及封面，海报图像中，往往会同时存在小字符和5 倍以上高度大尺寸字符。即同一图像中字符分辨率可以具有较大的变化范围。在普通视频中，多数的字幕信息分辨率都较低，如c c t v 中的每条新闻中的字幕，其中的字符分辨率，通常为十个像素的高度，甚至更少。而片头的 c c t v 字符，则l j _ 以达到图像高度的一半。同时，视频中的有损压缩也会降低图像的质量。儿何排列在布局上，图像中的字符往往遵循一定的行列排列规则，并且同一行列中的字符通常具有相同或相近的尺寸，有时也会出现一定的倾斜和变形，例如摄像机拍摄到的场景字符，或者人工嵌入的特效文字等。不同语言类型的图像视频，

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）基于dct压缩域的字符定位技术研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）基于dct压缩域的字符定位技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档