多媒体学习环境下视频流中的文字提取系统的实现_第1页
多媒体学习环境下视频流中的文字提取系统的实现_第2页
多媒体学习环境下视频流中的文字提取系统的实现_第3页
多媒体学习环境下视频流中的文字提取系统的实现_第4页
多媒体学习环境下视频流中的文字提取系统的实现_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十届全球华人计算机教育应用会议(GCCCE2006)论文集多媒体学习环境下视频流中的文字提取系统的实现System of Character Detection from Video in Multimedia Learning Environment 袁静 刘时进 石教学华中师范大学物理学院电子系,武汉,430079,电子邮箱:lsj 【摘要】 通常视频流中的文字信息包含了该视频的关键信息,而在多媒体学习环境中视频信息是最主要的信息源。本文提出了一种针对视频流中文字字符提取的新方法,实现了对视频信息中关键帧的文字区域进行识别和对识别出的文字区域进行背景和噪声滤波消减处理,最终将处理的结果二

2、值化后通过文字识别系统(OCR)进行文字的识别。本文为视频学习信息的处理和多媒体资源库的管理给出了新的解决方案。【关键词】 多媒体学习环境、视频信息、文字提取、文字识别Abstract: Usually, the text in videos presented important information, and videos are the most primary information source in multimedia learning environment. This paper presents a new method to automatically localize

3、 captions in video, and realized to recognize the localized Character Area and clean up the background and noise, then detection the character via the OCR. This paper gives a new solution of managing the learning information and multimedia resource store.Keywords: multimedia learning environment,vid

4、eo information,detection the character,recognize the character1 前言随着教育信息化建设的发展,计算机多媒体与网络技术在教育中的应用已日趋普及。通过多媒体技术、计算机技术和网络技术,以学习者最容易接受的方式呈现信息;以最快捷的方式传递信息;以最符合人的思维规律和思维习惯的方式处理信息已成为当今现代教育技术应用研究的重要方向之一。在网络技术高速发展、各种媒体信息大量涌现的背景下,为了实现对多媒体信息的高效访问,多媒体信息处理和检索技术也已成为人们急待解决的问题。由于多媒体技术在计算机教育应用中的特殊地位和特点,无疑这一技术将直接影响着

5、CAI的深入开展。我们知道,视频实际上是集图像序列、图像、文字等为一体的、被人们广泛使用的一种综合性媒体,是多媒体中的主要组成部分。因此,多媒体信息处理和检索技术的重点和难点就是视频信息的处理和检索。视频是在时间上连续的一系列图像帧的集合,是一种没有结构的图像流。我们可以把视频看作一本没有目录和索引的书,那么一幅图像帧就相当于书中的一页。由于视频这部书缺乏目录和索引信息,我们就无法对它进行高效浏览和检索,无法快速阅读。为寻找感兴趣的视频片段,我们只能采取“快进”和“快倒”的耗时方式线性浏览。随着数字视频数据量迅速增加,传统的“线性”浏览方式已远不能满足人们对视频内容的访问和查询需求。用惯了文本

6、搜索引擎的用户越来越希望能在海量视频库中快速找到自己感兴趣的视频片段,而视频中的文字可以直接并且集中的描述视频的各种信息,所以视频中的文字识别可以更好地帮助人们分析和理解视频中的内容,从而作为视频信息处理和检索的一种良好手段。目前已经涌现出了大量的在图像和视频流中提取文字的有效方法,这些从视频流中提取文字的方法大致可以分为两大类:一类是连接相似的区域法,这种方法的主要依据是视频和图像中的文字比较集中,并且和背景有不同的颜色。其特点是可以快速,准确地确定视频中的文字,但是当遇到视频中的文字被嵌入到复杂的背景中或者和其他的图形对象相连接时,这种方法的效果就不是很理想了;另一类主要是基于纹理的分类的

7、方法。这类方法的主要问题是比较难排除类似于文字的区域。鉴于此,我们研究了一种从视频流的关键帧中提取文字的区域并且分离出文字的新方法,并通过MATLAB 视频图像处理工具箱进行了仿真和实现,为多媒体学习环境中视频信息处理和管理提供了一个良好的解决方案。2 系统的设计视频流中的文字一般可以分为两类:(1)场景文字: 文字是视频场景的一部分,它们在视频中的位置是随视频的镜头的改变而改变。(2)视频标题文字:是在视频后期制作过程中加入的文字。其中视频标题文字一般携带着视频内容的重要信息,并且它的内容一般也是经过设计的,位置一般固定。被识别的文字应该满足以下一些特征:1)、这些文字一般是从左到右或者从上

8、到下的矩形区域内部。2)、这些文字的颜色和背景的颜色有一定的对比度。3)、字数要多余两个文字,以保证文字区域的边框一般宽度要大于高度。4)、文字的边界线一般含有很多的边框。根据上述分析,视频流中的文字提取系统的基本结构框图如图1所示:图1 视频流中的文字提取系统基本结构框图在系统结构中,文字区域识别和文字区域背景过滤是系统的关键组成部分。系统的工作流程是:首先提取视频中的关键帧;然后进行文字区域的识别,其方法是基于纹理分析的方法,其目的是产生一个单边框的矩形区域将要识别的文字包含到其中;其次进行文字区域滤波处理,具体算法如图2所示;最后用OUP OCR 作为系统的OCR 引擎,这个引擎可以将二

9、值化的文本图像作为输入,将识别出来的文字的ASCII 作为输出,整个引擎准许将它提供的接口方法集成到系统中,从而识别中文简体(印刷),数字(印刷),英文(印刷)。图2: 文字区域滤波子系统系统关键技术的实现3.1边缘提取:提取图形中对象的边缘提取边缘就是在保存图像边缘信息的同时,虑除掉没有信息量的冗余数据。SOBEL边缘算子是常用的边缘提取的方法,其基本原理是:图像中的每个点都用以下这个两个SOBEL核算子(如图3所示)做离散二维卷积。设一幅二维的灰度图像用I(x,y)表示图像中任意一点的值,其中(0<x<W:图像的宽度,0<y<H图像的高度),设这两个算子分别为S1和

10、S2如图3所示,边缘的二值图像矩阵为H。H1(i,j) = (I(m,n)*S1(i-m,j-n);H2(i,j) = (I(m,n)*S2(i-m,j-n);H(i,j) = max(H1(i,j),H2(i,j);使用Matlab 语言描述这个算法为:H = edge(I,'sobel'),即图2中的边缘提取部分具体实现,其中I表示图像的灰度图像。可以这样理解这个卷积:一个核通常对垂直边影响最大而令一个对水平边缘的影响最大。两个点的最大值作为该点的输出值。运算的结果是H(i,j)一幅边缘幅度图像,如图4(上中)所示。图3 SOBEL 边缘算子核3.2 噪声过滤:使用中值滤波

11、去掉噪声,同时保留文字的边缘。如图4(上中)所示,除了图片中的非边界的点为噪声外,非文字的边界区域因为没有文字的纹理特征都可以认为是噪声。中值滤波就是图像中的输出是由邻居象素的中值来确定的,但不是平均值。即中值滤波对极值并不明显,而均值则不同。所以中值滤波更适于图像中有明显变化的情况。由于汉字的边界图型一般有比较强的变化频率。所以文字区域做中值运算后,要比频度变化比较小的区域整体被过滤较少。而同时由于零星分布的点的临近点一般为0,所以也可以被过滤掉。使用 Matlab 语言描述这个算法为: L = medfilt2(H,a,b);即图2中的中值滤波的具体算法;其中 L 代表输出的矩阵,H 为边

12、缘矩阵,a,b做中值运算时的临近区域的象素区域的大小。我们的系统使用的参数时a=4,b=3。这两个值和解析的文字高度的大小由一定的关系。3.3 连接文字区域:使用基本形态学的闭运算形态学中的运算有膨胀和腐蚀。膨胀是将与某物体接触的所有的背景点合并到该物体中的过程。过程的结果是增大了相应数量的点。表示为D= B+S, B为原图像,S膨胀系数,+表示膨胀运算。腐蚀是消除物体所有边节点的过程,其结果使剩下的物体沿其周边比原物体小了被腐蚀掉了象素的面积。 表示为D= B*S ,B为原图像,S腐蚀系数,*表示腐蚀运算所谓的闭运算就是:先膨胀后腐蚀。它具有填充物体内部的小的空洞。连接相连临近的物体,在不明

13、显改变物体面积的情况下平滑其边缘的作用。表示为 (B*S)+S。Matlb 语言描述如下: se = strel('square',a);LC = imclose (L,se);a为腐蚀,膨胀元素数。 Square代表矩形腐蚀与膨胀。即图2中的闭运算。3.4过滤非文字区域:使用基于形态学的开运算所谓的开运算是 先腐蚀后膨胀的过程,它具有消除细小的物体,在纤细点处分离物体和平滑较大的物体的边界但不明显改变边界的作用。运算表示为:(B+S)*S。Matlb 语言描述如下: se = strel('square',a);LC = imopen (L,se); a为腐蚀

14、,膨胀元素数。 Square代表矩形腐蚀与膨胀。即图2中的开运算。当背景中散落一些小的噪声物体时,连续的开和闭运算可以显著的改变这种情况。图4 <<探索发现机器人时代>>的一个关键帧(上左);关键帧的边框(上中);边缘图像经过中值滤波以后(上右);经过闭操作后(下左);经过开运算后(下中);关键帧中文字区域被识别出来(下右)3.5文本区域的确定确定文字区域时候,我们使用了MATLAB提供的图形图像处理工具箱,将文字区域的进行矩形处理后寻找每个矩形区域的四个边界的顶点,然后将这四个顶点链接成矩形区域后剪切下来如图5被剪切下的原始文字区域。3.6文字和背景的分离经过前面的处

15、理,图片中的文本已经包含在了一个矩形区域中,这些区域很可能有复杂的背景,而现有的OCR 系统是不可能在这样的情况下提取文字的,必须将它们转换为二值的图像。因此,需去掉复杂背景,留下文字。在处理连续的二值图像时,自适应门限滤波是一种非常好的去掉背景和噪声的方法。文本区域中一般包含的文本有相同的密度。这样的区域很适合自适应门限滤波方法。我们使用被修正的Niblack算法78。在每一点上算出一个临界值,如果这点的值大于临界值就编成1,否则编成0,这个算法的关键在于门限值的计算上。首先用一个40*40 的区域在整个图形上移动,同时计算平均值和标准差,下面的等式就是计算临界值。 T=(1-a)*m +a

16、*M+a*(s/R)*(m-M)其中:m:是在这个窗口中的灰度级的均值 s: 是这个窗口的灰度级的标准差 M :是整个图像的最小的灰度级的值 R :是整个窗口的标准差的最大的值建议使用的 a 的值是 0.589,由于分离的是文字,根据文字的特点,我们使用了不同的a值,最后发现a是1.5最符合我们的需要。图5 被剪切下的原始文字区域和被滤波的图像4 系统的测试系统测试采用的是MATLABR14SP2 视频图形处理工具箱,它是MATHWORKS 公司于2005年6月发布的处理视频的工具箱,可用来快速设计、仿真、构建与验证各种视频和图像的算法与系统。这个工具箱的另一个特点是它所生成ANSI/ISO

17、C 代码可以直接用于可编程处理器(如:DSP 或者 GPP)中。为了测试本系统的工作的情况,我们使用了中央电视台的新闻联播的一段视频和探索发现机器人时代的两段视频。测试结果表明:该系统不受字体的颜色、文字大小和语言种类的限制,不但能够识别人工添加的文字,还能识别背景中的文字。但对于类似于文字的区域,系统会错误的认为是文字区域,其次是有一定倾斜角度的场景文字不能被识别出来。具体的测试结果如下所示:视频片断实际文字区域识别的文字区域文字区域识别率文字识别率视频11259676.8%63%视频220615675.7%58%视频3685682.3%72%表1 文字区域与文字的识别的结果由此可见,系统对

18、文字区域的识别准确率较高,但对文字的识别率比较低,这主要是OCR对某些字库的识别率很低的原因和分离出的文字太小或者过大的缘故。5 总结综上所述,本系统实现了在视频中定位,截取并且分离文字的有效方法。从识别文字区域的结果中可以分析出识别的效果还是不错的,但在通过OCR 系统后就不是很理想了。可以预期,如果采用更好的OCR 系统就可以提高整个系统的性能。后续的工作是把提取出的文字用MPEG7进行编目,为视频的检索提供一种有效的方法。从而为多媒体学习环境中视频信息处理和管理提供了一个良好的解决方案。参考文献1 W. Qi et al. Integrating visual, audio and te

19、xt analysis for news video. Proc. Int. Conf. Image Processing (ICIP 2000), Vancouver, BC, Canada.2 A. K. Jain and B. Yu. Automatic text location in images and video frames. Pattern Recognit. vol. 31, no. 12, pp. 20552076, 1998.3 R. Lienhart and A. Wernicked. Localizing and segmenting text in images and videos. IEEE Trans. Circuits Syst.Video Technol. vol. 12, pp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论