视频的内容分析与检索技术及其教育应用研究.pdf_第1页
视频的内容分析与检索技术及其教育应用研究.pdf_第2页
视频的内容分析与检索技术及其教育应用研究.pdf_第3页
视频的内容分析与检索技术及其教育应用研究.pdf_第4页
视频的内容分析与检索技术及其教育应用研究.pdf_第5页
已阅读5页,还剩92页未读 继续免费阅读

视频的内容分析与检索技术及其教育应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络技术和多媒体技术的高速发展 多媒体资源日益丰富 在教育教学 中的应用也越来越普遍 多媒体资源 尤其是视频资源 由于包含了生动丰富的 多种信息 吸引了越来越多研究者和用户的重视 视频的内容分析与检索技术是 当前视频技术领域研究的热门课题之一 在数字图书馆 数字博物馆等多媒体数 据库系统具有广阔的应用前景 也有很多富有挑战性的技术内容需要深入研究和 探讨 本文以为教育教学服务为目的研究视频的内容分析与检索技术 以期为教 育教学人员在教育教学视频检索和视频管理等方面带来一些帮助 本文依循基于内容检索的思路 对视频 特别是教育教学视频的内容分析与 检索技术进行了较为深入的研究 主要工作及创新如下 1 总结分析了当前镜头分割方法 实现了几种典型的镜头分割方法 在 此基础上 针对突变镜头和渐变镜头的特点 提出了一种基于帧差和非相邻帧差 的自适应镜头检测方法 该方法可检测出几乎所有的突变和渐变镜头 获得了良 好的综合检测效果 2 在总结已有关键帧提取方法的基础上 实现了一种简单有效的基于镜 头内容的关键帧提取方法 并计算镜头关键帧的平均颜色作为镜头的颜色 3 在视频语义分析方面 分别提出了通用视频和教学录像视频的镜头分 类方案 把通用视频的镜头分为创作镜头和摄像镜头 对教学录像视频 把其镜 头分为讲台镜头和学生镜头 4 对w e b 视频资源的语义信息提取进行了相关研究并取得了一定成果 5 设计并实现了一个基于内容的视频检索系统 建立了基础教育视频主 题词典 对基础教育相关的w e b 视频资源进行了检索实验 取得了较好的实验结 果 本文中的通用视频镜头分割系统 视频库分析系统和基于内容的视频检索系 统 基于微软d i r e c t s h o w 技术设计开发 利用v i s u a lc h 6 0 实现 在研究过程中 紧跟国内外相关领域的学术前沿 实现了一些最新算法并做 出一些实用的改进 并以教育的视角和为教育服务的目的探讨这些技术在教育资 源管理与检索中应用的问题 尽管本文的探索还是初级的 粗浅的 但在教育技 术领域对视频的内容分析与检索技术进行研究具有创新意义 拓广了教育技术的 研究视角 同时也丰富了视频的内容分析与检索技术的应用领域 本文以技术服 务教育的目的研究技术 希望有更多从事技术的人来关注技术在教育中的应用 关键字 视频 内容分析与检索技术 教育应用 分类号 g 4 3 4 i i w i t ht h ef a s td e v e l o p m e n to fi m e m c ta n dm u l t i m e d i at e c h n o l o g y t h e r ea r em o r e a n dm o r em u l t i m e d i ar e s o u r c e s t h e ya r em o l ea n dm o r ew i d e l yu s e di ne d u c a t i o n m u l t i m e d i a 髓 岫f c e s e s p e c i a l l yt h ev i d e oi n f o r m a t i o n i n c l u d i n gm u c hl i v e l ya n d a b u n d a n ti n f o r m a t i o n w a sp a i dm o r ea n dm o r ea t t e n t i o nb yt h es c h o l a rl i n du s e 娼 i nt h e f i e l do f m u l t i m e d i ar e s e a r c h c o n t e n t b a s e dv i d e oa n a l y s i sa n dr e t r i e v a lt e c h n o l o g yi s o n eo f t h eh o tt o p i c s i th a sw i d ea p p l i c a t i o np r o s p e c ti nt h ef i e l d so fe l e c t r o n i cl i b r a r y a b u n d a n td a t as t o r a g ea n dr e t r i e v a la n d o n a n dt h 既e ss d um u c hv a l u a b l e t e c h n o l o g yc o n t e n tt ob ei n t e n s i v e l y s e 卸 h e da n dp r o b e d t h i st h e s i sr e s e a r c h e s c o n t e n t b a s e dv i d e oa n a l y s i sa n dr e t r i e v a lt e c h n o l o g yt os c t v ef o re d u c a t i o na n d t e a c h i n g w eh o p et h a tt h et e c h n o l o g yc a nh e l pt h ee d u c a t i o nw o r k e r si n v i d e o r e t r i e v a la n dv i d e om a n a g e m e n t f o l l o w i n gt h et h r e a do fc o n t e n t b a s e dr e c r i e v a l t h et h e s i sc a r r i e so u tad e e p e r s e 2 i i 吐i nc o n t e n t b a s e dv i d e oa n a l y s i sa n dt 岫 i e v a lt e c h n o l o g y e s p e c i a l l yt h ev i d e o u s e di ne d u c a t i o n t h em a i n j o b sa n di n n o v a t i o na r ca sf o l l o w s f i r s t w er e s e a r c h e da n dr e a l i z e ds e v e r a ls h o ts e g m e n t a t i o nm e t h o d a n do nt h e b a s i so ft h em e t h o d s w er a i s e das e l f a d a p t i v em e t h o do fs h o td e t e c t i o nb a s e d0 1 1 n e i g h b o rf l a m ed i f f e r e n c ea n dn o n n e i g h b o r 矗a m ed i f f e r e n c ei n a l l u s i o nt o t h e c h a r a c t e r i s t i c so fa b r u p ts h o ta n dg r a d u a ls h o t t h em e t h o dc a nd e t e c ta l m o s ta l l a b r u p ta n dg r a d l l a ls h o ta n d a c h i e v ef i n eg e n e r a ld e t e c t i o ne f f e c t s s e c o n d w er e a l i z e das i m p l ea n de f f e c t i v ec o n t a n t b a s e ds h o te x t r a c t i o nm e t h o d o nt h eb a s i so fs u m m a r i z i n ge x i s t i n gk e yf l d l n ee x t r a c t i o nm e t h o d s a n di n d i c a t e dt h e c o l o ro f s h o tb yc o m p u t i n gt h ea v e r a g ec o l o ro f k e yf l a m e so f t h es h o t t h i r d i nt h ea s p e c to fv i d e os e m a n t i ci n f o r m a t i o na n a l y s i s w eg a v es h o t c l a s s i f i c a t i o ns c h e m e so fg e n e r a lv i d e oa n di n s t r u c t i o nv i d e o g e n e r a lv i d e os h o t 啪 b ec l a s s i f i e da sc r e a t i v es h o ta n dp h o t o g r a p hs h o t i n o nv i d e os h o tc a nb e c l a s s i f i e da sp l a t f o r ms h o ta n ds t u d e n ts h o t f o u r t h w cr e s e a r c h e dw c bs e m a n t i ci n f o r m a t i o ne x t r a c t i o no f v i d e or e s o u r c e sa n d i l l g o ts o m ea c h i e v e m e n t s f i f t h 啪d e s i g n e da n dr e a l i z e dac o n t e n t b a s e dv i d e or e t r i e v a ls y s t e ma n dc a r r i e d o u te x p e r i m e n t so ne l e m e n t a r ye d u c a t i o nr e l e v a n tw e bv i d e or e s o u r c e sa n da c h i e v e d g o o de x p e r i m e n te f f e c t s t h eg e n e r a lv i d e os h o ts e g m e n t a t i o ns y s t e m v i d e ol i b r a r ya n a l y s i ss y s t e ma n d c o n t e n t b a s e dv i d e or e t r i e v a ls y s t e ma r ed e s i g n e da n dd e v e l o p e db a s e do nm i c r o s o f t d i r e c ts h o wt e c h n o l o g y a n dt h e ni m p l e m e n t e du s i n gv i s u a lc 什6 0 i nt h ee o u l s eo fo b rr e s e a i c kw et r yt ot r a c kt h ea c a d e m i ca d v a n c e so fr e l e v a n t f i e l di nt e c h n o l o g yr e s e a r c h a n di m p l e m e n tn e wa l g o r i t h ma n dm a k es o m ep r a c t i c a l i m p r o v e m e n t s a n dd i s c u s si t sa p p l i c a t i o ni nm a n a g e m e n ta n ds e a r c ho fe d u c a t i o n a l r e s o u r c e sf r o mt h ev i s u a la n g l eo fe d u c a t i o na n dt h eg o a lo fs e r v i n gf o re d u c a t i o n a l t h o u g ho u r r e s e a r c hi sj u n i o ra n ds i m p l e i ti si n n o v a t i v et or e s e a r c hc o n t e n t b a s e d v i d e or e t r i e v a lt e c h n o l o g yi nt h ef i e l do fe d u c a t i o n a lt e c h n o l o g y i tn o to n l ye x p a n d s t h er e s e a r c ha n g l eo f e d u c a t i o n a lt e c h n o l o g y b u ta l s oe n r i c h e st h ea p p l i c a t i o nd o m a i n o fc o n t e n t b a s e dv i d e oa n a l y s i sa n dr e t r i e v a lt e c h n o l o g y w er e s e a r c ht e c h n o l o g yf o r s e r v 吨e d u c a t i o na n dh o p em o r ea n dm o r ep e o p l et h a te n g a g ei nt e c h n o l o g yp a y a t t e n t i o nt ot e c h n o l o g ya p p l i c a t i o ni ne d u c a t i o n k e y w o r d s lv i d e o c o n t e n t a n a l y s i s a n d r e t r i e v a l t e c h n o l o g y a p p l i c a t i o n i ne d u c a t i o n c a t e g o r y 0 4 3 4 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果 据我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其 他人已经发表或撰写过的研究成果 也不包含为获得 注 如 没有其他需要特别声明的 本栏可空 或其他教育机构的学位或证书使用过的材 料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意 学位论文作者签名 糊4 辁 一字 多确钟 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留 使用学位论文的规定 有权保 留并向国家有关部门或机构送交论文的复印件和磁盘 允许论文被查阅和借阅 本人授权堂控可以将学位论文的全部或部分内容编入有关数据库进行检索 可 以采用影印 缩印或扫描等复制手段保存 汇编学位论文 保密的学位论文在 解密后适用本授权书 姗虢锄维咖 字 强俄 签字日期 2 0 哆年畅i m 签字日期 2 0 07 年归 饵 山东师范大学硕士学位论文 1 1 研究背景和意义 第一章绪论 1 1 1 教育技术背景 教育技术学是近年来教育理论与实践领域发展较快的新兴学科之一 1 1 在教 育技术发展的过程中 对于教育技术学的研究领域和教育技术的本质等问题 许 多专家学者都提出过不同的观点 美国教育传播与技术协会 a e c t 是在全球教育技术界具有重要影响的学术 组织 在教育技术发展的不同时期 a b 凹对教育技术分别发布过不同的定义 对我国教育技术学产生了巨大影响 在最新的两个定义中 a e c t 9 4 定义认为 教 学技术是为了促进学习 对有关的过程和资源进行设计 开发 利用 管理和评 价的理论与实践 田 2 0 0 4 年 a e c t 又发布了对教育技术的最新界定 对于该 界定 彭绍东教授把其翻译为 教育技术是通过创造 使用 管理适当的技术 过程和资源 促进学习和改善绩效的研究与符合道德规范的实践 3 从以上教 育技术的定义中不难看出 对教育相关资源的利用和管理是教育技术的一个重要 研究范畴 从实践过程看 教育技术领域的研究内容随着社会科学技术的发展而变化 新兴技术的应用会引发其在教育教学中应用相应技术的变革 教育技术正是这样 一个很有生命力的学科领域 它与新兴技术尤其是媒体相关技术的发展密切相关 1 1 1 在教育技术领域内 本文正是以此为起点来研究视频资源在技术层面的管理 技术 1 1 2 问题的提出 视频是一类被广泛使用的多媒体内容 相比其他的媒体 文本 音频 图像 等 其丰富的信息负载能力使之成为最重要的信息交换形式之一 随着摄录技 术发展和数码摄像机普及 数字视频资料越来越多 已经成为海量多媒体数据中 的主要部分 如何有效的利用日益庞大的视频资源成为十分迫切的重大研究课 题 山东师范大学硕士学位论文 视频数据具有存储量大 结构复杂等特点 传统的基于关键字的检索方式在 视频检索中正面临着严峻的考验 传统的视频检索的局限性主要表现在以下几个 方面 4 l 1 对视频文字标签索引缺乏统一的客观标准 文字描述是一种特定盼抽象 如果描述的标准改变 则标签也得重新制作才 能适合新查询的要求 这些文字标签是靠观察者加上去的 受主观因素影响很大 不同的观察者或同一个观察者在不同条件下对同一段视频可能给出不同的描述 因而不够客观 2 文字标签不能完整概括视频信息内容 视频内容带给人的信息是多方面的 如颜色 模式 纹理 目标形状 分布 位置 用户需要访问的视频信息内容也是多方面的 人们常说 一幅图胜过千言 万语 而视频等媒体包含了更丰富的内容 这些内容的许多部分很难用文字来描 述清楚 人工加上的文字标签难以描述蕴藏在视频数据流中丰富的内容以及内容 感知描述的主观性 因而不能满足实际检索中的要求 并且人工生成的文本标注 通常相当概括 很难与人的视觉感受 比如颜色 纹理等联系起来 3 难以满足实时信息检索需要 随着多媒体技术发展 可获取的视频数据越来越多 数据库容量也不断增大 而这种利用标签人工输入属性和注释的方法就暴露出了它的缺点 视频 音频都 是按时间顺序来组织的 传统方法查找其中某个片断都是通过快进或快倒等顺序 来查找内容 这种方法不仅要求用户注意力高度集中 面且特别浪费时间 在实 际应用中如多媒体教学 视频查找过程中 使用这种方法不仅会出现迷航现象 而且会降低效率 为了提高用户对视频数据的控制和访闯能力 需要对视频进行基于内容的分 析 从而生成各个层次的索引信息 在这一需求背景下 基于内容的视频检索技 术 简称c b v r 成为现代视频压缩 检索和传输技术的基础性研究课题 并日 益显示出举足轻重的地位 基于内容的视频检索技术兴起于2 0 世纪9 0 年代后期 它突破了传统的基于 文本检索技术的局限 根据视频结构的特点 借助对视频媒体从底层到高层进行 处理 分析和理解的过程获取其内容特征并根据内容特征进行检索 满足用户多 层次的检索要求 5 它以图像处理 模式识别 计算机视觉 图像理解等领域的 2 山东师范大学硕士学位论文 知识为基础 涉及认知科学 人工智能 数据库管理系统 人机交互 信息检索 等领域 它弓l 入薪的媒体数据表示方法和数据模型 从而设计出可靠 有效的智 能化的系统结构 本文依循基于内容检索的思路 对视频 特别是教育教学视频 的内容分析与检索技术进行较为深入的研究 1 1 3c b v r 在教育教学中应用的意义 数字视频在教育教学中的应用越来越普遍 并且每天都有大量的视频信息产 生 视频的内容分析与检索技术对在教学中有效检索和剩用数字视频资源具有重 要的意义 1 能够满足教育用户多层次的检索要求 基于内容盼检索系统通繁由媒体库 特征库和知识库组成 其中知识库中的 知识表达可以更换 采用一些教学领域常用的术语 以适应特定领域的应用要求 例如 按照语义层次 教学视频数据可以分为3 个层次 整体视频 视频片断和 多媒体对象 每个层次定义相应的特征类和典型特征 整体视频信息描述整个教 学视频文档的有关信息 如标识 u i l l 标题 视频标题 教师信息 姓名 联 系地址 叭i l 内容描述信息 主题词 摘要 课程信息 学校 学科 课程 代号 课程名 参考书目 授课对象 等 视频片断信息描述经过视频切分后的 视频 片断 场景 镜头 帧 中的特征 如片断内字幕和主题词 起始时间和 终止时间以及所包含的视频组件 再次细分所得的视频对象 的标识 多媒体对 象信息描述关于该对象的视昕特征和时空特征 如注释文本 位置 形状等 这 可以帮助师生根据对视频的语义理解进行多层次的检索 从而提高检索的准确率 和速度 2 可依据视频示例进行查询 示例查询q b e q u e r yb ye x a m p i e 就是对于无法用形式化方法描述的查 询 可以给出一个示例 使系统自动获取其特征 然后根据这些特征进行查找 这样用户只需给出特定教学内容的例子或教学视频的特征描述 系统就能自动地 找到所需的视频片断 例如 学生要学习录像机维修技术 可以通过描述特定的r 故障来查询视频数据库 也可以给出一段类似的示例视频或几幅从示例视频中提 取的图像示例 系统就可以根据例子检索查到类似的视频段 学生可以通过观看 专家如何循序渐进地查找故障学习检修技术 3 山东师范大学硕士学位论文 3 有利于学校图书馆的数字化 图书馆的数字化是不可避免的发展趋势 在数字图书馆中 信息将以多媒体 形式表达 读者将从文本 图形 图像 声音 视频等多种媒体所表达的信息中 获取知识 其中视频信息由于其动态 直观的特点将为读者提供更大的信息量 因此 视频数据库将是未来的数字图书馆不可分割的一部分 视频的内容分析与 检索技术能预处理自动提取内容特征作为标注信息 替代了手工标注的过程 减 轻了图书管理人员的工作量 并且给用户提供更多层次的查询 1 9 9 5 年i b m 公 司即宣布并启动了i b m 数字图书馆计划 i b m 数字化图书馆集成了多种信息存储 管理 检索和分配的技术 并实现了自动索引 归并 对比 特征抽取和翻译等 功能 现在 i b m 的数字图书馆已为美国及欧洲的多所大学使用 4 可解决远程视频教学系统中的 些问题 在远程教育系统中 视频是重要的传送信息 由于教学过程时间长 最突出 的问题是带宽和费用的矛盾 此外还有一些其他要求难以得到满足 例如允许根 据需要选择不f 司清晰度的内容显示等 在近年推出的一些视频会议系统中 虽然 出现了一些文件传输工具 但信息之间的关系往往是独立的 视频的内容分析与 检索技术为解决这些问题提供了有效的途径 其基本思想就是利用基于内容的表 示方法 通过图像分析 对不同类型的信息分别进行高效的编码和描述 建立适 用多媒体信息特点的远程教育系统 例如 在远程教育的课件制作中 基于内容 表示的多媒体课件制作系统将电子文档作为一个视频对象直接嵌入到画面中的 投影区 可以达到最高的文件区域的质量 5 m p e g 7 标准的制定将促进该技术在教学领域的应用 随着m p e c 7 标准的制定 基于内容的检索技术在教学领域将发挥更大的作 用 咿e g 一7 作为一种被广泛接受的国际标准 在基于内容的视频信息检索中得 到实际运用 首先 可将以往制作的大量的多媒体教学素材 包括数字或模拟制 的磁带 胶片 c i r o m 等 用m p e g 7 的标准来描述 可使搜索这些多媒体教学素 材就像现在搜索文本信息那样方便 另外 m p e g 一7 标准对多媒体信息精细的 标准化的描述 使得教师和学生能够准确 过滤 出用于某一特定教学和学习任 务的详细资料嘲 因此 在教学和学习过程中教师和学生可以很方便地获取自己 想要的视频资料 提高教学的效率 4 山东师范大学硕士学位论文 1 2 研究现状 在过去的几十年里 计算机视觉研究领域在视频数据的获取 操作 存储和 传输方面都取得了很多重大理论突破和技术进步 而在视觉信息的查询和表征方 面尚处于起步阶段 近十多年来 基于内容的图像和视频检索问题在许多领域逐 渐活跃起来 并被广泛研究和讨论 1 2 1 视频的数据结构 进行基于内容的视频检索首先要建立一个合理的视频数据模型 从视频信息 的结构看 视频数据的本质是一组连续的图像帧 除了存在时间上的先后关系外 其本身并不具有结构信息 这使得视频无法和文本一样 使用且录 章节 段落 句子和关键词的方式进行索引 分析 检索和浏览 要实现基于内容的视频检索 必须为视频建立不同层次的结构索引 并进一步为视频的检索和浏览提供基本访 问单元忉 因此 视频结构分析是对视频进行基于内容存储 管理和检索的基础 视频数据从结构上自顶向下可分为视频序列 视频场景 镜头和帧 其结构 分层的示意图如图1 1 所示 图1 1 视频分层结构 帧是视频数据的最小单元 是一幅静止的画面 镜头是视频数据的基本单位 它是摄像头的一次连续的动作 只能拍摄相邻地点连续发生的事情 场景由内容 相近的镜头组成 从不同的角度描述同一个事件 而视频序列则由许多场景组成 叙述一个完整的故事结构 层中每一个视频层次的数据都可以用一定的属性加以 5 山东师范大学硕士学位论文 描述 如 视频序列的属性主要包括场景的个数和持续时间 场景的属性有标题 持续时阃 镜头数目 开始镜头 结束镜头等 镜头的属性有持续时间 开始帧 号 结束帧号 代表帧集合 特征空间向量等 帧的属性有直方图 轮廓图d c 及a c 分量图等 1 2 2c b v r 关键技术的研究现状 在基于内容的视频检索中 首先 要进行视频结构分析 将视频序列分割为 镜头 并在镜头内选择关键帧 这是实现一个高效的c b v r 系统的基础和关键 然后提取镜头的运动特征和关键帧中的视觉特征 作为一种检索机制存入视频数 据库 最后根据用户提交的查询按照一定特征进行视频检索 将检索结果按相似 性程度交给用户 当用户对查询结果不满意时可以优化查询结果 自动根据用户 的意见灵活地优化检索结果 下面简要概述c b v r 关键技术的研究现状 1 镜头分割 镜头之间的转换方式分为切变 突变 和濒变 根据所检测图像的物理参数 的不同 镜头切交检测方法一般有模板匹配法 直方图法 基于边缘的方法 滑 动 窗口法和 双重 窗口检测法等几种 对于镜头渐变的检测 已经提出的一 些方法有双闺值比较法 滑动 窗口法 基于模型的方法 b 样条拟合法等1 8 2 关键帧提取 最简单的方法是提取每个镜头的起始帧 中间帧或终止帧作为关键帧 另外 帧平均法和直方图平均法统计所有帧的像素位或直方图平均 取最接近平均值的 帧作为代表帧 但是其代表性往往不够好 较理想的方法是通过分析视频视觉内 容 颜色直方图 运动信息 随时间的变化情况 确定所需关键帧的数目 并按照 一定的规则为镜头抽取关键帧 还有其它方法 如用无监督聚类技术来选择关键 帧 甚至可以用拼接方法生成 个全景图作为关键帧等f 9 j 3 语义信息提取 视须内容分析与检索领域目前的研究热点就是语义分析 尽管绝大多数的检 索系统都是建立在低级特征提取上 用户往往希望在高层语义上来检索和浏览视 频 6 山东师范大学硕士学位论文 视频语义分析是机器智能的体现 是传统视频分析和机器学习 模式识别相 结合的产物 语义分析中常用的机器学习算法包括 隐马尔科夫模型 h 脒 支 持向量机 s v m 矢量量化 v q 等 视频语义分析可以分为两类 即通用语义分析和特定语义分析 由于通用语 义分析面向不受限的视频目标 困难很大 目前研究一般在特定视频语义定义条 件下进行 由于视频语义的多义性和复杂性 当前的特定语义分析主要局限在四 类视频中 1 体育视频 2 新闻视频 3 电影视频 4 监视视频 从另 一方面来看 特定语义分析研究也可以分为三个层面的工作 视频分类 概念学 习和事件检测和识别 4 视频检索 目前的视频检索主要依赖视频内容的相似性 即相似性检索 主要的检索形 式有三种 相似性视频检索 定位视频中的相似片段和相似性镜头检索 随着以 镜头为中心的视频结构化研究工作的完善 以镜头为基本单位的检索形式成为主 流柳 1 2 3 国内外已有的主要视频检索系统 国内外很多研究机构都在进行与视频检索相关的工作 并取得了一些令人瞩 目的成就 下面对已有的部分视频检索系统进行介绍 1 v i r a g e v i r a g e 是一个商业公司开发的视频系统原型 成功地应用在多个美国机构 的视频数据库中 l l 其数据库包括索引数据库和视频数据库 数据把编辑管理部 分和客户访问部分分离 其特色在于一个强大编辑器 计算机首先对视频进行预 处理 通过语音识别和文字识别获取图像中的文本信息 进行镜头切割 使得编 辑人员可以很方便地修改和添加注释 从而获得较为全面的描述信息 v i r a g e 主要产品是v i d e o l o g g e r 和a u d i o l o g g e r 它们能对模拟信号或数字信号的影像 进行释读和分析 并建立文字索引和图像内容索引 从而可以对影像中任何一个 片段进行检索 v i r a g e 还提供了一系列的开发工具 帮助用户将它的影像检索 技术融入到用户的应用系统中 2 v i d e o q 7 山东师范大学硕士学位论文 v i d e o q 是哥伦比亚大学研究的全自动面向对象基于内容的视频检索系统 1 2 1 它拓展了基于关键字或主题浏览的传统检索方式 提出了全新的基于视觉 特征和时空关系的查询技术 它能自动切分并跟踪视频中任意形状的对象 提供 包括颜色 纹理 形状和运动在内的丰富视觉特征库 目前 v i d e o q 视频库有 超过3 0 0 0 段视频 每段都被压缩成3 层结构保存 可通过w 晰互联网交互查询 和浏览 3 w e b s e e k w e b s e e k 是哥伦比亚大学电机系下属研究中心研制的一个面向肼w 基于内容 的图像和视频检索系鲥 1 w e b s e e k 通过一个网络引擎自动搜集因特网上的图像 和视频信息 并进行分析 组织和索引 建立视频数据库 同时可以将它们归入 一定的主题类别中 该系统的创新之处在于它能够有机地结合文本和视觉特征来 提供对图像 视频的查询和分类 全新的算法被用于自动对任意图像 视频进行语 义层次上的主题分类 该分类算法探索了视觉特征 如颜色纹理和空间层次 与 文本特征 如相关的h t m l 标识符 标题和文章 之间最优的结合点 用户可以 从分类 文字描述和内容特征3 个方面进行检索 整套系统包括了某些功能强大 的模块 主要有基于内容的图像检索功能 根据用户相似度反馈的查询优化 视 觉信息的自动提取 查询结果视频 图像的缩路表示 图像 视频的主题浏览功能 基于文本查找功能以及对查询结果的操作 如插入 删减 合并等 目前该系 统中有来自于w e b 的超过6 5 0 0 0 0 幅图像和超过1 0 0 0 0 段视频 4 i n f o r m e d i a i n f o r m e d i a 是卡耐基一梅隆大学面向视频图书馆所开发的系统 1 4 1 i n f o r m e d i ah 同等看待语音和视频信息的作用 采取多种智能处理技术 i n f o r m e d i a h 利用语音识别 嚣像理解和蛊然语言处理技术的组合 哥自动将视 频档案 如n c c 新闻 分成具有摘要和标题的单独场景 产生计算机可搜索的索 引 i n f o r m e d i al i 由以下模块组成 语音分析识别模块 视频分析模块 媒体与 索弓i 数据库模块和用户接口模块组成 语音分析识别模块利用c n n 广播电视节日 中的脚本信息 c l o s e d c a p t i o n 构造文本索引 采用s p h i n xi l l 语音识别器将 伴音自动转换为文本 视频分析模块自动提取人脸特征 叠加在屏幕上的文本 视频镜头边界等信息 然后将这些信息全部绑定形成最终索弓f 结构 支持快速相 似检索 8 山东师范大学硕士学位论文 5 c i r e c o r e 系统是新加坡国立大学开发的一个基于内容的检索机 旧 其显著技术 特色包括 多种特征提取方法 多种基于内容检索方法 使用自组织神经网络对 复杂特征度量 建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新 技术 6 t f i t v f i t s i n g h u av i d e of i n di t 是清华大学开发的视频节目管理系统 1 5 l 这个系统可提供如下功能 视频数据入库 基于内容的浏览 检索等 t v f i 提 供多种模式访问视频数据 包括基于关键字的查询 基于示例的查询 按视频结 构以及按用户自己预先定义的类别进行浏览 另外还有许多类似的系统 例如加利福尼亚大学s a n t a b a r b a r a 分校的 n e t r a 伊利诺依大学的m a r s c o m p a q 的s p e e c h b o t 等 国内还有几家单位也在 近几年开始研究视频的内容表征 提取和检索问题 并建立了几个演示系统 这 些单位主要有微软亚洲研究院 中科院计算技术研究所 浙江大学 国防科学技 术大学多媒体研究中心 中科院联合实验室等 1 3 本文主要工作 本文的主要工作是在详细分析视频结构的基础上 提取视频的内容语义信 息 实现了一个基于内容的视频检索系统 并对w e b 中的基础教育视频资源进 行检索实验 在镜头分割方面 本文分别以每帧图像的r g b 像素值 r o b 颜色直方图 h s v 颜色直方图作为特征 采用多种方法进行实验 对突变镜头 采用的方法主 要有全局单一阈值法 滑动窗口法 因果关系法 二次帧差法等 对于渐变镜头 提出了一种基于非相邻帧差的视频边界检测方法 通过计算非相邻帧差 能检测 出几乎所有的渐变镜头 另外 针对突变镜头和渐交镜头的特点 本论文提出了 一种基于帧差和非相邻帧差的自适应镜头检测方法 该方法可检测出几乎所有的 突变和渐变镜头 获得了良好的综合检测效果 在视频的内容语义特征提取方面 本文通过计算镜头颜色和镜头分类 来获 取镜头的内容语义特征 分别提出7 通用视频和教学录像视频的镜头分类方案 9 山东师范大学硕士学位论文 对通用视频 将镜头分为创作镜头和摄像镜头 对教学录像视频 将镜头分为讲 台镜头和学生镜头 本文还对w e b 视频资源的语义信息提取进行了相关研究并 取得了一定成果 在视频检索方面 实现了基于镜头内容的查询 为验证提取特征的有效性和 检索的准确性 对w e b 基础教育视频资源进行了基于内容的检索实验 取得了 较好的实验效果 1 4 章节安排 本文共分六章 第一章 绪论 从教育技术学的研究范畴入手 指出了本文研究在教育技术 领域的重要意义 介绍了基于内容视频分析和检索的研究背景 发展现状 以及 本论文的主要研究工作 第二章 视频及视频管理 分析了视频数据结构和视频数据特点 介绍了 m p e g 7 标准及应用前景 并对构建通用视频分析平台的d i r e c t s h o w 技术进行了 详细介绍 第三章 镜头分割和关键帧提取 在提取多种特征的基础上 分别采用多种 方法对视频进行镜头分割 并提出了 种基于帧差与非相邻帧差的自适应镜头检 测方法 该方法能同时检测突变镜头和渐变镜头 另外 实现了一种简单有效的 关键帧提取方法 第四章 视频内容语义特征提取 提取了镜头的颜色特征 在总结过去工作 的基础上 提出了一种新的镜头分类方案 对w e b 视频 通过分析其w e b 相关文 本 获取了更为丰富的语义信息 为后续工作奠定了基础 第五章 教学视频检索实验 承接前面的工作 对用中小学基础教育资源视 频主题词下载得到的视频数据库 利用论文第三章 第四章所述方法对基础教育 视频资源进行处理 在此基础上 实现了对基础教育视频资源基于内容特征的检 索 第六章 总结和展望 总结论文工作内容 指出工作的主要贡献 并且讨论 了以后可能的工作方向 l o 山东师范大学硕士学位论文 第二章视频及视频管理 视频常被称为序列图像 图像序列 连续图像 运动图像等 近年来随着电 子工业囊勺发展 视频采集设备和采集方式有很大进展 直接采集数字视频的设备 得到广泛开发和应用 数字化的视频有很多优点 它采集存取容易 可方便地在 网络中传输且抗噪声 在以下的讨论中 将使用视频来统一代表各种图像序列 连续图像 运动图像等 且不再刻意区分模拟视频和数字视频 另外需要指出 一般讨论视频时 它不仅包含视觉信息 也包含相关的听觉 音频 a u d i o 信息 在下面的讨论中 除非专门指出 视频主要指其中的视觉信息部分 2 1 视频数据的特点 2 1 1 海量的数据 数字视频的一个很明显的特点就是数据量庞大 视频数据通常是由某种自动 化手段产生的 如用摄像机或者图像采集设备将多个图像帧自动输入计算机中 此时数据不是以结构化记录形式表示 面是以数字图像或数字视频的非格式化形 式表示 h a m p a p u r 指出 1 6 视频数据的数据量大约比结构记录数据大七个数量 级 一幅中等分别率的图像 6 4 0 x 4 8 0 颜色为2 4 b i t p i x e l 数字视频图像的数 据量大约为l 避 如播放速度每秒3 0 帧 则1 秒的数据量约为3 0 昭 一个6 0 0 m b 的硬盘也只能存放2 0 s 的动态图像 显然 要实现视频数据管理首先必须解决的 关键问题就是动态图像的数据压缩编码和解码 目前m p e g d v i h 2 6 1 以及 q u i c k t i m e 等压缩标准的压缩比可以达到5 0 1 2 0 0 i 但即使压缩后的视频数据 量仍然是相当大的 例如一部普通长度的影片 2 小时 以m p f g 2 标准压缩后 数据量仍有1 2 0 0 1 4 0 0 m 左右 2 1 2 复杂的多维结构 和文本数据以及图像数据相比 视频数据既有空间属性又有时间属性 文本 数据是一种纯字符数值型数据 不含空间和时闯属性 可以看作是一维数据 图 像数据是一种具有空间属性的数据 但没有时间属性 可看作是二维数据 对于 山东师范大学硕士学位论文 视频数据而言 则不但具有空间属性还具有时间属性 可以看作是三维数据 空 间维是指每一帧图像具有空间结构 时间维是指视频是一系列的图像沿时阃轴顺 序分布而形成的一种流结构 因此视频数据具有时空特性 这使得视频结构的表 达和模型的建立变得困难 如表2 1 所示 表2 1 文本 图像和视频数据的比较 r 文本 图像视频 l女 信息含量少丰富非常丰富 l 空闻维度 一静态 维静态 二维 动态i 三维 数据组织 有结构无结构无结构 十 一 一1 7 一 数据容量 毒 南 数据关系简单 易定义复杂 不易定义非常复杂 难定义 正是因为视频数据的时间一空间特性 使得数据单元之间的关系更为复杂 除了图像中的空间关系外 还要考虑时间上的前后关系 因此 为了简化闯题 往往需要在时间序列上对视频进行分割描述 此外 为了衡量不同视频段的相关 性或者相似性 也需要重新定义相应的衡量标准 这和简单的文字及图像有很大 的区别 2 1 3 丰富多样的内容 视频数据作为一种表达信息的综合媒体 包含有及其丰富的内容和信息 这 些内容一般可以划分为两大类 即低层次的音频 视频内容 a u d i ov i s u a l c o n t e n t 和高层次的语义内容 s e m a n t i c c o n t e n t 前者主要指视频中含有的声 音和图像的特征 包括语音 音乐 背景声音等听觉信息以及颜色 纹理 形状 运动轨迹 空间关系 摄像机动作等视觉信息 而后者则指视频中包含的高级语 义 包括某个事件对应的人物 地点 过程描述等 人脸识别 文字识别 语音 识别等是沟通这两个层次内容的可能途径 此外 由于存在个体经验和背景知识等差异 使得不同的人对相同的视频可 能得出不同的描述 从而造成视频数据解释的多样性和模糊性 为此 需要针对 不同的应用领域及不同的用户分别建立相应的模型 这样才能切实的解决视频内 容的自动分析及后续的检索问题 山东师范大学硕士学位论文 2 2 视频数据模型的基本要求 考虑到视频数据及视频管理的特点 在设计视频数据数据模型时应该符合如 下的几个要求 1 7 1 1 支持多级视频结构抽象 对于视频数据 至少有两个基本的层次结构 整个视频序列和单个的视频帧 但对于视频数据库的管理和检索来说 仅仅基于整个序列的结构 就不能深入到 视频内部 也就无法体现基于内容的视频分析和检索 另一方面 由于视频数据 具有庞大的数据量 基于帧的处理量相当大 而且用户也很少对视频中的单个帧 感兴趣 因此有必要构造中间层次的结构 并在每一层加入视频特征 以支持基 于内容的视频浏览和检索 2 支持时空关系 视频数据的一个重要特征就是包含时空特征 因此视频数据模型应该能识别 不同的对象以及它们在时间和空闯上的关系 对用户而言 应能支持包含时空维 度的查询 空间关系主要反映了各个对象的位置关系 对于视频数据中各对象关 系的分析也是一个复杂的问题 一些关键技术 如对象的识别 跟踪技术等是目 前的热点研究课题 3 支持视频各层的解释 目前完全自动的基于内容的视频检索技术还很不成熟 必须结合其他的检索 方式 比如传统的基于文本的检索 和基于语音的检索 因此视频模型应该能够 支持各层视频数据的注释加入 即支持文本注释 语音注释 以求更高的查询效 率 4 视频数据的独立性 数据的独立性是数据库管理系统中的一个基本的功能 即数据对用户的透明 性 其优点之一是共享和重用数据以及对数据的保护 这在视频数据库管理系统 中是一个重要问题 因为视频数据的共享性高 如视频点播v o d 视频图书馆等 对数据安全性要求较高 数据独立性实际上是一个将数据从物理存储映射到逻辑 存储的问题 从而保证逻辑数据的改变不会影响到物理数据的存储 目前关于视 频数据独立性的问题还没得到完全解决 这也是数据模型建立中需要进一步研究 的问题 山东师范大学硕士学位论文 2 3 多媒体内容描述接口标准 m p e g 一7 m p e g 一7 是与基于内容的视觉

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论