




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
新闻类视频结构化 1 主要内容 视频新闻内容分析现有新闻类分析系统 2 结构示意图 3 新闻类视频结构化 可行性 视频结构化应用最广泛也最成功的领域是新闻类视频 新闻节目是一个连续数据流 有新闻开始和新闻结束 并且有时候在新闻中还有广告等内容 不像其他视频节目的结构不是很明显 新闻视频节目中具有明显的结构 使结构化新闻视频数据不仅成为可能 而且也易于判断结构化的结果是否正确 4 视频新闻内容分析 时域结构 新闻视频的时域结构 它是新闻项的序列新闻项指先是主持人镜头 然后是新闻报道 最后是主持人镜头 接着进行下一个新闻项 5 视频新闻内容分析 目的 新闻视频分析就是根据这些相对粗糙的类别 将所有镜头进行归类 从而组合场景目前新闻视频分析的目的就是把切分出来的镜头组合成一个个独立的新闻故事 去除在新闻节目流中广告和天气预报等观众不感兴趣的数据流 使人们可以单独去了解独立的新闻事件 而不需要把整个时段的所有新闻节目都看下来 6 视频新闻内容分析 步骤 对视频新闻节目进行分析需要分成如下三步 首先将新闻视频流分割成一个个的镜头单元然后根据事先定义的镜头模型将这些切分出来的各类镜头归类最后把分类后的镜头单元组合成独立的新闻故事 7 镜头切分 任务 分类 镜头切分的任务就是检测镜头边缘 把视频流分割成镜头单元镜头边缘有两大类型 突变和渐变 突变就是简单的镜头切换 cut 而渐变是具有某种特殊效果的逐渐过渡 如fade dissolve和wipe 8 镜头分类 在视频新闻中 主要考虑两种镜头类型 主持人镜头和新闻镜头可以根据主持人在画面上位置来进一步区分不同类型的主持人镜头 一是包含一位主持人的镜头 二是包含两位主持人的镜头新闻镜头就复杂很多 没有固定的结构 因此 可认为那些不能确定为主持人模型的镜头就是新闻镜头镜头切分包含以下两步 首先 定义两类主持人镜头模型 然后设计一种相似度衡量方法 判断某个镜头是否为主持人镜头 9 主持人镜头模型定义 当有一个主持人进行新闻报道时 画面可以分成三个部分 主持人人脸 节目 或电视台 图标和背景画面 主持人 背景 台标 10 4种常见的主持人模型 区别的关键在于主持人数目和是否有图标 11 主持人新闻报道镜头识别 主持人新闻报道镜头识别的任务 从新闻视频中分割出得到的镜头中 找出那些属于主持人新闻报道的镜头单元主持人新闻报道镜头的特征 在主持人报道新闻主旨时主持人基本保持不动 只是嘴 头或者肩膀会有小许细微运动 而背景和图标会完全静止 主持人进行新闻报道时 相邻图像帧之间的差别很小 帧与帧之间的变化仅仅是由于主持人微小的身体运动以及随机噪音引起的 所以主持人镜头中相邻两帧的平均差别小于新闻镜头中两帧之间的平均差别 怎么检测主持人新闻报道镜头 12 主持人新闻报道镜头识别 步骤 先筛选出一些帧间运动变化差别小的镜头 这样的镜头就是可能的主持人报道镜头然后将这些可能的主持人新闻报道镜头与前面定义的四类主持人报道模型进行匹配 如果它们的空间结构基本一致 则认为选择的镜头是主持人新闻报道镜头 如果所选择的可能镜头与所定义的任何一种模型均不匹配 则这个镜头就不是主持人新闻报道镜头 13 选出可能主持人镜头方法 优点 大大减轻了后边进行主持人镜头模型匹配判断的计算量 因为不需要逐一判断每一个分割出的镜头是不是主持人镜头 而只需要在可能的主持人镜头中选出真正的主持人镜头具体步骤 对于分割出来的镜头单元 计算这个镜头中相邻帧的特征平均值和方差 当和满足如下条件时 认为该组镜头为可能的主持人镜头 和 14 选出可能主持人镜头方法 续 其中t1和t2是判断阈值 为了使分析过程快速简单 一般在计算中采用基于灰度直方图矩阵的统计量来衡量相邻帧之间的差别对判断出来的这些可能是主持人的镜头 将在下面做进一步分析判断 筛选出真正的主持人镜头 15 主持人镜头选择判断 方法 判断主持人候选镜头中是否有主持人出现 如果有主持人出现 则候选镜头是真正主持人新闻报道镜头 否则不是 16 主持人镜头选择判断 算法 用图所定义的主持人镜头模型中各区域特征 下面以判断是否为两位主持人新闻报道镜头为例 在图 a 所定义的两位主持人新闻报道模型中 可以知道两位主持人新闻报道镜头中相邻帧间变化主要来源于两位主持人的身体 主要是面部 因此 计算相邻帧画面中对应的A B和C这三个区域特征平均值和方差 17 主持人镜头选择判断 由于头部运动发生在区域A和B中 而区域C没有变化 所以 有 和 和 及 和 18 主持人镜头选择判断 如果某个候选镜头中的帧满足以上条件 就可以断定该镜头属于图 a 所定义的两位主持人新闻报道镜头 同样的方法可以判断候选镜头是否属于上图所定义的其他主持人新闻报道模型 如果某个候选镜头不属于上图所定义的任何主持人新闻报道模型 则这个镜头不是真正的主持人新闻报道镜头 19 视频新闻内容分析 目的 进行新闻内容分析 其目的是要分析出每个独立的新闻故事 20 视频新闻内容分析 主要思路 独立新闻故事一般在两种情况下发生 1 先是主持人报道一个独立新闻故事的简要主旨 然后是非主持人新闻镜头报道故事详细介绍 当这个独立新闻故事报道完毕后 又出现主持人新闻报道镜头 开始了下一条独立新闻故事的报道 对这种情况 只需要把前一个主持人新闻报道镜头到下一个主持人新闻报道镜头之间的视频帧组合到一起 形成一个独立新闻故事介绍就可以了 21 视频新闻内容分析 2 镜头中出现主持人画面 可主持人实际上报道了好几条新闻 如简讯 从语义上来看 这样一个主持人镜头里包含了好几个新闻故事 需要将这几个新闻故事分割开来 因为它们是独立的新闻故事 在这种情况下 每当主持人从一条简讯转到下一条新简讯时 画面中的图标也会相应的变换 因为画面中的图标是当前新闻故事的概要 所以当主持人报道下一条新闻时 前一条新闻的图标消失 出现下一条新闻的概要 可以依据这个特定信息 统计该主持人镜头中图标区域变化情况 把独立的新闻简讯分割开来 22 视频新闻内容分析 2续 判断方法 如果在一个主持人新闻报道镜头中 其相邻两帧图标区域部分的特征变化超过某一预定阈值 那么这两帧就是新闻故事的分界点 找出这些分界点 就可以把主持人新闻报道镜头进一步分割成好几个新闻内容独立的主持人镜头 23 构造新闻故事 目的 将属于同一新闻故事的镜头组合起来 便于数据库的检索 24 构造新闻故事 新闻故事的一般结构 主持人内容简介镜头 新闻详细报道镜头 根据这个特征 将识别出的每一个主持人新闻报道镜头及它到下一个主持人新闻报道镜头间的所有镜头组合成一个独立的新闻故事 25 构造新闻故事 开始对应主持人新闻报道镜头 而新闻故事对应非主持人出现的详细新闻报道 对于主持人连续报道好几条新闻简讯的情况 构造出的独立新闻故事仅包含主持人新闻报道镜头 而无详细新闻报道镜头 26 构造新闻故事 对连续的视频新闻构造出独立新闻故事后 就实现了新闻节目在内容上的自动分割 这为视频数据库的检索和管理提供的方便 27 构造新闻故事 建立新闻故事索引对这些独立的新闻故事提供文本标注用每个独立新闻故事的关键帧来对这个新闻故事进行索引 28 构造新闻故事 说明 对于新闻节目会出现的其他镜头 如天气预报 也可以通过事先定义天气预报镜头模块来判断 因为天气预报镜头有固定结构 对于广告节目 使用预定义模块的方法很难达到判断识别目的 因为广告节目镜头没有固定模式 但是 广告节目的背景音与新闻报道背景音存在很大差别 观众可以不看视频数据 只是听与视频流对应的音频流 在大多数情况下就能判断出哪些是广告节目 哪些是新闻报道节目 所以 在新闻节目分析中 可以结合音频信息进行分析 29 现有新闻类分析系统 CMU的Informedia浙江大学计算机系多媒体计算组的新闻视频分析系统 体育新闻节目结构化 30 CMU的Informedia 概述 CMU的InformdiaDigitalLibraryProject综合了自然语言理解 图像处理 语音识别和视频压缩等技术 从文本 音频和视频几个角度分析视频 进行结构化 它以新闻广播作为结构化的测试样本 得到了很好的结果 31 CMU的Informedia 视频新闻的分析处理步骤 1 将新闻节目转化为MPEG格式 音频和视频作为独立的流分开处理 保留各自的时间标志 2 应用Sphinx 语音识别系统去识别音频流中的语言 并把识别结果翻译成文本 卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx 此后严格来说语音识别技术并没有脱离HMM框架 32 33 34 CMU的Informedia 视频新闻的分析处理步骤 3 判断镜头边缘和镜头中的关键帧 其它的视频处理比如人脸的识别和视频字幕识别都可以应用于新闻节目分析 4 如果有视频字幕 视频字幕和语音识别对应起来 这样就能够把语音识别得到的文本的时间信息附给字幕 35 CMU的Informedia 视频新闻的分析处理步骤 5 视频新闻流被分割成独立的新闻故事或段落 可以用于检索或者回放 6 构造新闻故事的抽象数据 比如新闻总结 镜头的关键帧 新闻主题和新闻梗概 7 视频新闻中的视频 图像 流和音频流结合在一起成为索引 用户通过InformationClient的界面搜索视频 36 CMU的Informedia 37 CMU的Informedia 38 39 40 41 现有新闻类分析系统 浙江大学计算机系多媒体计算组的新闻视频分析系统 针对体育新闻节目结构化 42 体育新闻节目结构化 为了检验算法的有效性 浙江大学计算机系多媒体计算组设计并实现了一个新闻视频分析系统 该系统是在windows2000环境下用visualC 开发的 该系统包括镜头切分 主持人镜头识别和视频内容分析三大部分 其中视频内容分析出的结果是一个一个内容独立的新闻故事 43 体育新闻节目结构化 由于针对的是体育新闻 所以系统主要考虑这两种镜头类型 主持人新闻报道镜头体育新闻详细报道镜头 44 体育新闻节目结构化 在新闻节目中 主持人新闻报道画面多是只有一个主持人在介绍 如图 45 体育新闻节目结构化 这个系统中 采用双阈值法来检测镜头边缘 该模块以用户提交的一个视频段作为输入 输出结果为检测出的所有镜头单元 46 体育新闻节目结构化 该图显示了提交一段视频体育新闻后的镜头分割结果 47 体育新闻节目结构化 图中上部分是整个视频新闻中相邻帧之间特征变化情况 在这里 帧特征取直方图 图中所画的两条水平线分别是双阈值法中的高阈值和低阈值 从图中上部分显示的视频新闻图像帧特征变化曲线可以看到 镜头边缘检测的关键是阈值的确定 选择恰当的阈值 就能获得令人满意的结果 图中左下部是提交的视频体育新闻图右下部是采用双阈值法分割出来的镜头 48 体育新闻节目结构化 算法 将视频帧画面分成背景和主持人两部分 分别计算各区域中相邻帧的特征变化 选择可能镜头主持人新闻报道镜头 然后按照上面介绍的区域特征匹配和独立新闻故事组合等方法 得到独立的体育新闻故事 完成体育视频新闻流分割任务 49 新闻视频分析中集成视频 音频和文本信息 上面介绍了两个在对视频新闻进行结构化的系统 其实 视频信息只是多媒体数据中的一部分 现在已经在一些视频新闻分析中 已经开始把图像 音频和语音分析结合起来达到视频新闻结构化的目的 50 新闻视频分析中集成视频 音频和文本信息 第一 在识别新闻片断时 综合分析图像和音频特征将音频识别结果与视频处理结果融合考虑 精化新闻分析 51 新闻视频分析中集成视频 音频和文本信息 第二 文本是新闻电视中经常包含的一种重要信息源 它是描述新闻电视内容的有用数据 尤其是对高层语义内容分析 如新闻分类和相关故事搜索 怎么获取 广播新闻电视 文本信息可来自视频帧后期制作所形成的视频字幕 在信号噪声水平低的情况下 文本信息还可以通过语音转录识别获得 52 新闻视频分析中集成视频 音频和文本信息 在许多情况下 新闻节目的说明文本不能获得 而语音识别不能得出高精度的文本抄本 在这种情况下 直接从图像序列中提取视频字幕信息在新闻电视内容分析中扮演了重要的角色 这通常被称为OCR 采用视频OCR技术从帧中检测文字 这是获取文本信息用于归类的好来源 尤其是在不能获得新闻抄本和说明时 53 新闻视频分析中集成视频 音频和文本信息 最后 采用自然语言处理技术 根据由说明或视频OCR过程获得的文本 对新闻故事进行自动分类 文本分类是根据内容将自然语言的文字指派到一个或多个预定义的类中去的过程 这是许多信息组织和管理工作中的关键部分 对于基于内容的新闻视频浏览和搜索 需要将分析过程获得的新闻视频故事归类到预定义 常用的新闻类中 这将提供给用户一张内容表 类似于印刷书的内容表 方便新闻内容的快速导航和搜索 54 视频相似性度量 55 视频相似性度量 Dependingonquerytype videosimilaritycanbeclassifiedintofeaturematching textmatching ontology basedmatching andcombination basedmatchingFeaturematching averagedistancebetweenthefeaturesonthecorrespondingframesStaticfeaturesofkeyframesObjectfeaturesMotionfeatures Personspotting facefeatures facematching trajectoriesofmajorobjects Dependingonusers demands 56 视频相似性度量 TextmatchingmatchingthenameofeachconceptwithquerytermsOntology basedmatching usingtheontologybetweensemanticconceptsorsemanticrelationsbetweenkeywordsEnrichquerywithextraknowledge e g WordnetCombination basedmatchingLeveragesemanticconceptbylearningthecombinationstrategiesfromatrainingcollection 57 视频摘要 VideoSummarization StaticvideoabstractsconsistacollectionofkeyframesMerits Rapid simpleLimitations missaudiocontentanddynamicvisualcontentDynamicvideoskimsConsistacollectionofvideosegments andcorrespondingaudiosegments 58 视频摘要生成方法 简单方法 基于视觉信息的生成方法 应用各种视频和图像处理技术 进行镜头探测 关键帧提取 场景聚类 运动特征提取等一系列操作 最终生成具有代表性的关键桢序列或缩略视频融合多特性的生成方法 基于视觉方法的基础上融入其他媒体提供的信息 准确地判断视频片段的重要程度基于视频句法语义的生成方法 从视频的句法结构分析入手 探寻镜头与镜头之间 场景与场景之间的结构规则 将视频的句法语义尽可能完整的保存在摘要中 59 MemoryMatrix ANovelUserExperienceforHomeVideo Homevideo特点 大量冗余信息拍摄质量不高 theX coordinaterepresentsthespaceaxiswhileY coordinatedenotesthetimeaxis TheMemoryMatrixautomaticallyorganizeshomevideosub shotsaccordingtothetimestampsandbackgroundscenes 60 Memo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 眼镜连锁经营模式考核试卷
- 聚丙烯纤维的工艺改进和市场规模考核试卷
- 环保课件小学
- 矿石性质与锡矿物学考核试卷
- 2025年弱粘煤项目发展计划
- 2025年直流传动矿井提升机项目发展计划
- 2019-2025年教师资格之中学地理学科知识与教学能力题库与答案
- 2019-2025年注册环保工程师之注册环保工程师专业基础每日一练试卷B卷含答案
- 2019-2025年房地产经纪人之房地产交易制度政策综合检测试卷A卷含答案
- 2025年风电铸件项目发展计划
- SL631水利水电工程单元工程施工质量验收标准第4部分:堤防与河道整治工程
- 人工智能引论知到智慧树章节测试课后答案2024年秋浙江大学
- 员工工资条模板
- 国开电大-工程数学(本)-工程数学第4次作业-形考答案
- 地铁工程车辆段路基填方施工方案
- 路基路面排水设计(配图说明共50页)
- YY∕T 0617-2021 一次性使用人体末梢血样采集容器
- 有关种子农药化肥购销合同模板
- 山东水利定额使用说明
- 钢结构焊接变形的火焰矫正方法
- 蒸汽锅炉运行记录表最新版
评论
0/150
提交评论