科技研究报告正文模板_第1页
科技研究报告正文模板_第2页
科技研究报告正文模板_第3页
科技研究报告正文模板_第4页
科技研究报告正文模板_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录一 引言部分: .31.描述研究背景和意义 .32.前期研究基础 .33课题申请单位及主要参与单位研究基础 .54.研究范围和目标 .6目标 1:音视频编码技术与数据封装技术的技术难点的突破 .6目标 2:智能视频内容分析主要的技术难点的突破 .75.研究思路和总体方案 .7二 主体部分 .81课题研究内容、技术路线和创新点 .91)研究内容 .92)课题实施的基本原则 .92. 课题的技术路线 .10(1)TMEncoder 高清视频采集编码器 .10(2)iGuide 虚拟播出系统 .12(3)iVision 多点控制展示系统 .14(4)iSearch 视频资讯搜索系统 .16(5)iSee 视频资讯展示系统 .17(6)iPai、iPlay、iStudio 等其他产品 .223.电视数据智能采集处理及分析平台 .22(一)生产平台方案 .22(二)资源存储管理和服务方案 .24三 结论部分 .30插 图 清 单此处插入插图清单附 表 清 单此处插入附表图清单正 文一 引言部分:1.描述研究背景和意义1)多终端、跨平台具有良好兼容性与可扩展性的音视频编码技术及数据封装技术:多媒体终端种类越来越多,各终端采用的操作系统各不相同,各网络电视运营商所采用的网络电视播控模式、媒体数据传输方式也各有不同。这导致不同终端能正确接收和播放的音视频数据格式以及传输协议也各有不同,这就需要电视制作时提供各种不同格式及不同封装的视频内容以适配不同终端。另外,为了保证视频节目内容在未来的良好扩展性,确保在新终端和新系统亦能正确播放,需要在节目制作时考虑视频格式和封装的良好的平台通用性。2)智能视频内容分析及理解:通过剖析当前视频内容分析中的人工编目和线性浏览及回溯方式已经远远不能满足海量增长电视节目的处理、现有的视频内容分析系统效率低、性能不高、鲁棒性低等不足,在现有较好积累的基础上,提出更高效的识别算法和检索技术解决并完善现有平台的处理和分析性能。2.前期研究基础1国内外现有技术、知识产权和技术标准现状及预期分析在视频转码方面,传统的视频转码技术根据需求可以分为四大类:比特率转换、分辨率转换、帧率转换和格式转换。为了适应不同播控平台、网络带宽和终端,在实际转码中往往需要综合应用多种视频转码技术。而国内外相关专家的研究工作,往往仅立足于某一种视频转码技术,他们并没有考虑到与其他技术的兼容性问题。因此在实际工程应用中,主流的转码做法采用全解全编的方式,即对原音视频数据完全解码,重建原始音视频数据,然后根据输出码流的参数对音视频数据进行完全的编码。这种方式可以适应各种转码需求,但由于采用了完全编码的方式,其中计算复杂度较高的模块如运动估计、宏块模式判决等将浪费大量的计算资源,造成转码速度不快。通常一个单核的 CPU 只能实时完成一路标清视频的转码工作。另一方面,流媒体播控平台在不同的操作系统中所支持的流格式并不完全相同,譬如:iOS 系统不支持 FLV 格式的视频,而 FLV 对 H.264 的支持也不好。为了保证流媒体播控平台的良好兼容性,近年推出了基于 HTML5 的流媒体播控协议,它采用 HTTP 方式进行视频数据传输,用户在 Web 页面中通过调用本地播放器对音视频数据进行播放,它不再需要用户安装独立的客户端进行视频浏览,降低了网络电视运营商对平台的维护难度,可以实现播控平台的跨平台业务。同时,MPEG 组织与 2011 年发布了基于 HTTP 的自适应流规范草案(Dynamic Adaptive Streaming of HTTP,DASH) 。它将同一内容的多中规格的音视频数据流进行有效的复合封装(如下图所示) ,可以有效而灵活的在多种数据流间进行传输和控制,良好的解决了用户在观看音视频节目时在屏间无缝切换的需求,可以较好的支持跨平台、多终端适应的网络电视业务。DASH 数 据 格 式 结 构 图在视频内容分析与理解方面,如何实现智能化的基于内容的视频分析一直是信息检索领域中的研究热点,其最终目标是实现基于语义的视频检索。经过近二十年的努力,视频检索在感知特征的提取和表达、视频结构分析、视频摘要、视频索引建立等多个方面都取得了长足的进步,并出现了 MediaMill、Informedia、Advent、QBIC 等商用的图像/视频检索系统,支持根据多种音视频底层特征、草图、示例图片或视频片段、以及关键词来进行视频查询。值得指出的是,正是由于视频检索在信息检索领域的重要性,从 2003 年开始,美国国家标准技术协会组织了专门针对视频检索的 TRECVID 国际权威测评。测评的任务包括镜头边界检测、摄像机运动检测、语义视频搜索、高层概念检测、新闻视频摘要、重复视频检测和监控视频的事件检测等任务。目前参与 TRECVID 的大学和研究机构已经达到 119 家之多,分别来自北美、亚洲、欧洲、澳洲。北美的如 IBM Watson 研究中心、AT&T 研究中心、卡耐基.梅隆大学、哥伦比亚大学的 Advent 小组、加州大学的 Berkeley 、Santa Barbara、 San Diego 分校等;欧洲的诸如荷兰的 MediaMill 小组、英国 Oxford 大学、爱尔兰都柏林大学,以及德国、法国等国的机构。亚洲的日本、新加坡、印度等国、香港和台湾地区。国内如中科院、清华、北京邮电大学、华中科技大学、复旦、北京交通大学都是多次参与,并取得了很好的成绩。2008 年来北大、北航、上海交大、西安交大、浙大、天大、山大等也都陆续参加。另外,TRECVID 还吸引了微软亚洲研究院、东芝和 Yahoo 等著名的商业机构,加快了视频检索技术向商业应用的转化。TRECVID 已成为国际视频检索领域的一个评价基准,基本反映了当今视频检索技术的最高水平,对推动视频检索的研究具有里程碑式的意义。目前,国内外出现了一些视频检索相关的专利,但都不涉及本项目的海量电视节目的智能分析与处理,目前没有国际和国内相关标准。3课题申请单位及主要参与单位研究基础本课题的负责单位天脉聚源(北京)传媒科技有限公司自 2008 年以来一直致力于电视资讯云计算平台的开发和相关核心技术的研究,在电视资讯采集、转码、视频模式识别、语音识别和视频内容智能分析、云计算平台建设方面形成丰富的技术经验积累。同时公司注重与高校、科研机构的产学研结合,深度挖掘学术研究的价值,在语音识别、视频模式识别研究方面形成一批具有重要应用价值的科研成果。公司有专业研发工程师超过 200 人,投入到本项目团队 31 人,其中博士 2 名,硕士 3 名,公司员工平均年龄 28 岁,拥有本项目各领域技术的高端人才。公司有超过 2400 平米的办公室,在北京拥有嘉盛中心和雍和大厦两处办公场所,能够为本项目项目组提供良好的开发环境。公司自创立以来已经积累收录了国内外主要电视台四年的数据,拥有超过 600T 的电视数据,目前每天能源源不断地处理近 200 个频道的电视数据,这些日益积累的数据在未来不具备再次获取的可能,是天脉重要的资源积累,也是公司的核心资产,这一点很难超越。经过长期的技术积累和对大量数据模式识别(语言、画面)长期的训练,天脉当前的智能分析能力已经达到一个较高水平,可以达到最高 75%的识别准确率,而遍布全国的大规模分布式采集、处理与服务能力需要较长时间的技术磨合和积累,其余竞争对手短期内难以达到。在市场方面天脉已经占据了先机,当前已经服务于网易、搜狐、腾讯、土豆网等几乎所有的主要网络门户,在广电方面中国教育电视台、北京电视台、上海文广等主要机构也均已采用了本项目的云计算服务。天脉为这些客户提供了高性价比的、稳定优质的服务,并进行了大量的系统对接工作,这一现状将极大挤压其余竞争对手的市场空间。在电视资讯智能挖掘分析和自动化处理方面,我们拥有了超过 20 项的专利和 30 多项著作权,并有多项专利正在提交中。课题参与单位北京邮电大学多媒体通信与模式识别实验室在图像识别、音视频内容分析及检索,以及多媒体通信等方面,取得了一系列的研究成果。承担了国家自然科学基金、国家重大计划、863、国家计委、公安部和国防科工委等支持的重大科研项目,以及一系列与国内、外企业合作的项目。在流媒体系统方面,实验室先后完成 IPTV 播控系统、高效视频转码、3D 流媒体系统、通用监控视频接入和管理平台以及视频图像质量评测等课题。实验室拥有完善通用视频解码库,可实现现有各种标准音视频压缩流及主流数码设备采集的音视频数据流的正确解码。实验室具备完善的流媒体播控平台,可支持多种流媒体播控和传输协议,并具有良好的QoS 保障体系,实现音视频的流畅播放。实验室拥有高效实时的视频转码器,可实现码率转换、分辨率转换、帧率转换和格式转换等各种视频转码需求,转码速度比全解全编框架提高近 45%,可有效的生成适合不同终端设备的视频数据流。在视音频内容分析与检索方面,实验室有着多年的研究积累,参加了国际权威 TREC 视频检索测评 (TRECVID)的镜头边界检测、同源视频检测和语义搜索等多项任务,获得了优异的成绩,特别是在与本项目相关的语义视频搜索任务中,2009 年获得第一,2010 年获得第二,2011 年获得第一,充分展现了上述成果在视频检索领域中的先进性。4.研究范围和目标目标 1:音视频编码技术与数据封装技术的技术难点的突破为了制作适应各种不同终端的音视频数据,往往需要对同一内容的音视频节目进行多次压缩编码与数据封装,以形成多种压缩格式和封装格式的音视频数据流。由于音视频数据量极其庞大,目前的编码算法相对比较复杂,这将占用庞大的服务器资源。尤其是现在,随着网络带宽的飞速发展,网络电视中逐步开始提供更大分辨率的电视节目,如高清电视节目。目前实时编码一路高清电视节目,需要将近 2-3 核的 CPU 同时工作。因此随着终端设备和网络带宽的发展,节目录制所需要的服务器资源将急速增加。降低音视频节目录制的计算复杂度,成为提高音视频节目录制效率的一个技术难点。按现行的节目录制方式,音视频节目在各地进行采集之后汇聚到云计算中心进行转码录制。期间音视频节目至少需要经过 2 次以上的编码过程,视频质量将由于二次编码形成更大的质量损失。因此,如何保持转码后的视频图像质量,减少二次编码产生的质量下降也是音视频转码中的一个核心技术。受操作系统的限制,不同终端可支持的流媒体播控平台和文件格式各有不同,如果将同一内容的不同规格的音视频数据进行合理封装,不同播控服务器均可以进行有效的调度和传输,可以减少编码的工作量,并具备良好的扩展性。因此,音视频数据的流化和封装技术也成为流媒体系统的一项关键技术。本课题考虑到了现有系统的各方面需求,重点解决流媒体技术中视频转码的计算复杂度高、二次编码质量损失大、跨平台音视频流封装兼容性低的技术难题,提高海量音视频节目制作的效率和质量,提高音视频节目流对各终端的适应性。目标 2:智能视频内容分析主要的技术难点的突破其主要难点在于有效视频语义信息的提取和表达。具体来说,涉及到海量视频的结构化描述、视频节目的自动编目、高层语义概念的检测、还包括视频广告与节目的定位与拆条、在视频索引建立的前提下的快速鲁棒的视频搜索等。5.研究思路和总体方案本课题将产生一批产品化程度高的专业产品和一个高性能、高效率的生产和运营平台。本课题的主要技术难点也是我们的创新点是多种高端技术在视频云计算平台上的集成应用。课题最终形成的产品成果包括:1. TMEncoder 高清视频采集编码器2. iGuide 虚拟播出系统3. iVision 多点控制展示系统4. iSearch 视频资讯搜索系统5. iSee 视频资讯展示系统6. iPai、iPlay、iStudio 等其他产品7. 课题形成的生产和服务平台产品是:8. 电视数据智能采集处理及分析平台2)课题实施的基本原则标准化 1遵循国际、国家以及行业标准,能够与采用相同标准的相关系统平台实现平滑对接。方案遵循的协议簇包括:DVB 国际标准H.264/MPEG-4 AVC、AAC、MPEG2、MP3 音视频编码标准TCP/IP 协议HTTP 协议RTMP 协议SDI-SD/HD 数据接口协议Restful Web Service 规范完整性 2要求课题研究和开发内容能够完整解决整个项目所需的技术问题,保障项目正常实施,最终实现的成果能够完整的实现预期目标。开放性 3遵循开放性设计原则,对内部和外部系统提供规范、简单的接口协议,能够实现系统间的高效连接。先进性 4语音识别、图像识别、信息自动标引、文本自动分析、编码、传输和播放实现过程中充分考虑技术的先进性和成熟性,能够代表当前技术的主流和未来技术发展的方向。整个生产和运营平台的架构充分考虑当前主流的技术标准,能够与第三方系统进行平滑对接。经济性 5课题研究充分考虑运行成本,保障技术研究和项目实施具有较高的经济型。二 主体部分逐一论述各项研究内容的研究方案、研究方法、研究过程、研究结果等信息,提供必要的图、表、实验及观察数据等信息,并对使用到的关键装置、仪表仪器、材料原料等进行描述和说明。1课题研究内容、技术路线和创新点1)研究内容本课题将产生一批产品化程度高的专业产品和一个高性能、高效率的生产和运营平台。本课题的主要技术难点也是我们的创新点是多种高端技术在视频云计算平台上的集成应用。课题最终形成的产品成果包括: TMEncoder 高清视频采集编码器 iGuide 虚拟播出系统 iVision 多点控制展示系统 iSearch 视频资讯搜索系统 iSee 视频资讯展示系统 iPai、iPlay、iStudio 等其他产品 课题形成的生产和服务平台产品是: 电视数据智能采集处理及分析平台2)课题实施的基本原则标准化 1遵循国际、国家以及行业标准,能够与采用相同标准的相关系统平台实现平滑对接。方案遵循的协议簇包括:DVB 国际标准H.264/MPEG-4 AVC、AAC、MPEG2、MP3 音视频编码标准TCP/IP 协议HTTP 协议RTMP 协议SDI-SD/HD 数据接口协议Restful Web Service 规范完整性 2要求课题研究和开发内容能够完整解决整个项目所需的技术问题,保障项目正常实施,最终实现的成果能够完整的实现预期目标。开放性 3遵循开放性设计原则,对内部和外部系统提供规范、简单的接口协议,能够实现系统间的高效连接。先进性 4语音识别、图像识别、信息自动标引、文本自动分析、编码、传输和播放实现过程中充分考虑技术的先进性和成熟性,能够代表当前技术的主流和未来技术发展的方向。整个生产和运营平台的架构充分考虑当前主流的技术标准,能够与第三方系统进行平滑对接。经济性 5课题研究充分考虑运行成本,保障技术研究和项目实施具有较高的经济型。2. 课题的技术路线本章节将详细描述课题说涉及目标产品和平台的技术方法。(1)TMEncoder 高清视频采集编码器TMEncoder 的设计目标是实现高清高性能的电视视频的采集编码。该设备是整个云计算平台的信号输入接口设备,要求在稳定性、适配性和产品化程度上都能达到较高的水平。完成后的产品既可以作为整个系统的一个重要组成组件,也可以作为独立的产品对外销售,遵循国际国内通用编码器的输入输出规范。TMEncoder 采用 H.264 编码标准,使用国际领先的商用编码器内核。该编码器在视频编码的质量和效率上优于众多免费的开源编码技术和价格昂贵的硬件编码技术,能够以512Kbps 的码率实现标清视频编码,在 1Mbps1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论