版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE34360度全景视频传输技术基础综述目录TOC\o"1-3"\h\u929360度全景视频传输技术基础综述 1285901.1360度全景视频传输理论与方法 1219091.1.1360度全景视频概述 169231.1.2可伸缩视频编码 394301.1.3可伸缩多视口分类机制 5312011.2强化学习理论和方法 6SEQseq\h360度全景视频传输理论与方法360度全景视频传输涉及多个理论与方法,为更好地理解后续内容,本节将分别叙述传输过程涉及的理论与概念。首先,本节描述了360度全景视频的概念,涉及360度视频的制作、存储格式、应用场景以及传输方法。其次,本节针对360度视频广泛使用的SVC编码方式进行原理简述,以便充分理解SVC分层编码的灵活性。最后,受先前学者提出的边缘视口思想的启发,本节细化描述了具有边缘区域的可伸缩多视口分类机制,该机制贯穿全文,是所提算法的前提和基础。360度全景视频概述360度全景视频是一种能够呈现全角度视图的新兴技术,然而其概念能追溯到许久以前。就字面意思上来说,“全景”体现在超宽场景上。例如,在罗马帝国时期,画家会在建筑物的内部绘制自然景观、宫廷生活或神话故事等戏剧化场景;我国宋代同样也产出了超宽场景的《韩熙载夜宴图》,该画作在不同场景间利用屏风、床榻、长案等物件进行软分割,让作品更具有立体感。在18世纪后期,视觉艺术家们不再局限于超宽场景的制作,而是更趋向于创造新的展示方式来提供一种沉浸感体验。正如“全景”概念的创造者,英国画家罗伯特·贝克,他在伦敦莱斯特广场建造了一座圆柱型专用建筑来展示他的作品,令游客漫步其中以全角度观赏画作。至此,360度全景视频产业的蓝图初成。图21360度全景视频的两种观看方式数字时代的到来让全景画作化身为数字媒介——现有的360度全景视频通常使用由多个摄像机组成的特殊设备进行录制,这种设备能够实现多角度拍摄并通过视频拼接的方法将多个单一视野的镜头合并成球形视频。然而,球体的视频格式不利于视频的压缩与存储。考虑到360度视频内容的发展和当前传统视频编码标准的效率,将原始球面图像投影到二维平面上进行编码已成为一种常见的选择。其中,等距柱状投影格式(Equi-RectangularProjection,ERP)应用最为广泛,例如,在标准显示器上,观看者通常使用ERP格式实现超宽广角的观看体验,这种观看方法类似于观看传统视频,如图21(a)所示,主要应用在编辑过程中为电影制作人提供更多角度选择的选项。为更好地体现360度视频特性和增加更多的互动性,头戴式显示器(Head-MountedDisplay,HMD)应运而生。HMD外形类似于一副护目镜或一个完整的头盔,能够占据用户的整个视野;该硬件设备配置有头部跟踪器,以便系统响应头部运动,在观看者转头时动态更新显示场景的不同部分;因此,HMD显示的区域始终在用户的视口内,如图21(b)所示。在视频传输环节,基于瓦片的的传输方案作为视口依赖传输策略的拓展,能够有效减少360度视频传输的带宽需求并提升视频传输质量。至此,360度全景视频经由录制、拼接、投影、压缩解压缩和传输步骤,能够通过互联网传递至各HMD用户眼前,实现轻交互式的、个性化的沉浸式视频体验。可伸缩视频编码图22SVC编解码器流程的简化描述在无线环境中实现高质量的视频传输是一项极具挑战性的任务,有限的网络资源往往要求尽可能小的存储空间和带宽消耗,因此大多数数字视频内容通常会以某种压缩格式表示。在过去的几十年中,从H.261到H.264/AVC标准的出现彰显了视频编码领域的高质量发展,但研究内容大多是针对不可伸缩的视频编码方案[42,43]。然而,互联网的异构、动态和尽力而为的结构特性无法保证持续的、带宽充足的有效连接。因此,现有的视频编码标准试图引入可伸缩模式以适应带宽波动,这里说的“可伸缩”指移除部分码流后仍能重建较低分辨率或较低质量的信号,以适应不同需求或网络条件。可伸缩视频编码是传统H.264/AVC编码的拓展,是对可伸缩编码规范的最新修订[44]。如图22所示,SVC编码器仅对信号进行一次编码,编码后的码流通常包含一个基础层(BaseLayer,BL)和若干个增强层(EnhancementLayer,EL)[45];基础层编码器对最低帧率/分辨率/质量进行编码,增强层编码器则以基础层作为根基,并对附加的信息进行编码;借助这种特殊的多层级编码方式,系统可以根据应用程序所需的特定速率和分辨率进行部分流解码,从而在传输过程中提供更大的可适性和灵活性。为进一步说明SVC分层编码的强大优势,本节将进一步细化SVC分层编码的三大特性,即时间、空间以及质量可伸缩性。图23SVC编码中时间可伸缩性的分层预测结构时间可伸缩性是指允许单一码流支持多种帧率的技术,该技术使用分层预测结构生成时间可扩展的比特流,从而规避对H.264/AVC进行修改。图23(a)描述了一种典型的分层预测结构,通过在基础层之间插入增强层(例如,分层B帧或分层P帧)来实现时间可伸缩编码。从图中可以看出,这类分层预测结构提供了从基础层到增强层逐一递增排列的四种时间等级,每一时间等级可以独立于进行解码。尽管典型的分层预测结构具有较为良好的编码效率,但分层B帧会导致一定的编码延迟。为进一步满足低时延视频编码要求,SVC还提供了一种特殊的分层预测结构,如图23(b)所示,这种结构没有使用未来图片的运动补偿预测,因此其结构延迟为零。空间可伸缩性的核心思想是通过不同分辨率之间的线性缩放操作来达成可伸缩特性。如图24所示,具有空间可伸缩性的SVC码流中各层级对应的分辨率不一,从低层级至高层级分辨率逐步提高,因此选取不同的层级数量进行解码即可重建出不同分辨率的视频图像。此外,为提升空间可伸缩性的编码效率,SVC引入了可切换的层间预测机制实现层内和层间预测的自由选择。应注意到该机制包含运动预测和残差预测技术,因而层间预测只发生在时间层对齐的访问单元内[46],在图中使用黑色箭头表示。图24SVC编码中空间可伸缩性的分层预测结构质量可伸缩性,又称信噪比可伸缩性、保真度可伸缩性,指代具有相同空间分辨率但量化水平不同的多层级图像序列,在SVC中被细化分为三大类。第一类粗粒度质量分级(Coarse-GrainQualityScalableCoding,CGS),其粗粒度特性体现在CGS仅支持少数选定的比特率。第二类中等粒度质量分级(Medium-GrainQualityScalableCoding,MGS),可将一个CGS层的变换系数划分为多个MGS子层,并允许在网络适配层单元上进行比特流适配。针对质量可分级面临漂移效应的问题——增强层码流丢失导致以增强层数据为参考的运动补偿预测在编码端和解码端不同步,MGS引入了关键帧(时间基础层)作为重同步点,进而将漂移限制在一个图像组(GroupofPictures,GoP)范围内。同样,第三类细粒度质量分级(Fine-GrainQualityScalableCoding,FGS)为克服漂移问题,仅使用基础层图像作为参考图像,但该方案实现方式复杂未纳入标准。还需注意到的一点是,以上三大特性都围绕着一个统一的原则——SVC的基本层遵循传统H.264/AVC的设计,即BL层级能由AVC解码器单独解码,这使得SVC信号在多样的视频应用场景中更具兼容性和友好性。可伸缩多视口分类机制在先前的调研工作中,多篇文献都引入了具有边缘区域的可伸缩多视口分类机制[12,18,19]。这种分类机制充分运用了边缘视口/区域的潜在可用性,意在细化瓦片选择决策并能更好地对抗不完美的视口预测方法。本文将继承该机制的思想,在多视口的基础上创新数据分发算法。为实现可伸缩多视口分类机制,首先需执行分割瓦片的操作,在、、、、和多种划分方案中,将360度视频帧均匀分割为块瓦片具有较好的性能以及较低的代价[13,19]。为方便后续描述,本文将以“Z”字形状依次标记每个瓦片,记为,其中集合表示包含当前帧所有瓦片的集合。其次,应根据视口可见性概率区分不同视口区域,可见性模型及其区域大小的界定引自文献[19]。图25简明地展示了可伸缩多视口分类机制的示意图,可以看出一帧图像被分割为具有个不可重叠区域的视口集,表示为,集合中的视口按可见性概率的降序排序列出。具体而言,表示具有最高可见性概率的预测瓦片覆盖的预测区域,表示具有中等可见性概率的边缘区域,表示用户可见性概率最小的不可见区域。图25可伸缩多视口分类机制示意图强化学习理论和方法强化学习算法已被广泛应用于一系列具有挑战性的领域,如决策、机器人控制和资源分配[47-53]。RL算法拥有这般广阔的应用场景归功于其在不确定的、复杂的环境中的表现,即该技术允许AI驱动的系统(代理)使用操作(动作)的反馈(奖励)通过反复试验进行学习,每个时间步长的奖励用于调整代理在给定状态下执行操作的可能性,便于代理能够在未来获得比过去更多的奖励,如图26所示。这种学习过程类似于试错搜索,RL算法从失败的操作中吸取教训,找到一个合适的动作模型来最大化代理的总累积奖励,从而实现尽可能接近自然智能的人工智能。图26强化学习工作流程基础架构强化学习算法具有两大类方法,一是基于价值,该方法尝试查找或近似最优值函数,形成操作和值之间的映射;二是基于策略,该方法是每个状态到该状态下最佳操作的直接映射。上述两种方法各有长处,基于价值的样本效率和稳定性更高,而基于策略在连续和随机环境具有更为优秀的表现。正因如此,相关领域的研究学者努力尝试合并两种算法——AC算法就这样诞生了。AC算法具有两个网络,包含生成动作的actor网络和评价执行动作利弊程度的critic网络。具体而言,actor网络为给定状态生成操作空间中每个动作的概
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年社交媒体账号托管协议
- 检查督查结果反馈不及时处理意见建议
- 2025年天津市职业大学马克思主义基本原理概论期末考试模拟题带答案解析
- 2025年宁波开放大学马克思主义基本原理概论期末考试模拟题附答案解析
- 2025年颍上县幼儿园教师招教考试备考题库附答案解析
- 2025年江西交通职业技术学院单招职业适应性测试题库附答案解析
- 2025年江西软件职业技术大学单招职业技能测试题库带答案解析
- 2026年南昌交通学院单招职业技能考试模拟测试卷附答案解析
- 2025年轮台县招教考试备考题库含答案解析(夺冠)
- 2025年依兰县招教考试备考题库附答案解析(必刷)
- 亚马逊运营全知识培训
- 夫妻财产分割协议书范文范本下载
- JJG 692-2010无创自动测量血压计
- 中国的大好河山
- 甘肃省安全员A证考试题库及答案
- 离婚登记申请受理回执单模板
- 特技演员聘用合同
- 第25课《活板》同步练习(含答案)
- 数学中考复习资料四边形
- 压力容器磁粉检测通用工艺规程
- 国家开放大学《基础教育课程改革专题》形考任务(13)试题及答案解析
评论
0/150
提交评论