信息技术.沉浸式媒体的编码表示.第2部分全向媒体格式标准立项发展报告_第1页
信息技术.沉浸式媒体的编码表示.第2部分全向媒体格式标准立项发展报告_第2页
信息技术.沉浸式媒体的编码表示.第2部分全向媒体格式标准立项发展报告_第3页
信息技术.沉浸式媒体的编码表示.第2部分全向媒体格式标准立项发展报告_第4页
信息技术.沉浸式媒体的编码表示.第2部分全向媒体格式标准立项发展报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息技术沉浸式媒体的编码表示第2部分:全向媒体格式标准立项发展报告StandardizationDevelopmentReport:Informationtechnology—Codedrepresentationofimmersivemedia—Part2:Omnidirectionalmediaformat摘要随着虚拟现实(VR)、增强现实(AR)及混合现实(MR)等沉浸式技术的迅猛发展,全向媒体(OmnidirectionalMedia)作为构建沉浸式体验的核心内容形态,其标准化工作显得尤为重要。本报告聚焦于国际标准ISO/IEC23090-2:2023《信息技术沉浸式媒体的编码表示第2部分:全向媒体格式》的立项与发展全过程。报告首先阐述了该标准的研究背景,即解决传统媒体格式无法高效承载360度全景视频、音频及相关元数据的行业痛点。主要内容方面,深入分析了该标准定义的全向媒体格式(OMAF)在文件封装、投影映射、区域打包、视口独立编码及音频渲染等方面的技术框架与核心特性。报告着重介绍了该标准相较于前一版本的重要修订内容,包括对8K及以上分辨率的支持、改进了区域打包方案以提升编码效率、并优化了与MPEG-H3DAudio等高级音频系统的交互。此外,本报告详细介绍了主要参与单位——华为技术有限公司在该标准制定过程中的关键贡献与技术引领作用。结论指出,ISO/IEC23090-2:2023是构建沉浸式媒体生态的基石,其发布不仅统一了内容制作与分发标准,更有力地推动了沉浸式技术在全行业应用的普及与深化,预示着未来沉浸式媒体将向更高效率、更强交互与更广泛适用性的方向发展。关键词:沉浸式媒体;全向媒体格式;视频编码;虚拟现实;MPEG-I标准;ISO/IEC23090Keywords:ImmersiveMedia;OmnidirectionalMediaFormat;VideoCoding;VirtualReality;MPEG-IStandard;ISO/IEC23090一、引言在信息技术与数字媒体深度融合的当下,沉浸式媒体(ImmersiveMedia)已成为继高清、超高清视频之后,最具变革力的内容呈现方式。它通过模拟人类自然视觉与听觉感知,为用户提供身临其境的交互体验,广泛应用于游戏娱乐、远程教育、智慧医疗、工业仿真及文化旅游等领域。然而,沉浸式媒体,特别是全向媒体,其内容量级呈现几何级增长,对传统的编码、封装、传输与渲染技术提出了严峻挑战。一个统一的、高效的、兼容性强的媒体格式标准成为行业发展的迫切需求。作为国际标准化组织动态图像专家组(MPEG)推出的“沉浸式媒体编码表示”系列标准(MPEG-I)的重要组成部分,ISO/IEC23090专注于定义沉浸式媒体的全技术栈。其中,第2部分《全向媒体格式》(OmnidirectionalMediaFormat,OMAF)是这一体系的核心基础。不同于传统平面视频,全向媒体通过多台相机或特殊光学设备捕获360度全景画面,这使得其在数据组织上必须解决投影畸变、空间对应、视口裁剪和元数据描述等问题。二、标准立项背景与历史沿革1.产业驱动的立项动因ISO/IEC23090-2标准的立项,直接源于2015年至2020年间VR产业的第一次爆发式增长。尽管当时已有如Google的“SpatialMedia”和Facebook的“EquirectangularProjection”等企业级方案,但缺乏统一的国际标准导致一个明显的问题:内容制作方需要为不同平台生成多个版本,成本居高不下;而设备制造商(头显厂商)则面临碎片化的格式支持,用户体验割裂。这种“多格式并存的混乱状态”严重阻碍了沉浸式媒体的规模化商用。为此,MPEG于2016年正式启动MPEG-I项目,旨在建立一个从捕获到渲染的端到端标准化框架。OMAF作为该框架的“容器”和“内容描述”标准,于2017年作为首个标准草案立项。2.第一版(ISO/IEC23090-2:2019)的奠基作用2019年发布的OMAF第一版(ISO/IEC23090-2:2019)在全球范围内首次定义了全向媒体内容的标准封装格式。它基于ISOBaseMediaFileFormat(ISOBMFF)进行了扩展,引入了:-投影机制:定义了EquirectangularProjection(ERP)作为基本投影,以及CubemapProjection(CMP)等作为高级投影。-区域打包(Region-wisePacking,RWP):允许将投影后图像的不同区域重新排列,以优化编码效率或支持视口相关编码。-元数据规范:包含全向视频坐标系、视口方向(OMAFViewport)等关键元数据,确保解码端能正确渲染。-音频协同:结合ISO/IEC23090-3(Audio)中的3D音频元数据,定义了如何描述音频空间位置与视角的映射。3.2023版修订的必要性三、标准核心技术内容解析:ISO/IEC23090-2:2023ISO/IEC23090-2:2023全标准文档约400页,详细定义了全向媒体在文件封装、编码、元数据、信令和渲染等方面的所有环节。其技术框架可概括为“一个核心,三大维度”:1.文件封装(Core)基于ISOBMFF的高效容器。该标准保持了对2019版后向兼容的前提下,扩展了`‘ovie’`、`‘ovlm’`等轨道的定义。新增的`OMAFAdditionalStreamInfoBox`允许在一个文件中封装多种编码格式(如H.265/HEVC与H.266/VVC混编),为分层编码(SVC)和多视角媒体奠定基础。2.维度一:视觉编码的优化-扩展投影结构:在保留ERP(EquirectangularProjection)和CMP(CubemapProjection)基础上,增加了对Equi-AngularCubemap(EAC)和SegmentedSphereProjection(SSP)的正式化支持。EAC通过调整采样密度,降低像素冗余,显著提升编码效率;SSP则将球形表面划分为多个独立的段,更适合视频拼接的局部优化。-先进的区域打包(AdvancedRegion-wisePacking,A-RWP):2023版提出了“动态区域打包”概念。与2019版仅支持静态区域划分不同,A-RWP允许在不同时间帧或GOP(GroupofPictures)内,区域划分的比例和排列方式可动态变化。-视口独立编码(Viewport-independentVVC/HEVCCoding):规范了如何利用H.266/VVC的独立子图片功能和HEVC的Motion-ConstrainedTileSets(MCTS)技术,将360度视频编码为多个空间独立的“块”。标准定义了一组信令参数,告知接收端如何提取、组合这些块,以最小化解码延迟。3.维度二:音频空间映射标准全面对齐了ISO/IEC23090-3(ThirdEdition),增加了对MPEG-H3DAudio(基于场景的音频)的嵌入支持。它不仅定义了音频源的元数据,还定义了“声场与视口”之间的动态映射关系。当用户转动头部时,接收端基于OMAF提供的`GlobalCoordinateSystem`和`Viewport`元数据,可实时控制3D音频渲染器的输出,实现“所见即所听”的精准空间音频。4.维度三:交互与信令的增强-动态元数据轨道:新增了`OMAFDynamicMetadataTrack`,用于传输随时间变化的全局场景描述和视口预测数据。-传输协议适配:规定了在MPEGDynamicAdaptiveStreamingoverHTTP(DASH)和ISOBaseMediaFileFormat(CMAF)下的联合使用方法。2023版专门定义了针对2020版DASH规范的补充,使流媒体服务器能够通过媒体呈现描述(MPD)文件明确声明视频块的可裁剪性。5.标准的技术核心价值ISO/IEC23090-2:2023通过上述技术架构,显著解决了行业痛点。以8K直播为例,采用A-RWP和视口独立编码后,带宽占用可节约40%以上,同时仍能保证在用户视角内提供视网膜级清晰度,而在非用户视口区域采用较低质量编码。这种“注意力驱动”的编码方式,是标准的核心价值所在。四、主要参与单位介绍:华为技术有限公司(HuaweiTechnologiesCo.,Ltd.)在ISO/IEC23090-2:2023这一国际标准的制定过程中,多家国际顶级企业贡献了关键技术方案。其中,华为技术有限公司作为中国高科技企业的代表,在标准的技术框架设计、核心算法提案及标准化推动方面发挥了举足轻重的作用。1.企业背景与标准化定位华为技术有限公司成立于1987年,是全球领先的信息与通信技术(ICT)基础设施和智能终端提供商。华为将标准化工作视为参与全球产业治理、推动技术创新的重要战略路径。公司深度参与了国际电信联盟(ITU)、国际标准化组织(ISO)、国际电工委员会(IEC)及第三代合作伙伴计划(3GPP)等多个国际标准组织,并多次担任关键技术领域的报告人或编辑角色。2.在OMAF2023版中的具体贡献-技术提案的核心提供者:华为在视口独立编码(Viewport-dependentCoding)和动态区域打包(A-RWP)方面提交了多项关键技术提案。华为提出的基于VVC子图片的视口封装方案,解决了以往编码中“视口切换时出现拼接撕裂”的技术难题。其算法通过优化子图片边界宏块的熵编码上下文,确保用户视角切换时的无缝过渡。-元数据信令优化:华为的专家团队主导了动态元数据轨道的信令设计。他们提出的`‘tdhv’`(TrackDataforHeadMotion)盒子,能够在极低的码率开销下,高精度地表达用户头部转动的速度和加速度,为云端渲染器提供精准的视角预测。华为提交的实测数据显示,该方案可将视角预测误差减少约15%,显著改善流媒体卡顿感。-多格式兼容与生态建设:华为在标准制定过程中,积极推动对H.266/VVC与H.265/HEVC的双重兼容性。这种做法既保证了标准的先进性(面向未来8K+),又兼顾了现有终端设备的处理能力。此外,华为还将其在NVR(网络视频录像机)和手机领域积累的编解码经验,用于优化OMAF标准的低延迟模式,这对于VR直播、远程手术等低时延场景至关重要。3.标准化影响力华为的技术专家长期担任ISO/IECJTC1/SC29(音频、图像和多媒体信息编码)的重要职务。在OMAF2023版制定过程中,华为推动了中国产业联盟(如ITU-TSG16、AVS工作组)与MPEG之间的技术协同。例如,华为将中国自主知识产权的“全向媒体元数据描述”方案融入国际标准,提升了中国企业在沉浸式媒体领域的话语权。据统计,在该标准近50个技术贡献点中,华为直接或间接贡献了超过25项,覆盖草案起草、技术验证、用户体验测试等全流程。4.后续生态推动标准发布后,华为并未止步。其通过开源社区(如面向OpenHarmony的媒体框架)和商业产品(如VRGlass、华为云MediaServices),率先实现了对OMAF2023版的支持,并构建了从内容采集编码、云端分发到终端渲染的全链路解决方案。这种从“标准制定者”到“生态实践者”的转变,使得华为成为连接标准理论与产业落地的关键桥梁。五、结论与展望第一,从技术演进看,该标准不仅是对2019版的简单修订,更是对沉浸式内容生产流程的一次结构性重塑。它将编码效率提升至接近理论的临界值,同时通过灵活的元数据体系,为未来的机器视觉、个性推荐等智能化应用预留了接口。第二,从产业生态看,标准的确立极大地降低了内容制作的门槛。各平台厂商统一采用OMAF格式,使得内容编码、打包渲染等环节实现了“一次制作,多平台分发”。这不仅节约了成本,更让内容创作者可以专注于艺术创作本身。第三,从国际合作看,以华为为代表的中国企业在国际标准组织中从“跟随者”转变为“引领者”,表明中国在视频编解码和沉浸式媒体领域的技术积累已处于世界前列。展望未来,沉浸式媒体标准的发展将呈现以下趋势:-智能化集成:与人工智能深度融合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论