信息技术.沉浸式媒体的编码表示.第14部分场景描述标准立项发展报告_第1页
信息技术.沉浸式媒体的编码表示.第14部分场景描述标准立项发展报告_第2页
信息技术.沉浸式媒体的编码表示.第14部分场景描述标准立项发展报告_第3页
信息技术.沉浸式媒体的编码表示.第14部分场景描述标准立项发展报告_第4页
信息技术.沉浸式媒体的编码表示.第14部分场景描述标准立项发展报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息技术沉浸式媒体的编码表示第14部分:场景描述标准立项发展报告StandardizationDevelopmentReport:Informationtechnology—Codedrepresentationofimmersivemedia—Part14:Scenedescription摘要本报告旨在系统梳理和分析ISO/IEC23090-14:2023《信息技术沉浸式媒体的编码表示第14部分:场景描述》标准的立项背景、技术内容、发展历程及其产业应用价值。随着虚拟现实、增强现实、混合现实等沉浸式技术的迅猛发展,如何高效、标准化地描述和传输复杂的、包含多模态媒体元素的3D场景,已成为制约产业融合与规模应用的核心瓶颈。该标准由国际标准化组织与国际电工委员会第一联合技术委员会制定,作为MPEG-I系列标准的重要组成部分,定义了沉浸式媒体场景描述的统一框架和语法。报告详细阐述了该标准的技术架构,包括场景图结构、空间-时间关系、交互性描述以及与其他MPEG-I编码标准的衔接机制。通过分析其立项过程、技术演进以及与国内相关标准研制的对比,本报告指出该标准的发布为沉浸式内容的创作、分发与消费提供了关键的互操作性基础,有力推动了数字娱乐、工业仿真、远程协作、教育培训等领域的标准化进程。报告最后对该标准的未来修订方向及我国参与国际标准化的策略提出了展望。关键词沉浸式媒体;场景描述;MPEG-I;ISO/IEC23090;标准化;虚拟现实;编码表示;互操作性Keywords:ImmersiveMedia;SceneDescription;MPEG-I;ISO/IEC23090;Standardization;VirtualReality;CodedRepresentation;Interoperability正文一、引言随着信息技术的飞速演进,媒体内容正从传统的二维平面显示向三维沉浸式空间体验全面跃迁。虚拟现实、增强现实和混合现实技术不再局限于专业实验室或高端娱乐场所,而是逐渐渗透到医疗、教育、工业制造、电子商务等国民经济核心领域。然而,这种沉浸式体验的构建依赖于对复杂三维场景的精确描述,这包括几何模型、纹理材质、光影效果、空间音频以及用户与场景的动态交互逻辑。缺乏统一的描述规范导致不同设备、不同平台、不同应用之间的内容无法兼容,严重阻碍了沉浸式生态系统的规模化发展。在此背景下,国际标准化组织与国际电工委员会第一联合技术委员会下属的运动图像专家组启动了MPEG-I项目(即ISO/IEC23090系列标准),旨在构建一个完整的沉浸式媒体编码与表示标准体系。ISO/IEC23090-14:2023《信息技术沉浸式媒体的编码表示第14部分:场景描述》正是该体系中的核心支柱,其目标是定义一种通用的、可扩展的场景描述语言,用于封装和组织由视频、音频、点云、网格等不同编码标准生成的沉浸式媒体元素,从而使得终端设备能够准确还原并呈现复杂的沉浸式环境。本报告将对该标准的技术细节、立项背景、发展现状及未来趋势进行深入剖析,旨在为行业从业者、科研人员及标准化工作者提供一份权威的参考。二、标准立项背景与技术需求2.1沉浸式媒体生态的碎片化困境在ISO/IEC23090-14发布之前,沉浸式内容的分发面临严重的“巴别塔”困境。各大厂商(如Meta、Apple、Microsoft、NVIDIA等)纷纷推出自己的3D内容格式和场景描述方案(如USD、glTF、FBX等),但这些格式在底层架构、数据序列化和运行时性能上存在巨大差异。例如,苹果的ARQuickLook基于USDZ,而Web端流行的Three.js则依赖JSON格式。这种碎片化导致内容开发者需要针对不同平台进行多次适配开发,增加了成本,降低了内容复用率。更深层次的问题是,这些私有或半开源格式难以与成熟的音视频编码标准(如H.265、H.266/AAC)无缝集成,无法高效支撑流式传输场景。2.2标准化需求的核心驱动力面对上述困境,产业界对国际标准的需求日益迫切,主要体现为:1.互操作性:标准化的场景描述是打破平台壁垒、实现内容一次制作、多终端分发的关键。2.高效编码与传输:需要一种能够与ISO/IEC23090系列其他部分——如视频编码、点云编码、音频编码——协同工作的描述语言,实现从场景重组到网络传输再到终端解码的全链路效率优化。3.交互性支持:沉浸式体验的核心在于用户与场景的实时互动。标准必须能够定义场景元素的行为逻辑、触发条件和响应机制。4.可扩展性与兼容性:随着技术进步,新的媒体类型(如光场、全息)会出现,标准框架应具备良好的扩展性,并能向后兼容现有标准。2.3国际标准立项过程ISO/IEC23090系列标准的制定遵循严格的国际标准化工作流程。在正式立项前,MPEG组织经过了多轮需求征集和技术提案评估。首先,由各国专家和行业代表(如中国的数字音视频编解码技术标准工作组、美国电影艺术与科学学院等)提交了关于沉浸式媒体场景描述的“需求文件”。2018年左右,MPEG正式成立“场景描述”特别工作组,开始征集候选技术方案。经过多轮核心实验与技术竞争,最终确立了一个基于场景图模型、结合二进制压缩和可扩展标记语法的折中方案。标准立项后,经过工作组草案(WD)、委员会草案(CD)、国际标准草案(DIS)及最终国际标准草案(FDIS)等多个阶段,最终于2023年6月正式发布。三、标准技术内容与结构分析3.1核心架构:基于“场景图”的层次化模型ISO/IEC23090-14的核心技术架构是基于“场景图”的层次化模型。场景图是一种以有向无环图形式组织场景中所有对象及其相互关系的数据结构。一个标准的场景由若干个“场景节点”组成,每个节点代表一个具体的媒体对象(如一个视频纹理、一个音频源、一个3D网格模型)或一个空间容器。节点之间通过父子关系定义层级逻辑,如将一个“椅子”模型放置在一个“房间”容器内,而“房间”又属于更大的“宇宙”坐标轴。这种模型的关键优势在于:-空间变换的便利性:子节点可以继承父节点的变换矩阵,实现整体移动、旋转和缩放,无需修改子节点内部数据。-高效的渲染优化:渲染引擎可以根据节点层级进行视锥体裁剪或遮挡剔除,只绘制当前用户视角可见的部分,显著节省算力与带宽。-逻辑清晰性:场景的构建逻辑与人的空间认知一致,便于创作者理解和管理。3.2关键技术组件标准详细定义了以下关键技术组件:1.空间-时间关系描述:标准定义了4x4变换矩阵、锚点系统(锚点用于在现实世界中固定虚拟物体)、动画插值算法等,使得场景中的对象可以随时间或用户交互进行位置、姿态和形状的变化。2.媒体资源引用与封装:场景描述本身不包含庞大的音视频、点云数据流。它仅引用这些编码数据的访问路径(如URL或MPEG-4的系统层流ID),并规定这些媒体流如何与场景节点绑定。例如,一个矩形面板节点可以引用一个ISO/IEC23090-5(视频编码)解码后的视频流作为其纹理。3.交互性描述:标准引入了“传感器”和“执行器”模型。用户可以定义点击、悬停、拖拽等动作事件,并关联到场景节点的属性变化或媒体播放控制。这为构建可互动的VR/AR应用提供了标准化逻辑。4.二进制序列化与增量更新:为了适配高实时性、低带宽的网络传输,该标准定义了高效的二进制序列化格式,大幅减少了场景描述文件的体积。同时,支持增量(PartialUpdate)更新机制,即仅传输场景中发生变化的部分节点,而非整个场景文件,这对于实时直播、工业远程控制等场景至关重要。5.与MPEG-I其他标准的协同:该标准与ISO/IEC23090-10(沉浸式音频)、-5(通用视频编码)等标准深度协同。例如,场景描述中可能包含多个在-10标准中定义的音频床和声束,实现对声场的精确空间定位;也可以包含在-5标准中通过视图合成技术生成的多视角视频。四、关键参与单位介绍:MPEG(MovingPictureExpertsGroup)对本标准的制定贡献最为核心的单位是MPEG(运动图像专家组),它也是ISO/IECJTC1/SC29(编码音频、图片、多媒体和超媒体信息分技术委员会)的重要组成部分。4.1组织背景与历史使命MPEG成立于1988年,由来自全球的产业界、学术界和研究机构的顶尖专家组成。其成立初衷是为了解决日益增长的数字视频存储与传输需求,从而诞生了如MPEG-1(VCD)、MPEG-2(DVD/数字电视)、MPEG-4(流媒体/交互多媒体)等一系列影响深远的国际标准。随着时代发展,MPEG的目标从单纯的“压缩”演变为对整个“媒体体验”的标准化,即不仅压缩数据,还要标准化媒体生产、分发、消费全链路的交互方式。在沉浸式媒体领域,MPEG于2017年前后启动了MPEG-I(Immersive)项目,旨在定义未来十年沉浸式视听体验的技术标准。ISO/IEC23090-14正是这一宏大计划中的关键一环。4.2标准研制方法论MPEG制定标准遵循一套严谨、透明的“技术征集-核心实验-竞争融合”方法论。针对ISO/IEC23090-14,MPEG首先向其成员单位发布广泛的需求征集(CallforProposals),各公司/机构提交其核心技术方案。随后,MPEG组织多轮“核心实验”,在统一的测试条件下对比不同解决方案在编码效率、解码复杂度、功能完备性(如低延迟、交互支持)等方面的表现。最终,MPEG不是简单地选择一个赢家,而是综合各家优势,融合出一个最优秀的折中方案。例如,在场景描述领域,索尼、华为、高通、InterDigital等多家公司的技术贡献被融合进了最终标准。这种“竞争-合作”模式确保了标准的先进性、公正性和广泛的产业支持度。4.3对产业生态的影响MPEG不仅是标准的制定者,更是产业生态的倡导者。通过发布参考软件(ReferenceSoftware)和一致性测试套件,MPEG向全球开发者提供了免费的开源工具,使得任何厂商或个人都能按照标准实现自己的编码器/解码器。这一举措极大地降低了新标准的准入门槛,加速了基于MPEG-I系列标准的商业产品(如XR头显、流媒体服务、3D内容创作工具)的开发进程。可以说,没有MPEG的努力,沉浸式媒体领域将长期处于各厂商封闭割据的状态。五、结论与展望ISO/IEC23090-14:2023《信息技术沉浸式媒体的编码表示第14部分:场景描述》的发布,是沉浸式媒体标准化进程中的一个重要里程碑。它通过提供一套统一的、标准化的场景图描述语言,有效解决了长期以来困扰行业的互操作性难题,为虚拟现实、增强现实等应用提供了坚实的技术底座。该标准不仅涵盖了空间、时间、交互等核心场景要素,还创新性地引入了二进制序列化、增量更新等适应网络传输的机制,并与MPEG-I系列中的其他编码标准形成了有机协同,构成了一个完整的沉浸式媒体解决方案。展望未来,该标准将从以下几个方面持续演进和产生影响:1.技术的持续迭代:随着神经渲染、生成式AI等技术的兴起,未来的场景描述可能需要支持动态生成的纹理、基于文本指令的实时修改以及更复杂的物理模拟。MPEG预计会在后续的版本(如未来的修订版或新的Part)中加入对这些新特性的标准化支持。2.向下兼容与开源生态的建设:标准将保持对现有内容的兼容性。同时,围绕该标准的开源生态将日趋成熟,推动更多低延迟、高性能的渲染引擎和编辑工具诞生,降低中小创作者的内容制作门槛。3.跨行业深度融合:标准的影响力将远超娱乐游戏范畴。在工业数字孪生领域,标准化场景描述可无缝集成CAD模型、实时传感器数据与视频监控流,实现全真可视化管理;在远程医疗中,它可精确描述手术导航场景与多模态医学数据;在智慧城市领域,它可用于构建跨平台的数字空间底座。4.中国角色的深化:我国作为全球最大的XR市场之一,在参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论