1-6G+“未来电视”视频应用场景需求_第1页
1-6G+“未来电视”视频应用场景需求_第2页
1-6G+“未来电视”视频应用场景需求_第3页
1-6G+“未来电视”视频应用场景需求_第4页
1-6G+“未来电视”视频应用场景需求_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、从5G向6G,新视频应用与新终端的发

展特点及技术需求

用户对丰富应用的需求,驱动了网络技术的不断升级。从通信领域提出6G的概念到

今天,6G标准、技术、应用得到快速发展。

技术的迭代升级也加速了应用创新,如果说3G推动了微博、推特等社交媒体,4G推

动了微信、电商等应用场景,5G带来高清的移动短视频、互动直播体验,也同时加速垂直

行业的数字化转型。6G网络正在逐步走来,6G将使用中频率上段等更多频段进一步提升

网络传输速率。同时需要借助新能力、新应用场景来兑现网络价值,赋能千行百业,通过

应用创新加速产业和商业的正循环。

6G网络的峰值传输速率将达到100Gbps以上,大幅超过了5G网络的10Gbps,理论

上通信时延仅为0.1毫秒,也只有5G的十分之一。这样的技术规格,即使是用于专业超高

清4K/8K广电视频制作领域,已经能够达到有线无压缩传输的技术规格,理论上可以大幅

降低过去由于视频信号深度压缩带来的编解码延时,所以实际发生的延时总量(链路+处

理)也将大大降低,过去无线传输所带来的时延影响对专业化制作带来的不便,也将从根

本解决,同时也为更多的视频应用创新带来了可能。

而5G向着6G演进,将为消费者带来哪些与众不同的应用创新?这些应用创新何时能

实现规模化商用落地呢?

目前围绕视频应用场景,我们认为在6G阶段,在原有的5G+4K/8K超高清技术结合基

础之上,裸眼3D的应用以及VR/XR等场景随着新终端不断升级将迎来新的爆发增长机会。

1.13D技术与应用的发展趋势

随着5G技术发展,消费者业务呈现云化、3D化和智能化的新趋势。同传统2D视频

相比,3D视频同样经历了漫长的发展过程,虽然受制于制作技术的复杂和成本、播放终端

的技术局限(包括院线和头戴式终端)、舒适性体验等不足,市场占有率一直受限,目前尚

不具备替代2D成为主流的实力。

然而观众对于3D体验的喜爱以及对3D应用场景的消费意愿却始终不减,在主题公园

(迪斯尼乐园、环球影城等)、电影院线(特别是科幻类、动画等题材)中3D体验和影片

的票房及受欢迎程度,充分证明3D技术与应用具备足够的市场竞争力。事实上,3D的发

展和关注度随着各种缺陷与不足,虽然不断经历起伏变化,但随着链路中各个环节技术的

不断升级,几乎每十到十五年都会迎来一次爆发。

上一次的爆发点是2010年前后随着电影《阿凡达》的上映,3D数字院线普及触发了

优质3D体验的升级,以及同阶段3D电视面世引发销售推广热潮,3D电视频道不断涌现,

带来了一次3D爆发式增长。然而随着内容制作的复杂性及高昂成本,终端体验的舒适度

和佩戴3D眼镜带来的不便,裸眼终端清晰度不足和效果不佳等问题,和后来快速普及的

4K超高清终端相比,3D终端缺乏足够的市场竞争力,在2016年前后3D又步入低潮期。

2021年5月举行的谷歌I/O大会上,谷歌公布了全息视频聊天技术ProjectStarline

(3D视频聊天室),基于计算机视觉、机器学习、空间音频和数据压缩技术打造的突破性

光场显示系统,旨在取代一对一的2D视频电话会议,让用户感觉就像坐在真人面前一样

的沟通交互体验,在行业内引发了巨大反响。

3/32

近两年来,新一代的3D显示终端开始逐步成熟,包括中兴电子发布的裸眼3DPAD,

GOOVIS等厂家推出了可以直连5G手机的“头戴式家庭影院”便携型头显,将优质3D内容

体验与5G移动终端紧密绑定;再加上VR头显终端本身也是3D内容体验的载体之一,新

一代的便携型终端出现也为3D再次复苏提供了绝佳机会。

伴随3D云化视频、裸眼3D通话、XR元宇宙等应用创新,特别是超高清技术赋能于

3D内容制作与现实,将过去的高清3D提升到4K3D水平,真实感、沉浸感大幅升级,同

时对现有网络也提出更高要求,从云到终端的网络传输要求更快。6G技术让消费者未来不

仅可在家里观看裸眼3D视频,也可在户外、地铁、公交车等地方随时用手机、专用设备

体验3D视频等丰富应用。

裸眼3D产业发展,离不开优秀的视频内容特别是直播内容支撑。6G提供的网络高带

宽,以及快速发展的AIGC,将大幅提升内容创作的效率和质量,势必将极大促进3D裸眼

视频等的产业应用的快速发展。

1.2VR/XR技术与应用的发展趋势

在5G时代,5G+VR已经成为了5G标准化应用场景之一,而各大视频和游戏平台已

经出现一批虚拟现实(VR)类应用,比如VR全景视频、VR云游戏等。

在8K技术的加持之下,VR视频内容的呈现效果大幅提升,特别是当苹果VISIONPRO

以单目4Kx4K的LED分辨率加持,在接近100°沉浸视角下实现了35-37PPD的高解析力,

将VR头显终端的还原力提升到了前所未有的高度。可以说,在360°VR的全沉浸视角下,

8K乃至今后更高级别的清晰度规格真正成为了刚需。随着优质8K及以上分辨率级别VR直

播内容不断涌现,规模化的沉浸式内容实现高效量产,借助于6G大带宽的传输能力和低

延时优势,为观众能够提供适配8K以上更高分辨率量级的高码率实时数据传输能力及低延

时交互响应,高清晰的立体空间视频借助于新一代的VR头显终端,可能将真正成为互联

网时代用户的新宠。

同时,扩展现实(XR)作为元宇宙的重要技术支撑,越来越受到业界关注。随着头显

的轻便化发展,增强现实(AR)、混合现实(MR)类应用也越来越多。目前这些头显主要

通过有线或者Wi-Fi连接到服务器,而这限制了用户使用业务的范围。随着未来6G网络覆

盖的逐渐完善,6G超大带宽、超低时延、超高速率的连接特性可满足更广泛的XR业务的

需求。

随着更多新视频应用场景和终端在6G时代的不断涌现,我们可以预测在不远的将来,

观众无论身处何处,都可以采用不同的体验方式(大屏超高清、手机竖屏、3D电视、VR

和AR等,或者户外车载设备、互联网接入设备、带有触觉感知的体验设备)来观看节目

内容,并根据自身的需求和喜好,形成多样化的观看及交互体验。

4/32

2、“未来电视”不同终端应用场景的特点及

技术需求

2.1“未来电视”的概念与发展趋势

“未来电视”是一个广义的视听概念,它代表着视听产业的未来发展趋势。它不止于电

视,是新的理念模式,是系统性、革命性的迭代升级。其中的主要特征包括:呈现方式多

样化、视听体验沉浸化、应用场景全景化、服务形态智慧化、服务供给协同化。

其中,呈现方式多样化表示,呈现载体不限于电视机,可能是生活中随处可见的各种

显示介质,包括各种手持终端、可穿戴设备、室外大屏等各类显示载体;

视听体验沉浸化,包括超高清、沉浸式、三维声、VR/AR、MR、XR、互动视频、自由

视角、立体3D、全息成像等多种体验方式,观众可以自由选择视听服务。

应用场景全景化希望实现在生活中需要视听的各种场景中应用,全方位融入群众的数

字生活。

服务形态智慧化则考虑将实现现实世界和虚拟世界的紧密融合,节目内容自由选择、

实时交互、需求定制、智慧分发,高度人性化,将带来丰富的互动体验,满足消费者多层

次需求。

服务供给协同化,“未来电视”将带动行业上下、内外大协同、大融合,形成网络互联、

业务互通、数据共享的全新制播体系、服务体系和管理体系。

图2.1.1视听体验多样化和沉浸化,不同终端载体为观众提供更丰富的视听选择

2.2呈现方式多样化与视听体验沉浸化制作的特点

一方面,面向不同媒体终端提供针对性更强的定制内容体验,已经成为了刚需。无论

5/32

身处何处,观众可以采用不同的体验方式(大屏超高清、3D电视、VR和AR等,或者户外

车载设备、互联网接入设备、带有触觉感知的体验设备)来观看相同的节目内容,形成多

样化的观看体验。

图2.2.1“未来电视“场景下将面对丰富的终端体验

图2.2.2“元演播室“复合型节目制作形态为“未来电视“提供多形式内容

6/32

图2.2.3不同拍摄前端,基于标准4K/8K制播系统和格式,组成复合型的制作系统形态

基于此需求和应用场景,面向规模化的节目制作需求,可以考虑采用不同的前端拍摄

设备,如4K/8K讯道转播摄像机、8KVR摄像机、4K/3D摄像机等,遵循同一广电制作规

格,连接入4K/8K广播级转播系统,以实现高质量的节目制作流程,最终通过编码器根据

不同终端及平台的具体要求提供相应规格的直播流,再借助5G网络或者其他信道方式进

行传输。

表2.2.1面向不同终端的制作规格参考值

另一方面,视听体验的沉浸化,是所有视频内容创作者的终极目标,也是视听技术发

展的源动力。我们希望创造出更加清晰、更为真实的视觉体验,让观众获得身临其境的观

感。终端的技术演进和产品设计,也希望为观众提供更佳的沉浸式体验。

7/32

图2.2.4采用巨幕提供尽可能大的视角范围,是提供沉浸感体验的常规手段

为了获得视听体验的沉浸感,我们首先力求为观众创造一个尽可能大的观影范围,尽

量覆盖观众的有效视野,最大程度提供有效信息(包括满足视觉和听觉需求)。

通常60°水平视角是一个标准,一般电影院、剧场的最佳观看位置以此定义。4K电视

也以此视角来设计合理的分辨率,基于一视角分的原则(1°视角需提供不低于60个像素以

保证观看清晰),最终将4K影像分辨率定义为3840x2160(宽高比16:9)。而8K

(7680x4320)则在此基础上进一步提升观影范围,加入了更多的环境边缘信息,使标准

的观看视角提升到96°,观众相当于在1米多远的距离来观看100寸8K电视。

图2.2.54K和8K分辨率的设计和水平视角的关系

VR头显终端虽然体积不大,却能够为观众提供更大的观看视野,其专门制作拍摄的

VR沉浸式影像内容可以达到180°或者360°的观看视角,实现真正意义上“无边框“的全景体

验模式。

8/32

图2.2.6VR头显终端可提供360°的观看视角,实现完全沉浸式、无边界体验

由于VR头显终端所配置的LED液晶屏的视野范围FOV都超过了90°视角,和8K大屏

标准观看影像视角接近,也就是理论上这块LED液晶就应该具备8K分辨率的显示能力

(PPD接近60),那么对应于360°的VR全景影像,其清晰度应该满足30K的水平清晰度。

就目前的软硬件制作与显示端的处理能力,仅能满足到8K视频的编解码能力,所以目前所

规定的行业标准中,建议全景360°视频达到8K分辨率,而其LED液晶屏的显示范围大约

能接近HD高清水平,距离真正的超高清体验尚有提升空间。

图2.2.6VR头显的观看视角大于90°,8K分辨率的影像内容只能满足基本清晰要求

随着苹果VISIONPRO头显终端的问世,“空间视频”这一概念被广泛提及。也包括前几

年由谷歌推出的裸眼3D全息视频聊天技术ProjectStarline项目,都可以认为是基于双眼立

体视觉S3D(Stereoscopic3D)呈现技术的进一步升级和拓展应用。

立体影像(这里主要指双目立体S3D),基于双眼视觉产生视差和视线汇聚的原理,可

以使观众感受到真实的距离和空间感。采用双镜头摄像机同步拍摄模拟人的双眼视觉方式,

可以获得空间立体视频,再借助于3D屏幕或者VR头显、AR头显终端就可以正确显示出

9/32

具有立体感的3D影像。

3D立体效果是人类感知空间感和沉浸感的重要因素,该技术可与平面影像技术、

VR/AR等显示方式相结合,根据不同终端的视场角FOV和PPD需求,输出如4K/HD双目

3D或者8K360°或者180°3DVR等信号,提供不同的空间立体效果。

图2.2.78K3D180°VR的沉浸式节目内容(SidebySide方式)

图2.2.7180°3DVR与双目3D的拍摄方式与输出效果

3D视频与3DVR视频相比,最大的区别在于视场角,3D视频的视角范围与普通2D

视频一致,主要取决于镜头的焦段影响,为了获得较好的立体感,通常会采用中广角镜头

来覆盖更多的空间范围;但是也因为普通镜头视角范围以及所采用的16:9画幅比所带来的

限制,观众在观看普通3D影像时,空间感和沉浸感会收到“画框”的局限,当立体空间中的

画面主体逐渐“走近”观众时,由于“画框”的存在,主体可能无法完整的呈现在观众面前,也

就是所谓的无法完整的“出屏”,观众会感觉不能完全融入到创作者所呈现的数字空间之中。

10/32

图2.2.8普通3D影像中的主体会受到“画框”限制无法完整出屏

3DVR影像是将全景拍摄和双目立体拍摄两项技术与呈现方式的优势相结合,观众可

以在几乎无边框范围的数字影像中获得完全沉浸的效果,同时借助于3D拍摄带来的立体

视差,可以获得极强的空间感,相比于普通3D影像,观众就可以完全进入到3D数字空间

之中,获得真正意义上的沉浸式体验。

当然,3DVR与普通3D还有平面大屏幕4K和8K所获得效果不同,内容表现形式和

创作手法也不同,制作的难度也不尽相同,应该讲各有优势和不足,不能单纯的评价孰优

孰劣。不同的制作与呈现技术可以根据不同内容进行合理的选择,也可以在相同的场景下

混合使用,为观众带来不同的体验感受,这也是“未来电视”场景下面向不同终端带来的复

合制作模式,让观众根据自身喜好自由选择希望的观影形式。

图2.2.93D180°VR拍摄,可以将观众真正融入虚拟空间,获得触手可及的交互感

在这里,超高清视音频技术中所涉及的HDR高动态范围、WCG宽色域技术、HFR高

帧率和沉浸式空间音频等,均可以赋能于以上提到各种终端显示与制作系统中,为不同终

端提供最佳的技术适配,为观众带来最好的沉浸式体验。

11/32

图2.2.10数字视音频技术演进方向

为了保持制作、播出平台和终端播放适配标准的统一性,在4K/8K领域的以上应用场

景,可以遵循目前国内的超高清影像制作和传输标准规范。可参考中央广播电视总台于

2021年正式对外发布了《8K超高清电视节目制播技术要求(暂行)》,其中定义了国内8K

超高清电视节目视音频基本技术参数执行标准。以分辨率7680x4320、帧率50帧/秒、

10bit量化、HDR标准HLG1000、宽色域标准BT.2020等作为8K广电制播规格要求。如VR

头显等终端可以根据自身的实际情况(如VR画幅比为2:1,8K分辨率实际为7680x3840)

进行局部调整。

12/32

图2.2.11中央广播电视总台2021年1月发布《8K超高清电视节目制播技术要求(暂行)》

中定义了8K超高清电视节目视音频基本技术参数表

同时,总台还规定了8K超高清电视播出信号编码标准及码率:8K超高清电视播出信

号视频编码时,采用AVS3标准《信息技术智能媒体编码第2部分:视频》(T/AI109.2—

2020),对8K超高清信号(7680×4320/50P/HDR)采用基准10位档(profile)、10.0.60

级(level),视频编码码率不低于120Mbps。音频编码标准及码率:采用5.1环绕声编码,

编码码率为448Kbps。

针对8K超高清电视互动点播,总台规定了文件格式参数为下表要求,其中视频编码

要求AVS3/H.266/H.265,总码率需高于80Mbps。

可以看到,随着8K技术标准的提升,新型应用场景对于高带宽和低延时的实际需求,

对于制作域还是传输域都提出了更高要求,特别是传输带宽、网络传输和处理时延、编解

码的软硬件性能要求等,对于当下的硬件基础和网络条件都提出了新的要求和挑战。现阶

段的5G网络,受限于传输速率,及各终端的数据处理能力,必须使用高压缩编码(如

H.265等)对4K和8K等视频内容进行处理,一方面压缩与编解码过程对于信号本身的还

原效果会带来影响,同时编解码所产生的延时量也会与信道延时叠加,从而拉开了无线链

路与有线链路时延的差距。在5.5G乃至6G阶段,可以逐步考虑采用低压缩视频编码如

JPEG-XS等,使用更低的压缩比(如对8K信号采用10:1压缩比,将单路数据量控制在1-

10Gbps范围内)和相对计算复杂度低的编解码处理过程获得更高质量的信号,同时降低编

解码端的整体延时。

13/32

图2.2.12中央广播电视总台2021年1月发布《8K超高清电视节目制播技术要求(暂行)》

中定义了8K超高清电视互动点播文件格式参数

2.36G+超高清相关应用场景的发展

5G发展初期,将5G+4K作为典型应用场景,基于5G无线网络“大带宽”主要特性,满

足超高清内容传输的需求,同时借助“切片“技术,实现可靠稳定传输链路,替代有线专线

网络或者光纤、卫星传输,提供更高性价比的传输方案。

在此基础之上,进一步发挥网络优势,拓展应用场景,为观众提供“多视角自由切换

“等新交互功能体验,实现多路HD或4K信号的并行同步传输,基于”边缘计算“部署,完成

超低延时的高质量信号同步切换和处理能力,让观众获得无延迟感的内容平滑切换体验,

将”大带宽“带来的高画质与”低延时“带来的强交互能力更好结合。

14/32

图2.3.15G+超高清+多视角结合,带来更好的交互式用户体验

图2.3.25G+4K+多视角制作系统框图

面向移动终端的竖屏制作,其制作系统本质与横屏并无区别,主要是画幅和构图的变

化。在制作手段上,可以直接采用摄像机竖置直接拍摄9:16画面,也可以基于4K或8K横

屏拍摄后通过后端进行竖屏裁切输出,也可以两个方式组合使用。呈现方式也可以根据用

户观看习惯和导演设计,发挥竖屏观看的特点及用户交互式需求,引入一些新的表现方式,

如双屏纵向显示带来多视角、多场景体验等,与横屏的观看形式和内容形成更好的差异化。

15/32

图2.3.32024中央广播电视总台春晚竖屏直播采用了丰富的镜头拼接组合,为竖屏营造不

同于横屏的丰富体验

5G+VR的应用同样是最先出现的5G落地场景之一,而随着8K技术逐渐成熟,VR头

显终端的配置逐步升级并支持8K信号的实时解码能力,相比于4KVR在全景视频下的清晰

度依然稍显不足,8K的高分辨率真正实现了VR体验的清晰真实感受,5G+8K+VR成为刚

需。

字节跳动旗下的VR平台PICO在2022年4月举办的王晰演唱会中首次实现8K3DVR

实时互动演唱会,而后郑钧、汪峰的演唱会也均采用8K3D180°VR+实时互动的形式。这

几次演唱会在清晰度、视角设置、场景交互等关键观感因素方面实现巨大突破,VR直播体

验大幅提高。

图2.2.4PICO8K3DVR郑钧演唱会直播虚实结合体验效果

2023年,4K花园与中国移动咪咕合作,面向移动终端咪咕VR平台和头显终端咪咕

云VR平台用户,提供定制化演艺内容8KVR直播,包括LIVEHOUSE和CGT48女团现场等

精彩内容,为VR平台注入不断更新的高质量、高清晰的直播VR节目。区别于以往节目的

现场VR套拍模式,该档节目的制作方式完全以VR终端用户的沉浸式和临场感体验为优先,

还加入了虚实结合的制作手段,提供了“观众艺人面对面“近距离、沉浸式和交互式体验。

16/32

图2.2.54K花园与中国移动咪咕合作推出8KVR现场奔赴计划,为VR观众提供面对面的沉

浸交互体验

除了线上用户的VR头显终端,8KVR直播应用场景还可以面向线下用户设计更多沉

浸式场景和体验方式。包括将全景直播影像通过大尺寸半球幕LED屏方式呈现,以类似XR

的技术方式,观众无需佩戴VR眼镜就可以获得如同身临现场的真实体验。

图2.2.68KVR直播也可以在全景式LED屏上投放,为线下观众提供现场沉浸体验

4K花园与中国传媒大学合作在2023级中传开学典礼中,使用多机位8KVR直播系统

及VR群播呈现方案,实现线下群体沉浸直播观影体验,该场景也可应用于更广泛的跨行

业应用中,如文旅和商业活动、医疗教学直播、工业现场检测、教育教学和沉浸式体育健

身等。

17/32

图2.2.74K花园与中国传媒大学合作在开学典礼中实现多机位VR直播和现场群体

VR观看

图2.2.86G+8KVR多机位直播及线上、线下观影体验系统框图

18/32

图2.2.96G+8KVR直播场景的多行业跨领域应用方式

2023年起一批新的3D显示终端逐渐涌现,特别是移动端手机、PAD、便携AR头显

等产品,可以基于5G、5.5G技术加持实现更好的移动式立体观影体验,无论是3D空间视

频体验,或者是基于商用3D模型应用开发等,在娱乐、教育、工业、医疗等场景中均能

广泛应用。其终端特点相对于VR头显来说,更偏轻量级,制作复杂度也相对较低,更利

于普及。

图2.2.103DLED大屏、裸眼3DPAD、3D头戴头显等新型3D显示终端

目前市面上常见的AR头显和3D裸眼PAD等移动终端,屏幕的3D显示分辨率通常在

高清1080P水平,也可以支持4K3D的解码,所以制作端可以根据需要来输出4K或HD级

别的双目3D信号,其直播系统设计与3DVR多机位直播系统类似,主要差异在镜头选择

(VR使用鱼眼镜头,3D一般使用中广角镜头)。在制作端需要支持实时的立体汇聚调整

(3D出入屏控制)、3D画面误差校正(如双镜头垂直、旋转误差等)以及保证高精度的双

目画面同步等功能,以避免观众在观看3D时出现不适感。

19/32

图2.2.11小型化多机位5G+4K/HD3D直播系统

3、8KVR沉浸式视频直播的技术流程与特

本章节主要针对“未来电视“场景下的8K直播应用中,较为复杂的典型应用场景8KVR

沉浸式视频直播流程的技术特点进行分析和描述。

3.18KVR直播系统整体框架

图3.1.18KVR直播系统整体框架

如图3.1.1所示,常规8KVR直播系统分为8KVR内容采集、8K实时拼接和编码、视

频流媒体处理,CDN(ContentDeliveryNetwork)分发传输,终端流媒体传输和渲染等。

主要工作流程如下:现场直播团队通过8KVR摄像机采集会场多路视频信号并回传到8K拼

接和编码服务器;8K拼接和编码服务器进行实时全景视频拼接,并编码成8K视频流,然

20/32

后通过SRT等传输协议推流到直播流媒体服务器;直播流媒体服务器对8K全景直播信号

进行实时处理和编码,生成适合传输和终端播放的编码格式;直播云CDN将已经编码的直

播流分发到用户最近的边缘服务器;最后终端进行VR全景直播流的下载、解码、渲染和

呈现。

下面对上述关键业务流程进行介绍。

3.2VR内容采集与拼接

VR直播要求实时的内容生产,内容采集依靠360°或180°8K摄像机。全景摄像机通常

具有多个镜头,覆盖当前场景全部视角。生成的视频分辨率越高,则需要摄像机具有越高

的分辨率以及越多的镜头数量。直播时多个摄像头同步拍摄生成多个不同角度的画面内容,

随后在内置模块或外置服务器上进行拼接。

目前,主流的全景摄像头基本自带内置拼接模块,支持较低分辨率的实时全景拼接。

而高清晰度的8K视频画面由于计算复杂度较高,则需要在外置的服务器上进行拼接。常用

的视频拼接算法可分为基于变换的图像拼接算法和基于拼接线的图像拼接算法。基于变换

的图像拼接算法的核心思想是通过对单应性矩阵进行调整,通过网格化的扭曲使重合区域

拼接的缝隙尽可能减小,该算法适合小视角变换的情况。基于拼接线的图像拼接算法核心

思想是通过对图像拼接线部分的重新调整,确保拼接的自然性,该算法适合大视角变换的情

况。

为了达到全方位、沉浸式渲染效果,全景视频实际上是以球面形式呈现,然而其传输

过程必须遵守现有的视频编码标准,即多相机拍摄的分视角视频在经过拼接后,需要映射

成平面矩形帧。目前主流的映射方式有圆柱型映射ERP(Equi-RectangularProjection)和

立方体映射CMP(Cube-MapProjection)两种。圆柱型映射ERP方式与世界地图的产生

相类似。立方体映射CMP首先将完整球面均分为六个区域,分别投影到立方体的六个面上,

其中底面、背面和顶面需要再通过特定的旋转操作与其他三个面共同排列成矩形帧。为了

提高编码效率,三个旋转面的操作原则是使排列时面与面衔接处的媒体内容保持连贯性。

3.3VR视频编码

VR直播系统中存在两个编码环节,一是拼接映射的视频需要编码为8K的直播信号,

方便再次传输至云端流媒体服务器;二是流媒体服务器需要将信号编码为不同目标码率的

适合传输和终端播放的编码格式。全景视频的编码与2D视频编码方法相似,都需要采用

混合编码框架对序列进行压缩,但是全景视频高分辨率、高形变的特点又使其比2D视频

编码面临更多困难。将传统编码方案直接用于全景视频主要会产生以下问题:1)全景视频

或多或少地存在不均匀采样,由此引入了几何失真;2)全景视频由球到面的投影增加了人

工边界并导致不连续,影响空间预测效率,编码后视频码率高。以上两点都会降低视频编

码效率。为了克服这些困难,研究者开发了各种专用于全景视频的编码工具,以在编码效

率和视觉质量之间取得更好的折衷,这些工作可分为以下几类:

区域自适应平滑技术。该技术的出发点是在ERP投影平面中,两个极点附近的区

域要比球形区域中实际对应的区域大很多,而实际上人眼对其不是很敏感,因此

这些区域的变形变得不那么重要。具体方案是在编码之前对ERP投影平面的顶部

和底部区域进行平滑处理,经过平滑处理后的编码可以节省很多比特,因为平滑

区域只需要较少的变换系数。该方案的优点在于在节约码率的同时几乎不会引起

21/32

感知质量的下降;缺点在于难以推广到其他投影方式中。

率失真优化技术。通过分析球面上的失真变化并探讨其对率失真优化过程的影响,

采用修改编码优化目标,实现了在球面上进行率失真优化。由于该算法是基于全

景视频的质量评价指标的修改,因此可应用于各种投影。但是率失真模型的建立

十分困难,由于目前它使用的依然是基于像素变化的评价指标,并不能很好地表

示人的真实主观感受,优化效果仍有待提高。

在流媒体服务器侧,流媒体服务器在接收到8K直播视频流后,需要通过转码、封装等

操作,形成适合在互联网上进行传输的Dash、HLS等流媒体格式,并通过CDN网络进行

分发和传输。VR常用的视频流有两种方式:全画幅传输和基于FoV(FieldofView)的分

块传输。全画幅传输方式将360°环绕画面都传输给终端,当用户头部转动需要切换画面时,

不需额外下载任何视频分块,因此能够较好地响应用户头部运动。该方案的缺点在于传输

带宽需求非常大,现有网络条件难以有效承载。

如图3.3.1所示,基于FoV的分块传输将视频在时间上切分为多个分片(Segment),

将分片在空间上划分多个分块(Tile),每个分块拥有不同的码率等级。服务器对源视频进

行转码,以Tile为基本单元保存不同码率等级的视频文件。客户端可以根据需要进行码率

选择,向服务器请求指定码率等级的分块。码率选择的基本思路是为视窗内的分块请求高

码率,不请求或仅以较低码率请求视窗外分块。

图3.3.1分块VR视频编码

基于FoV的分块传输方案虽然能在最大程度上利用带宽,但高度依赖于视窗预测

(ViewportPrediction)。预测窗口较长时,FoV预测算法的精度非常有限,预测视窗和实

际视窗偏差较大,因此终端侧的接收端缓冲区不宜过大;而网络带宽剧烈波动时,接收端

需要较大长度的缓冲区以应对抖动。两者之间存在的天然矛盾极易造成视频黑边和卡顿的

发生。

图3.3.2分层VR视频编码

为了解决该问题,一种分层传输方式开始被广泛使用。它将视频的每个分段编码成一

个低分辨率(比如2K)、全画幅的基础质量分段,以及多个高分辨率的增强质量分块。终

端在观看上述编码的VR视频时,需要首先下载全画幅、低分辨率的基础质量分段,以获

得基础观看体验;根据实际网络条件,选择性下载视场内的增强质量分块。如果视窗预测

是正确的,并且增强质量分块按时交付,这样视窗内的视频质量得以增强。如果预测是错

22/32

误的,或者增强质量分块从远端取回后已经错过了播放时限,用户仍然可以观看基于基础

质量分段渲染的低质量视频。因此,这种分层全景视频传输方式流在应对动态网络和视窗

预测误差方面都具备了较高的鲁棒性。

3.4VR内容分发

编码后的多码率全景视频将会采用与传统直播类似的方式进行CDN分发。CDN通常

采用层次化网络结构,包括中心节点、区域节点和边缘节点。通过CDN分发网络,可以快

速地将8KVR直播视频内容推流至更接近用户的边缘节点,从而大量减少直播数据流在骨

干链路中的并发数量,在提升用户体验的同时,可以有效降低网络流量压力。

随着5G/6G和MEC(Multi-accessEdgeComputing)技术快速发展,CDN边缘节点

可以部署在距离用户更近的地方,比如热点区域、5G接入网侧等,因此更能适应8KVR视

频直播的低时延、高带宽需求。同时,借助虚拟化技术和人工智能技术,CDN边缘节点可

以更为高效地管理计算、存储和网络等资源,提供智能化的内容缓存、超分辨率视频增强、

云渲染等能力。

3.5VR流媒体传输

在8KVR直播视频流媒体传输中,自适应码率选择和下载调度是重要的关键技术之一。

考虑到不同的编码方式,自适应码率选择是指在VR客户端在下载高分辨率Tile分块时,

根据动态的网络链路条件,如何选择以哪个码率来下载相应的分块;而下载调度是指,应

该何时下载基础质量分段,何时下载增强质量分块。

自适应码率选择和下载调度算法的目标是如何在有限的带宽下为用户提供更好的用户

体验,考虑视频卡顿、清晰度,以及对用户头部运动的响应速度等因素。自适应码率选择

和下载调度算法依赖于视场预测的结果,为视场内的不同Tile选择合适的码率进行下载。

由于Tile码率的选择会影响到视频质量、卡顿、视频质量波动等决定用户最终QoE的因素,

因此上述问题是一个复杂的动态规划问题。目前解决方案主要分为基于规则的启发式方法

和基于学习的方案。传统基于规则的启发式方案计算复杂度低,但由于其通常仅考虑短期

优化,总体性能差强人意;近年来,基于深度强化学习的方案引起了研究人员极大的兴趣,

其优势在于在特定场景下能够学习到更优的策略,但往往会面临鲁棒性差、计算复杂度高

等问题。因此,设计低复杂度、高鲁棒性的VR码率自适应和下载调度算法对于提升8KVR

直播用户体验至关重要。

视场预测是8KVR直播视频流媒体传输的另一项关键技术,视场预测的准确性将直接

影响用户体验和传输效率。目前视场预测主要有两种方式:一是基于用户头部运动历史轨

迹进行未来视场的预测;二是基于内容本身的视觉显著性特征进行预测。基于头部运动轨

迹的预测方式仅适用于短时预测,即未来1~2秒的视场预测,长期预测的准确性不足;而

基于视觉显著性特征的预测方式可以反映用户的共同关注区域,能够用于长时预测,但是

难以体现用户的个性化行为,并且计算复杂度较高。因此,近年来视场预测的技术发展趋

势是将二者结合起来进行联合预测,包括采用边端协同的视场预测方法。尽管如此,低复

杂度、高准确性的视场预测方法仍然是当前面临的重要技术挑战。

23/32

3.6云VR

8KVR通常需要在终端侧进行解码和实时渲染,因此对于终端性能要求较高。为了降

低VR终端成本,云VR方案引起了人们的广泛关注。云VR是指云端对交互行为进行计算,

并实时渲染和编码压缩后,以视频流形式推流到终端。依托于云渲染技术,云VR将VR虚

拟现实的内容和计算能力部署在云端,利用高速网络将渲染后的图像和声音传输到用户终

端,实现无需高性能设备也能享受沉浸式8KVR体验。云VR可大幅降低用户所需投入的

硬件成本与使用门槛,用户仅需一款轻便的头戴显示器或智能手机,通过云端强劲的GPU

渲染能力,用户可尽情享受高清晰、高帧率、低延迟的VR体验,提升了VR的普及程度和

便利性。

云VR涵盖的关键技术包括:

分布式计算和渲染。云VR将计算和图形渲染任务从终端设备卸载到云服务器上,

通过云端强大的计算资源进行高效处理,减轻终端设备的负担。考虑到8KVR直

播场景,单用户对计算资源和网络带宽需求比较高,在并发用户较多下,分布式

计算和渲染将成为一项重要关键技术。

低时延传输技术。利用5G/6G网络的高带宽和低延迟,实现对云端渲染的视频流

进行快速、稳定地传输到终端设备,将有助于保障用户体验的即时性和流畅性。

另外,将CDN等计算资源下沉到网络边缘,通过在边缘节点进行数据处理,减

少传输延迟,提高用户体验的响应速度,特别是在处理实时的交互和渲染任务时。

用户交互技术。实时交互,确保云端执行的应用能够实时响应用户的交互操作,

包括手势、头部运动等,使用户在虚拟环境中获得自然而流畅的交互体验。手势

识别和追踪,实现对用户手势和头部动作的高精度识别和追踪,以提供更真实的

用户交互体验,增强虚拟现实的沉浸感。

3.78KVR现场直播系统的技术特点

前面重点讨论了基于云端处理的8KVR直播流程。本章节讨论的直播主要以面向B端

用户的8KVR本地化直播系统服务,其系统和制作标准需求以专业级内容制作规格为主。

这里的8KVR直播,根据不同场景需要,既可以是单机位直播,也可以是多机位大转

播系统级别直播。考虑到节目内容制作的实际需求,这里介绍的拍摄方案主要以180°2D

或3D为主;360°更适合无主体的全景影像(如风光人文类VR纪录片)或转播现场中表现

环境的全景机位。

专业级的8KVR单机位直播系统,可以由以下部分组成:

24/32

图3.7.1单机位180°8KVR直播系统示意框图

系统可以支持单镜头2D(4Kx4K50P)或双镜头3D(4Kx4Kx250P),可以实现所有的

参数控制和影像处理。针对于8K3DVR摄像机信号,可以完成实时的VRERP校正(将鱼

眼180°画面拉伸为等距柱状投影画面)、3D双目影像误差校正(如光轴垂直误差的数字校

正)、摄像机影调控制(画质优化处理)、摄像机参数遥控调整(如摄像机光圈、白平衡、

ISO、视音频延时等关键参数等)。

另外,考虑到VR现场制作的用户需求,本系统还可以直接连接VR头显,将8KVR信

号转换至VR头显进行实时高质量监看,帮助导演确认VR拍摄效果,做到“所见即所得”。

单机位直播制作方式,比较适合表演方向固定的中小型舞台类表演或者类似场景的活

动(如商业电商直播、医疗工业教育类培训等),观众在一个视点位置基本可以获得现场全

貌也可以关注到细节。

图3.7.2单机位8KVR现场直播的机位设计和拍摄效果(咪咕歌舞青春8KVR现场)

在单机位系统基础上,可以扩展为多机位大型8K2D/3DVR现场转播系统。用途一般

是大型体育赛事、大型演艺活动等。

25/32

图3.7.3可用于小型节目3机位8K2D360°VR直播的小型系统(前180°3机位切换+后

180°虚拟包装缝合为360°全景)

图3.7.4篮球比赛中3机位VR转播机位点设计

图3.7.5支持8K3DVR50P制作的大型多机位沉浸式直播系统

26/32

图3.7.6在动感地带街舞大赛中采用6机位8K3DVR进行直播的机位设计

将多套8K3D180°VR相机直播设备,连接到广播级8K切换台即可进行专业级的8K

VR直播制作。

由于8K3DVR信号标准为7680x3840(2:1)宽高比,需要8KVR摄像机控制处理单

元在信号输出时,采用信箱模式(上下加黑边填充)将输出格式转为广电8K分辨率标准

7680x4320(16:9),才可以进行信号传输和制作;但在前端直播系统末级,建议在编码器

端,将最终的输出VR信号格式再调整回2:1宽高比7680x3840信号,以适配VR头显终端,

避免由于输出格式不当造成终端显示画面出现变形。一般根据现场节目呈现和终端输出效

果的需求,也可以将2D摄像机拍摄画面(如2D直播的PGM或者特写镜头)以及赛事数

据模板或演艺节目介绍等信息,通过VR处理器转换为VR适配的球面效果,再嵌入进VR

直播画面中;或者叠加到通过VR信号处理单元生成的后180°虚拟包装画面,再与前180°

实拍画面缝合为360°的VR全景直播影像。

图3.7.7.8K3DVR格式转换链路图

制作完成的8KVR信号,接入主备路两台8K编码器中,即可进行推出8K流媒体信号。

目前在4K花园与咪咕合作的8KVR直播场景中,主要是基于SRT(SecureReliable

Transport)协议进行编码传输,在8K50PVR视频规格下传输速率为80Mbps,以保证足

够的8K画面品质。

27/32

图3.7.8.8K3DVR直播信号处理流程

RTMP(Real-TimeMessagingProtocol)流媒体传输协议作为公网下在高清和4K阶段

使用较多、平台支持度较高的协议标准,通常被用于较为稳定的网络环境中,对网络质量

要求较高。对于8K编码直播推流,其高分辨率和高码率可能会需要更高的带宽和更强大的

服务器支持,RTMP在不稳定网络条件下可能会出现问题。尽管RTMP没有设定固定的视

频码率上限,但在面对非常高的码率时可能会受到限制,特别是在不稳定的网络条件下。

另外,RTMP在传输时可能会有较大的延迟,对于要求较低延迟的应用场景可能不太合适。

SRT被设计用于在不稳定网络条件下提供可靠的流媒体传输,它包含了多种技术,例

如错误纠正、动态调整带宽、重传机制等,这些特性使得SRT在处理高码率视频时表现更

为稳定和鲁棒。在传输8K视频这样高分辨率和高码率的内容时,SRT可能比RTMP更适合。

因SRT有能力在网络条件不佳的情况下,保持较高的传输品质,而且能够灵活地调整带宽

以适应不同的网络状况。即使在网络不稳定的情况下,SRT也有可能更好地维持高码率视

频的传输稳定性和质量。

4.未来电视对6G移动网络的需求

6G移动网络和5G网络相比,最显著的优势在于用户的实际体验速率可以跃升至Gbps

这个级别,包括更低的时延,这也是5G网络所不具备的条件。

用户体验速率时延

>=1Gbps<2.5ms

在“未来电视”应用场景中,前端制作域所需的实时数据处理和传输量级是远远大于用

户接收和观看需求的。由于广电级别视音频信号制作对于信号质量和传输处理延时都有极

高要求,过往在现场转播系统中,基本都是采用非压缩视频信号规格,其10bit4:2:2标准

下的高清50i、高清50P、4K50P和8K50P的信号数据码率分别达到1.5Gbps、3Gbps、

12Gbps、48Gbps。如此大的数据量对于无线传输来说,在6G时代以前,无论是5G还是

微波等,都不可能满足,所以就必须使用高压缩编解码流程来降低数据量以便传输,而这

样的代价除了图像质量下降之外,还有就是会额外增加高压缩复杂处理算法所带来的编解

28/32

码处理延时,从而导致为了使用5G无线网络进行传输,所产生的实际延时总量可能远远

超出了理论值或者理想预期。

6G移动网络所带来的实际用户体验速率指标,大于1Gbps,也就意味着,无需采用复

杂高压缩编码,特别是针对大数据量的4K乃至8K视频,采用10:1左右的前压缩比,将实

际数据量降低到1.2Gbps和4.8Gbps这个量级,如JPEG-XS前压缩编码方式,就可以兼顾

高质量图像和高编码效率,同样带来更低的编码延时。

JPEG-XS是JPEG国际委员会制定的新国际标准,该标准可在低压缩比的场景下,实现

视觉无损压缩。JPEG-XS是一种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论