CN114731483B 用于虚拟现实音频的声场适配(高通股份有限公司)_第1页
CN114731483B 用于虚拟现实音频的声场适配(高通股份有限公司)_第2页
CN114731483B 用于虚拟现实音频的声场适配(高通股份有限公司)_第3页
CN114731483B 用于虚拟现实音频的声场适配(高通股份有限公司)_第4页
CN114731483B 用于虚拟现实音频的声场适配(高通股份有限公司)_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(12)发明专利PCT/US2020/0612742020地址美国加利福尼亚州T.夏巴兹米尔扎哈桑罗审查员李莎莎惰空间向量旋转器空间向量旋转器器21.一种配置为播放多个音频流中的一个或多个音频流的装置,所述音频流包括环境立体声系数的至少一个分解版本,所述环境立体声系数的至少一个分解版本包括至少一个空间分量和至少一个音频源,其中,所述至少一个空间分量描述球谐函数域表示中的与所述至少一个音频源相关联的空间特性,所述装置包括:存储器,配置为存储所述多个音频流内的所述至少一个空间分量和所述至少一个音频从运动传感器接收旋转信息;基于所述旋转信息旋转所述至少一个空间分量,以形成至少一个旋转的空间分量;和从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号。2.如权利要求1所述的装置,其中,所述至少一个空间分量包括识别相应的音频对象的空间特性的V-向量,并且所述至少一个音频源包括表示所述音频源的U-向量。3.如权利要求2所述的装置,其中,所述一个或多个处理器被进一步配置为通过将投影矩阵应用于参考残差向量和去量化的能量信号来重建所述U-向量。4.如权利要求3所述的装置,其中,所述投影矩阵包括时间和空间旋转数据。5.如权利要求1所述的装置,其中,所述一个或多个处理器被进一步配置为将所述至少一个音频源的表示输出到一个或多个扬声器。6.如权利要求1所述的装置,其中,所述一个或多个处理器被进一步配置为通过混合或者插值中的至少一个来组合所述至少一个音频源的至少两个表示。7.如权利要求1所述的装置,进一步包括显示装置。8.如权利要求7所述的装置,进一步包括麦克风,其中,所述一个或多个处理器被进一步配置为从所述麦克风接收语音命令并基于所述语音命令控制所述显示装置。9.如权利要求1所述的装置,进一步包括一个或多个扬声器。10.如权利要求1所述的装置,其中,所述装置11.如权利要求1所述的装置,其中,声学空间包括由相机捕获的视频数据所表示的场景。12.如权利要求1所述的装置,13.如权利要求1所述的装置,进一步包括被配置为呈现声学空间的头部安装装置。14.如权利要求1所述的装置,进一步包括无线收发器,所述无线收发器耦合到所述一个或多个处理器并且被配置为接收无线信号,所述无线信号包括符合第五代蜂窝标准、蓝牙标准或者Wi-Fi标准的一个或多个信号。15.一种播放多个音频流中的一个或多个音频流的方法,所述音频流包括环境立体声系数的至少一个分解版本,所述环境立体声系数的至少一个分解版本包括至少一个空间分量和至少一个音频源,其中,所述至少一个空间分量描述球谐函数域表示中的与所述至少一个音频源相关联的空间特性,所述方法包括:由存储器存储所述多个音频流内的所述至少一个空间分量和所述至少一个音频源;3由一个或多个处理器从运动传感器接收旋转信息;由一个或多个处理器基于所述旋转信息旋转所述至少一个空间分量,以形成至少一个由所述一个或多个处理器从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号。16.如权利要求15所述的方法,其中,所述至少一个空间分量包括识别相应的音频对象的空间特性的V-向量,并且所述至少一个音频源包括表示所述音频源的U-向量。17.如权利要求16所述的方法,进一步包括通过将投影矩阵应用于参考残差向量和去量化的能量信号来重建所述U-向量。18.如权利要求17所述的方法,其中,所述投影矩阵包括时间和空间旋转数据。19.如权利要求15所述的方法,进一步包括由所述一个或多个处理器将所述至少一个音频源的表示输出到一个或多个扬声器。20.如权利要求15所述的方法,进一步包括由所述一个或多个处理器通过混合或者插值中的至少一个来组合所述至少一个音频源的至少两个表示。21.如权利要求15所述的方法,进一步包括从麦克风接收语音命令并基于所述语音命令控制显示装置。22.如权利要求15所述的方法,其中,所述方法在移动手机上执行。23.如权利要求15所述的方法,其中,所述方法在扩展现实头戴式装置上执行,并且其中,声学空间包括由相机捕获的视频数据所表示的场景。24.如权利要求15所述的方法,其中,所述方法在扩展现实头戴式装置上执行,并且其25.如权利要求15所述的方法,其中,所述方法在配置为呈现声学空间的头部安装装置上被执行。26.如权利要求15所述的方法,进一步包括接收无线信号,所述无线信号包括符合第五代蜂窝标准、蓝牙标准或者Wi-Fi标准的一个或多个信号。27.一种被配置为播放多个音频流中的一个或多个音频流的装置,所述音频流包括环境立体声系数的至少一个分解版本,所述环境立体声系数的至少一个分解版本包括至少一个空间分量和至少一个音频源,其中,所述至少一个空间分量描述球谐函数域表示中的与所述至少一个音频源相关联的空间特性,所述装置包括:用于存储多个音频流内的至少一个空间分量和至少一个音频源的部件;用于从运动传感器接收旋转信息的部件;用于旋转所述至少一个空间分量以形成至少一个旋转的空间分量的部件;和用于从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号的部件。28.一种具有在其上存储的指令的非瞬时计算机可读存储介质,所述指令当被执行时使得一个或多个处理器:存储多个音频流内的至少一个空间分量和至少一个音频源,所述音频流包括环境立体声系数的至少一个分解版本,所述环境立体声系数的至少一个分解版本包括所述至少一个空间分量和所述至少一个音频源,其中,所述至少一个空间分量描述球谐函数域表示中的4与所述至少一个音频源相关联的空间特性;从运动传感器接收旋转信息;基于所述旋转信息旋转所述至少一个空间分量以形成至少一个旋转的空间分量;和从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号。29.如权利要求28所述的非瞬时计算机可读存储介质,其中,所述至少一个空间分量包括识别相应的音频对象的空间特性的V-向量并且所述至少一个音频源包括表示所述音频源的U-向量。30.如权利要求29所述的非瞬时计算机可读存储介质,进一步具有在其上存储的指令,所述指令当被执行时使得所述一个或多个处理器重建所述U-向量,包括通过将投影矩阵应用于参考残差向量和去量化的能量信号。5用于虚拟现实音频的声场适配[0001]本申请要求于2020年11月18日提交的美国申请No.16/951,662的优先权,该美国申请要求于2019年11月22日提交的美国临时申请No.62/939,477的权益,它们中的每一个的全部内容通过引用并入于此。技术领域背景技术[0003]正在开发计算机中介的现实系统,以允许计算装置添加或者增加、去除或者减去、或者一般地修改由用户体验的现有现实。计算机中介的现实系统(其也可以被称为“增强现现实(MR)系统。计算机中介的现实系统的感知成功一般与这种计算机中介的现实系统就视频和音频体验两者而言提供现实地浸入式体验的能力有关,其中视频和音频体验以用户期望的方式对准。虽然人的视觉系统比人的听觉系统更敏感(例如,就场景内的各种对象的感知定位而言),但是保证足够的听觉体验在保证现实地浸入式体验时是越来越重要的因素,特别是随着视频体验改进以允许视频对象的更好的定位,其使用户能够更好地识别音频内容的源。发明内容[0004]本公开总的来说涉及计算机中介的现实系统的用户体验的听觉方面,包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以提供用于自适应音频捕获和用于扩展的现实系统的声学空间的渲染。[0005]在一个示例中,该技术的各个方面涉及配置为播放多个音频流中的一个或多个音频流的装置,该装置包括:存储器,配置为存储多个音频流内的至少一个空间分量和至少一个音频源;和耦合到存储器的一个或多个处理器,并且配置为:从运动传感器接收旋转信息;基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量;和从至少一个旋转的空间分量和至少一个音频源重建三维声信号,其中,该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。[0006]在另一示例中,该技术的各个方面涉及播放多个音频流中的一个或多个音频流的方法,该方法包括,由存储器存储多个音频流内的至少一个空间分量和至少一个音频源;由一个或多个处理器从运动传感器接收旋转信息;由一个或多个处理器基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量;和由一个或多个处理器从至少一个旋转的空间分量和至少一个音频源重建三维声信号,其中,该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。[0007]在另一示例中,该技术的各个方面涉及配置为播放多个音频流中的一个或多个音频流的装置,该装置包括:用于存储多个音频流内的至少一个空间分量和至少一个音频源6的部件;用于从运动传感器接收旋转信息的部件;用于旋转至少一个空间分量以形成至少一个旋转的空间分量的部件;和用于从至少一个旋转的空间分量和至少一个音频源重建三维声信号的部件,其中,该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。[0008]在另一示例中,该技术的各个方面导向具有在其上存储的指令的非瞬时计算机可读存储介质,该指令当执行时使得一个或多个处理器:存储多个音频流内的至少一个空间分量和至少一个音频源;从运动传感器接收旋转信息;基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量;和从至少一个旋转的空间分量和至少一个音频源重建三维声信号,其中,该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。[0009]在以下的附图和描述中提到本公开的一个或多个示例的细节。该技术的各个方面的其他特征、目的和优点将是从描述和附图和从权利要求明显的。附图说明[0010]图1A-图1C是图示可以执行本公开中描述的技术的各个方面的系统的图。[0011]图2是图示由用户佩戴的VR装置的示例的图。[0012]图3图示支持根据本公开的各方面的装置和方法的无线通信系统100的示例。[0013]图4是图示根据本公开中描述的技术的示例音频回放系统的框图。[0014]图5是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。[0015]图6是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。[0016]图7是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。[0017]图8是图示具有三个或更多音频接收器的示例音乐会的概念图。[0018]图9是图示根据本公开的技术的使用旋转信息的示例的流程图。[0019]图10是图示可以根据本公开中描述的技术的各个方面而操作的可穿戴装置的示例的图。[0020]图11A和图11B是图示可以执行本公开中描述的技术的各个方面的其他示例系统的图。[0021]图12是图示图1A-图1C的示例中示出的源装置和内容消费者装置中的一个或多个的示例组件的框图。具体实施方式[0022]当前的心理声学解码器可能不能在环境立体声域中分别旋转空间分量和音频对象。因而,当前的心理声学解码器可能必须执行到脉冲编码调制(PCM)域的域转换及其他处理以旋转这种分量。这些操作可能是计算上昂贵的和功率密集的。[0023]根据本公开的技术,心理声学解码器可以基于来自运动传感器的旋转信息旋转至少一个空间分量,以形成至少一个旋转的空间分量。心理声学解码器也可以从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号。至少一个空间分量以球谐域表示描述与至少一个音频源相关联的空间特性。以该方式,在VR平台中,运动旋转之前的先前空间向量可以用于多通道环境。根据本公开的技术,音频回放系统可以从旋转传感器接收旋转7脉冲编码调制/修正离散余弦变换(PCM/MDCT)域耳间相位差(IPD)可以与旋转传感器数据量化位以通过依赖于用于残差耦合的旋转传感器数据来改进编码质量。根据本公开的技的音频格式和基于场景的音频格式。基于通道声格式、22.2环绕声格式或者将音频通道定位到收听[0027]基于对象的音频格式可以指其中指定通常使用脉冲编码调制(PCM)编码且被称为是阶数n的球面贝塞尔函数,并且是阶数n和子阶数m的球谐基函数(其也可以8风阵列物理地获取的各种示例在Poletti,M.,"Three-DimensionalSurroundSound[0033]以下等式可以说明可以怎样从基于对象的描述推导出SHC。用于与单独的音频对示从单独的对象到在观察点{rr,θr,φr}附近的总体声在地使能声场的动态适配以适应XR装置的[0038]对于XR的环境立体声系数的使用可以使能于依赖于由环境立体声系数提供的更9的示例所示,系统10包括源装置12和内容消费者装置14.虽然以源装置12和内容消费者装置14的上下文描述,但是该技术可以以其中编码声场的任何表示以形成音频数据的位流表示的任何上下文实现。此外,源装置12可以表示能够生成声场的表示的任何形式的计算装置,并且在这里一般以作为VR内容创建者装置的上下文描述。同样地,内容消费者装置14可以表示能够实现本公开中描述的渲染技术以及音频回放的任何形式的计算装置,并且在这里一般以作为VR客户端装置的上下文描述。[0041]源装置12可以由可以生成用于由内容消费者装置,比如内容消费者装置14的操作者消费的多通道音频内容的娱乐公司或者其他实体操作。在某些VR方案中,源装置12结合视频内容生成音频内容。源装置12包括内容捕获装置20、内容编辑装置22和声场表示发生器24。内容捕获装置20可以配置为与麦克风18接口连接或者以其他方式通信。[0042]麦克风18可以表示能够捕获和表示声场作为音频数据19的EigenmikeR或者其他类型的3D音频麦克风,音频数据19可以指以上提到的基于场景的音频数据(比如环境立体声系数)、基于对象的音频数据和基于通道的音频数据中的一个或多个。虽然描述为是3D音频麦克风,但是麦克风18也可以表示配置为捕获音频数据19的其他类型的麦克风(比如[0043]内容捕获装置20在某些示例中可以包括集成到内容捕获装置20的壳体中的集成麦克风18.内容捕获装置20可以无线地或者经由有线连接与麦克风18接口连接。代替经由麦克风18捕获音频数据,或者与经由麦克风18捕获音频数据结合地,在经由某些类型的可拆卸存储设备无线地和/或经由有线的输入处理来输入音频数据19之后,内容捕获装置20可以处理音频数据19.因而,根据本公开,内容捕获装置20和麦克风18的不同组合是可能[0044]内容捕获装置20也可以配置为与内容编辑装置22接口连接或者以其他方式通信。在有些情况下,内容捕获装置20可以包括内容编辑装置22(在有些情况下,这可以表示软件或者软件和硬件的组合,包括由内容捕获装置20执行以配置内容捕获装置20执行特定形式的内容编辑的软件)。内容编辑装置22可以表示配置为编辑或者以其他方式更改包括音频数据19的从内容捕获装置20接收到的内容21的单元。内容编辑装置22可以将编辑内容23和关联的音频信息25(比如元数据)输出到声场表示发生器24。[0045]声场表示发生器24可以包括能够与内容编辑装置22(或者内容捕获装置20)接口连接的任何类型的硬件装置。虽然在图1A的示例中未示出,但是声场表示发生器24可以使用由内容编辑装置22提供的包括音频数据19和音频信息25的编辑的内容23,以生成一个或多个位流27。在聚焦于音频数据19的图1A的示例中,声场表示发生器24可以生成由音频数据19表示的同一声场的一个或多个表示,以获得包括编辑的内容23和音频信息25的表示的位流27。[0046]例如,为使用环境立体声系数(其再次是音频数据19的一个示例)生成声场的不同表示,声场表示发生器24可以使用用于声场的环境立体声表示的编码方案,称为混合次序环境立体声(MOA),如在于2017年8月8日提交的、标题为“MIXED-ORDERAMBISONICS(MOA)2019年1月3日公开为美国专利公开No.20190007781中详细讨论的。[0047]为生成声场的特定MOA表示,声场表示发生器24可以生成环境立体声系数的全集的部分子集。例如,由声场表示发生器24生成的每个MOA表示可以提供相对于声场的一些区域的精度,但是在其它区域中更小精度。在一个示例中,声场的MOA表示可以包括八(8)个未压缩的环境立体声系数,而同一声场的三阶环境立体声表示可以包括十六(16)个未压缩的环境立体声系数。因而,生成为环境立体声系数的部分子集的声场的每个MOA表示可以比从环境立体声系数生成的同一声场的相应的三阶环境立体声表示较少存储-密集和较少带宽密集(如果和当作为位流27的一部分经图示的传输通道发送时)。[0048]虽然关于MOA表示来描述,但是本公开的技术也可以关于一阶环境立体声(FOA)表示来执行,其中与一阶球面基函数和零阶球面基函数相关联的全部环境立体声系数用于表示声场。换句话说,代替使用环境立体声系数的部分的非零子集来表示声场,声场表示发生器24可以使用给定阶N的全部环境立体声系数来表示声场,导致总共等于(N+1)²的环境立体声系数。[0049]在这方面,环境立体声音频数据(其是涉及以MOA表示或者全阶表示,比如以上提到的一阶表示的环境立体声系数的另一方式)可以包括与具有一阶或者更小阶数的球面基函数相关联的环境立体声系数(其可以被称为“第一阶环境立体声音频数据”),与具有混合的阶和子阶的球面基函数相关联的环境立体声系数(其可以被称为上面讨论的“MOA表示”)、或者与具有大于一的阶数的球面基函数相关联的环境立体声系数(其以上被称为“全[0050]在某些示例中,声场表示发生器24可以表示配置为压缩或者以其他方式减小用于表示位流27中的内容21的位数的音频编码器。虽然未示出,但是在某些示例中,声场表示发生器可以包括符合在这里讨论的各种标准中的任意一种的心理声学音频编码装置。[0051]在该示例中,声场表示发生器24可以将SVD应用于环境立体声系数以确定环境立体声系数的分解版本。环境立体声系数的分解版本可以包括一个或多个主要音频信号和描述关联的主要音频信号的空间特性,例如,方向、形状和宽度的一个或多个相应空间分量。因而,声场表示发生器24可以将分解应用于环境立体声系数,以从空间特性(如由空间分量表示的)去耦能量(如由主要音频信号表示的)。[0052]声场表示发生器24可以分析环境立体声系数的分解的版本,以识别各种参数,这可以促进环境立体声系数的分解的版本的重新排序。声场表示发生器24可以基于识别的参数重新排序环境立体声系数的分解的版本,其中假定变换可以跨环境立体声系数的帧地重新排序环境立体声系数(其中帧通常包括环境立体声系数的分解的版本的M个样本,并且在[0053]在重新排序环境立体声系数的分解的版本之后,声场表示发生器24可以选择环境立体声系数的一个或多个分解的版本作为声场的前景(或者,换言之,不同的、主要的或者显著的)分量的表示。声场表示发生器24可以指定表示前景分量(其也可以被称为“主要声分量”,或者在有些情况下,称为识别相应的音频对象的空间特性的所谓的“V-向量”)的环境立体声系数的分解的版本。空间分量可以表示具有多个不同元素的向量(其就向量而言[0054]声场表示发生器24接下来可以关于环境立体声系数执行声场分析,以便至少部分地识别表示声场的一个或多个背景(或者,换言之,环境)分量的环境立体声系数。背景分量11能仅包括环境立体声系数的任何给定样本的子集(例如,比如与零阶和第一阶球面基函数对应的那些而没有与第二阶或者高阶球面基函数对应的那些),声场表示发生器24可以关[0055]声场表示发生器24接下来可以关于前景方向信息(其是涉及空间分量的另一方式)执行一个形式的插值,然后关于插值的前景方向信息执行降阶以生成降阶的前景方向基函数对应的环境立体声系数之一的M个样本)的环境立体声系数的每个帧和前景音频信[0057]集合地,传输通道和边信息在图1A的示例中可以表示为环境立体声传输格式器24然后可以发送或者以其他方式输出ATF音频数据到心理声学音频编码装置(未示出)。[0060]内容捕获装置20或者内容编辑装置22在某些示例中可以配置为与声场表示发生生器24之间的连接,内容捕获装置20可以提供以各种形式的内容的内容,为了讨论,在这里描述为音频数据19的部分。[0061]在某些示例中,内容捕获装置20可以利用声场表示发生器24的各个方面(就声场表示发生器24的硬件或者软件性能而言)。例如,声场表示发生器24可以包括配置为执行心理声学音频编码的专用硬件(或者当执行时使得一个或多个处理器执行心理声学音频编码的专用软件)。[0062]在某些示例中,内容捕获装置20可以不包括心理声学音频编码器专用硬件或者专用软件,并且代替地可以以非心理声学音频编码形式提供内容21的音频方面。声场表示发生器24可以通过至少部分地关于内容21的音频方面执行心理声学音频编码来帮助内容21的捕获。[0063]声场表示发生器24也可以通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如,MOA表示和/或三阶环境立体声表示)生成一个或多个位流27,来帮助内容捕获和传输。位流27可以表示音频数据19的压缩的版本和任何其他不同类型的内容21(比如,球面视频数据、图像数据或者文本数据的压缩版本)。[0064]作为一个示例,声场表示发生器24可以跨传输通道、数据存储装置等生成用于传输的位流27,传输通道可以是有线或者无线通道。位流27可以表示音频数据19的编码版本,并且可以包括初级位流和另一侧位流,其可以被称为侧通道信息或者元数据。在有些情况下,表示音频数据19的压缩版本的位流27(其再次可以表示基于场景的音频数据、基于对象的音频数据、基于通道的音频数据或者其组合)可以符合根据MPEG-H3D音频编码标准和/或MPEG-I浸入式音频标准而产生的位流。[0065]内容消费者装置14可以由个体操作,并且可以表示VR客户端装置。虽然关于VR客户端装置描述,但是内容消费者装置14可以表示其他类型的装置,比如增强现实(AR)客户机、移动装置(包括所谓的智能电话)或者能够跟踪头部移动和/或操作内容消费者装置14的个体的一般平移运动的任何其他装置。如图1A的示例所示,内容消费者装置14包括音频回放系统16A,其可以指能够将用于回放的音频数据渲染为多声道音频内容的任何形式的音频回放系统。[0066]虽然图1A示为直接发送到内容消费者装置14,但是源装置12可以将位流27输出到位于源装置12和内容消费者装置14之间的中间装置。中间装置可以存储位流27以用于之后传送到可以请求位流27的内容消费者装置14。中间装置可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或者能够存储位流27以用于之后由音频解码器检索的任何其他装置。中间装置可以位于内容传送网络中,所述内容传送网络能够将位流27(和可能与发送对应的视频数据位流结合)流到请求位流27的用户,比如内容消费者装置14。[0067]替代地,源装置12可以将位流27存储到存储介质,比如致密盘、数字视频盘、高清视频盘或者其他存储介质,其大部分能够由计算机读取且因此可以被称为计算机可读存储介质或者非瞬时计算机可读存储介质。在此上下文中,传输通道可以指通过其发送存储到介质的内容(例如,以一个或多个位流27的形式)的通道(且可以包括零售商店及其他基于存储的传送机制)。因此,在任何情况下,本公开的技术在该方面不应该限于图1A的示例。[0068]如上所述,内容消费者装置14包括音频回放系统16A。音频回放系统16A可以表示能够回放多声道音频数据的任何系统。音频回放系统16A可以包括多个不同的渲染器32.渲染器32每个可以提供用于不同形式的渲染,其中不同形式的渲染可以包括执行基于向量的幅度摇摄(VBAP)的各种方式中的一个或多个和/或执行声场合成的各种方式中的一个或多[0069]音频回放系统16A可以进一步包括音频解码装置34。音频解码装置34可以表示配置为解码位流27以输出音频数据19'的装置(其中撇号标志可以表示音频数据19'由于有损压缩(比如量化)而不同于音频数据19)。再次,音频数据19可以包括基于场景的音频数据,其在某些示例中,可以形成全一(或者更高)阶环境立体声表示或者形成同一声场的MOA表示的其子集,比如主要音频信号、周围环境立体声系数的其分解,和在MPEG-H3D音频编码标准中描述的基于向量的信号,或者其他形式的基于场景的音频数据。[0070]其他形式的基于场景的音频数据包括根据HOA(高阶环境立体声)传输格式(HTF)定义的音频数据。关于HTF的更多信息可以在日期2018年6月(2018-06)的题为“higherOrderAmbisonics(HOA)TransportFormat”,ETSITS103589V1.1.1的欧洲电信标准协会(ETSI)的技术规范(TS),以及在于2018年12月20日提交的题为“PRIORITYINFORMATION任何情况下,音频数据19’可以类似于音频数据19’的全集或者部分子集,但是可能由于有损操作(例如,量化)和/或经由传输通道的传输而不同。[0071]作为基于场景的音频数据的替代或者与基于场景的音频数据结合地,音频数据19'可以包括基于通道的音频数据。作为基于场景的音频数据的替代或者与基于场景的音频数据结合地,音频数据19可以包括基于对象的音频数据。因而,音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于通道的音频数据的任何组合。[0072]音频回放系统16A的音频渲染器32可以在音频解码装置34已经解码位流27以获得音频数据19’之后,渲染音频数据19'以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明目的在图1A的示例中未示出)。声场的包括基于场景的音频数据(和可能的基于通道的音频数据和/或基于对象的音频数据)的各种音频表示可以以许多方[0073]为选择适当的渲染器,或者在有些情况下,生成适当的渲染器,音频回放系统16A可以获得指示扬声器(例如,扩音器或者耳机扬声器)的数目和/或扬声器的空间几何形状的扬声器信息37。在有些情况下,音频回放系统16A可以使用参考麦克风获得扬声器信息37,并且可以以动态地确定扬声器信息37的方式驱动扬声器(其可以指电信号的输出以使得换能器振动)。在其他实例中,或者与扬声器信息37的动态确定结合地,音频回放系统16A可以提示用户与音频回放系统16A接口连接并输入扬声器信息37。[0074]音频回放系统16A可以基于扬声器信息37选择音频渲染器32之一。在有些情况下,当没有音频渲染器32在扬声器信息37中指定的扬声器几何形状的某些阈值相似性度量(就扬声器几何形状而言)内时,音频回放系统16A可以基于扬声器信息37生成音频渲染器32之一。在有些情况下,音频回放系统16A可以基于扬声器信息37生成音频渲染器32之一,而不首先尝试选择音频渲染器32的现有的一个。[0075]当将扬声器馈送35输出到耳机时,音频回放系统16A可以利用渲染器32之一,其使用与头有关的传递函数(HRTF)或者能够向左和右扬声器馈送35渲染的其他功能来提供双扬声器等。一个或多个扬声器然后可以回放渲染的扬声器馈送35以再现声场。[0076]虽然描述为从音频数据19'渲染扬声器馈送35,但是参考扬声器馈送35的渲染可以指其他类型的渲染,比如直接包括到从位流27的音频数据19的解码的渲染。替代的渲染的示例可以在MPEG-H3D音频标准的附录G中找到,其中在声场的合成之前的主要信号格式化和背景信号形成期间发生渲染。因而,参考音频数据19'的渲染应该理解为涉及实际音频数据19’的渲染或者音频数据19'的其分解或者表示两者(比如以上提到的主要音频信号、周围环境立体声系数和/或基于向量的信号-其也可以被称为V-向量或者多维环境立体声空间向量)。[0077]音频回放系统16A也可以基于跟踪信息41适配音频渲染器32。也就是,音频回放系统16A可以与配置为跟踪VR装置的用户的头部运动和可能的平移运动的跟踪装置40接口连接。跟踪装置40可以表示配置为跟踪VR装置的用户的头部运动和可能的平移运动的一个或音频回放系统16A可以基于跟踪信息41适配音频渲染器32,以使得扬声器馈送35反映用户的头部和可能的平移运动的变化,以响应于这种移动而正确地再现声场。[0078]图1C是图示另一示例系统60的框图。示例系统60类似于图1A的示例系统10,但是,系统60的源装置12B不包括内容捕获装置。源装置12B包括合成装置29.合成装置29可以由内容开发者使用以生成合成的音频源。合成的音频源可以具有与其关联的位置信息,其可以识别音频源相对于收听者或者声场中的其他参考点的位置,以使得在努力重新创建声场时音频源可以被渲染给一个或多个扬声器通道以用于回放。在某些示例中,合成装置29也可以合成视觉或者视频数据。[0079]例如,内容开发者可以生成用于视频游戏的合成的音频流。虽然以图1A的示例的内容消费者装置14A示出了图1C的示例,但是图1C的示例的源装置12B可以与图1B的内容消费者装置14B一起使用。在某些示例中,图1C的源装置12B也可以包括内容位流27可以包括捕获的音频流和合成的音频流两者。[0080]如上所述,内容消费者装置14A或者14B(为了简单的目的,两者以下都可以称为内容消费者装置14)可以表示其中人可穿戴的显示器(其也可以被称为“头部安装显示器”)安装在操作VR装置的用户眼前的VR装置。图2是图示由用户402佩戴的VR装置400的示例的图。VR装置400耦合到,或者以其他方式包括耳机404,其可以通过扬声器馈送35的回放来再现由音频数据19’表示的声场。扬声器馈送35可以表示能够使得耳机404的换能器内的薄膜以各种频率振动的模拟或者数字信号,其中这种处理通常被称为驱动耳机404。402可以佩戴VR装置400(其也可以被称为VR头戴式装置400)或者其他可穿戴的电子装置。VR客户端装置(比如VR头戴式装置400)可以包括跟踪装置(例如,跟踪装置40),该跟踪装置配置为跟踪用户402的头部运动,和适配经由VR头戴式装置400示出的视频数据以解释头部运动,提供其中用户402可以在视觉三维空间中体验以视频数据示出的显示的世界的浸入式体验。显示的世界可以指虚拟世界(其中模拟全部世界),增强世界(其中由虚拟对象增强世界的部分),或者物理世界(其中虚拟地导航现实世界图像)。[0082]虽然VR(及其他形式的AR和/或MR)可以允许用户402视觉上位于虚拟世界中,通常VR头戴式装置400可能缺乏将用户听觉地置于显示的世界中的性能。换句话说,VR系统(其可以包括负责渲染视频数据和音频数据的计算机-为了便于说明目的在图2的示例中未示出,和VR头戴式装置400)可能不能支持听觉地全三维浸入(且在有些情况下实际上以经由VR头戴式装置400反映呈现给用户的显示的场景的方式)。[0083]虽然在本公开中关于VR装置描述,但是该技术的各个方面可以在其他装置,比如移动装置的上下文中执行。在这种情况下,移动装置(比如所谓的智能电话)可以经由屏幕呈现显示的世界,屏幕可以安装到用户402的头部或者可以像在通常使用移动装置时那样观看。因而,屏幕上的任何信息是移动装置的一部分。移动装置能够提供跟踪信息41,由此允许VR体验(当头部安装时)和普通体验两者以观看显示的世界,其中普通体验仍然可以允许用户观看显示的世界,证明VR-精简-类型体验(例如,举起装置并旋转或者平移装置以观看显示的世界的不同部分)。[0084]在任何情况下,返回到VR装置上下文,VR的音频方面已经被分类为三个单独的浸入的类别。第一类别提供最低水平的浸入,并且被称为三自由度(3D0F)。3DOF指的是解释三个自由度(偏转、俯仰和滚转)上头部的运动的音频渲染,由此允许用户在任何方向上自由地环顾。但是,3DOF不能解释其中头部不以声场的光学和声学中心为中心的平移的头部运[0085]第二类别被称为3D0F加(3D0F+),除由于远离声场内的光学中心和声学中心的头部运动的有限的空间平移运动之外还提供三个自由度(偏转、俯仰和滚转)。3D0F+可以提供比如运动视差的知觉效果的支持,可以增强浸入的感觉。[0086]第三类别被称为六自由度(6D0F),以解释按照头部运动的三自由度(偏转、俯仰和滚转)且还解释用户在空间中的平移(x,y和z平移)的方式渲染音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器或者通过输入控制器的方式导出。[0087]3D0F渲染是VR的音频方面的现有技术的当前状态。因而,VR的音频方面比视频方面较少浸入式,由此潜在地减少用户体验的总体浸入。但是,VR正在快速地转变且可以[0088]例如,交互游戏应用可以利用6D0F来促进全浸入式游戏,其中用户自己在VR世界内移动且可以通过向虚拟对象走过去来与虚拟对象交互。此外,交互实况流应用可以利用6D0F以允许VR客户端装置体验音乐会或者体育事件的实况流,就好像自己出席音乐会那样,允许用户在音乐会或者体育事件内移动。[0089]存在与这些使用情况相关联的多个困难。在全浸入式游戏的实例中,延迟可能需要保持得低,以使游戏进程能够不导致眩晕或者晕动病。此外,从音频角度,导致失去与视频数据的同步的音频回放中的延迟可能减少浸入。此外,对于某些类型的游戏应用,为允许精确响应,空间精度可能是重要的,包括关于怎样由用户感知声音,因为其允许用户预期当前没有看到的动作。[0090]在实况流应用的上下文中,大量源装置12A或者12B(为简单的目的,两者以下都称为源装置12)可以流化内容21,其中源装置12可以具有非常不同的性能。例如,一个源装置可能是具有数字的固定镜头相机和一个或多个麦克风的智能电话,而另一源装置可能是能够获得比智能电话高得多的分辨率和质量的视频的生产级电视设备。但是,在实况流应用的上下文中,所有源装置可以提供变化质量的流,VR装置可以从该变化质量的流尝试选择适当的一个以提供想要的体验。[0091]图3图示支持根据本公开的各方面的装置和方法的无线通信系统100的示例。无线通信系统100包括基站105、UE115和核心网络130。在某些示例中,无线通信系统100可以是线电(NR)网络。在有些情况下,无线通信系统100可以支持增强宽带通信、超可靠(例如,任务关键)通信、低延迟通信或者与低成本和低复杂度装置的通信。[0092]基站105可以经由一个或多个基站天线与UE115无线地通信。在这里描述的基站105可以包括或者可以由本领域技术人员称为基本收发器站、无线电基站、接入点、无线电B、家庭eNodeB或者某些其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如,宏或者小小区基站)。在这里描述的UE115能够与各种类型的基站1[0093]每个基站105可以与其中支持与各种UE115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125提供用于各个地理覆盖区域110的通信覆盖,并且基站105和UE115之间的通信链路125可以利用一个或多个载波。无线通信系统100中示出的通信链路125可以包括从UE115到基站105的上行链路传输,或者从基站105到UE115的下行链路传输。下行链路传输也可以被称为前向链路传输,同时上行链路传输也可以被称为反向链路传输。[0094]用于基站105的地理覆盖区域110可以被划分为组成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以提供或者其他类型的小区或者其各种组合的通信覆盖。在某些示例中,基站105可以是可移动的,因此提供用于移动地理覆盖区域110的通信覆盖。在某些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且与不同技术相关联的重叠的地理覆盖区域110可以由相同基站105或者由不同基站105支持。无线通信系统100例如可以包括其中不同类型的基站105提供各种地理覆盖区域110的覆盖的不同种类的LTE/LTE-A/LTE-APro,5G蜂窝或者[0095]UE115可以遍及无线通信系统100地分散,并且每个UE115可以是静止或者移动的。UE115也可以被称为移动装置、无线装置、远程装电子装置,比如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或者个人计算其他装置,或者能够发送捕获的和/或合成的音频流。在某些示例中,合成的音频流可以是存储在存储器中或者先前创建或者合成的音频流。在某些示例中,UE115也可以被称为无[0096]某些UE115,比如MTC或者IoT装置可以是低成本或者低复杂性的装置,并且可以提供用于机器之间的自动化通信(例如,经由机器到机器(M2M)通信)。M2M通信或者MTC可以指允许装置在没有人干预的情况下彼此通信或者与基站105通信的数据通信技术。在某些据,对切换、掩码和/或空的各种音频流和/或音频源指示隐私限制和/或基于密码的隐私数[0097]在有些情况下,UE115还可以直接与其他UE115通信(例如,使用点对点(P2P)或装置到装置(D2D)协议)。利用D2D通信的一组UE115中的一个或多个可以在基站105的地理覆盖区域110内。这种组中的其他UE115可以在基站105的地理覆盖区域110的外部,或者否则不能从基站105接收传输。在有些情况下,经由D2D通信而通信的UE115的组可以利用其中每个UE115发送到组中的每个其它UE115的一对多(1:M)系统。在有些情况下,基站105促进用于D2D通信的资源的调度。在其它情况下,在UE115之间进行D2D通信而不涉及基站[0098]基站105可以与核心网络130通信和彼此通信。例如,基站105可以通过回程链路经由核心网络130)彼此通信。[0099]在有些情况下,无线通信系统100可以利用许可和未许可的射频频段。例如,在比如5GHzISM频带的未许可频带中,无线通信系统100可以采用许可辅助访问(LAA)、LTE-未许可(LTE-U)无线电访问技术、5G蜂窝技术或者NR技术。当在未许可射频频谱带中操作时,比如基站105和UE115的无线装置可以采用先听后讲(LBT)过程以保证在发射数据之前频率通道是干净的。在有些情况下,未许可频带中的操作可以基于与许可频带中操作的分量载波结合的载波聚合配置(例如,LAA)。未许可频谱中的操作可以包括下行链路传输、上行链路传输、点对点传输或者这些的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或者两者的组合。[0100]当比如图2中的VR头戴式装置400的头戴式装置的用户402以声音的方向移动他们的头部时,他们可能期待体验声音的运动。例如,如果用户402听到汽车从他们的左边离开,则当用户402转向他们的左边时,他们可能期待在已经转到面向声音之后听到汽车好像在他们的前面。为移动声场,内容消费者装置14可以在PCM域中平移声场。但是,PCM域中的声场的平移可能消耗计算资源(比如处理循环、存储器带宽、存储器和/或存储空间等),因为[0101]根据本公开中描述的技术的各个方面,例如可以是VR头戴式装置400的内容消费者装置14可以在空间向量域中平移声场。通过在空间向量域而不是在PCM域中平移声场,可以节省计算资源。[0102]在操作中,内容消费者装置14可以从运动传感器接收旋转信息。运动传感器例如可以位于头戴式显示器内。该旋转信息可以包括用户402的头部的滚转、俯仰和/或偏转。内容消费者装置14的音频回放系统16可以将旋转信息乘以空间向量,比如V-向量。以这种方式,内容消费者装置14可以实现声场的平移而没有在PCM域中平移声场的高成本处理。[0103]在内容消费者装置14的音频回放系统16相对于空间向量旋转或者执行某种形式的平移之后,内容消费者装置14可以基于旋转的空间向量和音频数据(其可以包括从环境立体声频数据19分解的U-向量)来环境立体声解码声场。关于平移技术的各个方面的更多信息在以下关于图4讨论。[0104]图4是更详细地分别图示示例音频回放系统,比如图1A-1C的音频回放系统16A或者音频回放系统16B的框图。如图4的示例所示,音频回放系统16包括空间向量旋转器205和HOA重建器230.为了便于说明目的,从音频回放系统16[0105]空间向量旋转器205可以表示一个单元,该单元被配置为接收关于用户402的头部的运动的旋转信息,比如滚转、俯仰和/或偏转信息,并利用旋转信息产生旋转的空间向量信号。例如,空间向量旋转器205可以在空间向量域中旋转空间向量信号,以使得音频回放系统16可以避免PCM域中的声场的高成本平移(就处理循环、存储器空间和/或包括存储器带宽的带宽而言)。[0106]HOA重建器230可以表示图1A-图1C的示例中示出的音频解码装置34的全部或者一部分的示例。在某些示例中,HOA重建器230可以操作为根据在本公开中的其它地方讨论的HTF音频标准的高阶环境立体声(HOA)传输格式(HTF)解码器的全部或者一部分。[0107]如在图4的示例中进一步所示的,音频回放系统16可以与旋转传感器200接口连接,旋转传感器200可以包括在比如图2的VR头戴式装置400的头戴式装置内和/或图1A-图1C的跟踪装置40内。当安装在用户的头部上时,旋转传感器200可以监控用户的头部的旋转运动。例如,旋转传感器200可以当用户402移动他们的头部时测量头部的俯仰、滚转和偏转(theta,phi和psi)。头部的旋转运动的测量(旋转信息)可以被发送到空间向量旋转器205。空间向量旋转器205可以是音频回放系统16的一部分,其可以被分别表示为如图1A-1C所示的内容消费者装置14中的16A或者16B。[0108]空间向量旋转器205可以接收用户的头部的旋转信息。空间向量旋转器205也可以从图1A-图1C的源装置12以位流,例如位流27接收空间向量220.空间向量旋转器205可以使用旋转信息来旋转空间向量220。例如,空间向量旋转器205可以通过经由一系列左移位,经由查询表,经由矩阵乘法,逐行的乘法或者通过访问阵列和乘以单独的数字将空间向量乘以旋转信息来旋转空间向量220。以该方式,空间向量旋转器205可以将声场移动到用户402期望它在的地方。关于如何创建旋转补偿矩阵的信息可以在马蒂亚斯·克朗拉赫纳(MatthiasKronlachner)和弗朗茨·佐特(FranzZotter)的用于环境立体声记录的增强的空间变换中找到,当实现时可以由空间向量旋转器205使用所述旋转补偿矩阵以经由矩阵乘法来旋转空间向量220。虽然音频回放系统16在这里描述为移动声场到用户402将期望它在的地方,但是不需要这样做。例如,内容创建者可能希望对渲染具有更多控制,从而创建特定音频效果或者减少由于用户402的微运动导致的声场的运动。在这些情况下,渲染元数据可以添加到位流27以限制或者修改空间向量旋转器旋转声场的能力。[0109]空间向量旋转器205然后可以将旋转的空间向量提供到HOA重建器230.HOA重建器230可以从位流27或者从音频解码装置34的其他部分,从图1A-1C的源装置12接收音频源225的表示,比如U-向量,并重建旋转的HOA信号。HOA重建器230然后可以输出要渲染的重建[0110]图5是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。图5可以表示图4的更详细的图,其中例如在音频回放系统16的音频解码装置34中重建比如U-向量[0111]多通道向量去量化器232可以接收量化的参考残差向量信号(REFV232也可以向多个残差去耦器233B(为了简单的目的未示出)-233M中的每一个提供用于其SYNTH)238A-238M可以接收偶数/奇数子带合成器的输出,并改变增益/形状合成器238A-一个的参考的多个侧信息信号。残差耦合/去耦合旋转器240也可以从旋转传感器200接收于参考残差向量创建通道的2-M侧信息中的每一个的投影矩阵,并将每个通道的投影矩阵阵可以是能量保持旋转矩阵,其可以用于从参考残差向量去耦重建的通道。可以使用量化该量化的参考残差向量。参考向量去量化器242可以将去量化的参考残差向量提供到合成器(E/0SUB)236A-236M接收由基于投影的残差去耦器234A-234M输出的残差耦合分以接收参考残差信号的去量化的能量。增益/形状合成器238R可以合成参考残差向量和参考残差信号的去量化的能量,以重建和输出重建的参考音频源。增益/形状合成器238A-放系统16可以从旋转传感器200接收旋转信息。HTF解码器248可以解码位流27中的信息以获得空间向量。HTF解码器248可以将空间向量提供到空间向量旋转器(SPATVECTOR[0117]残差耦合/去耦合旋转器(RESIDC/DROT)240也可以从旋转传感器200接收旋转考残差向量的用于通道2-M的侧信息。残差侧时间解码器246可以例如经由立体耦合分析,残差耦合/去耦合旋转器240。残差耦合/去耦合旋转器240可以基于来自旋转传感器200的可以解码多通道能量位流,并将能量参考信号提供到增益/形状合成器(GAIN/SHAPEDECOUPLER)234A-M中的每一个和增益/形状合成器(GAIN/SHAPESYNTH)238A-238M中的每[0119]图8是图示具有三个或更多音频接收器的示例音乐会的概念图。在图8的示例中,而麦克风310B可以捕获主要与弦乐部分314相关联的音频流,但是包括由其他乐队成员产[0120]还示出多个装置。这些装置表示位于多个不同的期望收听位置的用户装置。耳机内容消费者装置可以选择至少一个音频流以产生类似于用户位于耳机320在图8中的地方的、用于耳机320的用户的音频体验。类似地,示出VR护目镜322位于麦克风310C后,并且在鼓手316和其他音乐家318之间。内容消费者装置可以选择至少一个音频流以产生类似于用户位于VR护目镜322在图8中的地方的、用于VR护目镜3[0121]示出智能眼镜324相当中心地位于麦克风310A、310C和310D之间。内容消费者装置可以选择至少一个音频流以产生类似于用户位于智能眼镜324在图8中的地方的、用于智能眼镜324的用户的音频体验。另外,示出装置326(其可以表示能够实现本公开的技术的任何费者装置可以选择至少一个音频流以产生类似于用户位于装置326在图8中的地方的、用于装置326的用户的音频体验。虽然关于特定位置讨论特定装置,但是示出的任意装置的使用可以提供不同于图8中示出的期望的收听位置的指示。图8的任意装置可以用于实现本公开的技术。[0122]图9是图示根据本公开的技术的使用旋转信息的示例的流程图。音频回放系统16可以存储至少一个空间分量和至少一个音频源(250)。例如,音频回放系统可以以位流27接收多个音频流。多个音频流可以包括至少一个空间分量和至少一个音频分量。音频回放系统16可以在存储器中存储至少一个空间分量和至少一个音频源。[0123]音频回放系统16可以从比如旋转传感器200的运动传感器接收旋转信息(252)。例如,旋转传感器200可以当用户402移动他们的头部时测量头部的俯仰、滚转和偏转(theta,phi和psi)。头部的旋转运动(旋转信息)的测量可以由音频回放系统16接收。音频回放系统15可以基于旋转信息旋转至少一个空间分量(254)。例如,空间向量旋转器205可以通过经由一系列左移位、经由查询表、经由矩阵乘法、逐行的乘法或者通过访问阵列和乘以单独的数字将至少一个空间分量乘以旋转信息来旋转至少一个空间分量。[0124]音频回放系统15可以从旋转的至少一个空间分量和至少一个音频源重建环境立体声信号(256)。例如,HOA重建器230可以从位流27或者从音频解码装置34的其他部分,从例中,至少一个空间分量包括V-向量,并且至少一个音频源包括U-向量。在某些示例中,音频回放系统15可以将投影矩阵应用于参考残差向量和去量化的能量信号以重建U-向量。在某些示例中,投影矩阵包括时间和空间旋转数据。例如,图7的残差耦合/去耦合旋转器240可以基于来自旋转传感器200的旋转信息和来自残差侧时间解码器246的时间相位信息,创建用于通道2-M中的每一个的投影矩阵。在某些示例中,音频回放系统15可以将至少一个音频源的表示,比如基于环境立体声信号的表示输出到一个或多个扬声器(258)。在某些示例中,音频回放系统可以在输出环境立体声信号之前通过混合或者插值的至少一个组合至少一个音频源的至少两个表示。在某些示例中,内容消费者装置14可以从麦克风接收语音命令,并基于语音命令控制显示装置。在某些示例中,内容消费者装置14可以接收无线信号,比如类似位流27的无线位流。[0125]图10是图示可以根据本公开中描述的技术的各个方面操作的可穿戴装置500的示例的图。在各种示例中,可穿戴装置500可以表示VR头戴式装置(比如如上所述的VR头戴式装置400)、AR头戴式装置、MR头戴式装置或者任何其他类型的扩展现实((XR)头戴式装置。增强现实“AR”可以指在其中用户实际上位于的现实世界上重叠计算机渲染的图像或者数据。混合现实“MR”可以指世界被锁定到实际世界中的特定位置的计算机渲染的图像或者数据,或者可以指其中部分计算机渲染的3D元素和部分拍摄的真实元素组合为模拟用户在环包罗万象的术语。关于用于XR的术语的更多信息可以在2017年7月7日的杰森·彼得森(JasonPeterson)的题为“VirtualReality,AugmentedReality,andMixedReality者无线连接与支持可穿戴装置500的计算装置通信。[0127]在有些情况下,支持可穿戴装置500的计算装置可以集成在可穿戴装置500内,因而,可穿戴装置500可以被认为是与支持可穿戴装置500的计算装置相同的装置。在其他实例中,可穿戴装置500可以与可以支持可穿戴装置500的单独的计算装置通信。在这方面,术语“支持”不应该被理解为需要单独的专用设备,而是应该被理解为配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以集成在可穿戴装置500内或者集成在与可穿戴装置500分开的计算装置内。[0128]例如,当可穿戴装置500表示VR装置1100时,单独的专用计算装置(比如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴装置500可以确定平移头部运动,专用计算装置可以基于平移头部运动渲染根据本公开中描述的技术的各个方面的音频内容(如扬声器馈送)。作为另一示例,当可穿戴装置500表示智能眼镜时,可穿戴装置500可以包括一个或多个处理器,其确定平移头部运动(通过在可穿戴装置500的一个或多个传感器内接口连接),并基于所确定的平移头部运动渲染扬声器馈送。[0129]如图所示,可穿戴装置500包括一个或多个定向扬声器和一个或多个跟踪和/或记录相机。另外,可穿戴装置500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴装置500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。[0130]可穿戴装置500也包括连接性硬件,其可以表示支持多模式连接性的一个或多个感器和骨传导传感器。在有些情况下,可穿戴装置500也可以包括具有鱼眼镜头和/或远摄镜头的一个或多个无源和/或有源相机。虽然图10中未示出,但是可穿戴装置500还可以包实现中,可穿戴装置500还可以包括一个或多个后相机。将认可,可穿戴装置500可以显示出各种不同的形状因数。[0131]此外,跟踪和记录相机及其他传感器可以促进平移距离的确定。虽然在图10的示例中未示出,但是可穿戴装置500可以包括用于检测平移距离的其他类型的传感器。[0132]虽然相对于可穿戴装置的特定示例,比如上面相对于图10的示例讨论的VR装置1100及在图1A-1C的示例中提到的其他装置进行描述,但是本领域技术人员将认可,与图1A-1C和图2有关的描述可以应用于可穿戴装置的其他示例。例如,比如智能眼镜的其他可穿戴装置可以包括通过其获得平移头部运动的传感器。作为另一示例,比如智能手表的其他可穿戴装置可以包括通过其获得平移运动的传感器。因而,本公开中描述的技术不应该限于特定类型的可穿戴装置,而是任何可穿戴装置可以配置为执行本公开中描述的技术。[0133]图11A和图11B是图示可以执行本公开中描述的技术的各个方面的示例系统的图。图11A图示其中源装置12进一步包括相机600的示例。相机600可以配置为捕获视频数据,并将捕获的原始视频数据提供到内容捕获装置20.内容捕获装置20可以将视频数据提供到源装置12的另一组件,以用于进一步处理为视点划分的部分。[0134]在图11A的示例中,内容消费者装置14还包括可穿戴装置300。将理解在各种实现中,可穿戴装置300可以包括在内容消费者装置14中或者外部地耦合到内容消费者装置14。可穿戴装置300包括用于输出视频数据(例如,如与各种视点相关联的)和用于渲染音频数据的显示器硬件和扬声器硬件。[0135]图11B图示其中图11A所示的音频渲染器32被替换为双耳渲染器42的示例,该双耳渲染器42能够使用一个或多个HRTF执行双耳渲染或者能够对左和右扬声器馈送43渲染的其他功能。音频回放系统16C可以将左和右扬声器馈送43输出到耳机44。[0136]耳机44可以经由有线连接(比如标准3.5毫米音频插孔、通用系统总线(USB)连接、光学音频插孔或者其他形式的有线连接)或者无线地(比如通过蓝牙连接、无线网络连接等方式)耦合到音频回放系统16C。耳机44可以基于左和右扬声器馈送43重新创建由音频数据19'表示的声场。耳机44可以包括由相应的左和右扬声器馈送43供能(或者,换言之,驱动)的左耳机扬声器和右耳机扬声器。[0137]图12是图示图1A-图1C的示例中示出的源装置和内容消费者装置中的一个或多个的示例组件的框图。在图12的示例中,装置710包括处理器712(其可以被称为“一个或多个多个集成的扬声器740、显示器703、用户接口720、天线721和收发器模块722。在其中装置710是移动装置的示例中,显示处理器718是移动显示处理器(MDP)。在某些示例中,比如其中装置710是移动装置的示例中,处理器712、GPU714和显示处理器718可以形成为集成电例中,处理器712、GPU714和显示处理器718中的两个可以一起装在同一IC中,并且另一个在不同集成电路(即,不同芯片封装)中,或者全部三个可以装在不同IC或者在同一IC上。但是,在其中装置710是移动装置的示例中,可能处理器712、GPU714和显示处理器718全部装在不同集成电路中。[0139]处理器712、GPU714和显示处理器718的示例包括,但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他等效集成或者离散逻辑电路系统。处理器712可以是装置710的中央处理单元(CPU)。在某些示例中,GPU714可以是包括向GPU714提供适于图形处理的大的并行处理能力的集成和/或离散逻辑电路系统的专用硬件。在有些情况下,GPU714也可以包括通用处理性能,并且当实现通用处理任务(即,非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是设计用于从系统存储器716检索图像内容,将图像内容组成为图像帧和输出图像帧到显示器703的专用集成电路硬件。[0140]处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可观看对象的其他应用或者以上更详细地列出的任意应用类型。系统存储器716可以存储用于应用的执行的指令。处理器712上应用之一的执行使得处理器712产生用于要显示的图像内容的图形数据和要播放(可能经由集成的扬声器740)的音频数据19.处理器712可以将图像内容的图形数据发送到GPU714以用于基于处理器712发送到GPU714的指令或者命令的进一步处理。[0141]处理器712可以根据特定应用处理接口(API)与GPU714通信。这种API的示例包括是,本公开的方面不限于DirectX、OpenGL或者OpenCLAPI,并且可以扩展至其他类型的API。此外,本公开中描述的技术不需要根据API而运作,并且处理器712和GPU714可以利用用于通信的任何处理。[0142]系统存储器716可以是用于装置710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括,但不限于随机存取存储器(RAM)、电可擦可编程只读存储器(EEPROM)、闪存或者可以用于以指令和/或数据结构的形式携带或者存储期望的程序代码且可以由计算机或者处理器访问的其他介质。[0143]在某些示例中,系统存储器716可以包括使得处理器712、GPU714和/或显示处理器718执行本公开中归于处理器712、GPU714和/或显示处理器718的功能的指令。因此,系统存储器716可以是具有在其上存储的指令的计算机可读存储介质,该指令当执行时使得一个或多个处理器(例如,处理器712、GPU714和/或显示处理器718)执行各种功能。[0144]系统存储器716可以包括非瞬时存储介质。术语“非瞬时”指示存储介质不具体表现为载波或者传播的信号。但是,术语“非瞬时”不应该解释为意味移动或者其内容是静态的。作为一个示例,系统存储器716可以从装置710去除和移动到另一装置。作为另一示例,实质上类似于系统存储器716的存储器可以插入到装置710中。在某[0145]用户接口720可以表示通过其用户可以与装置710接口连接的一个或多个硬件或者虚拟(意味着硬件和软件的组合)用户接口。用户接口720可以包括物理按钮、开关、触发器、灯或者它们的虚拟版本。用户接口720还可以包括物理或者虚拟键盘、触摸界面-比如触[0146]处理器712可以包括配置为执行上面相对于内容创建者装置和/或内容消费者装置的任意模块、单元或者其他功能组件中的一个或多个讨论的操作的全部或者某些部分的一个或多个硬件单元(包括所谓的“处理核心”)。天线721和收发器模块722可以表示配置为建立和维持源装置12和内容消费者装置14之间的连接的单元。天线721和收发器模块722可以表示能够根据一个或多个无线通信协议无线通信的一个或多个接收器和/或一个或多个或者其他开源、私有或者其他通信标准。例如,收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发射器、单独的接收器、单独的发射器和单独的接收器两者或者组合的发射器和接收器。天线721和收发器模块722可以配置为接收编码的音频数据。同样地,天线721和收发器模块722可以配置为发送编码的音频数据。[0147]要认识到取决于示例,在这里描述的任意技术的某些动作或者事件可以以不同序列执行,可以添加,合并,或者一起省去(例如,对于该技线程处理、中断处理或者多个处理器。[0148]在某些示例中,VR装置(或者流式传输装置)可以使用耦合到VR/流式传输装置的存储器的网络接口与外部装置通信交换消息,其中交换消息与声场的多个可用表示相关联。在某些示例中,VR装置可以使用耦合到网络接口的天线接收与声场的多个可用表示相个或多个麦克风阵列可以捕获声场。[0149]在某些示例中,存储到存储器装置的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环境立体声表示、声场的混合阶环境立体声表示、声场的基于对象的表示与声场的高阶环境立体声表示的组合、声场的基于对象的表示与声场的混合阶环境立体声表示的组合或者声场的混合阶表示与声场的高阶环境立体声表示的组合。[0150]在某些示例中,声场的多个可用表示的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个低分辨率区域,并且其中,基于转向角选择的呈现提供相对于至少一个高分辨率区域更大的空间精度和相对于低分辨率区域更小的空间精度。[0151]本公开包括以下示例。[0152]条款1.一种配置为播放多个音频流中的一个或多个音频流的装置,该装置包括:配置为存储多个音频流内的至少一个空间分量和至少一个音频源的存储器;和耦合到存储器的一个或多个处理器,并且被配置为:从运动传感器接收旋转信息;基于旋转信息旋转至少一个空间分量,以形成至少一个旋转的空间分量;和从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号。[0153]其中,该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。[0154]条款1.5.条款1的装置,其中,至少一个空间分量包括V-向量且至少一个音频源包括U-向量。[0155]条款1.6.条款1.5的装置,其中,一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论