CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）

上传人：x*** IP属地：重庆上传时间：2026-01-06 格式：DOCX 页数：41 大小：647.30KB 积分：10.8 举报 版权申诉

CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）_第2页

CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）_第3页

CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）_第4页

CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）_第5页

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(22)申请日2021.08.24(43)申请公布日2022.03.18公司31300(56)对比文件2至少一个媒体服务器计算机，所述至少一个媒体服务器计算机包括至少一个处理器和存储器，其中所述至少一个媒体服务器计算机被配置为空间分析媒体服务器SAMS,并且接收和分析传入数据，所述传入数据包括来自与相应用户相关联的客户端设备的传入多媒体基于从所述客户端设备接收的所述传入数据，为各个客户端设备调整传出多媒体流，其中，所述传入多媒体流包括来自至少一个虚拟环境中的元素，并且其中，基于所述用户优先级数据和所述空间取向数据来为所述各个客户端设备调整所述传出多媒体流，所述空间取向数据描述在所述至少一个虚拟环境中的所述用户的对应用户图形表示和在所述至少一个虚拟环境中的所述传入多媒体流的源之间的空间关系。2.根据权利要求1所述的系统，其特征在于，所述至少一个虚拟环境托管在至少一个专用服务器计算机上，所述至少一个专用服务器计算机经由网络连接到所述至少一个媒体服务器计算机，或者所述至少一个虚拟环境托管在点对点的基础设施中，并且通过所述至少一个媒体服务器计算机被中继。3.根据权利要求1所述的系统，其特征在于，所述至少一个虚拟环境包括真实世界位置的虚拟副本，其中所述真实世界位置包括多个传感器，所述多个传感器向所述真实世界位置的所述虚拟副本提供进一步的数据。4.根据权利要求1所述的系统，其特征在于，所述至少一个媒体服务器计算机还被配置为以马赛克的形式组合所述传入数据，所述马赛克包括单独的瓦片，其中用户图形表示的各个多媒体流被流式传输。5.根据权利要求1所述的系统，其特征在于，所述至少一个媒体服务器计算机被配置为6.根据权利要求1所述的系统，其特征在于，所述至少一个媒体服务器计算机被配置为分析和处理每个客户端设备的所述传入数据，并确定用户优先级以及所述对应用户图形表示与所述传入多媒体流的所述源之间的所述空间关系。7.根据权利要求1所述的系统，其特征在于，调整所述传出多媒体流包括，优化所述一个或多个接收客户端设备的带宽和计算资源利用率。8.根据权利要求1所述的系统，其特征在于，调整所述传出多媒体流包括调整时间特被配置为空间分析媒体服务器SAMS的至少一个媒体服务器计算机接收传入数据，所述传入数据包括来自与相应用户相关联的多个客户端设备的传入多媒体流、用户优先级数据和空间取向数据，所述空间取向数据描述在至少一个虚拟环境中的所述用户的对应用户图形表示和所述至少一个虚拟环境中的所述传入多媒体流的源之间的空间关系；分析来自所述多个客户端设备的所述传入数据，所述传入数据包括来自所述虚拟环境内的图形元素；基于从所述多个客户端设备接收的所述传入数据的所述用户优先级数据以及所述空将经过调整的传出多媒体流转发至一个或多个接收客户端设备，其中，所述经过调整3的传出多媒体流被配置为显示给所述一个或多个接收客户端设备的用户。10.根据权利要求9所述的方法，其特征在于，还包括利用多点控制单元(MCU)、云媒体11.根据权利要求9所述的方法，其特征在于，还包括，以马赛克的形式组合所述传入数据，所述马赛克包括单独的瓦片，其中用户图形表示的各个多媒体流被流式传输。12.根据权利要求9所述的方法，其特征在于，还包括确定用户优先级以及所述对应用户图形表示与所述传入多媒体流的所述源之间的所述空间关系。13.根据权利要求9所述的方法，其特征在于，调整所述传出多媒体流包括优化所述一个或多个接收客户端设备的带宽和计算资源利用率。14.根据权利要求9所述的方法，其特征在于，调整所述传出多媒体流包括调整时间特15.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，所述指令被配置为使包括处理器和存储器的至少一个媒体服务器计算器执行以下步骤：被配置为空间分析媒体服务器SAMS的所述至少一个媒体服务器计算机接收传入数据，所述传入数据包括来自与相应用户相关联的多个客户端设备的传入多媒体流、用户优先级数据和空间取向数据，所述空间取向数据描述至少一个虚拟环境中的所述用户的一个或多个用户图形表示和所述至少一个虚拟环境中的至少一个元素之间的空间关系；分析来自所述多个客户端设备的所述传入数据；基于从所述多个客户端设备接收的所述传入数据的所述用户优先级数据以及所述空将经过调整的传出多媒体流转发至接收客户端设备，其中，所述经过调整的传出多媒体流被配置为在所述接收客户端设备显示。16.根据权利要求15所述的计算机可读介质，其特征在于，所述步骤还包括，基于所述传入数据确定用户优先级和所述空间关系。17.根据权利要求15所述的计算机可读介质，其特征在于，调整所述传出多媒体流包括优化所述一个或多个接收客户端设备的带宽和计算资源利用率。18.根据权利要求15所述的计算机可读介质，其特征在于，调整所述传出多媒体流包括4空间感知的多媒体路由器系统与方法[0001]相关申请的交叉引用[0002]本申请与共同申请的美国专利申请17/005,767有关，该专利申请在此同时提交，标题为“空间感知的多媒体路由器系统与方法”,该专利申请通过引用并入本文。技术领域背景技术[0004]视频会议能够在多个用户之间进行远程通信，对于处于多个地点的人们来说，视频会议正在成为相对低成本和快速的通信工具。由于宽带网络的广泛部署、视频压缩技术的进步、以及对基础设施要求较低、成本低的基于网络的视频通信的实现方法增加，视频会议最近变得流行起来。[0005]例如，实现视频会议的一种方法是网格(点对点)基础设施，其中每个客户端设备向所有其它客户端设备发送多媒体流。这代表了一种低成本的解决方案，不需要任何中间基础设施，但由于快速的带宽过载和客户端设备的处理能力有限，会导致低的可扩展性。[0006]另一个示例方法是多点控制单元(MultipointControlUnit,MCU),它在中央媒体服务器中实现，接收来自客户端设备的所有多媒体流，解码并将所有流组合成一个流，然后重新编码并发送给所有客户端设备，减少与点对点模型相关的延迟和带宽问题。然而，[0007]另一个示例方法是选择性转发单元(SelectiveForwardingUnit,SFU),它用于持浏览器到浏览器的应用，例如语音通话、视频聊天和点对点(Peer-to-Peer,P2P)文件共享应用，同时避免利用插件来连接视频通信端点的需求。SFU可以在中央媒体服务器计算机中实现，SFU包括用于不在服务器端进行密集的媒体处理(例如：解码和重新编码),而将视频流中的视频包路由给多个参会者装置的软件程序。因此SFU通过网络从客户端设备接收所有编码的媒体流，然后选择性地将这些流转发到对应参会者的客户端设备，以进行后续解码和显示。SFU转发的选择性是基于多个参数，这些参数可用于优化与多媒体流转发相关到的多媒体流中识别出正在说话的参会者，并将高比特率的多媒体流转发给在收听的参会者。另一方面，SFU将收听的参会者的低比特率的多媒体流发送给其它参会者，实现一定程[0008]考虑到中央媒体或者路由服务器或参会的客户端设备的带宽和处理能力的限制，典型的视频会议工具(比如通过上述的方法)的限制在于有限的可扩展性。因此需要在多媒体路由和转发操作期间进一步优化网络带宽和计算资源，同时为相关参会者保持高QoE的新的方法。5发明内容[0009]本概述是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本概述无意于识别所要保护的主题的关键特征，也无意用于帮助确定所要保护的主题的范围。[0010]在本申请的一方面，提供了一种空间感知的多媒体路由器系统。所述空间感知的多媒体路由器系统包括至少一个处理器和存储器，所述存储器存储指令，该指令用于实现在客户端设备之间管理数据交换的数据交换管理模块。在一个实施例中，所述系统还包括一个或多个计算设备，所述计算设备实现至少一个虚拟环境，所述虚拟环境连接到至少一个媒体服务器计算机，从而能够访问多个客户端设备的用户的一个或多个图形表示(也称为用户图形表示)。考虑到虚拟环境中的虚拟元素和来自至少一个客户端设备的输入数据，可以在虚拟环境中生成多个多媒体流(例如，2D视频流、3D视频流、音频流或这些流或其他媒体流的组合)。因此，输入数据在所述虚拟环境中被接收和组合，所述虚拟环境包括多个虚拟元素和客户端设备的对应用户的至少一个图形表示。多个客户端设备经由网络与所述至少一个媒体服务器相连，所述多个客户端设备用于向所述至少一个媒体服务器计算机发送包括多媒体流的数据。[0011]所述至少一个媒体服务器用于：接收和分析从客户端设备的传入数据，所述传入数据包括来自客户端设备的传入多媒体流；基于传入数据为各个客户端设备调整传出多媒体流。所述传入多媒体流包括来自至少一个虚拟环境内的元素。基于例如，用户优先级数据和空间取向数据，为各个客户端设备调整所述传出多媒体流，所述空间取向数据描述例如，在至少一个虚拟环境中的对应用户图形表示和所述传入多媒体流的源之间的空间关系。[0012]在一个实施例中，所述至少一个媒体服务器计算机执行数据交换管理，包括分析和处理传入数据，所述传入数据包括来自客户端设备的多媒体流，所述数据交换管理还包括基于从所述多个客户端设备接收的传入数据来评估和优化所述传出多媒体流的转发，所述传入数据包括来自所述至少一个虚拟环境内的元素。所述传入数据与用户优先级数据以及对应用户图形表示与所述传入的多媒体流之间的空间关系相关联。[0013]在一些实施例中，所述至少一个虚拟环境托管在至少一个专用服务器计算机上，所述至少一个专用服务器计算机经由网络连接到所述至少一个媒体服务器计算机。在其他实施例中，所述至少一个虚拟环境托管在点对点的基础设施中并且通过所述至少一个媒体服务器计算机被中继。所述虚拟环境可用于托管实时视频通信，用户可以在其中相互交互，置的虚拟副本，其中所述真实世界位置包括多个传感器，所述多个传感器向所述真实世界位置的虚拟副本提供进一步的数据。[0014]在一些实施例中，所述至少一个媒体服务器计算机使用路由拓扑。在其它实施例中，所述至少一个媒体服务器计算机使用媒体处理拓扑。在其他实施例中，所述至少一个媒体服务器计算机使用转发服务器拓扑。在其它实施例中，所述至少一个媒体服务器计算机使用其他合适的多媒体服务器路由拓扑，或媒体处理和转发服务器拓扑，或其它合适的服务器拓扑。[0015]在一个实施例中，所述至少一个媒体服务器计算机使用路由拓扑，所述至少一个媒体服务器计算机使用选择性转发单元(SFU)拓扑，或使用中继NAT穿透(TURN)拓扑，或空6间分析媒体服务器拓扑(SAMS),或其它一些多媒体服务器路由拓扑。[0016]在一个实施例中，所述至少一个媒体服务器计算机使用媒体处理拓扑，所述至少一个媒体服务器计算机用于对所述传入数据执行一个或多个操作，包括：压缩、加密、重新施例中，所述传入数据的组合是以马赛克的形式被执行，所述马赛克包括单独的瓦片，其中用户图形表示的各个多媒体流被流式传输。[0017]在一个实施例中，所述至少一个媒体服务器计算机使用转发服务器拓扑，所述至少一个媒体服务器计算机用作于多点控制单元(MultipointControlUnit,MCU)、或云媒[0018]在一个实施例中，所述至少一个媒体服务器计算机被用于SAMS,所述至少一个媒体服务器计算机用于分析和处理每个客户端设备的传入数据，该传入数据和用户优先级和空间关系(例如，所述对应用户图形表示和所述传入多媒体流的源之间的空间关系)相关联。在该实施例中，所述至少一个媒体服务器计算机还可以用于基于上述数据来确定用户优先级和/或空间关系。在一些实施例中，传入数据包括以下一项或多用性状态数据、图像数据或基于可分级视频编解码器的视频、或其组合。在进一步的实施例中，调整传出多媒体流(例如，由实现SAMS的至少一个媒体服务器计算机实现的)包括优化一个或多个接收客户端设备的带宽和计算资源利用率。调整传出多媒体流还包括调整时间或缩小媒体的时间特征、空间特征，质量和颜色特征，来优化至每个接收客户端设备的传出数据流的转发。[0019]本申请的另一方面，提供了一种空间感知的多媒体少一个媒体服务器计算机的存储器中提供实现客户端设备的数据交换管理模块的数据和指令，该模块在多个客户端设备之间管理数据交换；至少一个媒体服务器计算机接收传入数据，所述传入数据包括来自多个客户端的传入多媒体流，其中，所述传入数据和用户优先级数据和空间取向数据相关联。例如，所述空间取向数据可以描述如，对应用户图形表示和所述传入多媒体流的一个或多个源之间的空间关系。随后在该方法中，所述数据交换管理模块执行数据交换管理。在一个实施例中，所述数据交换管理包括：分析和/或处理来自多个客户端设备的所述传入数据，所述传入数据包括来自所述虚拟环境内的图形元素；并且基于从所述多个客户端设备接收的传入数据，调整传出多媒体流。最终在该方法中，将经过调整的传出多媒体流转发至一个或多个接收客户端设备，其中所述经过调整的传出多媒体流用于在接收客户端设备处显示(如，显示给利用用户图形表示来表示的用户)。[0020]在一些实施例中，该方法还包括：当转发传出多媒体流时，优化路由拓扑、或媒体处理拓扑、或转发服务器拓扑、或者其它合适的多媒体服务器路由拓扑、或媒体处理和转发服务器拓扑、或其它合适的服务器拓扑。[0021]在一些实施例中，在路由拓扑中，上述至少一个媒体服务器计算机使用选择性转它多媒体服务器路由拓扑。[0022]在一些实施例中，在媒体处理拓扑中，上述至少一个媒体服务器计算机用于在传7[0023]在一些实施例中，该方法还包括：当利用转发路由器拓扑时，利用多点控制单元关系(如，对应用户图形表示和传入多媒体的流之间的距离关系或者其它空间关系)相关的每个客户端设备的传入数据。在该实施例中，该方法还包括：基于上述数据确定用户优先级和/或空间关系。上述传入数据包括以下一项或多项：元数据、优先像数据或基于可分级视频编解码器的视频，或其组合。[0025]在一些实施例中，调整传出多媒体流(例如，由至少一个实现SAMS的媒体服务器计算机实现)包括优化一个或多个接收客户端设备的带宽和计算资源利用率。调整传出多媒体流还包括调整时间特征、空间特征、质量或颜色特征，或其组合。在进一步的实施例中，收客户端设备的传出数据流的转发。[0026]本申请的另一方面，计算机可读介质上存储有指令，用于使一个或多个计算设备执行这里描述的任何技术。在一个实施例中，至少一个计算机可读介质上存储有指令，用于使至少一个媒体服务器计算机执行以下步骤，所述至少一个媒体服务器计算机包括处理器和存储器：所述至少一个媒体服务器计算机接收传入数据，所述传入数据包括来自多个客户端设备的传入多媒体流，其中，所述传入数据和空间取向数据相关联，所述空间取向数据描述至少一个虚拟环境的一个或多个用户图形表示和至少一个元素之间的空间关系；分析来自所述多个客户端设备的所述传入数据；基于从所述多个客户端设备接收的传入数据，调整传出多媒体流；将经过调整的传出多媒体流转发至接收客户端设备，其中，所述经过调整的传出多媒体流被配置为在接收客户端显示。[0027]上述总结不包括本申请所有方面的详细列表。本申请包括所有的系统和方法，这些方法和系统可从上述概括的各个方面，以及在下述具体实施方式中公开的，特别是随本申请递交的权利要求中提出的所有合适组合来实践。这些组合具有以上总结中未具体列举的优点。本申请的其他特征和优点在附图和以下的具体实施方式中显而易见。附图说明[0028]关于下方的实施方式和附图将更好地理解本申请中的具体特征、方面和优点，其[0029]图1为常规的选择性转发单元(SelectiveForwardingUnit,SFU)路由拓扑的示[0030]图2为根据实施例的空间感知多媒体路由器系统的示意图。[0031]图3为根据实施例的用于SAMS的包括至少一个媒体服务器计算机的系统的示意[0033]图4B为根据实施例的来自采用本申请的SAMS的虚拟环境内的讲话用户的传出媒8体流的转发的示意图。[0034]图5A-5B为根据实施例的使用场景的示意图，其中SAMS组合了多个客户端设备的媒体流。[0035]图6为根据实施例本申请的空间感知多媒体路由器方法的框图。具体实施方式[0036]在下面的实施方式中，参考附图阐述了各实施例。此外，通过下方几个示例描述了多个实施例。应当被理解的是，这些实施例在不脱离要求保护的主题的范围下可以包括设计和结构上的改变。[0037]本申请提供了一种空间感知多媒体路由器系统和方法，用于接收来自多个客户端设备的输入数据，并对该输入数据进行数据交换管理。该输入数据在虚拟环境中接收和组合，该虚拟环境包括多个虚拟元素和客户端设备的对应用户的至少一个图形表示。该虚拟和服务等。数据交换管理包括分析和处理传入数据，这些传入数据至少包括来自客户端设备的多媒体流(如，2D视频流、3D视频流、音频流或这些流或其他媒体流的组合),还包括基于从多个客户端设备接收的传入数据来评估和优化传出多媒体流的转发，该传入数据包括来自至少一个虚拟环境内的元素。该传入数据与用户优先级数据以及对应用户图形表示和传入多媒体流之间的空间关系相关联。因此，本申请的系统和方法使得从客户端设备接收的多媒体流的路由能够在虚拟环境内发生，同时，优化输入数据和传出多媒体流的转发，以执行接收客户端设备的最优选择，同时保证带宽和计算资源的效率。这些效率可以使本申请的空间感知多媒体路由器系统和方法成为处理多用户视频会议的可行且有效的选择，该多用户视频会议包括访问虚拟环境的大量(如，几百或几千)用户。[0038]图1显示了常规的选择性转发单元(SelectiveForwardingUnit,SFU)路由拓扑100示意图。[0039]该示例常规的SFU路由拓扑100包括至少一个媒体服务器计算机102,其具有至少一个处理器104和存储器106,存储器106存储实现SFU108的计算机程序，SFU108用于在实时视频应用中提供视频转发。多个客户端设备110可以通过SFU108实时通信，其中SFU108基于一个或多个参数将传出媒体流转发至客户端设备110,该传出媒体流包括实时传输协议(Real-timeTransport备A的实时通信中的当前发言者。客户端设备B向客户端设备A发送两个或更多个媒体流，其中，例如，一个媒体流以高分辨率(B)112发送，一个媒体流以低分辨率(B)114发送。此外在该示例中，客户端设备A也向客户端设备B发送两个或的媒体流和低分辨率(A)118的媒体流。客户端设备B从客户端设备A接收低分辨率(A)118媒体流，因客户端设备A可以被被动用户使用，该被动用户当时只收听客户另一方面，客户端设备A可以从客户端设备B接收高分辨率(B)112媒体流，因客户端设备B的用户可以是当前正在说话的主动用户。至少一个媒体服务器计算机102和两个或更多个客户端设备110通过网络连接，网络例如是一个或多个有线或无线通信网络(例如，局域网9[0042]空间感知多媒体路由器系统200包括至少一个媒体服务器计算机202,其具有至少一个处理器204和存储器206,存储器206存储有实现数据交换管理模块208的指令，该数据交换管理模块208通过网络212管理与至少一个媒体服务器计算机202连接的客户端设备算机202的至少一个虚拟环境服务器220,以访问多个客户端设备210的用户216在虚拟环境[0043]至少一个媒体服务器计算机202是服务器计算机设备，其包括执行本文公开的技位置可以包括多个传感器，通过该虚拟环境214向该真实世界位置的虚拟副本提供真实世器202可以利用该捕获数据来更新、扩充和同步在至少一个虚拟环境中的真实世界元素的[0046]在一个实施例中，至少一个虚拟环境214托管在至少一个虚拟环境服务器计算机少一个虚拟环境214托管于点对点(Peer-to-Peer,P2P)基础设施中，并通过至少一个媒体[0047]至少一个虚拟环境214的布置可以与一个或多个主题相关联，例如用于会议(轮、视频游戏等)和服务(如，酒店、旅行社或餐厅预订或订餐、政府机和/或不同主题的虚拟环境214的组合可以形成虚拟环境集群，其包括成百或者甚至上千个虚拟环境(如，多个虚拟教室是虚拟学校的一部分)。虚拟环境214可以是2D或3D虚拟环境，包括与该虚拟环境214的主题相关联的物理布置或者视觉外观，这些可以由用户根据自身的喜好或者需求进行定制。该用户可以通过图形表示来访问该虚拟环境214,可将该图形表示插入到该虚拟环境214中，并以图形方式与二维或者三维虚拟环境214组合。[0048]至少一个虚拟环境服务器计算机220或者P2P基础设施可向每个虚拟环境214提供相应的资源(如，存储器、网络和计算能力)。一个或多个用户216可经由客户端设备210通过图形用户界面访问至少一个虚拟环境214。该图形用户界面可包含在可下载的客户端应用或者网页浏览应用中，其使用，如WebRTC标准，提供执行选中的虚拟环境214所需的应用数据和指令，并在其中实现多种交互。此外，每个虚拟环境214可以包括一个或多个人类或人工智能(AI)主机或助理，其可以通过它们对应的用户图形表示提供所需的数据和/或服务，来帮助虚拟环境214内的用户。例如，人工或AI银行服务人员可以根据用户的要求，通过以演示、表格、列表等形式提供所需信息来帮助虚拟银行的用户。[0049]在一些实施例中，用户图形表示是用户3D虚拟剪切(Cutout),其可以由一个或多个输入图像构成，例如用户上传的或第三方来源的去除背景的照片；或去除背景的用户实时3D虚拟剪切，这些是基于输入数据生成的，输入数据例如是实时2D、立体或深度图像或视频数据，或从相机获得的实时视频流数据馈送中的3D视频数据，包括用户的实时视频流，或未去除背景的视频，或去除背景的视频。在一些实施例中，可以利用多边形结构来渲染和显示该用户图形表示。这种多边形结构可以是四边形结构或更复杂的3D结构，该结构用作支持视频的虚拟框架。在其他实施例中，将一个或多个用户图形表示插入到虚拟环境214内的三维坐标中并且在其中以图形方式组合。[0050]在本申请中，术语片构建的用户虚拟副本。使用用户上传的或第三方来源的2D照片作为输入数据，生成去除背景的用户的3D网格或3D点云，通过机器视觉技术经由3D虚拟重建过程来创建该用户3D虚播视频流数据馈送、并将用户背景去除后，得到的用户虚拟副本。使用用户实时数据馈送作为输入数据，通过生成去除背景的用户的3D网格或3D点云，通过机器视觉技术经由3D虚拟重建过程来创建该用户实时3D虚拟剪切。在本申请中，术语“去除背景的视频”指的是流式传输到客户端设备的视频，其中，已经对该视频执行背景去除过程，以使得只有该用户是可见的，然后利用多边形结构在接收客户端设备上显示该用户。在本申请中，“未去除背景的视频”指的是流式传输到客户端设备的视频，其中该视频如实地代表相机捕获，以使得用户及其背景是可见的，然后利用多边形结构在接收客户端设备上显示该用户及其背景。[0051]P2P基础设施可使用合适的P2P通信协议，通过合适的应用编程接口(API)使虚拟环境214中的客户端设备210之间实现实时通信，从而实现实时交互和同步。该合适的P2P通信协议的示例为WebRTC通信协议，其是标准可实现对等客户端设备210之间的P2P音频、视频和数据共享。使用P2P基础设施的客户端设11备210使用例如，一个或多个渲染引擎来执行实时会话的实时3D渲染。示例性的渲染引擎可以为基于WebGL的3D引擎，WebGL是JavaScriptAPI,用于在不使用插件的情况下，在任意兼容的网络浏览器中渲染2D和3D图形，从而通过至少一个客户端设备210的一个或多个处理器(如，一个或多个图形处理单元(GPU)),允许物理和图像处理的加速使用和效果。此外，使用P2P基础设施的客户端设备210可通过一个或多个合适的计算机视觉库，来执行图像和视频处理以及机器学习计算机视觉技术。合适的计算机视觉库的示例为OpenCV,它是主要用于实时计算机视觉任务的编程函数库。[0052]在一些实施例中，至少一个媒体服务器计算机202使用路由拓扑。在另一实施例中，至少一个媒体服务器计算机202使用媒体处理拓扑。在另一实施例中，至少一个媒体服务器计算机202使用转发服务器拓扑。在另一实施例中，至少一个媒体服务器计算机202使用其它合适的多媒体服务器路由拓扑，或者媒体处理和转发服务器拓扑，或其它合适的服务器拓扑。至少一个媒体服务器计算机202使用的拓扑可以取决于客户端设备和/或至少一个媒体处理器计算机的处理能力，也取决于所使用的网络基础设施的能力。[0053]在一些实施例中，在媒体处理拓扑中，至少一个媒体服务器计算机202用于对传入计算机202不仅用于路由和转发传入数据，而且还用于执行多个媒体处理操作，这些操作可以增强或以其它方式修改至客户端设备210的传出多媒体流。[0054]在一些实施例中，在转发服务器拓扑中，至少一个媒体服务器计算机202用作于多202用于从客户端设备接收所有多媒体流，并且将所有媒体流解码并组合成一个流，该流被重新编码并发送至所有客户端设备210。作为云媒体混合器，至少一个媒体服务器计算机202用于在例如来自多个客户端设备210和至少一个虚拟环境214的不同的多媒体源(例如，音频和视频)之间进行选择，并且用于混合输入数据多媒体流以及添加素材和/或特殊效果，以便为客户端设备210创建经过处理的输出多媒体流。视觉效果的范围可以例如从简单的混合和擦除到复杂的效果。作为云3D渲染器，至少一个媒体服务器计算机202用于通过大量计算机计算从虚拟环境中计算3D场景，以生成最终的动画多媒体流，其被发回至客户端设备210。[0055]在路由拓扑中，至少一个媒体服务器计算机202用于决定将多媒体流发送至何处(例如，一个或多个客户端设备210中的哪一个),这可以通过互联网协议(IP)路由表来执行，以选择最佳路由的接口。在该路由表中的这样的路由决定是基于存储在数据交换管理模块208中的规则，这些规则考虑了优先级数据以及对应用户图形表示与传入多媒体流之间的空间关系，从而进行接收客户端设备210的最优选择。在一些实施例中，作为路由拓扑，至少一个媒体服务器计算机使用选择性转发单元(SFU)拓扑、或使用中继NAT穿透(TraversalUsingRelayNAT,TURN)拓扑，或空间分析媒体服务器拓扑(SAMS),或其它一些多媒体服务器路由拓扑。[0056]如图1所示，SFU用于WebRTC视频会议标准音通话、视频聊天、P2P文件共享应用，同时无需插件来连接视频通信端点。SF序，其用于将视频流中的视频数据包路由和转发到多个参与者设备，而无需执行密集的媒体处理操作，如解码、重新编码、从客户端设备接收所有编码的媒体流、以及然后为了解码和呈现将上述流选择性地转发至各自的参与者。[0057]适用于至少一个媒体服务器计算机202不能在客户端设备210之间建立连接时的多种情形的TURN拓扑，是NAT会话穿透工具(SessionTraversalUtilitiesfor过在数据包通过流量路由设备传输时修改数据包IP标头中的网络地址信息，将互联网协议(IP)地址空间重新映射到另一个地址空间的方法。因此，NAT可以给出访问网络(如互联网)是对称的或非对称的。被称为交互式连接建立(InteractiveConnectivityEstablishment,ICE)的框架可确定是否需要对称或非对称NAT,该框架用于找到连接客户端设备的最佳路径。对称NAT不仅负责将IP地址从私有地址转换为公共地址，或者将公共地址转换为私有地址，而且还负责转换端口。另一方面，非对称NAT使用STUN服务器来使得客户端发现它们的公共IP地址和它们背后的NAT类型，这可用于建立连接。在许多情况下，可仅在连接建立期间使用STUN,一旦该会话建立，数据可在客户端设备之间开始流动。在对称NAT的情形下可以使用TURN,并且当在客户端设备之间正中继经过处理的和/或未经处理的数据的同时，TURN在连接建立之后保留在媒体路径中。[0058]图3示出了根据实施例的系统300的示意图，该系统包括至少一个媒体服务器计算机，其用作于SAMS302。图3中的某些元素指的是图2中相似的元素，因此使用了相同的附图标记。[0059]SAMS302用于分析和处理每个客户端设备的传入数据304。在一些实施例中，传入数据304可以和用户优先级、以及虚拟环境中的对应用户图形表示和多媒体流之间的距离关系相关。传入数据302包括以下数据中的一个或多个：元数据30310、空间结构数据312、场景图(未示出)、包含位置、取向或运动数据的三维数据314、用户可用性状态数据(如，主动或被动状态)316、图像数据318、媒体320和基于可分级视频编解码器(ScalableVideoCodec,SVC)的视频数据322,或其组合。该基于SVC的视频数据322可使客户端设备发送数据，该数据包含不同的分辨率，而无需发送两个或者更多个流，每个分辨率一个流。[0060]传入数据304由客户端设备发送，通过在虚拟环境中执行的客户端设备正在运行的应用的情境中，客户端设备生成传入数据304,SAMS302使用该传入数据304来执行传入数据操作324和数据转发优化326。因此，SAMS302可以无需存储与虚拟环境相关的信息、用户图形表示之间的距离关系、可用性状态等，因为关于在虚拟环境中运行的应用，这些数据已经包括在客户端发送的传入数据中，从而为SAMS302产生处理效率。因为SAMS302可在将多媒体流发送到客户端设备之前将其资源仅集中在数据操作、路由和转发上，所以该效率可以使SAMS302成为处理多用户视频会议的可行且有效的选择，该会议包括大量(例如，数百或数千)访问虚拟环境的用户。可选地，该传入数据304可以包括预处理的空间转发指导，其中已经执行了数据转发运算。在这种情形下，SAMS302可以仅使用该指导来向客户端设备发送多媒体流，而不执行额外的运算。[0061]在一些实施例中，由实现SAMS的至少一个媒体服务器计算机实现的传入数据操作纵、编码、或组合。取决于优先级、以及具有多媒体流的源的用户图形表示和其余用户图形表示之间的空间关系(如，距离关系),可在每个客户端实例中执行这些传入数据操作326。[0062]在一些实施例中，由实现SAMS的至少一个媒体服务器计算机实现的数据转发优化326包括，优化一个或多个接收客户端设备的带宽和计算资源利用率。在进一步的实施例接收客户端设备的传出数据流的转发。修改、放大或缩小针对时间特征的输入数据包括，如改变帧速率；空间特征可以指的是，如图像尺寸；质量指的是，如不同的基于压缩或编码的质量；颜色特征指的是，如颜色分辨率和范围。基于与上述传入数据相关的特定接收客户端用户的空间、三维取向、距离和优先级关系，可执行上述操作，这些操作有助于优化带宽和计算资源。[0063]优先级数据与例如，发言者或者听众状态数据相关，其中，与听众的多媒体流相比，来自发言者的一个或多个多媒体流具有更高的优先级分数。空间关系包括，相对于虚拟多媒体流的源和其余用户图形表示，将用户图形表示的距离和取向之间直接关联起来。因此，该空间关系关联了为用户图形表示提供较高分辨率或增强程度较高的多媒体流和为用户图形表示提供较低分辨率或增强程度较低的多媒体流，前者更接近和面向虚拟多媒体流的源，后者更远离和部分面向或不面向该虚拟多媒体流的源。两者之间的任意组合也能适用，比如，以与多媒体流的源的任意程度的面部和头部方向、任意距离，用户图形表示部分面向该多媒体流的源，这对用户接收的多媒体流的质量具有直接影响。[0064]多媒体流的源可以是，例如，在虚拟环境中发生的虚虚拟环境中参与辩论或会议的一组发言者、网络研讨会、娱乐活动、表演等，其中至少一个位于虚拟环境内收听该发言者。一些用户面向、部分面向或不面向发言者，影响每个用户的优先级，从而影响接收到的多媒体流的质量。然而，在其它实施例中，多媒体流可能不是来自其他用户图形表示，而是来自其他多媒体源，例如虚拟动画、增强现实虚拟对象、来自事件或地点的预先录制的或直播视频、应用图形表示、视频游戏等，其中，基于与多媒体流相关的特定接收客户端设备用户的空间、三维取向、距离和优先级关系，来执行数据操作。[0065]图4A示出了实施例中的虚拟环境400的示意图，其采用了本申请的SAMS拓扑。[0066]虚拟环境400包括五个用户图形表示402,即用户图形表示A-E,其中用户图形表示A代表发言者，而用户图形表示B-E代表四个听众，它们每个都位于虚拟环境400的不同3D坐个用户图形表示402与通过客户端设备在虚拟环境404中交互的对应用户相关，该客户端设备连接到虚拟环境404和使用本申请的SAMS拓扑的至少一个媒体服务器，该SAMS拓扑例如[0067]当用户图形表示A在说话时，用户图形表示B-E以各自的取向(例如，相同或不同的于最靠近用户图形表示A的位置，并直接看着用户图形表示A;用户图形表示C位于比用户图形表示B稍远的位置，并且部分地看向用户图形表示A的方向；用户图形表示D位于离用户图形表示A最远的位置，部分地看向用户图形表示A的方向；并且用户图形表示E与用户图形表示B一样接近用户图形表示A,但是看向与用户图形表示A不同的方向。[0069]图4B示出了根据实施例的将从五个用户图形表示传出的经调整的媒体流的转发据，评估和优化传出多媒体流，该传入数据包括来自图4A的至少一个虚拟环境404中的元[0070]每个客户端设备408将它们自己的输入数据发送到SAMS402,并相应地接收其他有高优先级数据的传入媒体流发送到SAMS402,并从对应的四个客户端设备408接收四个[0071]由于用户图形表示B最靠近用户图形表示A并且直接看向用户图形表示A,因此与E,并发送自己对应的多媒体流B,客户端设备B接收的每个多媒体流C-E的分辨率是基于其多媒体流B-E,并且发送自己对应的多媒体流B,客户端设备C接收的每个多媒体流B-E的分[0074]由于用户图形表示E与用户图形表示B一样接近用户图形表示A,并看向与用户图流B-D,并且发送自己对应的多媒体流E,客户端设备E接收的每个多媒体流B-D的分辨率是微偏离地看向用户图形表示A,但是客户端设备E也能接收到和客户端设备B相同分辨率的会突然转动其在虚拟世界404中的视角，以看向用户图形表示A,并且如果没有来自用户图[0075]从说明书可以理解的是，对于与其它用户图形表示的多媒体流的对应用户图形表示空间、三维取向、距离和优先级关系，每个用户图形表示402从其余四个用户图形表示402接收的各个多媒体流也被单独管理和优化。因此，如果各个多媒体流与对应客户端设备408相关，则客户端设备408中的每一个从其余四个客户端设备接收单独的多媒体流。[0076]在一些实施例中，如果用户图形表示402距离多媒体源，例如如图4A所述的用户A,太远，SAMS406可将用户图形表示402从多个媒体源接收的多媒体流中抽出。如果相应配置了SAMS406,这可适用于如用户图形表示D。[0077]在一些实施例中，多媒体流可能不是来自其他用户图形表示，而是来自其他多媒体源，例如虚拟动画、增强现实虚拟对象、来自事件或地点的预先录制的或直播视频、应用多媒体流的源的多媒体流与对应用户图形表示之间的空间、三维取向、距离和优先级关系，来单独管理优化多媒体流。在其它实施例中，多媒体流来自于用户图形表示和其它多媒体源的组合。[0078]图5A-5B示出了根据实施例的SAMS组合多个客户端设备的媒体流的示意图。在SAMS可以用于组合多个客户端设备的媒体流的实施例中，SAMS以马赛克的形式组合流。该马赛克可以为虚拟帧，其包括单独的虚拟瓦片，其中用户图形表示的各个多媒体流被流式传输。根据客户端设备的用户图形表示与多媒体流的源及其余用户图形表示之间的距离关系，该马赛克可以根据每个客户端进行调整。[0079]在图5A中，七个用户图形表示502在虚拟环境504内交互，其中用户图形表示A是发言者，而其余的用户图形表示B-G正在收听用户图形表示A。用户图形表示G和F相对接近于用户图形表示A;用户图形表示E和F位于离用户图形表示A相对较远的位置；并且用户图形表示D和C位于离用户图形表示A最远的位置。[0080]图5B示出了马赛克506形式的组合多媒体流，马赛克506包括单独的虚拟瓦片508,即虚拟瓦片A-F,从用户图形表示G的视角来看，从虚拟环境504中的对应用户图形表示502中流式传输每个单独的多媒体流。从用户图形表示G的视角来看，因为用户图形表示A因其图形表示G和用户图形表示F也很接近，所以虚拟瓦片F第二大，具有第二高的分辨率；用户图形表示B-E同等小，并且彼此之间具有相同或相近的较低的分辨率。在一些实施例中，SAMS406向所有客户端设备发送相同的马赛克506,这些客户端通过切除不必要的瓦片来继续，不必要的瓦片

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）

文档简介

温馨提示

最新文档

评论

CN114205548B 空间感知的多媒体路由器系统与方法 （明日基金知识产权有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN114205548B 空间感知的多媒体路由器系统与方法（明日基金知识产权有限公司）