CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）

上传人：a*** IP属地：重庆上传时间：2025-09-03 格式：DOCX 页数：74 大小：1.21MB 积分：10.8 举报 版权申诉

CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）_第2页

CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）_第3页

CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）_第4页

CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）_第5页

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(12)发明专利62/783,8872018.12.21USPCT/US2019/0680742019WO2020/132580EN2020.地址美国加利福尼亚州HO4R5/02(HO4W4/02(2018.01)HO4W4/40(2018.01)HO4W76/10(2018.01)来自右前方的音频，听起来好像来自右前方151所选车辆扬声器听起来好像来自左后方音频引擎跟踪器和与第一设备外部的至少一个目标对象相关联可以被配置为响应于设备外部的至少一个目标或多个处理器可以被配置为基于第一设备外部21.一种能够与第二设备通信的第一设备，所述第一设备包括：检测所述第一设备外部的至少一个目标对象的选择；启动在所述第一设备和与所述第一设备外部的所述至少一个目标对象相关联的第二设备之间通信的信道；响应于所述第一设备外部的所述至少一个目标对象的选择，从所述第二设备接收音频解码从所述第二设备接收的所述音频分组，以产生音频信号；基于所述第一设备外部的所述至少一个目标对象的所述选择，对所述音频信号应用空间化效果；输出具有所述空间化效果的所述音频信号；在所述第二设备远离所述第一设备超过可配置距离之后，禁用对所述音频信号的输出的空间化效果；继续接收所述音频分组并解码从所述第二设备接收的所述音频分组，以产生所述音频输出不具有所述空间化效果的音频信号；以及耦合到所述一个或多个处理器的存储器，被配置为在应用所述空间化效果之前和之后存储所述音频分组，其中，对所述音频信号应用空间化效果包括基于所述第二设备相对于所述第一设备的距离和角度来重建所述音频信号的声场，以提供给所述第一设备的扬声器，并且其中，所述第二设备相对于所述第一设备的距离和角度是通过以下方式获得的：以视频帧率从所述视频帧的边界框估计所述第二设备相对于所述第一设备的距离和对所述距离和角度进行内插以匹配所述音频信号的音频帧率。2.如权利要求1所述的第一设备，其中所述至少一个目标对象相对于所述第一设备的表示基于图像的特征、所述图像、或所述图像和所述图像的特征两者，其中所述图像由耦合到所述第一设备的一个或多个相机捕获。3.如权利要求1所述的第一设备，还包括耦合到所述一个或多个处理器的一个或多个发送器天线，其被配置为由所述一个或多个处理器向所述第二设备发送在所述第一设备和与所述第一设备外部的所述至少一个目标对象相关联的所述第二设备之间的通信的信道的通信数据。4.如权利要求1所述的第一设备，还包括耦合到所述一个或多个处理器的一个或多个接收天线，其被配置为基于在所述第一设备外部的所述至少一个目标对象与所述第一设备之间通信的信道的结果，接收所述音频分组。5.如权利要求1所述的第一设备，其中，所述至少一个目标对象的所述选择基于命令信号的检测，所述命令信号基于关键词检测。6.如权利要求1所述的第一设备，还包括显示设备，其被配置为表示所述第一设备外部3的所述至少一个目标对象，并且其中，所述第一设备外部的所述至少一个目标对象的选择基于所述显示设备上的电容传感器或超声波传感器改变状态。7.如权利要求1所述的第一设备，其中，所述至少一个目标对象的选择基于命令信号的检测，所述命令信号检测基于眼睛凝视检测。8.如权利要求1所述的第一设备，其中，所述第二设备的相对位置在显示设备上被表示为所述第二设备的图像。9.如权利要求1所述的第一设备，其中，音频信号的所述输出是三维空间化音频信号。10.如权利要求9所述的第一设备，还包括显示设备，其被配置为表示所述第二设备的相对位置，并且其中，所述三维空间化音频信号的所述输出基于在所述显示设备上所述第二设备的所述相对位置表示在何处。11.如权利要求9所述的第一设备，还包括耦合到所述一个或多个处理器的全球定位卫星GPS接收器，其被配置为帮助所述第一设备执行辅助GPS以确定所述第二设备的相对位置，并且其中，所述第一设备外部的所述至少一个目标对象的所述选择的所述三维空间化音频信号的所述输出基于所述辅助GPS。12.如权利要求9所述的第一设备，还包括耦合到所述一个或多个处理器的一个或多个传感器，其被配置为帮助估计所述第二设备的相对位置。13.如权利要求9所述的第一设备，其中，所述一个或多个处理器被配置为，与相对于所述第二设备的第二位置相比，当所述第二设备位于相对于所述第一设备的第一位置时，以不同的空间分辨率输出所述三维空间化音频信号。14.如权利要求9所述的第一设备，其中，所述一个或多个处理器被配置为，基于所述第一设备外部的所述至少一个目标对象的跟踪，接收所述第一设备外部的所述至少一个目标对象的相对位置的更新的估计，并且其中，所述一个或多个处理器被配置为，基于所述第一设备外部的所述至少一个目标对象的更新的估计相对位置来输出所述三维空间化音频信号。15.如权利要求14所述的第一设备，还包括耦合到所述一个或多个处理器的两个或多个扬声器，其被配置为基于所述至少一个目标对象的更新的估计相对位置来呈现所述三维空间化音频信号。16.如权利要求1所述的第一设备，其中，所述第一设备是第一车辆。17.如权利要求1所述的第一设备，其中所述目标对象中的一个是第二车辆，并且其中，在所述至少一个目标对象中的多个目标对象包括在所述第一设备外部的多个车辆。18.如权利要求16所述的第一设备，其中，在所述第一车辆中的所述一个或多个处理器被配置为，从多个车辆中的每一个接收在各自的通信信道中的所述音频分组，并且所述多个车辆中的每一个是第二车辆。19.如权利要求18所述的第一设备，其中，所述音频分组表示由所述第二车辆的每个车辆中的至少一个人说的语音。20.如权利要求19所述的第一设备，其中，所述一个或多个处理器被配置为认证所述第二车辆中的每个人或每个车辆，以促进在所述第二车辆中的至少一个人和所述第一车辆中的人之间的可信多方对话。21.如权利要求20所述的第一设备，其中，所述可配置距离是距离测量或时间测量。422.一种包含第一设备与第二设备通信的方法，所述方法包含：检测第一设备外部的至少一个目标对象的选择；启动在所述第一设备和与所述第一设备外部的所述至少一个目标对象相关联的第二设备之间通信的信道；响应于所述第一设备外部的至少一个目标对象的选择，从所述第二设备接收音频分解码从所述第二设备接收的所述音频分组，以产生音频信号；基于所述第一设备外部的所述至少一个目标对象的所述选择，对所述音频信号应用空间化效果；输出具有所述空间化效果的所述音频信号；在所述第二设备远离所述第一设备超过可配置距离之后，禁用对所述音频信号的输出的空间化效果；继续接收所述音频分组并解码从所述第二设备接收的所述音频分组，以产生所述音频输出不具有所述空间化效果的音频信号，其中，对所述音频信号应用空间化效果包括基于所述第二设备相对于所述第一设备的距离和角度来重建所述音频信号的声场，以提供给所述第一设备的扬声器，并且其中，所述第二设备相对于所述第一设备的距离和角度是通过以下方式获得的：利用耦合到所述第一设备的一个或多个相机捕获包括所述至少一个目标对象的视频以视频帧率从所述视频帧的边界框估计所述第二设备相对于所述第一设备的距离和对所述距离和角度进行内插以匹配所述音频信号的音频帧率。23.如权利要求22所述的方法，其中，所述可配置距离是距离测量或时间测量。24.如权利要求22所述的方法，其中，所述至少一个目标对象相对于所述第一设备的表示基于图像的特征、所述图像、或所述图像和所述图像的特征两者。25.如权利要求22所述的方法，其中，所述至少一个目标对象的所述选择基于命令信号的检测，所述命令信号基于关键词检测。26.一种用于第一设备与第二设备通信的装置，包含：用于检测第一设备外部的至少一个目标对象的选择的部件；用于启动在所述第一设备和与所述第一设备外部的所述至少一个目标对象相关联的第二设备之间通信的信道的部件；用于响应于所述第一设备外部的至少一个目标对象的选择从所述第二设备接收音频分组的部件；用于解码从所述第二设备接收的所述音频分组以产生音频信号的部件；用于基于所述第一设备外部的所述至少一个目标对象的所述选择，对所述音频信号应用空间化效果的部件；用于输出具有所述空间化效果的所述音频信号的部件；用于在所述第二设备远离所述第一设备超过可配置距离之后，禁用对所述音频信号的5输出的空间化效果的部件；用于继续接收所述音频分组并解码从所述第二设备接收的所述音频分组，以产生所述用于输出不具有所述空间化效果的音频信号的部件，其中，对所述音频信号应用空间化效果的部件包括用于基于所述第二设备相对于所述第一设备的距离和角度来重建所述音频信号的声场，以提供给所述第一设备的扬声器的部所述装置还包括：用于利用耦合到所述第一设备的一个或多个相机捕获包括所述至少一个目标对象的视频帧的部件；用于以视频帧率从所述视频帧的边界框估计所述第二设备相对于所述第一设备的距用于对所述距离和角度进行内插以匹配所述音频信号的音频帧率的部件。27.一种存储计算机可执行代码的非暂时性计算机可读介质，所述代码由一个或多个处理器执行以：检测第一设备外部的至少一个目标对象的选择；启动在所述第一设备和与所述第一设备外部的所述至少一个目标对象相关联的第二设备之间通信的信道；响应于所述第一设备外部的至少一个目标对象的所述选择，从所述第二设备接收音频解码从所述第二设备接收的所述音频分组，以产生音频信号；基于所述第一设备外部的所述至少一个目标对象的所述选择，对所述音频信号应用空间化效果；输出具有所述空间化效果的所述音频信号；在所述第二设备远离所述第一设备超过可配置距离之后，禁用对所述音频信号的输出的空间化效果；继续接收所述音频分组并解码从所述第二设备接收的所述音频分组，以产生所述音频输出不具有所述空间化效果的音频信号，其中，对所述音频信号应用空间化效果包括基于所述第二设备相对于所述第一设备的距离和角度来重建所述音频信号的声场，以提供给所述第一设备的扬声器，并且其中，所述第二设备相对于所述第一设备的距离和角度是通过以下方式获得的：以视频帧率从所述视频帧的边界框估计所述第二设备相对于所述第一设备的距离和对所述距离和角度进行内插以匹配所述音频信号的音频帧率。6[0001]根据35U.S.C.§119的优先权要求[0002]本专利申请要求于2019年12月19日提交的名称为“RENDERINGOFSOUNDS16/720,639、以及于2018年12月21日提交的名称为“RENDERINGOFSOUNDWITHSELECTEDTARGETOBJECTSEXTERNALTOADEVICE”的临时申请号为62/783,887的优先权，这些申请被转让给本申请的受让人，并且在此通过引用明确地并入本文。技术领域[0003]本申请涉及呈现与第一设备外部的所选目标对象相关联的声音。背景技术[0004]下文总体上涉及无线通信，并且更具体地涉及车联网控制信道设计。[0005]无线通信系统被广泛部署以提供各种类型的通信内容，诸如语音、视频、分组数与多个用户的通信。这种多址系统的示例包括码分多址(CDMA)系统、时分多址(TDMA)系统、线电(NR)系统。[0006]无线多址通信系统可以包括多个基站或网络接入节点，每个基站或网络接入节点同时支持用于多个通信设备的通信，这些通信设备可另外被称为用户设备(UE)。另外，无线通信系统可以包括支持用于基于通信的车辆的网络。例如，车辆到车辆(V2V)和车辆到基础设施(V2I)通信是能够使车辆与其周围环境之间交换数据的无线技术。V2V和V2I共同称为[0007]5G汽车协会(5GAA)已经推广了C-V2X。C-V2X最初在LTE版本14中定义，并且被设计为以多种模式操作：(a)设备到设备(V2V);(b)设备到小区塔(V2I);以及(c)设备到网络功能被扩展以支持5G空中接口标准。C-V2X中的PC5接口允许车辆与其他设备之间的直接通[0008]基于车辆的通信网络可以提供始终在线的远程信息处理，在远程信息中，例如车经由网络)进行通信。基于车辆的通信网络可以通过提供智能连接来支持安全、始终连接的驾驶体验，在智能连接中交换交通信号/时序、实时交通和路线、对行人/骑自行车者的安全[0009]然而，支持基于车辆的通信的这种网络也可以与各种需求相关联，例如通信需求、安全和隐私需求等。其它示例需求可以包括但不限于，减少延迟的需求、更高可靠性的需求等。例如，基于车辆的通信可以包括传送可以支持自动驾驶汽车的传感器数据。传感器数据7还可以用在车辆之间来提高自动驾驶汽车的安全性。[0010]V2X和C-V2X允许出现多种应用，包括本公开中描述的应用。发明内容[0011]总体上，本公开描述了关于呈现与第一设备外部的所选目标对象相关联的声音的技术。在一个示例中，本公开描述了一种用于启动与第二设备通信的第一设备，该第一设备包括一个或多个处理器，该一个或多个处理器被配置为检测第一设备外部的至少一个目标对象的选择，启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。该一个或多个处理器可以被配置为响应于第一设备外部的至少一个目标对象的选择而从第二设备接收音频分组；解码从第二设备接收的音频分组以产生音频信号；并且基于第一设备外部的至少一个目标对象的选择来输出音频信号。第一设备可以还包括耦合到一个或多个处理器的存储器，其被配置为存储音频分组。[0012]在一个示例中，本公开描述了一种启动与第二设备通信的方法，该方法包括检测第一设备外部的至少一个目标对象的选择；启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道；响应于选择设备外部的至少一个目标对象，从第二设备接收音频分组。该方法还包括解码从第二设备接收的音频分组以产生音频信号；并且基于第一设备外部的至少一个目标对象的选择来输出音频信号。[0013]在一个示例中，本公开描述了一种装置，该装置包括用于检测第一设备外部的至少一个目标对象的选择的部件；以及用于启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道的部件。该装置还包括用于响应于选择设备外部的至少一个目标对象，从第二设备接收音频分组的部件。该装置可以还包括用于解码从第二设备接收的音频分组以产生音频信号的部件；以及用于基于第一设备外部的至少一个目标对象的选择来输出音频信号的部件。[0014]在一个示例中，本公开描述了一种装置，该装置包括用于检测第一设备外部的至少一个目标对象的选择的部件；以及用于启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道的部件。该装置还包括用于响应于设备外部的至少一个目标对象的选择，从第二设备接收音频分组的部件。该装置可以还包括用于解码从第二设备接收的音频分组以产生音频信号的部件；以及用于基于第一设备外部的至少一个目标对象的选择来输出音频信号的部件。[0015]在一个示例中，本公开描述了一种存储计算机可执行代码的非暂时性计算机可读介质，该代码可由一个或多个处理器执行以检测第一设备外部的至少一个目标对象的选择，并且启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。该代码在被执行时可致使一个或多个处理器响应于设备外部的至少一个目标对象的选择，从第二设备接收音频分组；解码从第二设备接收的音频分组以产生音频信号。该代码在被执行时可致使一个或多个处理器基于第一设备外部的至少一个目标对象的选择来输出音频信号。[0016]本公开的一个或多个示例的细节在附图和以下的描述中阐明。所述技术的各种方面的其它特征、目标及优点将从描述及附图及权利要求书明显得到。8附图说明[0017]图1a示出了第一设备基于另一设备的选择的检测与另一设备(例如，第二设备)进行通信的概念图。[0018]图1b示出了可以基于另一设备的选择的检测并且由跟踪器辅助来与另一设备(例如，第二设备)进行通信的第一设备的概念图，其中音频通信可以被空间化。[0019]图1c示出了根据本公开中描述的技术的发送和接收无线连接的不同车辆的概念[0020]图1d示出了使用车辆内的高速缓存服务器或车辆内的存储器发送和接收无线连接的不同车辆的概念图。[0021]图2示出了根据本公开中描述的技术的第一设备启动与第二设备的通信的过程的流程图。[0022]图3示出了根据本公开中描述的技术操作的、在第一车辆上或第一车辆中具有不同组件的第一车辆的概念图。[0023]图4a示出了根据本公开中描述的技术操作的、在第一设备上或中具有不同组件的第一设备的框图。[0024]图4b示出了根据本公开中描述的技术操作的、在第一设备上或中具有不同组件的第一设备的框图。[0025]图5示出了根据本公开中描述的技术将世界坐标变换到像素坐标的概念图。[0026]图6a示出了远程车辆/乘客(例如第二车辆)的距离和角度的估计的一个实施例的概念图。[0027]图6b示出了远程设备的x-y平面中的距离和角度的估计的概念图。[0028]图6c示出了远程设备的y-z平面中的距离和角度的估计的概念图。[0029]图7a示出了根据本公开中描述的技术的音频空间化器的实施例。[0030]图7b示出了根据本公开描述的技术的包括使用了解码器的音频空间化器的实施[0031]图8示出了在第一车辆和所选(远程)车辆中人员的位置可以在相同的坐标系中的实施例。具体实施方式[0032]某些无线通信系统可以使用来传送与高可靠性和低延迟相关联的数据。这种数据的一个非限制性示例包括C-V2X和V2X通信。例如，自动驾驶汽车可以依赖于无线通信。自动驾驶汽车可以包括一些传感器，例如，光检测和测距(LI相机等，这些是视线传感器。然而，C-V2X和V2X通信可以包括视线和非视线无线通信。当前C-V2X和V2X通信是使用非视线无线通信来处理接近公共交叉路口但不在彼此视线内的车辆之间的通信的示例。C-V2X和V2X通信可以用来在车辆之间共享传感器信息。这种和其他通信场景带来某些考虑。例如，对于特定位置或地理区域，可能有几个车辆感测到相同信息(例如障碍物或行人)。这带来了哪个车辆应该广播这样的信息(例如，传感器数据)、如何共享这样的信息(例如，哪个信道配置提供减少的延迟和改善的可靠性)等问题。[0033]C-V2X通信系统可以具有逻辑信道和传输信道。逻辑信道和传输信道可以使作第9一设备(例如，头戴式耳机或车辆)与基站或网络中的另一个中间节点之间的上行链路和下行链路数据传输的一部分。本领域普通技术人员可以认识到，逻辑信道可以包括不同类型如，车辆、移动设备或头戴式耳机)和网络(例如，网络基站中第一设备(例如，车辆、移动设备或头戴式耳机)不具有与网络的无线电资源控制连接时，可以使用xCCCH控制信道。xDCCH控制信道包括在第一设备和网络之间的控制信息，并且由具有与网络的无线电资源控制连接的第一设备使用。xDCCH也是双向的，即，控制信息可以由第一设备和网络发送和接收。[0034]通常，在上问提及的不同类型的控制信道中传达的一些信息比特可以提供数据信道(或资源)的位置的指示。由于数据可能跨越多个副载波(取决于所传送的数据量)并且控制信道的大小当前是固定的，因此这可以在控制信道与相应的数据信道之间引入时间/频率的瞬变或间隙。这产生了控制信道的未使用频率/时间资源。可能可以利用未使用频率/时间资源于在车辆之间或设备之间传送媒体的其他目的。还可能可以在V2X或C-V2X系统中创建新信道，具体地，用于在车辆之间或在设备之[0035]如上所述，车辆使用来自其他领域的许多进展来改善其安全性、信息娱乐系统和整体用户体验。[0036]例如，可以在车辆中使用结合传感器(例如RADAR、LIDAR或计算机视觉)的对象检测算法以在驾驶时执行对象检测。这些对象可以包括道路中的车道、停车标志、其他车辆或存在碰撞时协作V2X系统警告车辆或车辆驾驶员。由于V2X和C-V2X系统的许多改进尚未被设想。[0037]一个改进领域是在不同车辆中的人之间的通信。尽管一个车辆中的某个人可以与不同车辆中的另一个人通信，但是该通信是通过进行电话呼叫来完成的。电话呼叫的启动者知道要拨打什么电话号码以与其他人通信，然后拨打它。[0038]本公开设想以这样的方式改进，即设备基于使用直接信道通信或对等连接、V2X、或C-V2X通信系统启动发送给所选目标对象的目标对象选择，允许与其他人或其他设备进行通信或听觉体验。[0039]例如，用于与第二设备通信的第一设备可以包括一个或多个处理器，该一个或多个处理器被配置为检测第一设备外部的至少一个目标对象的选择，并且启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。是首先执行第一设备外部的至少一个目标对象的选择，还是启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道，可能不是重要的。它可以取决于这样的背景或情况，信道是否已经建立，以及通信信道的启动是否发生，或者通信信道的启动是否基于第一设备外部的至少一个目标对象的选择的检测。[0040]例如，在检测设备外部的至少一个目标对象的选择之前，可能已经建立了在第一设备和第二设备之间通信的信道。响应于该选择的检测来启动在第一设备和第二设备之间通信的信道。[0041]另外，在第一设备中的一个或多个处理器可被配置为从第二设备接收音频分组，作为第一设备外部的至少一个目标对象与第二设备之间通信的信道的结果。随后，在接收到音频分组之后，一个或多个处理器可以被配置为解码从第二设备接收的音频分组以产生音频信号；并且基于第一设备外部的至少一个目标对象的选择来输出音频信号。第一设备和第二设备可能可以是第一车辆和第二车辆。本公开具有说明车辆的不同示例，但许多所描述的技术也适用于其它设备。即，这两个设备可以是头戴式耳机，包括：混合现实头戴式[0042]音频信号可以由耦合到第一设备的一个或多个扬声器再现。如果第一设备是车辆，则扬声器可以在车辆的车厢中。如果第一设备是头戴式耳机，则扬声器可再现音频信号的双耳化版本。[0043]基于目标对象的选择，可以使用C-V2X或V2X系统、或其他通信系统在一个或多个目标对象与第一设备之间执行通信。第二设备(即，头戴式耳机或车辆)可以具有一个或多个人说话或播放与第二设备相关联的音乐。编码解码器从第二车辆内部发出或从第二头戴式耳机发出的语音或音乐可以使用音频/语音编码解码器来压缩，并产生音频分组。音频/语音编码解码器可以是两个单独的编码解码器，例如音频编码解码器，或者可以是语音编码解码器。替代地，一个编码解码器可以具有压缩音频和语音的能力。[0044]本文中参考附图描述了附加的技术和背景。[0045]图1a示出了可以与另一设备(例如，第二设备)通信的第一设备的概念图。该概念图还包括在第一设备内另一设备的选择的检测。例如，第一设备可以是第一车辆303a,其能够通过V2X或C-V2X通信系统与第二车辆通信。第一车辆303a可以包括如上面的圆圈103所示的不同组件或人111。如果第一车辆303a自动驾驶，则人111可能正在驾驶，或者人111可能不是正在驾驶。人111可以通过第一车辆303a的镜子127或窗户132看到在道路上行驶的其他车辆，并且希望听到正在另一车辆内的无线电播放的音乐类型。在第一车辆303a的一些配置中，第一车辆303a的相机124可以帮助人111看到其他车辆，其在通过镜子127或窗户132看到其他车辆可能是有挑战的。[0046]人111可以选择在车辆外部的至少一个目标对象，或者如果人111佩戴头戴式耳机，则该至少一个目标对象在头戴式耳机外部。目标对象可以是车辆本身，即，第二车辆可以是目标对象。替代地，目标对象可以是另一个人。该选择可以是被编码在由第一车辆中的处理器执行的指令中的图像检测算法的结果。图像检测算法可以被安装在第一车辆上的外部相机辅助。图像检测算法可以检测不同类型的车辆或者可以仅检测面部。等，并且语音识别算法可以编码在第一车辆中的处理器上执行的指令中，以检测和/或识别短语或关键词(例如，汽车的品牌和型号)。因此，第一设备可以包括选择至少一个目标对象是基于命令信号的检测，该命令信号检测基于关键字检测。[0048]执行用于图像检测算法的指令的处理器可以不必是执行用于语音识别算法的指令的相同处理器。如果处理器不相同，则它们可以独立工作或以协调的方式工作，例如，帮助另一处理器的图像或语音识别。一个或多个处理器(其可以包括在图像检测或语音识别中使用的相同处理器),或者不同处理器可以被配置来检测第一设备的至少一个目标对象的选择。也就是说，可以使用一个或多个处理器来检测哪个目标对象(例如，面部或其他车11辆或头戴式耳机)被选择。该选择可以启动第二设备(另一车辆或头戴式耳机)之间的通信。在一些情况下，可能已经建立了第一设备与第二设备之间通信的信道。在一些情况下，图像[0049]如上所述，当两个人希望彼此通信并讲话时，一个人通过拨打电话号码呼叫另一个人。可选地，两个设备可以彼此无线地连接，并且如果两个设备都连接到通信网络，则每个设备可以注册另一设备的互联网协议(IP)地址。在图1a中，第一设备与第二设备之间的通信也可以通过V2X、C-V2X通信网络或具有直接(例如不使用基站)连接两个设备(的能力的网络中的每个设备的各自的IP地址来建立。然而，与即时消息、聊天或电子邮件不同，第一设备与第二设备之间的通信是基于与第二设备相关联的目标对象的选择或直接基于第二设备本身的选择而启动的。[0050]例如，车辆303a中的人111可以看到第二车辆303b或不同的第二车辆303c,并且可能希望基于车辆的图像检测、图像识别或语音识别来启动与那些车辆之一中的人的通信。[0051]在目标对象的选择之后，第一设备中的一个或多个处理器可以被配置为启动包括基于IP地址的通信。在人111是第一车辆的驾驶员的情况下，使用手通过对话窗口启动消息收发、电子邮件或聊天是不安全的。然而，在不使用手的情况下用于说话的音频用户接口正变得越来越流行，并且在图1a所示的系统中，可能可以基于V2X或C-V2X通信系统启动两个设备之间的通信并与另一个人说话。车辆可以使用V2V通信或使用C-V2X的侧链路信道进行通信。C-V2X系统的优点是车辆可以在车辆之间发送通信信号，而不依赖于车辆是否连接到蜂窝网络。[0052]当车辆无线地连接到蜂窝网络时，车辆也可能可以使用V2V通信或侧链路信道进行通信。[0053]可能可以在侧链路信道中包括其它数据。例如，可以经由侧链路信道接收音频分组、和/或音频内容的一个或多个标签。在人111未正在驾驶的情况下，要么因为车辆正在驾驶自己，要么因为人111是乘客，也可能可以在侧链路信道中的设备之间发送即时消息。即时消息可以是第一设备和第二设备之间的媒体交换的一部分，其可以包括音频分组。[0054]在上面的圆圈103中还示出了显示设备119.显示设备119可以表示车辆的图像或图标。当启动通信时或在第一车辆303a与第二车辆(例如，303b或303c)之间的通信期间，图案133可以点亮或可以闪烁。[0055]此外，在目标对象的选择之后，作为第一设备外部的至少一个目标对象与第二设备之间通信的信道的结果，可以从第二设备接收音频分组。例如，下面的圆圈163包括处理器167,其可以被配置为解码从第二设备接收的音频分组以产生音频信号，且基于第一设备外部的至少一个目标对象的选择来输出音频信号。也就是说，人可能可以通过扬声器169的回放听到在第二车辆(或耳机设备)中正在播放什么语音或音乐。[0056]如本公开中稍后所解释，选择的其他模式也是可能可以的，包括人111的手势检测和人111的眼睛凝视检测。[0057]图1b示出了可以与另一设备(例如，第二设备)通信的第一设备的概念图。概念图还包括由跟踪器帮助，在第一设备内另一设备的选择的检测，并且音频通信可以被空间化。104没有示出设备119,因为它在下面的圆圈129中示出。上面的圆圈104示出了窗132外部的车辆、镜子127和内部相机124,其如关于图1a所述的那样起作用。[0059]下面的圆圈129示出了显示设备119.除了仅表示车辆133的图标或图像之外，显示设备还可以表示可能是第一车辆303a中的人111的潜在选择的真实的车辆的图像。例如，由一个或多个外部相机(例如，图3中的310b、图4中的402)捕获的车辆的图像在显示设备119上表示。车辆的图像可以具有包封车辆的每个图像的边界框137a-137d。边界框可帮助目标对象的选择，例如，在显示设备上表示的车辆中的其中一个。另外，代替在车辆的图标和图像之间的图案133,从选择第二车辆的人111的角度来看，可以存在分开的图案149。因此，边界框137d可以示出所选择的第二车辆303b,并且分开的图案149的方向可以被点亮或者也可以闪烁以指示已经启动通信或正在与第二车辆303b进行通信。[0060]另外，处理器可以包括跟踪器151和可以对显示设备119上的图像执行特征提取的特征提取器(未示出)。所提取的特征各自，或者在一些配置中与RADAR/LIDAR传感器结合，可帮助所选车辆(例如，303b)的相对位置的估计。在其他配置中，跟踪器151可以仅对来自所选车辆的GPS位置的输入进行帮助或操作，该输入也可以通过V2X或C-V2X系统中的通信信道发送到第一车辆303a。[0061]例如，第二车辆303b或另一个第二车辆303c可能用相机是不可见的。在这种场景下，车辆(车辆303b和303c)各自可以具有检测每个车辆的位置的GPS接收器。每个车辆的位在辅助GPS中使用的)基站结合确定的，则车辆位置的接收可以由GPS坐标表示。第一设备可以基于经由它自己的GPS接收器知道第一设备(它自己的)GPS坐标来计算它自己相对于其他车辆(车辆303b和303c)的位置。另外或可选地，第一设备可以基于耦合到第一设备的收GPS坐标来估计它自己的位置。另外，每个车辆或设备可以通过使用辅助GPS知道它自己的位置，即，使基站或其他中间结构接收GPS坐标并将它们中继转发到每个车辆或设备。[0062]此外，显示设备119可以以第一设备的相对位置表示第二设备的图像。也就是说，与显示设备119协调的面向外部的相机310b或402可以以第一设备的相对位置表示第二设备。因此，显示设备119可以被配置为表示第二设备的相对位置可以表示为显示设备119上的第二设备的图像。[0063]另外，可集成到一个或多个处理器的音频引擎155可以基于设备的相对位置来处理已解码音频分组。音频引擎155可以是可以集成为处理器的一部分的音频空间化器的一部分，其可以基于如显示设备119上表示的第二设备的相对位置将音频信号输出为三维空间化音频信号。[0064]如上讨论，相对位置还可以是基于GPS接收器的，GPS接收器可以耦合到跟踪器155并且可以与一个或多个处理器集成，并且第一设备可以执行辅助GPS以确定第二设备的相对位置。音频引擎155可以是可以集成为处理器的一部分的音频空间化器的一部分，其可以基于由第二设备161的辅助GPS确定的相对位置将音频信号输出为三维空间化音频信号。[0065]此外，在一些配置中，面向外部的相机310b和402可以捕获在第一车辆303a前面或后面的设备或车辆。在这种场景下，可期望听到从第一车辆303a后面(或者如果是头戴式耳机，则在佩戴头戴式耳机的人后面)的车辆或设备发出的声音，其具有与从第一车辆303a前面的那些车辆或设备听到的声音不同的空间分辨率。因而，与相对于第二设备的第二位置(例如，在第一设备后面)相比，当第二设备处于相对于第一设备的第一位置(例如，在第一设备前面)时，三维空间化音频信号的输出具有不同的空间分辨率。[0066]另外，当正在跟踪第一设备外部的至少一个目标对象(例如，第二设备或第二车辆)的相对位置时，一个或多个处理器可以被配置来接收在第一设备外部的至少一个目标对象的相对位置的更新的估计。基于更新的估计，三维空间化音频信号可被输出。因此，第一设备可以通过扬声器157呈现三维空间化音频信号。在第一车辆303a中或佩戴头戴式耳机的人可以听到由第二设备(例如，在第一设备的右前方的车辆303c)接收的声音，就好像音频来自右前方一样。如果第一设备是车辆303a,则右前方是相对于车辆303a的潜在的驾驶员从窗132向外看，就好像他或她正在驾驶车辆303a。如果第一设备是头戴式耳机，则右前方是相对于佩戴头戴式耳机的人直视前方。[0067]在一些场景下，音频引擎155可能可以接收多个音频流，即，来自多个设备或车辆的音频/语音分组。也就是说，可以存在被选择的多个目标对象。第一设备外部的多个目标对象可以是车辆、头戴式耳机、或头戴式耳机和车辆的组合。在存在多个目标对象的此类场景中，扬声器157可以被配置来基于多个车辆(例如，303b和303c)或设备(例如，头戴式耳机)中每一个的相对位置呈现三维空间化音频信号。还可能的是，音频流可以混合到一个听觉通道中并且被一起听到，就好像在第二车辆(例如，303b和303c)中的至少一个人之间存在多方会话一样。[0068]在一些配置中，可以在各自的通信信道中从多个车辆的每一个接收音频/语音分组。也就是说，第一车辆303a可以在一个通信信道中从第二车辆303b接收音频/语音分组，并且还在不同的通信信道303c中从不同的第二车辆303c接收音频/语音分组。音频分组(为简单起见)可以表示由第二车辆的每个车辆中的至少一个人说出的语音。[0069]在这种场景下，第一车辆303a或头戴式耳机中的乘客可以通过遍及本公开的其它部分所述的技术来选择两个目标对象。例如，第一车辆303a中的人111可以轻点显示设备119上由边界框137a-137d包封的区域，以选择与其具有多方通信的至少两个车辆(例如，303b和303c)。可选地，人111可以使用语音识别来选择与其具有多方通信的至少两个车辆[0070]在一些配置中，一个或多个处理器可以被配置为认证第二车辆的人或车辆的每一个，以促进第二车辆(例如，303b和303c)中的至少一个人与第一车辆303a中的人111之间的可信多方会话。如果人们舒适地将彼此的语音的样本存储在他们的车辆中，则认证可以基于语音识别。其他认证方法可以是可能的，包括在多方会话中的人或车辆的面部或图像识[0071]图1c示出了根据本公开中描述的技术发送和接收无线连接的不同车辆的概念图。[0072]车辆可以如图1c所示被直接无线地连接，或者可以无线地连接到作为C-V2V或V2X通信系统176的一部分、能够发送和接收数据和/或消息的不同接入点或节点。[0073]图1d示出了使用车辆内的高速缓存服务器或车辆内的存储器发送和接收无线连接的不同车辆的概念图。[0074]在经由侧链路信道无线连接的第一设备和第二设备之间交换的即时消息可以包括从一个车辆传送到另一车辆的数据分组和/或音频分组。例如，第二设备(例如，车辆303d)可以在侧链路信道上广播或发送即时消息，其中即时消息包括元数据1。在一些配置中，元数据1是在侧链路上发送的，并且可以不必须是即时消息的一部分。[0075]在不同的实施例中，在C-V2X或V2X通信系统176中的车辆可接收包括一个或多个标签的即时消息或元数据，该一个或多个标签与经由内容递送网络(CDN)从静态广播站递高效且快速地传送数据。在分布式网络中，存在转发可被使用的分组的网络链路和路由器的许多可能的组合。网络链路和路由器的选择提供了快速和可靠的内容递送网络。[0076]高要求的内容可以被存储或缓存在靠近网络边缘的存储器位置中，数据的消费者位于那里。当存在正在被广播的媒体内容(例如具有许多观看者和收听者的娱乐)时，这更有可能。缓存的更靠近媒体消费者的物理位置可能意味着更快的网络连接和更好的内容递送。在一种配置场景中，其中数据的发送方和接收方都在车辆中行驶并且车辆相对于彼此改变位置，CDN的角色可以提供有效方式来在侧链路信道上递送媒体内容。在最靠近消费者的网络的边缘处缓存的内容可以存储在正在行驶的设备(例如，车辆303d)中。媒体内容(例如，音频内容或元数据的一个或多个标签)正被发送给其他行驶的车辆。如果在相同方向上沿着道路行驶，则广播方设备(例如，车辆303e)和收听方设备(例如，车辆303a)仅在彼此的几英里内。所以有力的本地连接很可能的。相反，如果两个车辆在同一道路上沿着相反方向行驶，则收听方车辆303a可能掉落在广播方设备(例如，车辆303e)和收听方设备(例如，车辆303a)的范围之外。[0077]在车辆到车辆通信系统中，可能可以接收超出车辆范围的无线电台。例如，在城市之间行驶300英里的车辆无疑会失去来自出发城市的信号。然而，用CDN,无线电信号可能可以以无线电台信号的范围界限从车辆中继转发和重新广播。在距广播站一定径向距离处的车辆成为用于无线电台的高速缓存，其允许具有一定范围的其他车辆请求流。也就是说，广播车辆303e可能可以包括缓存服务器172并且在C-V2X或V2X通信系统网络176中广播元数据2。收听方车辆303a可以接收元数据2。[0078]可以使用机器学习算法来收听、解析、理解和广播驾驶员的收听偏好。连同驾驶员的地理位置，信息可以被收集来确定每个地理区域内由车辆最频繁地从其他车辆接收的最受欢迎的内容。[0079]如可以在图1d中看出的，可以存在用于从第二设备接收元数据的第一设备。第一设备和第二设备可以经由作为C-V2X或V2x通信系统网络172的一部分的侧链路信道无线地连接。一旦第一设备(例如，车辆303d)接收元数据(例如，元数据1171或元数据2173),第一设备就可以读取元数据且提取表示音频内容的一个或多个标签。[0080]一个或多个标签可以包括歌曲名称、艺术家名称、专辑名称、作家或国际标准音像制品代码。国际标准音像制品代码(ISRC)唯一地标识声音记录和音乐视频记录，并且被编码为ISO3901标准。[0081]元数据可以被索引，并且可以是我的搜索引擎可搜索的。如果音频内容被第二设备(例如，车辆303d或303e)流送或广播，那么一个或多个标签可以由音频播放器读取，或在一些情况下由到无线电的无线电接口读取。另外，音频标签中的一个或多个可以在显示设备上表示。与音频内容相关联的元数据可以包括歌[0082]元数据可以是结构性的或描述性的。结构性元数据将数据表示为数据的容器。描述性元数据描述音频内容或与音频内容相关联的一些属性(例如，歌曲辑等)。[0083]在由一个或多个处理器提取表示音频内容的一个或多个标签之后，可以基于所提取的一个或多个标签来标识音频内容。第一设备的一个或多个处理器可以被配置来输出音频内容。[0084]在图1d中，第一设备也可以是被配置为接收一个或多个标签之一的一组设备的一部分。设备(例如，车辆303a)可以是被配置为从另一设备(例如，车辆303d或303e)接收元数据的至少一个标签的一组设备(例如，还有车辆303b和303c)的一部分。该组设备还可以包括发送元数据的其它设备(例如，车辆303d和303e)。也就是，可以存在包括五个设备的一组辆和头戴式耳机的混合。可以是该组设备包括该五个设备。[0085]在一个实施例中，该组设备可以是内容递送网络(CDN)的一部分。另外或可选地，该组设备中的第二设备(例如，303e)可以是各自的内容递送网络，并且将一个或多个标签发送给该组中的其余设备。[0086]图2示出了基于本公开中描述的技术的第一设备启动与第二设备的通信的过程200的流程图。[0087]210,第一设备可以包括被配置来检测第一设备外部的至少一个目标对象的选择的一个或多个处理器。220,一个或多个处理器可以被配置来启动第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。230,一个或多个处理器可以被配置来响应于设备外部的至少一个目标对象的选择而从第二设备接收音频分组。[0088]240,一个或多个处理器可以被配置来解码从第二设备接收的音频分组以生成音频信号。250,一个或多个处理器可以被配置来基于第一设备外部的至少一个目标对象的选择而输出音频信号。[0089]图3示出了在第一车辆上或第一车辆中具有根据本公开中描述的技术操作的不同部件的第一车辆的概念图。如图3所示，人111可以在车辆303a中移动。车辆303a外部的目标对象的选择可以直接在驾驶员的视野内，其可以由耦合到车辆303a内的相机310a的眼睛凝视跟踪器(即，人111正在看目标对象)或手势检测器(人111做出手势，例如指向目标对象)[0090]第一设备可以包括基于命令信号的检测的至少一个目标对象的选择，命令信号检测是基于眼睛凝视检测的。[0091]如果目标对象是车辆303a外部的人，或者存在与车辆303b相关联的一些其他可识别图像，则安装在车辆303a上的相机310b也可以帮助目标对象本身(例如，车辆303b)或与目标对象相关联的另一设备的选择。[0092]通过可以是诸如C-V2X的蜂窝网络的一部分的无线局域网(WLAN),或者是蜂窝网的一个或多个天线356可以帮助目标对象相对于车辆303a的相对位置的确定。[0093]应当注意，安装在车辆303a内的摄像机310a、或安装在车辆303a上的摄像机310b、或摄像机310a、310b两者，取决于可用带宽，通过一个或多个天线356,可以形成作为车辆303a的一部分的个人区域网络(PAN)。通过PAN,车辆303a中的相机310a或车辆303a上的相机310b可能可以具有和与目标对象相关联的设备或目标对象本身的间接无线连接。尽管外部相机310b被示出在车辆303a的前部附近，但是车辆303a可能可以具有安装在车辆303a的后部附近或后部中的一个或多个外部相机310b,以便查看什么设备或车辆在车辆303a后[0094]外部相机310b可以帮助选择，或者如前文和下文解释，GPS也可以辅助确定第二设备的位置，例如第二车辆303c位于何处。[0095]第二设备的相对位置可以在显示设备319上表示出。第二设备的相对位置可以基于由一个或多个天线356接收该位置。在另一实施例中，深度传感器340可以使用来帮助或确定第二设备的位置。检测第二设备的位置的其他位置检测技术(例如，GPS)或者辅助GPS也可能可以用于确定第二设备的相对位置。[0096]第二设备的相对位置的表示可以表现为合成图像、图标或其它与第二设备相关联的表示，以致车辆303a中的人可通过朝向显示设备319上的表示的眼睛凝视或朝向显示设备319上的表示的手势(指向或触摸)做出第二设备的选择。[0097]选择也可以通过语音识别并使用位于车辆303a内部的一个或多个麦克风360。当第二设备与车辆3030a通信时，音频信号可以由(第一)车辆303a通过安装在车辆303a中或车辆303a上的、耦合到一个或多个天线356的收发器接收。[0098]本领域普通技术人员还将理解，随着自动驾驶车辆的继续改进，车辆303a的驾驶是自动驾驶的。[0099]图4a示出了在第一设备上或在第一设备中具有根据本公开中描述的技术操作的不同组件的第一设备的框图400a。一个或多个不同组件可以集成在第一设备的一个或多个处理器中。[0100]如图4a所示，选择第一设备外部的目标对象可以基于眼睛凝视跟踪器404,其检测并跟踪头戴式耳机的佩戴者正在看哪里或第一车辆中的人111正在看哪里。当目标对象在人的视野内时，眼睛凝视跟踪器404可以检测和跟踪眼睛凝视并帮助经由目标对象选择器414选择目标对象。类似地，耦合到车辆303a内的一个或多个面向内部的相机403的或安装在头戴式耳机(未示出)上的手势检测器406可以检测手势，例如，指向目标对象的方向。另外，语音命令检测器408可以帮助基于人111说出如上所述的短语(例如“在我前面的黑色本田雅阁”)来选择目标对象。语音命令检测器408的输出可以被目标对象选择器414使用以选择预期的第二设备，例如车辆303b或303c。[0101]如前提及，车辆303a可能可以具有安装在车辆303a的后部附近或后部中的一个或多个面向外部的摄像机402,以便查看什么设备或车辆在车辆303a后面。例如，第二设备可以是车辆303c。[0102]目标对象(例如，第二设备)可以相对于第一设备且基于图像的特征、图像、或图像和图像的特征两者表示，其中图像由耦合到第一设备的一个或多个相机捕获。[0103]一个或多个面向外部的摄像机402可以帮助第二车辆303c位于何处的选择，例如，在车辆303a的后面(在其它图中)。[0104]还可能的是，基于一个或多个发送器天线425和可能地深度传感器340(图4a中未示出),或检测第二设备的位置的其它位置检测技术(例如GPS),第二设备的相对位置可以二设备相关联的表示，以致车辆303a中的人可通过朝显示设备410上的表示的眼睛凝视或至少一个目标对象的表示的显示设备可以被配置为基于显示设备上的电容传感器或超声[0106]耦合到包括在第一设备中的一个或多个处理器的第一设备的一个或多个发送器天线425,可以被配置为基于由一个或多个处理器在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道的启动来向第二设备发送通信数据。也就[0107]选择也可以是通过语音识别的，并使用位于车辆303a内部的一个或多个麦克风车辆303a上的一个或多个接收器天线430由(第一)车辆303a接收，该接收器天线耦合到收处理器的一个或多个接收天线430可以被配置为基于在第一设备外部的至少一个目标对象[0108]另外，第一设备可以包括一个或多个面向外部的相机402。如果目标对象是车辆[0109]提取的特征或外部传感器422的输出可以输入所选目标对象的相对位置/朝向的确定器420。所选目标对象的相对位置/朝向的确定器420可以被集成到一个或多个处理器可以被音频空间化器420使用来输出基于第二设备的相对位置的三维音频信号。可以存在耦合到一个或多个处理器的至少两个扬声器440,其被配置为基于第二设备的相对位置呈[0111]在由目标对象选择器414执行第一设备外部的至少一个目标对象的选择之后，集成到第一设备中的一个或多个处理器中的命令解释器416启动在第一设备和与第一设备外[0112]来自第二设备的音频分组432a可以由编码解码器438解码以产生音频信号。可以基于第一设备外部的至少一个目标对象的选择来输出音频信号。在一些场景中，音频分组可以表示来自与远程设备(即，第二设备)436a相关联的云的流。编码解码器438可以解压缩音频分组，并且音频空间化器可以操作未经压缩音频分组432b或436b。在其他场景中，音频可以基于进行第二车辆选择的人的乘客位置来空间化。[0113]由要使用的音频编码解码器进行的音频分组的传输可以包括以下的一个或多个：和v2V系统可以使用数据业务信道或语音信道，因此音频分组(可以携带语音信号)可以使用以下编码解码器中的一个或多个来解压缩音频信号：AMR窄带语音编码解码器 (5.15kbp)、AMR宽带语音编码解码器(8.85Kbps)、G.729AB语音编码解码器(8kbps)、GSM- 在通过空中发送之前，声码器分组被插入到更大的分组中。语音在语音信道中发送，尽管语音也可以使用VOIP(voice-over-IP,基于IP的语音)在数据信道中发送。编码解码器438可表示语音编码解码器、音频编码解码器、或用于解码语音分组或音频分组的功能的组合。通[0114]还可能的是，在一种配置中，在第二车辆与第一车辆相距一定的距离之后，空间化效果可以被禁用。[0115]包括在第一设备中的一个或多个处理器可以被配置为在第二车辆距第一设备大于可配置距离之后禁用空间化效果。该一定的距离可以是基于距离可配置的，例如八分之一英里。可配置距离可以随着距离测量或时间测量被输入。该一定的距离可以是基于时间可配置的，例如，取决于第一车辆和第二车辆的速度。例如，取代指示八分之一英里是空间效果应该持续的距离，它们之间的距离可以依据时间来测量。车辆以每小时50英里(mph)行驶，八分之一英里相当于9秒，即125mi/50m[0116]图4b示出了在第一设备上或第一设备中具有根据本公开中描述的技术操作的不同组件的第一设备的框图400b。一个或多个不同组件可以集成在第一设备的一个或多个处理器中。[0117]框图400b包括通信解释器416和rx天线430。通过rx天线430,一个或多个处理器可以被配置为从第二设备接收元数据435,第二设备经由侧链路信道无线地连接到第一设备。一个或多个处理器可以在缓冲器444中存储元数据。可以从缓冲器444读取元数据435。一个或多个处理器可以被配置为提取表示音频内容的一个或多个标签。例如，通信解释器416可以向控制器454发送控制信号，并且可以被集成为一个或多个处理器的一部分的控制器可以控制提取器460,该提取器也可以被集成为一个或多个处理器的一部分。提取器460可以被配置为提取表示音频内容的一个或多个标签。如果一个或多个标签尚未处于可以在缓冲器444中原位提取它们的形式中，则可以经由总线445将它们写回到缓冲器444。也就是说，提取器460可以提取缓冲器444中的一个或多个标签，或者提取器460可以经由总线445接收元数据，然后经由总线445将一个或多个标签写回到缓冲器444中。本领域普通技术人员将认识到，可以写入一个或多个标签的位置可以是同一缓冲器444或替代缓冲器中的不同存[0118]一个或多个处理器可以被配置为基于一个或多个标签来识别音频内容。识别可以以多种方式完成。例如，标签中的一个可以识别歌曲的名称，并且识别歌曲的标签可以在显示设备410上显示，或者一个或多个处理器可以将“歌曲”标签存储在存储器位置中(例如，也在缓冲器444中)、或在替代存储器位置中。基于该识别，一个或多个处理器可输出音频内[0119]音频内容的输出可以以多种方式完成。例如，第一设备中的一个或多个处理器可以被配置为基于一个或多个标签切换到正在播放所识别的音频内容的无线电台。这可以通过使无线电接口458从控制器460接收控制信号来发生。无线电接口458可以被配置为扫描无线电470上的不同无线电台，并且基于一个或多个标签将无线电470切换到正在播放所识别的音频内容(例如，歌曲)的无线电台。[0120]在另一个示例中，一个或多个处理器可以被配置为基于一个或多个标签开启媒体播放器并使媒体播放器播放所识别的内容。媒体播放器可以从具有可以与所接收的一个或多个标签相关联的标签的播放列表中读取。例如，控制器可以被配置为将经由元数据接收并用其自己的标签提取的一个或多个标签与存储在存储器中的音频内容进行比较。媒体播放器可以耦合到数据库448,并且数据库448可以存储与媒体播放器的播放列表的音频内容相关联的标签。数据库448还可以存储音频比特流形式的音频内容的压缩版本，该音频比特流包括音频分组。音频分组453可以被发送到编码解码器438。编码解码器438可以被集成为媒体播放器的一部分。应当观察到，音频分组453可以被存储在数据库448中。还可能可以如图4a中所描述的接收音频分组432a。另外，可能可以接收与一个或多个标签相关联的音频分组432a,该一个或多个标签与经由rx天线430接收的音频内容相关联。[0121]第一设备包括一个或多个处理器，其可以从第二设备接收元数据，该第二设备经由侧链路信道无线地连接到第一设备，该一个或多个处理器读取从第二设备接收的元数据以提取表示音频内容的一个或多个标签，并基于标签识别音频内容，然后输出音频内容。[0122]经由侧链路信道的无线链路可以是C-2VX通信系统的一部分。在C-V2Vx系统中的第一设备和第二设备可以都是车辆，或者设备中的一个(第一或第二)可以是头戴式耳机，而另一个是车辆(第一或第二)。统中的第一设备和第二设备都可以是车辆。[0124]第一设备可以包括被配置为基于存储在第一设备上的配置偏好来扫描缓冲器444的一个或多个处理器。例如，可以存在从多个第二设备接收的许多元数据集。在第一设备(无论是车辆还是头戴式耳机)中收听音频内容的人可能仅想要基于配置偏好(例如，摇滚音乐)收听音频内容。配置偏好还可以包括来自第二设备的属性。例如，第二设备本身可以[0125]在相同或可选实施例中，第一设备耦合到显示设备。耦合可以是集成，例如，显示设备被集成为头戴式耳机的一部分或车辆的一部分。第一设备中的一个或多个处理器可以被配置为在显示设备的屏幕上表示一个或多个标签。当缓冲器444耦合到显示设备410时，包括歌曲名称、艺术家甚至蓝色BMW的一个或多个标签可以出现在显示设备410的屏幕上。[0126]如先前关于图4a所讨论，第一设备可以包括被配置来表示出第二设备的相对位置的显示设备。类似地，关于基于来自从第二设备接收的元数据的所提取的一个或多个标签识别的音频内容，第一设备可以包括被配置来输出三维空间化音频内容的一个或多个处理器。在从编码解码器438解码来自数据库448的音频分组453之后，三维空间化音频内容可以可选地由音频空间化器424生成。在相同或可选实施例中，可以从编码解码器438解码与所标识的音频内容的一个或多个音频标签相关联的音频分组432a。编码解码器438可实施关于图4a所描述的音频编码解码器或语音编码解码器。一个或多个处理器可以被配置来基于在显示设备410上表示出第二设备的相对位置在哪里而输出三维空间化音频内容。输出的三维空间化音频内容可以由耦合到第一设备的两个或更多个扬声器440呈现。[0127]在一些配置中，不依赖第二设备的位置是否表示出在显示设备410上，音频内容的输出可是基于第二设备的相对位置的三维空间化音频内容。[0128]另外，在相同或可选实施例中，一个或多个处理器可以被配置来淡入或淡出与一个或多个标签相关联的音频内容。[0129]与一个或多个标签相关联的音频内容的淡入或淡出可以基于第二设备的可配置距离。例如，如果第二设备的距离在20米内或在200米内，则在第一设备中收听音频内容的人可能期望淡入或淡出音频内容。此外，如关于图4a所描述，一个或多个处理器可以被配置为在第二设备距第一设备大于可配置距离之后禁用空间化效果。因此，可能存在第一可配置距离来淡入和淡出音频内容(例如，在0到200米内),以及第二可配置距离，其中如果第二设备在200米内或甚至更远(例如，多至2000米),则收听空间化效果的收听者的空间化效果是禁用的。如前所述，可配置距离(第一可配置距离或第二可配置距离)可以是距离测量或时间测量。[0130]如关于图1d所描述，第一设备可以是一组设备的一部分。图1d所示的一个或多个标签170或缓存服务器172也可以是缓冲器444的一部分，或者可以可选地被绘制为与图4b中的缓冲器444相邻，其中元数据435a可以是元数据1或元数据2,这取决于第二设备是否是在存储器中具有一个或多个标签170的设备(例如，车辆303d),或者第二设备是否是具有缓存服务器172的设备(例如，车辆303e)。因此，音频内容的淡入或淡出也可能可以基于组中的设备之一何时从组断开连接。例如，第一设备可以与该组设备断开连接，并且音频内容可以淡出。类似地，当连接成为该组设备的一部分时，音频内容设备)与一组设备连接或断开时的淡入和淡出两者中，淡入或淡出也可以是基于可配置距[0131]另外，该组设备中的第一设备和其它设备可以是内容递送网络(CDN)的一部分，如以上在描述图1d时所描述。[0132]第一设备或第二设备可以是单独的内容递送网络，并且可以向该组的其它设备发送一个或多个标签。[0133]虽然在图4b中绘制了一个或多个面向外部的相机402和目标对象选择器414,在图4a中没有耦合到它们的其他组件，但是在相同或替代配置中，其也可以接收与一个或多个标签相关联的音频分组，该一个或多个标签与经由一个或多个rx天线430接收的音频内容相关联。CN113196795B[0134]像这样，在由目标对象选择器414执行第一设备外部的至少一个目标对象的选择之后，集成到第一设备中的一个或多个处理器内的命令解释器416启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。响应于第一设备外部的至少一个目标对象的选择，可以从第二设备接收音频分组。[0135]来自第二设备的一个或多个标签可以被接收在元数据中，其被从缓冲器444读取，提取，并用于识别音频内容。音频内容可以基于第一设备外部的至少一个目标对象的选择来输出。在一些场景中，一个或多个标签可以表示出来自与远程设备(即，第二设备)相关联的云的流。[0136]图5示出了根据本公开中描述的技术将世界坐标变换到像素坐标的概念图500。安装在第一车辆上的外部相机(例如，图3中的310b、图4a和图4b中的402)可以捕获图像(例如，视频帧)并在三维(3D)世界坐标[x,y,z]502中表示出对象。世界坐标可以被变换到3D相机坐标[xc,yc,zc]504.3D相机坐标504可以被投影到2Dx-y平面(垂直于相机(310b、402)的面的法向量)中，并且在像素坐标(xp,y。)506中表示出图像的对象。本领域普通技术人员将认识到，从世界坐标到像素坐标的这种变换是基于使用输入旋转矩阵[R]、平移矢量[t]yz]*[R]+t,其中旋转矩阵[R]是3×3矩阵，且平移向量是1×3向量。[0137]感兴趣区域(ROI)的边界框可以在显示设备510上由在像素坐标(xP,yP)表示。可以存在视觉指示(例如，在边界框512内部增强的颜色变化或图标或合成指针),以警告车辆中的乘客，目标对象(例如，第二车辆)已经选定来启动与其的通信。[0138]图6a示出了在远程车辆/乘客(例如第二车辆)的距离和角度的估计的一个实施例的概念图。距离可以从视频帧中的边界框622d得到。距离估计器630可以接收传感器参数632a、外视相机(310b、402)的固有和外部参数632d以及边界框622d的大小632b。在一些实施例中，可以存在车辆信息数据库，其包括不同车辆的大小632c,并且还可以包含可以帮助识别车辆的某些图像特性。[0139]可以以视频帧率估计距离和角度参数，并进行内插来匹配音频帧率。从车辆的数对应于3D世界坐标中具有给定方位角和仰角的线。[0140]例如使用边界框的左下角和右下角，并且具有车辆的宽度w,可以如图6b所示的估[0141]图6b示出了远程设备的x-y平面中的距离640c和角度640a的估计的概念图。[0142]图6b中的点A可以由世界坐标(a,b,c)表示。图6b中的点B也可以由世界坐标(x,y,z)表示。方位角(θ)640a可以表示为(θ₁+0₂)/2。对于小角度，距离dy*(sinθ₁-sinθ₂)近似为w,其是图6b中的远程设备的宽度。世界坐标(x,y,z)和(a,b,c)可以用x-y平面中的宽度表示，例如使用以下公式：[0146]图5中描述的像素坐标可以表示为xp=x=a和y,=y=w+/-b。[0147]类似地，使用边界框的左下角和左上角，并且知道第二车辆303b的高度h、第二车CN113196795B说明书17/21页辆30b的仰角(φ)640b,可以如图6c所示的计算第二车辆的距离dyz。[0148]图6c示出了远程设备的y-z平面中的距离和仰角640b的估计的概念图。[0149]图6c中的点A可以由世界坐标(a,b,c)表示。图6c中的点B也可以由世界坐标(x,y,z)表示。仰角(φ)640b可以表示为(φ₁+φ2)/2。对于小角度，距离dyz*(sinφ₁-sinφ2)近似为h,其是图6c中的远程设备的高度。世界坐标(x,y,z)和(a,b,c)可以用y-z平面中的高度表示，例如使用以下公式：[0153]图5中描述的像素坐标可以表示为x。=x=a,和y,=y=b。[0154]根据声源的位置，对于来自远程设备670的左半部、右半部或中间的声音，可以对仰角640b和方位角640a进行进一步调整。例如，如果远程设备670是远程车辆(例如，第二车辆),则声源的位置可以取决于是驾驶员讲话还是乘客讲话。例如，远程车辆的驾驶员侧(左)方位角640a可以表示为(3*0₁+0₂)/4。这提供了在图8中表示的在车辆的左半部的方位角640a。[0155]视频帧率通常与音频帧率不匹配。为了补偿不同域(音频和视频)中的帧率的失帧对应的值的线性插值。可选地，可以使用(采样并保持)来自最近的视频帧的值。此外，可以以降低响应能力为代价，通过从过去几个视频帧中取中值(剔除异常值)或平均值来平滑这些值。[0156]图6a所示的距离640c,d可以是d,或dz,或者d和d的某种组合，例如平均值。在一些实施例中，可能期望忽略第一车辆和远程设备670之间的高度差，例如，假如远程设备670与第一车辆处于相同高度。另一示例可以是，第一车辆中的收听者配置设置，以通过将从远程设备670发出的声场的z分量投影到x-y平面中来接收空间音频。在其他示例中，远程设备670可以是无人机(例如，四处飞行播放音乐),或者可以在高层建筑中流送音乐的设备。在这样的示例中，可能期望由角度估计器

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）

文档简介

温馨提示

最新文档

评论

CN113196795B 与设备外部的所选目标对象相关联的声音的呈现（高通股份有限公司）

文档简介

温馨提示

最新文档

评论

相关文档