CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品

上传人：x*** IP属地：重庆上传时间：2025-09-03 格式：DOCX 页数：39 大小：268.63KB 积分：10.8 举报 版权申诉

CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品_第2页

CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品_第3页

CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品_第4页

CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品_第5页

已阅读5页，还剩34页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(10)申请公布号CN120220720A(71)申请人科大讯飞股份有限公司地址230088安徽省合肥市高新开发区望江西路666号(72)发明人孙嘉琪赵立鸽(74)专利代理机构北京布瑞知识产权代理有限公司11505专利代理师李强G1OL21/10(20G1OL25/63(20GO6N3/08(20及产品本申请提供一种语音输入的处理方法、装入语音信号时的情绪状态；基于预设的情绪状态与视觉展示效果之间的映射关系，确定与用户的情绪状态匹配的目标视觉展示效果，该目标视觉展示效果用于可视化地展示用户的情绪状态；在语音信号对应的语音输入界面中，呈现目标视觉识别用户输入语音信号时的情绪状态基于预设的情绪状态与视觉展示效果之间的映射关系，确定与用户的情绪状态匹配的目标视觉展示效果在语音信号对应的语音输入界面中，呈现目标视觉展示效果2识别用户输入语音信号时的情绪状态；基于预设的情绪状态与视觉展示效果之间的映射关系，确定与所述用户的情绪状态匹配的目标视觉展示效果，所述目标视觉展示效果用于可视化地展示所述用户的情绪状态；在所述语音信号对应的语音输入界面中，呈现所述目标视觉展示效果。2.根据权利要求1所述的方法，其特征在于，所述视觉展示效果包括HSL颜色空间的色彩参数、所述语音信号的波形中包含的粒子的速度、所述语音输入界面的形变参数和动态纹理参数中至少一项。3.根据权利要求2所述的方法，其特征在于，在所述语音信号对应的语音输入界面中，调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果。4.根据权利要求3所述的方法，其特征在于，在所述目标视觉展示效果包括目标色彩参数和/或所述语音输入界面的目标形变参数的情况下；其中，所述调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数；调整所述语音输入界面的当前形变参数渐变至所述目标形变参数。5.根据权利要求4所述的方法，其特征在于，所述调整所述语音输入界面的当前色彩参确定所述色彩参数的调整步长值；基于所述色彩参数的调整步长值，调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数。6.根据权利要求5所述的方法，其特征在于，所述色彩参数包括色相参数和/或饱和度基于所述语音输入界面的当前色相参数与目标色相参数之间的色相参数差值，以及预设调整比例的乘积，确定所述色相参数的调整步长值；基于预设的饱和度调整值，确定所述饱和度参数的调整步长值。7.根据权利要求4所述的方法，其特征在于，所述调整所述语音输入界面的当前形变参基于所述当前形变参数与所述目标形变参数各自对应的权重，对所述当前形变参数与所述目标形变参数进行加权求和，并将加权求和结果确定为所述形变参数的调整步长值；基于所述形变参数的调整步长值，调整所述语音输入界面的当前形变参数渐变至所述目标形变参数。8.根据权利要求4所述的方法，其特征在于，在所述目标视觉展示效果包括目标粒子速度时，所述调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效3基于显示设备的性能参数，确定预加载的粒子的目标数量；染所述目标视觉展示效果。9.根据权利要求1-8中任一项所述的方法，其特征在于，所述识别用户输入语音信号时获取各个模态下的输入数据，所述各个模态下的输入数据包括所述语音信号、所述语音信号对应的文本数据、所述用户输入所述语音信号时的视频数据和心率数据中至少一针对所述各个模态中每个模态，对该模态下的输入数据进行特征提取，得到该模态下的特征表示；基于所述各个模态下的特征表示，得到综合特征；根据所述综合特征，识别所述用户输入语音信号时的情绪状态。10.根据权利要求1-8中任一项所述的方法，其特征在于，所述方法还包括：获取所述用户对所述目标视觉展示效果的反馈数据；基于所述反馈数据，对所述映射关系进行更新。11.根据权利要求10所述的方法，其特征在于，所述反馈数据中包括所述用户对所述目标视觉展示效果的交互行为数据；基于所述用户对所述目标视觉展示效果的交互行为数据，更新所述映射关系，以使所述映射关系符合所述用户的偏好。所述存储器与所述处理器连接，用于存储程序；所述处理器用于通过运行所述存储器中的程序，实现如权利要求1至11中任意一项所述的方法。13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至11中任意一项所述的方法。14.一种计算机程序产品，其特征在于，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器实现如权利要求1至11中任意一项所述的方法。4技术领域[0001]本申请涉及语音处理领域，尤其涉及一种语音输入的处理方法、装置、设备、介质及产品。背景技术[0002]语音输入作为一种重要的人机交互方式，被广泛应用于各类智能设备和软件系统中。为了增强语音输入过程中的互动性和趣味性，许多系统会在用户进行语音输入时展示动态的动画效果，例如动态波形或图标动画，以直观地反馈用户语音信号的强度与变化趋[0003]然而，目前这些视觉反馈机制大多依赖于固定的视觉模板或预设的简单动画效发明内容[0004]基于上述技术现状，本申请提供一种语音输入的处理方法、装置、设备、介质及产品，能够提高语音输入过程中视觉反馈效果的多样性和灵活度。[0005]为了达到上述技术目的，本申请具体提出如下技术方案：根据本申请实施例的第一方面，提供了一种语音输入的处理方法，包括：识别用户输入语音信号时的情绪状态；基于预设的情绪状态与视觉展示效果之间的映射关系，确定与所述用户的情绪状态匹配的目标视觉展示效果，所述目标视觉展示效果用于可视化地展示所述用户的情绪状态；在所述语音信号对应的语音输入界面中，呈现所述目标视觉展示在一些实现方式中，所述视觉展示效果包括HSL颜色空间的色彩参数、所述语音信号的波形中包含的粒子的速度、所述语音输入界面的形变参数和动态纹理参数中至少一[0006]在一些实现方式中，在所述语音信号对应的语音输入界面中，呈现所述目标视觉展示效果，包括：调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果。[0007]在一些实现方式中，在所述目标视觉展示效果包括目标色彩参数和/或所述语音输入界面的目标形变参数的情况下；其中，所述调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果，包括：调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数；和/或，调整所述语音输入界面的当前形变参数渐变至所述目标形变参数。[0008]在一些实现方式中，所述调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数，包括：确定所述色彩参数的调整步长值；基于所述色彩参数的调整步长值，调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数。[0009]在一些实现方式中，所述色彩参数包括色相参数和/或饱和度参数；其中，所述确5定所述色彩参数的调整步长值，包括：基于所述语音输入界面的当前色相参数与目标色相参数之间的色相参数差值，以及预设调整比例的乘积，确定所述色相参数的调整步长值；和/或，基于预设的饱和度调整值，确定所述饱和度参数的调整步长值。[0010]在一些实现方式中，所述调整所述语音输入界面的当前形变参数渐变至所述目标形变参数，包括：基于所述当前形变参数与所述目标形变参数各自对应的权重，对所述当前形变参数与所述目标形变参数进行加权求和，并将加权求和结果确定为所述形变参数的调整步长值；基于所述形变参数的调整步长值，调整所述语音输入界面的当前形变参数渐变至所述目标形变参数。[0011]在一些实现方式中，在所述目标视觉展示效果包括目标粒子速度时，所述调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果，还包括：基于显目标数量的粒子，并基于所述目标粒子速度，渲染所述目标视觉展示效果。[0012]在一些实现方式中，所述识别用户输入语音信号时的情绪状态，包括：获取各个模态下的输入数据，所述各个模态下的输入数据包括所述语音信号、所述语音信号对应的文本数据、所述用户输入所述语音信号时的视频数据和心率数据中至少一项；针对所述各个模态中每个模态，对该模态下的输入数据进行特征提取，得到该模态下的特征表示；基于所述各个模态下的特征表示，得到综合特征；根据所述综合特征，识别所述用户输入语音信号时的情绪状态。[0013]在一些实现方式中，所述方法还包括：获取所述用户对所述目标视觉展示效果的反馈数据；基于所述反馈数据，对所述映射关[0014]在一些实现方式中，所述反馈数据中包括所述用户对所述目标视觉展示效果的交对所述目标视觉展示效果的交互行为数据，更新所述映射关系，以使所述映射关系符合所述用户的偏好。[0015]根据本申请实施例的第二方面，提供了一种电子设备，包括存储器和处理器；所述存储器与所述处理器连接，用于存储程序；所述处理器用于通过运行所述存储器中的程序，实现如第一方面所述的语音输入的处理方法。[0016]根据本申请实施例的第三方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如第一方面所述的语音输入的处理方法。[0017]根据本申请实施例的第四方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行：如第一方面所述的语音输入的处理方法。[0018]本申请实施例提供的一种语音输入的处理方法、装置、设备、介质及产品，通过识别用户在语音输入期间的情绪状态，并根据预设的情绪状态与视觉展示效果之间的映射关系，确定出与用户当前情绪状态相符的目标视觉展示效果，进而将其展现在语音输入界面中。由于目标视觉展示效果是基于用户的情绪状态确定的，因此可以可视化地表达用户当前的情绪状态，为语音输入过程中的视觉反馈机制提供多样化的视觉效果。该些视觉展示效果还可以随着用户情绪的变化而实时调整，因此还可以提升视觉展示的灵活度，增强用户的交互体验。6附图说明[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。[0020]图1为本申请实施例提供的一种语音输入的处理方法的流程图。[0021]图2为本申请实施例提供的识别用户情绪状态的流程图。[0022]图3为本申请实施例提供的基于多模态数据识别用户情绪状态的原理图。[0023]图4为本申请实施例提供的色相参数渐变调整过程的示意图。[0024]图5为本申请实施例提供的界面形变参数渐变调整过程的示意图。[0025]图6为本申请实施例提供的一种语音输入的处理装置的结构示意图。[0026]图7为本申请实施例提供的一种电子设备的结构示意图。具体实施方式[0027]本申请实施例提供的技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备，或包装成软件程序被运行，当硬件设备执行本申请实施例技术方案的处理过程，或上述软件程序被运行时，可以实现目标任务的自动拆分和自动调用任务所需的应用程序接口，完成目标任务的目的。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍，并不对本申请技术方案的具体实现形式进行限定，任意的可以执行本申请技术方案处理过程的技术实现形式，都可以被本申请实施例所采用。[0028]下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他[0029]在介绍本申请方案之前，首先对相关技术进行介绍：当前的语音输入系统主要聚焦于语音识别及文本转换功能，其用户界面大多基于预设的静态皮肤或模板构建。例如，一些主流的手机输入法在进行语音输入时，会通过动态波形或图标动画等方式展现用户的语音信号强度与变化情况。然而，该些视觉反馈机制通常依赖于固定的视觉模板或简单的实时数据驱动实现。其虽然能够有效地反映声音的基本物理特性，例如通过实时显示音频波形或频谱图，但在捕捉与反馈用户情绪状态方面仍存在明显不足。具体表现为：传统系统多采用固定视觉模板或基础动画效果呈现语音输入过程，而未能充分考虑用户的个性化和情境化需求，例如，依据用户的情绪波动做出相应的界面调整。[0030]此外，部分解决方案中的情绪识别模块准确率较低，难以实时且准确地解析语音中蕴含的情感信息，导致动态可视化效果与用户实际情绪状态之间的脱节现象。[0031]同时，由于缺乏高效的数据采集、处理与可视化协同机制，该类系统往往面临较高的延迟问题，无法满足用户对即时互动的需求。[0032]值得注意的是，用户的情绪对语音输入效率和体验具有显著影响，但传统的语音输入系统并未充分重视这一因素，缺乏有效的情绪识别与响应能力。随着情感计算和深度7学习技术的发展，如何利用该些先进的技术捕捉用户语音中的情绪线索，并据此实现界面的动态调整，进而提升用户体验，提供更加丰富的[0033]有鉴于此，本申请实施例致力于提供一种语音输入的处理方法、装置、设备、介质及产品，通过实时地捕捉用户在语音输入过程中的情绪状态，并根据预先设定的情绪状态与视觉展示效果之间的映射关系，确定与用户输入语音信号时的情绪状态相适应的目标视觉展示效果。随后，在语音信号对应的语音输入界面中，动态呈现该目标视觉展示效果，以实现对用户情绪状态的可视化表达。不仅能够提升语音输入界面的多样性和灵活度，还可以增强用户的交互体验。在以下实施例中逐一进行详细说明。[0034]示例性方法图1为本申请实施例提供的一种语音输入的处理方法的流程图。如图1所示，本实施例提供的语音输入的处理方法包括步骤S101-S103:S101、识别用户输入语音信号时的情绪状态。[0035]识别用户在语音输入过程中所蕴含的情绪状态，是实现情感化交互的关键环节之一。为了提升用户情绪状态的识别准确度，在一些实施例中，可以基于用户的各个模态下的输入数据来识别用户当前的情绪状态。如图2所示，具体包括如下步骤S201至步骤S204:S201、获取各个模态下的输入数据，各个模态下的输入数据包括语音信号、语音信号对应的文本数据、用户输入语音信号时的视频数据和心率数据中至少一项。[0036]本实施例中，可以通过各种模态数据捕捉用户的情绪状态。各个模态包括语音模态、文本模态、视频模态和心率模态中至少一项。下面将详细阐述每种模态的数据获取过其中，语音模态下的输入数据，可以在用户激活语音输入功能时，通过语音采集模块(例如麦克风)实时捕捉用户的语音信号获得。例如，在聊天软件、搜索引擎等多种应用程序的语音输入界面中，用户通过点击麦克风按钮即可启动语音输入功能。[0037]在一些示例中，为了提升语音质量，可以采用双麦克风阵列结合波束形成技术来抑制环境噪声，以确保语音信号的清晰度。其中，采样率可以设定为16kHz,以充分覆盖人声的基本频率范围(80-255Hz),从而保证语音输入的基础音质。例如，当用户发出赞叹如“这个功能太棒了!”时，双麦克风阵列不仅能够记录话语中的基本频率成分，还能够识别并强调其中高频能量显著增加的部分(约2000-4000Hz)。[0038]由于语句中的某些情感表达往往伴随着特定频率段的能量突增。因此通过上述采样率的配置，双麦克风阵列不仅能精确地转录用户的语音内容，还能反映说话者的情感状态，从而有助于捕捉语音信号中的情感信息。[0039]文本数据也可以在一定程度上反映用户的情绪状态。因此，在获得语音信号之后，还可以将语音信号转录为文本数据，从而获得文本模态下的输入数据，为识别用户情绪状态提供多维度的支持。[0040]另外，由于面部表情也是情绪表达的重要组成部分，因此还可以通过摄像头实时地采集用户的面部视频数据，以获取视频模态下的输入数据。[0041]除此之外，心率作为生理指标之一，对情绪变化反应敏感，能够在一定程度上反映用户的内在情绪状态。因此，还可以通过心率监测设备(如智能手环或手表)采集用户的心率数据，从而获得心率模态下的输入数据。8[0042]通过上述各个模态的输入数据，可以为识别用户情绪状态提供多个维度的数据来源，以提升用户情绪状态的识别精度。[0043]在一些实施例中，为了增强用户的个性化体验，还可以提供面部视频数据采集的授权选项。用户可以根据个人偏好选择是否开启摄像头权限。当用户选择开启摄像头的授权选项时，便可以采集用户的面部视频数据。[0044]由于麦克风、摄像头和心率监测设备可能不会同时启动，会导致多源数据之间出现不同步问题。因此，在获得多源数据之后，可以采用时间戳对齐算法来实现多源数据的同步处理，以使得多源数据在时间上同步。[0045]具体地，可以通过在数据采集的源头为每一条记录添加精确的时间戳标记，从而将来自不同设备的数据进行对齐和同步。如此，便可以确保语音、视频及心率等多模态数据在时间轴上准确匹配，为后续的情绪状态识别提供基础。[0046]S202、针对各个模态中每个模态，对该模态下的输入数据进行特征提取，得到该模态下的特征表示。[0047]不同模态对应有特征提取方法。针对不同模态下的输入数据，可以采用与之相应在一些情绪状态中，某些声学特征的表现会比较突出。例如，在愤怒情绪表达中，基频的标准差会显著增大(超过40Hz)。因此，针对语音信号，可以提取多维MFCC(梅尔频率倒谱系数)、基频(FO)以及语速(音节/秒),作为声学特征，以获得语音模态下的特征表示。为了同时兼顾特征表达的准确度和特征提取效率，可以选取13维MFCC。[0048]针对文本数据，可以通过预训练的自然语言处理模型，如RoBERTa模型提取文本的情感倾向，并基于NRC情感词典构建情感词汇密度图，以获得文本模态下的特征表示。例如，该些词汇将被识别并计入负面情感词汇的统计当中。针对面部视频数据，可以通过轻量化的面部检测模型(FaceMesh模型)实时检测多表明存在显著的积极表情特征。[0049]针对心率数据，可以从中提取平均心率、心率变异性(HRV)等关键指标，作为反映用户生理状态的心率特征。该些特征能够体现用户的情绪波动。例如，当检测到用户平均心率升高且心率变异性降低时，可能表明其正处于紧张或焦虑的情绪状态。通过该种方式，可以获得生理模态下的情绪相关特征，从而增强情绪识别的全面性与准确性。[0051]继续参阅图3,在获取了各个模态的特征表示之后，可以通过注意力机制对其融合，生成一综合性的特征表示。具体而言，通过将各个模态的特征表示输入各自对应的线性层进行初步处理，从而将不同模态的特征表示转换到一个共同的隐藏维度空间，以便后续[0052]接下来，将初步处理后的各模态特征表示拼接在一起，得到一新的组合特征。该组合特征进一步会被输入融合层，以利用激活函数增强其表达能力，生成融合后的特征表示。[0053]为了进一步优化上述融合过程，可以通过注意力机制计算各个模态下的特征表示的权重。具体可以通过注意力层来实现，该注意力层能够根据当前输入动态地评估各个特9征表示的贡献程度。[0054]最后，基于计算出的权重，对各个模态下的特征表示进行加权求和，得到最终的综合特征，确保对于理解用户情绪状态最为关键的特征表示能够在最终结果中占据更重要的位置。[0055]S204、根据综合特征，识别用户输入语音信号时的情绪状态。[0056]继续参阅图3,在一些实施例中，可以通过情绪识别模型基于前述得到的综合特征，对用户在语音输入过程中所表达的情绪状态进行识别。该模型能够结合语音、文本、面部表情和生理信号等多模态信息，进行精准地情绪分析。[0057]情绪识别模型可以采用混合神经网络模型，例如将卷积神经网络(CNN)与循环神理。[0058]在情绪分类方面，该模型不仅支持7种基础情绪的识别，包括：快乐、悲伤、愤怒、恐惧、惊讶、厌恶和中性，还扩展了20种复合情绪类别，如失望、焦虑、沮丧、兴奋、期待、讽刺等，从而实现更加细粒度和贴近真实情绪表达的分类效果。[0059]模型最终输出的为带有置信度的情绪状态标签，表示当前语音输入最可能对应的情绪类型及其强度分布。例如，当用户输入语音：“我简直无法忍受这种设计了!”,模型会综合分析语音中的语调变化、关键词语义、面部微表情以及心率波动等信息，输出如下情绪识别结果：愤怒(主情绪，置信度72%);厌恶(次情绪，置信度25%);失望(次情绪，置信度3%)。[0060]这表明，用户当前的情绪主要表现为愤怒，同时伴随一定程度的厌恶感和轻微的失望情绪。通过这种细粒度的情绪识别机制，可以更准确地理解用户的实际心理状态，为后续的人机交互提供更具个性化的反馈与响应策略。例如，根据识别到的情绪动态调整语音输入界面的颜色、动画风格或提示语内容，从而提升用户体验的情感共鸣。[0061]情绪识别模型在训练时，可以采用两阶段训练策略来提高其准确性和泛化能力。首先，在广泛使用的情绪识别数据集IEMOCAP上进行预训练，帮助模型学习到基础的情绪特征和模式。接着，在特定应用场景下的自有数据集上进行微调，使其更好地适应实际应用中的具体需求和特点。[0062]为了进一步提升训练效果和模型的鲁棒性，还可以对数据集进行数据增强处理。[0063]在实时推理优化方面，可以采用静态量化技术将模型权重转换为INT8精度，以减少计算延迟。这样，不仅能够保持高识别精度，还能确保系统响应时间低于30毫秒(ms),从而提升用户体验，尤其是在需要快速反馈的应用场景中。另外，还能够使得该模型在资源受限的设备上也能流畅运行，拓展其应用范围。[0064]继续参阅图1,本实施例的语音输入的处理方法在步骤S101之后，还可以包括步骤[0065]S102、基于预设的情绪状态与视觉展示效果之间的映射关系，确定与用户的情绪状态匹配的目标视觉展示效果。[0066]其中，目标视觉展示效果用于以可视化方式直观呈现用户的情绪状态，从而增强语音输入过程中的情感表达与交互体验。[0067]每种视觉展示效果对应一组可调节的可视化参数。该些参数包括HSL颜色空间的色彩参数、语音波形中粒子运动的速度、语音输入界面的形变程度和动态纹理的表现形式中至少一项。通过组合并动态地调整该些视觉元素，可以实现丰富且多样化的情绪反馈效果。其中，HSL为一种将颜色表示为色相、饱和度和亮度的模型。色相(H)为颜色的基本属性，表示颜色的种类，如红色、绿色、蓝色等；饱和度(S)表示颜色的纯度，饱和度越高，颜色越鲜艳；亮度(L)则控制颜色的明暗程度。通过调整色相、饱和度和亮度可以改变视觉元素的色彩氛围。[0068]为了实现视觉展示效果与用户情绪状态之间的智能匹配，可以预先构建情绪状态与视觉参数之间的映射规则表。该映射规则表当中包括多种情绪状态及其对应的可视化配置参数，使得可以根据识别出的情绪状态自动调用相应的视觉风格进行实时反馈。以下为部分情绪状态的示例配置，如表1所示：表1映射规则表情绪类型粒子速度界面形变喜悦快(8Hz)星光闪烁愤怒剧烈(12Hz)火焰波纹悲伤慢(2Hz)收缩-15%雨滴下落当识别到用户处于“喜悦”情绪时，语音输入界面可以采用明亮的黄绿色调(HSL值为(60,90%,80%)),语音波形中的粒子快速跳动、界面适度放大，并配合星光闪烁的动态纹理，营造出轻松愉快的氛围。[0069]若检测到“愤怒”情绪，则界面会切换为红色调(HSL值为(0,85%,50%)),语音波形中的粒子高频抖动，界面边缘锐化处理，并叠加火焰波纹特效，强化激烈情绪的视觉传达。例如，在愤怒情绪状态下，目标视觉展示效果可以设置为：红色占比80%,界面边缘的锯齿度为5Px,粒子速度为12Hz。[0070]对于“悲伤”情绪，则可以采用冷色调蓝色(HSL值为(240,40%,30%)),语音波形中的粒子缓慢跳动，界面收缩显示，辅以雨滴下落的动画纹理，传递出低落、沉静的情绪感受。[0071]当用户情绪为“激动/兴奋”时，语音波形将快速跳动且颜色鲜艳，以表达用户的高涨情绪。波形的频率加快，并采用明亮而饱和的色彩(如HSL值中的高亮度和饱和度设置),营造出充满活力与激情的视觉效果。[0072]当检测到用户存在持续3秒的焦虑情绪时，则界面背景渐变为深蓝色波纹、语音输入框的边缘出现呼吸灯效果、以及自动弹出冥想引导动画。[0073]相反，当用户情绪为“平静”时，语音波形则表现为平稳流畅、色调柔和的特点。此时，可以选择较为温和的色彩配置(如较低的饱和度和中等亮度的HSL值),并减少波形的动态变化，呈现出一种宁静和谐的视觉感受，以反映用户的平和心境。例如，在“平静”等中性11情绪状态下，目标视觉展示效果可以设置为：蓝色占比50%,界面[0074]通过基于情绪识别的动态视觉反馈机制，能够实现根据用户的不同情绪状态，灵活调整语音输入界面的视觉展示效果，从而提供更加贴合用户情感体验的交互环境。[0075]在识别出用户的情绪状态之后，可以根据上述预先构建的映射规则表进行查表，从而获得能够可视化反映用户当前情绪状态的界面效果。[0076]需要说明的是，每种情绪状态可以对应至少一种动态纹理效果，用户可以挑选其中一种作为该种情绪状态下将展示的动态纹理效果。[0077]S103、在语音信号对应的语音输入界面中，呈现目标视觉展示效果。[0078]在获取与用户当前情绪状态相匹配的各项视觉元素之后，便可以基于该些视觉元素进行界面渲染，以在语音信号对应的语音输入界面中呈现出目标视觉展示效果。[0079]本实施例通过在识别出用户在语音输入过程中的情绪状态之后，基于预设的情绪状态与视觉展示效果之间的映射关系，确定与用户当前情绪状态相匹配的目标视觉展示效果，并将其呈现在用户的语音输入界面中，以直观地反映用户当前的情绪状态，为语音输入的视觉反馈机制提供丰富多样的表现形式。由于视觉展示效果可以随着用户情绪状态的变化而动态调整，因此，可以提升视觉展示的灵活度，确保用户体验的多样[0080]为了确保视觉变化能够平滑过渡，避免因突然变化给用户带来的不适感，本实施例中还可以采用动态过渡方案。[0081]具体而言，在步骤S103中，当需要从当前视觉展示效果切换至新的视觉展示效果时，可以采用渐变技术实现平滑过渡。即步骤S103具体包括：调整语音输入界面的当前视觉展示效果，使其渐变至目标视觉展示效果。饱和度和亮度，加快波形中粒子的速度，并逐步增强界面的动态效果，直至完全达到与“激动/兴奋”情绪相对应的目标视觉展示效果。在一些实现方式中，在目标视觉展示效果包括目标色彩参数的情况下，则调整语音输入界面的当前视觉展示效果，使其渐变至目标视觉展示效果，包括：调整语音输入界面的当前色彩参数渐变至目标色彩参数。[0084]在一些实现方式中，在目标视觉展示效果包括语音输入界面的目标形变参数的情况下，则调整语音输入界面的当前视觉展示效果，使其渐变至目标视觉展示效果，包括：调整语音输入界面的当前形变参数渐变至目标形变参数。[0085]在一些实现方式中，在目标视觉展示效果包括目标色彩参数和语音输入界面的目标形变参数的情况下，则调整语音输入界面的当前视觉展示效果，使其渐变至目标视觉展示效果，包括：调整语音输入界面的当前色彩参数渐变至目标色彩参数，并调整语音输入界面的当前形变参数渐变至目标形变参数。[0086]在色彩参数的调整过程中，通过调整语音输入界面的当前色彩参数，使其逐渐过渡到目标色彩参数，可以确保颜色变换过程平滑自然。[0087]在界面形变参数的调整过程中，通过根据预定义的目标形变参数来调整当前的界面布局或元素形状，例如，通过精确控制每个界面元素的位置、大小和角度等属性的变化速率与路径，以确保整个过渡过程流畅且自然，从而实现视觉上的动态变化。其中，形变可以包括缩放、旋转以及变形动画。变形动画包括将矩形按钮变为圆形图标。[0088]在一些复杂场景中，还可以同时对色彩和形变进行调整。这需要同时处理颜色平滑过渡，以及同步处理界面形状的变化。例如，在一个语音输入界面从方形变为圆形的同时，背景颜色也由浅蓝转变为深蓝。下面将详细介绍色彩参数和形变参数各自的渐变调整在一些实现方式中，调整语音输入界面的当前色彩参数渐变至目标色彩参数时，可以确定一系列中间色彩值，并按照设定的速度逐步应用该些色彩值，直至达到最终的目标色彩，以实现自然过渡效果。具体包括如下步骤a1和步骤a2:步骤a1、确定色彩参数的调整步长值。[0089]其中，色彩参数包括色相参数和/或饱和度参数；则步骤a1确定色彩参数的调整步长值，包括：基于语音输入界面的当前色相参数与目标色相参数之间的色相参数差值，以及预设调整比例的乘积，确定色相参数的调整步长值；和/或，基于预设的饱和度调整值，确定饱和度参数的调整步长值。[0090]其中，色相参数的调整步长值为实现色彩渐变过程的关键。通过合理设置每一步的调整幅度，即调整步长，可以控制色相参数从当前状态像目标状态变化的速度和流畅度。[0091]假设当前色相参数为Hcurrent,目标色相参数为Harge,预设调整比例为RH,取值为0到1之间，例如0.15。则首先计算色相参数差值△H=I。接下来计算调整步长值[0092]针对饱和度参数，可以对其设置固定的调整值，取值范围为[0.1,0.5],例如0.1、[0093]步骤a2、基于色彩参数的调整步长值，调整语音输入界面的当前色彩参数渐变至目标色彩参数。[0094]通过色彩参数的调整步长值，逐步调整语音输入界面当前的色彩参数，使其平滑过渡至目标色彩参数。例如，如果目标是从较暗的蓝色(HSL值为(240、40%、30%))渐变至明亮的天蓝色(HSL值为(180、80%、90%)),则通过分别计算出色相参数、饱和度和亮度各自的调整步长值，并按照该调整步长值逐步调整，从而确保色彩转换过程中的视觉平滑性。[0095]如图4所示，针对色相参数，则是在当前已调整色相参数的基础上，每次增加△H*R,直至达到目标色相参数。[0096]在一些实现方式中，调整语音输入界面的当前形变参数渐变至目标形变参数，包括如下步骤b1和步骤b2:步骤b1、基于当前形变参数与目标形变参数各自对应的权重，对当前形变参数与目标形变参数进行加权求和，并将加权求和结果确定为形变参数的调整步长值。[0097]在界面形态随用户情绪动态变化的过程中，为了实现从当前形变状态平滑过渡到目标形变状态，可以根据当前形变参数(如界面缩放比例、控件变形程度等)与目标形变参数之间的差异，并结合各自设定的权重比例，计算用于控制渐变节奏的步长值。其中，当前形变参数与目标形变参数各自对应的权重，可以根据用户需求进行设置，具体如下：在一些示例中，可以根据即时反馈需求设置权重。例如，如果用户希望在检测到情绪发生变化时迅速调整界面形态以得到即时反馈。则目标形变参数的权重应设置较高(例如0.8),而当前形变参数的权重相对较低(如0.2)。如此，可以使新的界面形态尽快呈现出[0098]在另一些示例中，还可以根据用户对过渡效果的需求设置权重。例如，如果用户希望在情绪变化时感受到平滑自然的界面转换，则可以采用更均衡的权重分配。例如，初始阶段为当前形变参数设置较高的权重(如0.7),而目标形变参数的权重稍低(如0.3),之后随着过渡过程逐渐降低前者并增加后者，直到完全过渡为目标形变参数，给予用户更多时间适应新状态。[0099]在又一些示例中，还可以根据用户对情感表现力的需求来设置权重。例如，如果用的权重设为最大值(如1),忽略当前形变参数的影响，从而实现快速且强烈的变化。相反，对于一些较为细腻的情绪(如“平静”),则可以适当降低目标形变参数的权重，使得过渡更加缓慢和谐。[0100]在又一些示例中，还可以根据用户的个性化需求来设置权重。具体地，可以根据不同用户的偏好或历史数据来自定义权重。例如，某些用户可能偏好快速直接的情感反馈，此时可以为该类用户配置更高的目标形变参数权重；而对于喜欢温和变化的用户，则采用更[0101]步骤b2、基于形变参数的调整步长值，调整语音输入界面的当前形变参数渐变至目标形变参数。[0102]基于在步骤b1中计算得到的形变参数调整步长值，逐步对语音输入界面当前的形变参数进行迭代更新，使其从当前状态平滑过渡至目标形变参数。具体而言，在每一次更新周期中，根据设定的步长值对当前形变参数进行微调，例如增加或减少一定的缩放比例、弯[0103]如图5所示，以界面缩放为例，若当前界面处于正常大小(缩放比例为1.0),而目标是根据用户情绪识别结果放大至1.2倍，则在每一帧或固定时间间隔中，按照计算出的步长[0104]此外，还可以结合缓动函数(如线性插值、缓入缓出函数)来进一步优化过渡曲线，使界面变化更加自然流畅。[0105]本实施例通过调整语音输入界面的当前色彩参数渐变至目标色彩参数，和/或调整语音输入界面的当前形变参数渐变至目标形变参数，不仅可以提升界面响应情绪识别结果的准确性，也可以增强用户交互时的沉浸感和情感共鸣体验。相较于直接切换到新的视觉设置而言，通过逐步调整当前界面的视觉参数(如色彩、粒子速度、界面形变和动态纹理等),使其逐渐接近目标视觉效果。不仅能够保证视觉转换过程中的连贯性和流畅性，还可以提升用户体验的整体舒适度和沉浸感。即使是在情绪快速变化的情况下，也能让用户感受到自然和谐的视觉体验，增强了人机交互的情感共鸣。无论是情绪的微妙变化还是显著波动，都能在界面设计上得到细腻且恰当的表现。[0106]为了确保提供低延迟的可视化渲染效果，从而在短时间内完成从语音输入到可视化反馈的全过程，在目标视觉展示效果包括目标粒子速度时，则调整语音输入界面的当前视觉展示效果，使其渐变至目标视觉展示效果，还包括：基于显示设备的性能参数，确定预加载的粒子的目标数量；通过WebGPU并行计算框架，预加载目标数量的粒子，并基于目标粒子速度，渲染目标视觉展示效果。[0108]其中，基于显示设备的性能参数，确定预加载的粒子的目标数量，包括：基于显示设备的性能参数与预加载的粒子数量之间的映射关系，确定与显示设备相匹配的预加载粒子数量。[0109]在一些示例中，显示设备的性能参数与预加载的粒子数量之间的映射关系，可以是一对一的关系。例如，不同的性能参数对应不同的预加载粒子数量，并且每个性能参数对应的预加载粒子数量不同。[0110]在一些示例中，显示设备的性能参数与预加载的粒子数量之间的映射关系，也可以是多对一的关系。例如，可以将性能参数划分为多个区间范围，并对每个区间范围设置相应的预加载粒子数量。[0111]例如，可以将性能参数划分为第一性能参数区间范围、第二性能参数区间范围和第三性能参数区间范围；并且第一性能参数区间范围对应高端设备，第二性能参数区间范围对应中端设备，第三性能参数区间范围对应低端设备；高端设备、中端设备、低端设备对[0112]本实施例通过根据显示设备的实际性能自动调整粒子的数量，确保在各种硬件条件下都能实现最佳的可视化渲染效果，同时保持低延迟和高响应速度。[0113]为了使视觉展示效果更加贴近用户的实际偏好，在一些实施例中，可以收集用户对目标视觉展示效果的反馈数据，并基于该反馈数据对上述映射关系进行更新。[0114]其中，反馈数据中包括用户对目标视觉展示效果的交互行为数据；基于反馈数据，对映射关系进行更新，包括：基于用户对目标视觉展示效果的交互行为数据，更新映射关[0115]其中，交互行为数据包括手动调整语音输入界面的尺寸(如缩小、放大等)、频繁切换动态纹理效果、目标视觉展示效果的使用时长等。[0116]在将目标视觉展示效果呈现给用户之后，如果用户对某一情绪状态下的视觉展示效果不满意，可以手动调整该情绪状态下的视觉展示效果。通过记录用户的该些交互行为数据，可以进一步优化上述映射关系，使其更加符合用户的个人偏好。[0117]本申请的实施例中，在特征提取部分耗时25ms,情绪分类推理部分耗时35ms,可视化渲染部分耗时40ms,整体耗时小于或等于100ms。如此，能够确保为用户提供即时响应，提供流畅无缝的交互体验。无论是在实时语音情感分析的应用场景下，还是在需要迅速反馈的互动式媒体环境中，对于提升用户体验至关重要。[0118]示例性装置与上述的语音输入的处理方法对应的，本申请实施例还提供了一种语音输入的处理装置。图6是本申请实施例提供的一种语音输入的处理装置的结构示意图。如图6所示，本申请实施例提供的语音输入的处理装置包括：识别单元601、确定单元602和呈现单元603;其中，识别单元601,识别用户输入语音信号时的情绪状态；确定单元602,用于基于预设的情绪状态与视觉展示效果之间的映射关系，确定与所述用户的情绪状态匹配的目标视觉展示效果，所述目标视觉展示效果用于可视化地展示所述用户的情绪状态；呈现单元603,用于在所述语音信号对应的语音输入界面中，呈现所述目标视觉展示效果。[0119]在一些实施例中，所述视觉展示效果包括HSL颜色空间的色彩参数、所述语音信号的波形中包含的粒子的速度、所述语音输入界面的形变参数和动态纹理参数中至少一项。[0120]在一些实施例中，呈现单元603在所述语音信号对应的语音输入界面中，呈现所述目标视觉展示效果，包括：调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果。[0121]在一些实施例中，在所述目标视觉展示效果包括目标色彩参数和/或所述语音输入界面的目标形变参数的情况下；其中，所述呈现单元603调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果，包括：调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数；和/或，调整所述语音输入界面的当前形变参数渐变至所述目标形变参数。[0122]在一些实施例中，所述呈现单元603调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数，包括：确定所述色彩参数的调整步长值；基于所述色彩参数的调整步长值，调整所述语音输入界面的当前色彩参数渐变至所述目标色彩参数。[0123]在一些实施例中，所述色彩参数包括色相参数和/或饱和度参数；其中，所述呈现单元603确定所述色彩参数的调整步长值，包括：基于所述语音输入界面的当前色相参数与目标色相参数之间的色相参数差值，以及预设调整比例的乘积，确定所述色相参数的调整[0124]在一些实施例中，所述呈现单元603调整所述语音输入界面的当前形变参数渐变至所述目标形变参数，包括：基于所述当前形变参数与所述目标形变参数各自对应的权重，对所述当前形变参数与所述目标形变参数进行加权求和，并将加权求和结果确定为所述形变参数的调整步长值；基于所述形变参数的调整步长值，调整所述语音输入界面的当前形变参数渐变至所述目标形变参数。[0125]在一些实施例中，在所述目标视觉展示效果包括目标粒子速度时，所述呈现单元603调整所述语音输入界面的当前视觉展示效果，使其渐变至所述目标视觉展示效果，还包括：基于显示设备的性能参数，确定预加载的粒子的目标数量；通过We预加载所述目标数量的粒子，并基于所述目标粒子速度，渲染所述目标视觉展示效果。[0126]在一些实施例中，所述识别单元601识别用户输入语音信号时的情绪状态，包括：获取各个模态下的输入数据，所述各个模态下的输入数据包括所述语音信号、所述语音信号对应的文本数据、所述用户输入所述语音信号时的视频数据和心率数据中至少一项；针对所述各个模态中每个模态，对该模态下的输入数据进行特征提取，得到该模态下的特征表示；基于所述各个模态下的特征表示，得到综合特征；根据所述综合特征，识别所述用户输入语音信号时的情绪状态。[0127]在一些实施例中，所述装置还包括：更新单元604,用于获取所述用户对所述目标视觉展示效果的反馈数据；基于所述反馈数据，对所述映射关系进行更新。[0128]在一些实施例中，所述反馈数据中包括所述用户对所述目标视觉展示效果的交互行为数据；其中，所述更新单元604基于所述反馈数据，对所于所述用户对所述目标视觉展示效果的交互行为数据，更新所述映射关系，以使所述映射关系符合所述用户的偏好。[0129]本实施例提供的语音输入的处理装置，与本申请上述实施例所提供的语音输入的处理方法属于同一申请构思，可执行本申请上述任意实施例所提供的语音输入的处理方法，具备执行语音输入的处理方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的语音输入的处理方法的具体处理内容，此处不再加以赘述。[0130]以上的识别单元601、确定单元602、呈现单元603和更新单元604所实现的功能可以分别由相同或不同的处理器实现，本申请实施例不作限定。[0131]应理解以上装置中的单元可以以处理器调用软件的形式实现。例如该装置包括处理器，处理器与存储器连接，存储器中存储有指令，处理器调用存储器中存储的指令，以实现以上任一种方法或实现该装置各单元的功能，其中处理器可以为通用处理器，例如CPU或微处理器等，存储器可以为装置内的存储器或装置外的存储器。或者，装置中的单元可以以硬件电路的形式实现，可以通过对硬件电路的设计，实现部分或全部单元的功能，该硬件电路可以理解为一个或多个处理器；例如，在一种实现中，该硬件电路为ASIC,通过对电路内元件逻辑关系的设计，实现以上部分或全部单元的功能；再如，在另一种实现中，该硬件电路可以通过PLD实现，以FPGA为例，其可以包括大量逻辑门电路，通过配置文件门电路之间的连接关系，从而实现以上部分或全部单元的功能。以上装置的所有单元可以全部通过处理器调用软件的形式实现，或全部通过硬件电路的形式实现，或部分通过处理器调用软件的形式实现，剩余部分通过硬件电路的形式实现。[0132]在本申请实施例中，处理器是一种具有信号的处理能力的电路，在一种实现中，处实现中，处理器可以通过硬件电路的逻辑关系实现一定功能，该硬件电路的逻辑关系是固定的或可以重构的，例如处理器为ASIC或PLD实现的硬件电路，例如FPGA等。在可重构的硬件电路中，处理器加载配置文档，实现硬件电路配置的过程，可以理解为处理器加载指令，以实现以上部分或全部单元的功能的过程。此外，还可以是针对人工智能设计的硬件电路，[0133]可见，以上装置中的各单元可以是被配置成实施以上方法的一个或多个处理器中至少两种的组合。[0134]此外，以上装置中的各单元可以全部或部分可以集成在一起，或者可以独立实现。在一种实现中，这些单元集成在一起，以SOC的形式实现。该SOC中可以包括至少一个处理器，用于实现以上任一种方法或实现该装置各单元的功能，该至少一个处理器的种类可以不同，例如包括CPU和FPGA,CPU和人工智能处理器，CPU和GPU等。[0135]示例性电子设备本申请实施例提出一种电子设备，参见图7所示，该电子设备包括：存储器200和处理器210;其中，所述存储器200与所述处理器210连接，用所述处理器210,用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音输入的处理方法。[0136]具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备[0137]处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互总线可包括一通路，在计算机系统各个部件之间传送信息。[0138]处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specificintegratedcircuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。[0139]处理器210可包括主处理器，还可包括基带芯片、调制解调器等。[0140]存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他器200可以包括只读存储器(read-onlymemory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccessmemory,RAM)、可存储信息和指令的其[0141]输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标[0143]通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通[0144]处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种语音输入的处理方法的各个步骤。[0145]本申请实施例还提出一种芯片，该芯片包括处理器和数据接口，所述处理器通过所述数据接口读取并运行存储器上存储的程序，以执行上述任意实施例所介绍的语音输入的处理方法，具体处理过程及其有益效果可参见上述的语音输入的处理方法的实施例介[0146]示例性计算机程序产品和存储介质除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述任意实施例中描述的根据本申请各种实施例的语音输入的处理方法中的步骤。[0147]所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。[0148]此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述任意实施例中描述的根据本申请各种实施例的语音输入的处理方法中的步骤，具体可以实现以上方法的步骤。[0149]对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品

文档简介

温馨提示

最新文档

评论

CN120220720A 一种语音输入的处理方法、装置、设备、介质及产品

文档简介

温馨提示

最新文档

评论

相关文档