CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）

上传人：1*** IP属地：山西上传时间：2026-05-02 格式：DOCX 页数：26 大小：898.35KB 积分：10.2 举报 版权申诉

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）_第2页

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）_第3页

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）_第4页

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）_第5页

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

使用多级语料库数据增广进行驾驶舱语音本发明公开了一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音方法包括通过至少一个处理器经由用户界面获发音包括实际发音的语音数据的第一数量的音法还包括对预定短语的多个语音数据发音执行数据集包括第一数量的音频样本和第二数量的21.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识通过所述至少一个处理器经由用户界面获得预定短语的多个语音对预定短语的所述多个语音数据发音执行多次增广以生成语料库通过以下方式执行第一级增广：处理所述多个语音数据发音中的每一个通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声通过所述至少一个处理器使用所述语料库音频数据集来训练所述ASR模型音发音是使用与所述飞机通信地耦接的包括麦克风和扬声器所述语音随机变换算法随机地选择所述第一子集和所述第二4.根据权利要求1所述的方法，其中所述声频分量的所述第一子集包括相同频率范围5.根据权利要求1所述的方法，其中所述声频分量的所述第二子集包括相同频率范围接收机组人员或空中交通管制语音通信，并且使用所述ASR模型来自动地识别所述语音通8.根据权利要求7所述的方法，还包括基于所述所识别的说出的词语来自动地执行飞9.根据权利要求1所述的方法，还包括使用随后经由所述用户界面接收的所述预定短语的进一步多个语音数据发音来生成更新的3经由所述用户界面获得预定短语的多个语音数据发音，对预定短语的所述多个语音数据发音执行多次增广以生成语料库通过以下方式执行第一级增广：处理所述多个语音数据发音中的每一个将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成使用所述语料库音频数据集来训练所述AS4求飞行员控制比以往技术上不太复杂的飞机中存在移开一只手并且将他或她的注意力从手头的任务转移到操纵用户界面的物理部件(例如，[0004]近年来为协助飞行员保持态势感知并且减少用户界面的物理部件的操纵而开发[0005]ASR技术的一个挑战是实现可接受的语音识别准确度级别，以便避免对飞机系统由于有许多不同讲话者(任何给定飞机通常由许多不同机组人员驾驶)以及周围声音环境5料库音频数据集，该语料库音频数据集包括第一数量的音频样本和第二数量的音频样本，少一个处理器将经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音器使用语料库音频数据集来训练ASR模型以6[0010]可从附图得出对本公开的更完整的理解，其中类似的附[0011]图1是根据一个示例性实施方案的具有集成声学语音识别系统的飞机系统的示意[0013]图3是根据一个示例性实施方案的示出图2的声学语音识别系统的增广模块的设[0014]图4是根据一个示例性实施方案的示出图3的增广模块的语音变换处理模块的设[0015]图5是根据一个示例性实施方案的示出图3的增广模块的噪声注入处理模块的设[0016]图6是根据一个示例性实施方案的由图3的增广模块生成的派生的语音语料库数[0018]虽然下文将详细描述在基于飞机的语音识别系统中实现的本发明主题的实施方7进行另一个训练过程以生成语音配置文件以便存储在第二飞机的语音识别系统中。为此，述各种实施方案。[0023]图1是根据一个示例性实施方案的具有集成声学语音识别系统的飞机系统100的硬件或设备工件以分布方式实现飞机系统100的单独元件和[0024]处理系统102可利用一个或多个通用处理器、内容可寻址存储器、数字信号处理8件改变其操作，向处理系统102提供信息，或执行其他动作(其非限制性示例将在下文提和图形与显示系统106配合以显示、呈现或以其他方式传达一个或多个图形表示、合成显[0028]在一个示例性实施方案中，无线电通信模块120被适当地配置为支持主飞机与一等)的取向的电气与机械系统。处理系统102和控制面致动模块110配合以调节飞行控制面9[0030]语音I/O接口116被适当地配置为将耳麦160与系统100耦接，从而使系统100能够信模块120)可向语音I/O接口116提供数字语音信号，该语音I/O接口可由数字语音信号生成模拟语音信号并且向耳麦160的一个或多个扬声器164现语音处理模块202、语音输入模块204(与图1的语音I/O接口116相结合)、命令处理模块[0032]首先，在训练过程期间向系统200的语音训练数据高速缓存提供语音语料库数据[0033]语音处理模块202执行语音识别算法，该语音识别算法使用存储在语音训练数据高速缓存中的语音语料库数据来从数字语音信号280中识别一个或多个所识别的术语。响应于系统用户发出的话语而(例如由图1的麦克风162和语音I/O接口116)生成数字语音信号280，并且语音输入模块204被配置为接收语音信号280并且将该语音信号传输到语音处音数据以供语音处理模块202稍后使用。[0034]语音处理模块202可执行将语音语料库数据(即，训练数据)与语音识别结合在一令处理模块206，该命令处理模块被配置为基于由所识别的术语形成的命令来确定系统响[0036]根据一个实施方案，命令处理模块206通过执行与各种已知命令相关联的应用来令/应用映射数据222将从语音处理模块202接收的所识别的语音命令映射到特定应用动作将关于该动作的信息传送到与主机系统部件相关联的应用的变化率相关联的数据)。映射到该命令(并执行)的一些驾驶舱操作应用动作可包括经由响应生成器可生成响应信号并将该响应信号提供给用户界面的显示和/或音频部件(例如，生成更新的语音训练数据和元数据，并且向语音训练数据高速缓存210提供更新的语音训音样本)与先前获取的语音配置文件的关联不充分时生成并提供更新的语音训练数据。更添加到用户的现有配置文件集中的能力。语音训练数据更新模块208可使用多种标准学习块提供与使用相对较少量的语音语料库数据来允许语音处理模块准确地识别说出的词语[0041]图3是提供关于增广模块216的设计和操作的更多细节的存储在语音训练数据高速缓存210中的初始语音训练数据包括一个或多个音频样本，一个然后以各种组合将它们重组而生成增广的(派生的)语音语料库据318确定的各种因素调节该驾驶舱噪声剖面数据，然后将每个此类调节的驾驶舱噪声剖面数据与语音变换410-A至410-X中的每一者组合以生成具有“1级”噪声的语料库数据音410-A至410-X与基于噪声的音频数据组合以生成经组合的语音数据发音(语料库数据510-1至510-N)，其中已为经组合的语音数据发音中的每个调节基于噪声的驾驶舱剖面音频数据的级别以生成包括各种驾驶舱噪声级的语

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）

文档简介

温馨提示

最新文档

评论

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统 （霍尼韦尔国际公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN111833850B 使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统（霍尼韦尔国际公司）