CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）

上传人：1*** IP属地：山西上传时间：2026-03-25 格式：DOCX 页数：38 大小：1.34MB 积分：10.2 举报 版权申诉

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）_第2页

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）_第3页

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）_第4页

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）_第5页

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

TrafficCommunicationUsingDeeDeepBidirectionalTransformersTrafficCommunicationUsingDee一种基于特征融合的陆空通话说话人角色本发明涉及民用航空空中交管理语音通信综合考虑陆空通话语音信号的特征表示和文本空管业务培训等应用提供相对应的说话人角色2S4：将所述单句语音片段以及所述文本信息输入到预其中，所述说话人角色信息包括管制员以及飞行员；所述多所述语音预训练模块采用自监督学习进行模型训练，用于从所述单句所述动态卷积音频特征提取器包括三个串联的动态卷积单元，所述动通过残差链接相加后再输入第三动态卷积单元处理后输出初所述编码器包括若干卷积神经网络层，用于提取所述初步语音特所述Transformer单元用于获取上通过所述动态卷积音频特征提取器从所述单句语音片段中提取初步所述编码器提取所述初步语音特征的潜在语音表征信息；然后分别通过所述Transformer2.根据权利要求1所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征3.根据权利要求1所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征4.根据权利要求3所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征3所述特征提取模块包括若干组相互连接的卷积层和池化层；所述卷所述分类判决模块包括若干全连接层以及一个输出层；所述全连接5.根据权利要求1所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征6.根据权利要求5所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征7.根据权利要求1所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征所述Embedding单元包括词嵌入层和位置嵌入层；所述词嵌入层用于将各个文本词汇所述Transformer单元由若干编码器单所述预测层用于预测被MASK掉的文本单元，以驱动神经网络学习文本特征的高维表8.根据权利要求1所述的一种基于特征融合的陆空通话说话人角色识别方法，其特征所述模态注意力机制单元用于融合所述语音特征表示和所述文本特征表示的高维特4文本预训练模块输出特征表示的向量的序列长度；wij为通过Softmax函数产生模态注意力ij为时间步为i时的语音特征表示和时间步为j时的文本特征表示之间的相关分数；所述池化层用于将所述高维特征表示fi池化为一所述分类器用于根据所述一维特征向量进行说话人角色识别分类，输9.一种基于特征融合的陆空通话说话人角色识别5[0002]空中交通管制员和飞行员之间的语音通信是空中交通管理领域中最重要的交互际民用航空组织(InternationalCivilAviationOrganization，ICAO)推荐的通信规本信息对说话人角色进行分类的方法行之有效。而语音可以被认为是说话者的另一种表主要有基于文本的说话人角色识别和基于语音的说话人角色识别等单模态说话人角色识别方法，但基于文本的方法的性能通常依赖于空中交通管理语法，而基于语音的方法与通于文本的方法的性能将显著降低。类似地，当基于语音的方法在看不见的数据集上工作时[0010]S2：持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片6说话人角色识别方法，通过综合考虑陆空通话语音信号的特征表示和文本信息的特征表输出所述单句语音片段中带有人声的所述单[0024]作为本发明的优选方案，所述步骤S3中转录操作通过预训练的语音识别模型实7从所述文本信息中提取文本特征表示获取；所述文本预训练模块包括Embedding单元、[0030]所述Embedding单元包括词嵌入层和位置嵌入层；所述词嵌入层用于将各个文本输出通过残差链接相加后再输入第三动态卷积单元处理后输出通过所述编码器提取所述初步语音特征的潜在语音表征信息；然后分别通过所述Transformer单元和所述量化器获取所述潜在语音表征信息中的深层表征信息和量化表征征表示输出所述语音信号对应的说话人角色信息；所述分类模块包括模态注意力机制单[0040]所述模态注意力机制单元用于融合所述语音特征表示和所述文本特征表示的高;特征表示和所述文本特征表示之间的相关向量，所述语音特征表示的向量为8,所述文本特征表示的向量为，m、n分通过Softmax函数产生模态注意力权重；ey为时间步为i时的语音特征表示和时间步为j1sism,1sjsn；[0049]图1为本发明实施例1所述的一种基于特征融合的陆空通话说话人角色识别方法[0050]图2为本发明实施例2所述的一种基于特征融合的陆空通话说话人角色识别方法[0051]图3为本发明实施例2所述的一种基于特征融合的陆空通话说话人角色识别方法[0052]图4为本发明实施例2所述的一种基于特征融合的陆空通话说话人角色识别方法[0053]图5为本发明实施例2所述的一种基于特征融合的陆空通话说话人角色识别方法[0054]图6为本发明实施例2所述的一种基于特征融合的陆空通话说话人角色识别方法[0055]图7为本发明实施例2所述的一种基于特征融合的陆空通话说话人角色识别方法9[0056]图8为本发明实施例4所述的一种利用了实施例1所述的一种基于特征融合的陆空通话说话人角色识别方法的一种基于特征融合的陆空通话说话人角色识别装置的结构示[0061]S2：持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片[0072]此步骤目的在于采集陆空通话的语音信号，本实施例中后面建立采用的语料库A的语音被标记为unknown，并被排除在本实例之外。语料库A中所有样本的采样率均为[0075]1）所述语音信号接入模块包含线性接入和无线电接收两种语音信号两种接入模测值；是指用k-1时刻的观测来对k时刻的状态进行估计；是指从到K时刻的状态转移矩阵；Rh-1是指在获得Z1,Z2,…,zh-1后对xr-1的最小方差估计；观测噪声vx的方差阵；ph-i是指Rh-1的方差阵；是指k-1时刻的噪声驱动矩阵；QK-1[0091]S2：持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片输出所述单句语音片段中带有人声的所述单机制是卷积神经网络针对全连接神经网络处理词向量矩阵出现参数量过多、占用资源大、的特征向量表示，之后全连接层负责将上层提取并映射得到的高维特征信息进行全局整经网络（RecurrentNeuralNetwork，RNN）层和全连接层，且所述模型使用CTC文汉字和英文字母作为基本建模单元，即给定输入语音特征，模型经过解码后直接输出对[0104]基于文本的说话人角色识别方法的核心思想是基于国际民用航空组织发布的空[0106]所述Embedding单元包括词嵌入层和位置嵌入层；所述词嵌入层将各个词转换成作用是让文本预训练模块理解不同位置的同一个词应该有着不同的向量表示，克服[0116]所述动态卷积音频特征提取器包括三个串联的动态卷积单元，其设计原理如图7所示，其主要用于解决在陆空通话语音中往往语速较快，并常常伴随不稳定噪声的环境条件下提取语音信号特征的难题。该提取器中使用的卷积层与深度学习中常用的卷积层不输入，这些并行卷积核通过输入依赖注意力机制实现动态聚合。并行卷积内核通过聚合共[0128]所述动态卷积音频特征提取器第一动态卷积单元的输出和第二动态卷积单元的[0129]所述编码器包括若干卷积神经网络层，每个卷积神经网络层中均包含层标准化息。通过所述编码器提取所述初步语音特征的潜在语音表征信息；然后分别通过所述Transformer单元和所述量化器获取所述潜在语音表征信息中的深层表征信息和量化表征[0135]所述分类模块用于根据所述语音特征表示和所述文本特征表示生成说话人角色[0136]给定语音预训练模块输出的向量为，文本预训练模块的输出向v'={,,..,补[0137]首先，使用Score打分函数计算出时间步i的语音特征和时间步j的文本特征之间[0139]a是可训练的参数，i、j为时间步变量，1≤[0153]将词嵌入的维数设置为512，分类器中2个全连接层的神经元数量分别设置为256指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行[

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）

文档简介

温馨提示

最新文档

评论

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置 （四川大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115240651B 一种基于特征融合的陆空通话说话人角色识别方法及装置（四川大学）