数字语音信息处理 课件 第7章 说话人识别_第1页
数字语音信息处理 课件 第7章 说话人识别_第2页
数字语音信息处理 课件 第7章 说话人识别_第3页
数字语音信息处理 课件 第7章 说话人识别_第4页
数字语音信息处理 课件 第7章 说话人识别_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章说话人识别7.说话人识别说话人识别(SpeakerRecognition,SR)定义:通过声音来识别出来谁在说话核心应用场景:信息安全验证/公安侦察/身份识别/家居唤醒7.说话人识别SR分类:​​分类维度​​​​区别​​说话人辨认一对多说话人确认一对一说话人识别方法7.说话人识别

研究历程与发展20世纪30年代:人耳听辨1945年:提出了“声纹”的概念近年来:

非参数方法

参数方法

人工神经网络7.说话人识别传统的说话人识别系统传统的说话人识别系统框架训练(注册)阶段​输入:多个说话人的语音数据→训练生成每个说话人的独立模型(如GMM)​识别阶段​​说话人辨认​:计算测试语音与所有注册模型的相似度,选择最匹配者。​说话人确认​:判断测试语音与目标模型的距离是否超过阈值7.说话人识别基于神经网络的说话人识别系统基于神经网络的说话人识别系统流程训练(注册)阶段​:使用海量数据训练深度特征提取模型(如DNN、x-vector)​​测试阶段:分别提取注册集和测试集的特征向量,通过相似度(如余弦/PLDA)判决。7.说话人识别本章知识点:•基于高斯混合模型的说话人识别•基于i-vector的说话人识别•基于深度神经网络的说话人识别•说话人日志7.1基于高斯混合模型的说话人识别高斯混合模型(GaussianMixtureModels,GMM)​​

​​优点​​:无标注数据也可训练概率解释性强缺点​​:需充足训练数据忽略帧间时序关系

7.1.1GMM说话人识别

7.1.1GMM说话人识别

7.1.1GMM说话人识别

7.1.1GMM说话人识别

7.1.2GMM-UBM说话人识别通用背景模型(UniversalBackgroundModel,UBM)。

​​优点​​:少量目标数据MAP自适应​​

GMM-UBM算法流程7.1.2GMM-UBM说话人识别

7.1.2GMM-UBM说话人识别

7.1.2GMM-UBM说话人识别

7.1.2GMM-UBM说话人识别

7.1.3GMM-SVM说话人识别支持向量机(SupportVectorMachine,SVM)

​​优点​​:显式构建分类超平面最大化正/负类间隔

7.1.3GMM-SVM说话人识别

GMM均值超矢量7.1.3GMM-SVM说话人识别

7.2基于i-vector的说话人识别i-vector技术​​传统GMM-UBM痛点​:信道信息污染说话人特征识别性能波动

​​优点​​:低维表征计算复杂度降为GMM-UBM的1/3

7.2.1基于GMM的i-vector说话人识别

7.2.1基于GMM的i-vector说话人识别

7.2.1基于GMM的i-vector说话人识别

7.2.1基于GMM的i-vector说话人识别说话人识别系统

基于GMM的i-vector说话人识别系统的流程右图展示了基于GMM的i-vector说话人识别系统的流程,分为训练阶段和测试阶段。

在训练阶段对i-vector子空间模型进行训练,并提取i-vector进行后端处理,如信道补偿、相似度打分、分数归一化等。在测试阶段,使用训练阶段训练的模型对目标说话人语音和测试说话人语音提取i-vector因子,并输入到后端处理中进行说话人判决。7.2.2基于DNN的i-vector说话人识别

基于GMM的i-vector建模流程7.2.2基于DNN的i-vector说话人识别​DNN声学模型的关键实现基于DNN的i-vector建模流程基于DNN声学模型的后验概率计算7.2.2基于DNN的i-vector说话人识别

7.2.3说话人相似度打分

7.2.3说话人相似度打分

7.2.3说话人相似度打分

7.3基于深度学习的说话人识别从帧级到话语级​​技术阶段​​​​核心创新点​​局限性​d-vector(2014)​DNN最后一隐藏层均值作为说话人矢量 需分段处理,忽略长时语音特性​x-vector(2017)​TDNN+统计池化提取固定维度嵌入未充分利用通道注意力机制​ResNet(2019)​残差块解决梯度消失,深层特征提取计算复杂度较高​ECAPA-TDNN(2020)​​ 通道注意力+多层级特征融合统计池化方面做了改进7.3基于深度学习的说话人识别从帧级到话语级说话人识别模型结构图7.3.1x-vector说话人识别x-vector:统计池化层实现变长语音处理网络结构四阶段​:​1.帧处理层​:TDNN卷积(时延神经网络)2.​统计池化层​:输出均值+标准差拼接3.段级全连接层​:提取高层说话人特征4.​Softmax分类层​:输出说话人概率分布x-vector网络结构图7.3.2ResNet说话人识别残差学习解决深度网络退化问题残差块​:​残差块结构图ResNet结构图7.3.3ECAPA-TDNN说话人识别注意力机制驱动三大核心技术​:1.SE-Res2Net模块

多尺度特征提取

通道注意力加权2.通道相关注意力池化3.多层级特征融合:拼接所有SE-Res2Block输出SE-Res2Net结构图7.3.4基于预训练大模型的说话人识别WavLM预训练+微调架构​基于WavLM预训练模型的说话人识别特征提取革命​:WavLM编码器替代MFCC/Fbank,生成深度语音嵌入两阶段训练:​7.4说话人日志技术大数据时代的语音处理挑战问题根源:海量音频流包含多说话人/多语言/噪声混杂(会议录音、客服对话等)​说话人日志定义​:若将“同质”定义为说话人相同,即为说话人标记(SpeakerDiarization,SD);若将“同质”定义为语种相同,即为语种标记(LanguageDiarization,LD)。​核心技术目标​:“谁在什么时候说话”(WhoSpokeWhen)应用价值​:公安审讯分析、电信诈骗语音分离、会议记录自动化7.4说话人日志技术说话人标记示意图说话人标记的应用场景:1.说话人索引构建:公安审讯语音:分离嫌疑人/警察声纹法庭录音:自动标注律师/证人/法官2.辅助语音识别:通过说话人自适应提升ASR准确率3.​辅助说话人识别7.4.1基于分割聚类的说话人日志传统方法的处理范式三大核心技术​:三阶段流程​:1.活动语音检测(VAD)2.说话人分割3.说话人聚类​关键挑战​:1.分割精度与片段长度的矛盾2.聚类错误传递问题说话人标记系统框架系统架构:7.4.1基于分割聚类的说话人日志说话人分割技术对比方法​​原理优势缺陷变换点检测滑动窗口相似度对比量 边界定位精确计算复杂度O(n²)​固定长度分段等长切分实时性高短片段信息不完整7.4.1基于分割聚类的说话人日志聚类算法创新与局限​聚合层次聚类(AHC)​​自底向上合并最近邻片段距离度量:余弦相似度/BIC准则AHC聚类示意图​隐马尔可夫模型(HMM)​​:状态:说话人ID发射概率:GMM/i-vector相似度HMM概率图模型7.4.2基于端到端的说话人日志技术EEND模型的颠覆性创新分割聚类的说话人日志技术存在两个问题:1.不能直接优化以最小化聚类误差2.无法应对重叠语音EEND模型:直接输出多说话人联合语音活动本章小结1.基于GMM的经典方法:

​GMM模型:使用高斯混合函数建模说话人特征,通过对数似然比判决语音归属。缺点:需大量目标说话人数据训练。

​GMM-UBM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论