语音声纹识别技术及应用PPT课件

上传人：优*** IP属地：广东上传时间：2020-05-25 格式：PPT 页数：75 大小：3.08MB 积分：68 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

.,1,语音声纹识别技术及应用,.,2,主要内容,.,3,声音处理,声音的三要素,音质,声音的三要素是音调、音色和音强,音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。,音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不同振幅的混合声音。,音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振幅越大，强度越大。,对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。,音质与声音还原设备有关。,音质与信号噪声比(SNR)有关。,.,4,文件,数字化的音频文件主要分为4类：,波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是“.wav”。,MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名是“.mid”。,CD-DA音频文件。标准激光盘文件，扩展名是“.cda”。,压缩音频文件。在数字音频领域，一种MP3格式的压缩音频文件很流行，该格式的文件简称MP3文件。,声音处理,.,5,声音处理,获取声音,获得CD中的声音,录音,声音转换,如果希望把音乐CD中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音，这就是“采样”。可以使用EasyCD-DAExtractor、CoolEdit等音频处理软件对音频进行编辑和处理。,要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。,声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，使用Windows的“录音机”转换即可，并且转换功能很强。如果要进一步处理，可采用CoolEdit(AdobeAudition）工具软件。,.,6,短时能量和过零率,语音分帧每帧10-30ms,帧间隔10ms短时能量对数平方和绝对值过零率(ZCR),6,.,7,参数提取的预处理,预加重：减少尖锐噪声影响，提升高频部分加窗：Hamming减少Gibbs效应,7,.,8,各种参数的比较,LinearPredictionCepstrumCoefficients(LPCC)假定所处理信号为自回归信号（不适用辅音）；计算简单，但抗噪性差。Mel-FrequencyCepstrumCoefficients(MFCC)模拟人的听觉模型；强调低频部分，屏蔽噪声影响；识别率高，但计算量大。能量辅助作用，需归一化。音调对算法要求高，适于二次判别。,8,.,9,Mel-频率,目的：模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下，与频率成线性关系1kHz以上，与频率成对数关系Mel频率定义1Mel1kHz音调感知程度的1/1000,9,.,10,Mel-频率,公式：频率Mel-频率：,-频率,-Mel-频率,Mel-频率,频率(Hz),10,.,11,MFCC,计算流程：,11,DFT,时域信号,线性谱域,Mel滤波器组,Log,DCT,Mel谱域,对数谱域,MFCC,.,12,主要内容,.,13,语音识别,AutomaticSpeechRecognition(ASR)的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话，实现从声音到文字的转换。,.,14,语音识别基本术语,特定人和非特定人（话者相关或话者无关）词汇量（大，小）孤立词，连接词，关键词和连续语音自然发音和朗读发音口音（方言）背景噪音（环境噪音）信道差异（固定电话，麦克，手机等）声学模型（HMM，mono-phone，bi-phone，tri-phone）声学特征（MFCC）解码（Viterbi）,.,15,语音识别基本术语,识别指标：SER（SentenceErrorRate，句子错误率）WER（WordErrorRate，词错误率）CER（CharacterErrorRate，字错误率）PER（PhoneErrorRate，音节错误率）采样率，8kHz（电话或手机），16kHz（麦克风）时域，频域端点检测，静音检测或有效音检测（VAD）,.,16,语音识别分类,.,17,语音识别发展历史,50年代AT&TBellLab，可识别10个英文数字60年代LP较好地解决了语音信号产生模型,DP则有效解决了不等长语音的匹配问题。70年代DTW（DynamicTimeWarp）技术基本成熟，实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统。80年代HMM模型和人工神经元网络（ANN）在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统SPHINX。90年代大规模应用，工业标准，理论进展缓慢。,.,18,语音识别潜在应用,.,19,语音识别系统框架,特征提取,训练,模式匹配,拒识,语法,模型,结果,语音,说话人自适应,.,20,语音识别过程,.,21,HMM基础(1),隐含Markov模型观测可见，状态隐含基本要素N-模型状态数=i-初始概率分布A=aij-状态转移矩阵B=bj(k)-输出概率矩阵,.,22,HMM基础(2),转移概率矩阵aij状态i到状态j发生跳转的概率,.,23,HMM基础(3),输出概率bi(x)x属于状态i的概率,.,24,HMM基础(4),HMM的三个基本问题-模型评估问题(如何求：P(O|)-最佳路径问题(如何求：Q=q1q2qT)-模型训练问题(如何求：A、B、),.,25,模型评估问题(如何求：P(O|),前向概率给定HMM参数，在t时刻处于状态i，部分观察序列为o1o2ot的概率后向概率给定HMM参数，在t时刻处于状态i，部分观察序列为ot+1ot+2oT的概率,.,26,模型评估问题(如何求：P(O|),前向和后向递推的示意图,.,27,最佳路径问题(如何求：Q=q1q2qT),前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法不完全的状态空间搜索保留状态转移路径的信息,.,28,最佳路径问题(如何求：Q=q1q2qT),Viterbi算法的搜索空间,.,29,Viterbi识别算法和路径回溯,.,30,模型训练问题(如何求：A、B、),优化问题优化目标：P(O|)最大Lagrange数乘法，辅助函数：,.,31,Baum-Welch参数重估算法：,模型训练问题(如何求：A、B、),.,32,连续HMM算法,连续的含义参数重估识别算法,.,33,“连续”的含义,连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数,.,34,连续HMM参数重估(1),需要重估的参数：起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差,.,35,连续HMM参数重估(2),t时刻序列处于状态j、混合高斯密度l的概率,.,36,连续HMM参数重估(3),pdf的无溢出参数重估公式,.,37,识别算法,概率计算:P(O|)Viterbi算法对数形式与离散HMM相似，只需替换bjl(x),.,38,实际HMM系统的具体问题,起始概率的问题转移概率的问题模型的自适应区别性训练,.,39,起始概率的问题,自左向右结构的HMM，起始概率为：1,0,0,0即：只能从第一个状态开始,.,40,转移概率的问题,大量实验证明：转移概率对识别性能的影响是微不足道的训练过程中，常常将其设定为常数：aij=0.5识别过程中，不进行log(aij)的累加仅考虑bi(.)的作用,.,41,模型的自适应(1),自适应的必要性口音感冒.MAP自适应算法MAP:最大后验概率准则本质上是重新训练一次，对原B矩阵进行微调特点：简单，对每个HMM单独自适应，只需一次发音,.,42,模型的自适应(2),MLLR算法MLLR：最大似然线性回归本质：将原模型的参数进行线性变换后再进行识别特点：少量语音可以对所有模型进行自适应，只要得到线性变换矩阵即可,.,43,区别性训练,传统HMM训练算法的缺陷MCE算法MCE：最小分类误差准则使用场合：小词表识别系统需要细致调整算法参数，才能保证收敛,.,44,中文语音识别的特点,相对于西方语言来说，中文有自己的独特之处。中文是有调语言，发音的基本单元是声母和韵母并且以音节为自然单位，一个音节就是一个字甚至词，以至字词的时长很短，混淆度更大。另外，中文用415个基本的无调音节来构成7000多个基本汉字的发音，多音字很多。特别是，中文的发音和字是独立的，仅仅是中国大陆地区就有很多的方言，口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候，由于没有上下文的信息并且语音的长度很短，口音会严重地降低识别率。,.,45,中文语音建模基元比较,.,46,语音识别应用举例,嵌入式语音识别：智能玩具：语音对话娃娃、语音声控机器人智能家电：语音识别台灯、语音识别插座智能手机：语音拨号电话语音识别：语音电话簿：电信增值智能语音总机：企业应用,.,47,嵌入式语音识别,.,48,智能玩具语音对话娃娃,.,49,智能玩具语音声控机器人,.,50,语音增值业务,企业电话簿：会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。个人电话簿：个人邮件、数据同步、资讯定制、个人财经、业务定制。语音门户：天气、股票、航班查询。,.,51,主要内容,.,52,生物识别技术优势,.,53,生物识别技术比较,.,54,声纹识别技术,声纹识别（又称说话人识别）技术是从说话人发出的语音信号中提取声纹信息，并对说话人进行身份验证的生物识别技术。,.,55,声纹识别基本术语,类型分类：文本相关(Text-dependent)文本无关(Text-dependent)任务分类：说话人辨认(SpeakerIdentification)说话人确认(SpeakerVerification)UBM(UniversalBackgroundModel)，通用背景模型GMM(GaussianMixtureModel)，高斯混合模型背景噪音（环境噪音）信道差异（固定电话，手机，麦克风）身体差异，语速快慢，时间间隔,.,56,声纹识别基本术语,FAR（FalseAcceptRate），错误接受率；FRR（FalseRejectRate），错误拒绝率。EER（EqualErrorRate），等错误率；即FAR=FRR时的错误率。多说话人识别，分割,.,57,声纹识别基本术语,.,58,经典模型GMM(1),GMM高斯混合模型基本原理：根据从语音信号中提取的特征参数，为每一个说话人建立一个GMM。为处理的方便，人为的使不同说话人的模型的概率密度函数在形式上都是一样的，不同的只是函数中的参数。优点：简单高效，可以很好的描述从语音信号中提取的特征参数等不规则的数据。GMM是当今应用于说话人识别的最主流模型,.,59,经典模型GMM(2),一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到，如下：其中M是混合模型的阶数，X是一个D维随机向量wi是混合权重，满足：bi(X)是子分布，每个子分布是D维的联合高斯概率分布，表示为：是均值向量，是协方差矩阵,.,60,经典模型GMM(3),完整的高斯混合模型由参数均值向量、协方差矩阵和混合权重共同描述。因此，一个模型可表示为如下一个三元组：GMM计算结构：,.,61,经典模型GMM(4),GMM的说话人鉴别(SpeakerIdentification)系统,.,62,UBM,UBM通用背景模型UBM也是一个GMM，只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布，这种特征是大多数说话人的共性特征。,.,63,GMM-UBM,建模说话人需要建立自己的模型时，就可以通过自适应UBM来得到个性特征，即修正后的参数，从而得到自己的GMM。GMM-UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型,.,64,说话人确认系统,.,65,研究热点,技术难题：跨信道、噪声,实验室理想条件,.,66,解决办法,信道补偿支持向量机（SVM）联合因子分析（JFA）迁移学习（TransferLearning）,.,67,SVM训练,.,68,声纹识别应用产品,USBVoiceKey,声纹证件,公安系统,银行系统,.,69,01,02,03,声纹监听多人识别声纹比对,银行（电话，网上）证券银行卡，身份卡声纹密匙,高档酒店，会员俱乐部，贵族商城等玩具汽车个人电脑（家庭分级密码）,公安领域？,金融领域？,生活领域,声纹识别潜在应用,.,70,典型应用司法鉴定,我们开发的智能声纹识别系统，已成功应用在司法鉴定等领域。目前已成功完成多个声纹鉴定（同一性认定）、声音完整性认定等项目，为司法部门提供了可靠的判断依据。,.,71,典型应用科技馆,.,72,典型应用教育系统,.,73,典型应用教育系统,配置选项在线测试离线测试添加说话人添加新模型累积训练删除说话人删除模型说话人确认说话人身份确认波形图实时语音波形静音检测,.,74,典型应用基于声纹识别技术的电话语音远程考勤系统,电话通信中，通过识别来电

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音声纹识别技术及应用PPT课件

文档简介

温馨提示

最新文档

评论

语音声纹识别技术及应用PPT课件

文档简介

温馨提示

最新文档

评论

相关文档