




已阅读5页,还剩71页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音声纹识别技术及应用 2 主要内容 声音处理 声音的三要素 音质 声音的三要素是音调 音色和音强 音调代表声音的高低 与频率有关 频率越高 音调越高 反之亦然 音色是声音的特色 影响声音特色的主要因素是复音 即具有不同频率和不同振幅的混合声音 音强是声音的强度 也被称为声音的强度 音强与声波的振幅成正比 振幅越大 强度越大 对于数字音频信号 音质的好坏与数据采样频率和数据位数有关 音质与声音还原设备有关 音质与信号噪声比 SNR 有关 文件 数字化的音频文件主要分为4类 波形音频文件 一种最直接的表达声波的数字形式 文件扩展名是 wav MIDI音频文件 一种计算机数字音乐接口生成的数字描述音频文件 扩展名是 mid CD DA音频文件 标准激光盘文件 扩展名是 cda 压缩音频文件 在数字音频领域 一种MP3格式的压缩音频文件很流行 该格式的文件简称MP3文件 声音处理 声音处理 获取声音 获得CD中的声音 录音 声音转换 如果希望把音乐CD中的歌曲或乐曲作为素材 需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音 这就是 采样 可以使用EasyCD DAExtractor CoolEdit等音频处理软件对音频进行编辑和处理 要录制音质好的声音 有两个途径 使用性能优良的录音设备 采用较高的采样频率 可以使用Windows系统自带的 录音机 进行录音 声音的转换只能从高质量向低质量进行 声音的转换不需要专门的软件 使用Windows的 录音机 转换即可 并且转换功能很强 如果要进一步处理 可采用CoolEdit AdobeAudition 工具软件 短时能量和过零率 语音分帧每帧10 30ms 帧间隔10ms短时能量对数平方和绝对值过零率 ZCR 6 参数提取的预处理 预加重 减少尖锐噪声影响 提升高频部分加窗 Hamming 减少Gibbs效应 7 各种参数的比较 LinearPredictionCepstrumCoefficients LPCC 假定所处理信号为自回归信号 不适用辅音 计算简单 但抗噪性差 Mel FrequencyCepstrumCoefficients MFCC 模拟人的听觉模型 强调低频部分 屏蔽噪声影响 识别率高 但计算量大 能量辅助作用 需归一化 音调对算法要求高 适于二次判别 8 Mel 频率 目的 模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下 与频率成线性关系1kHz以上 与频率成对数关系Mel频率定义1Mel 1kHz音调感知程度的1 1000 9 Mel 频率 公式 频率 Mel 频率 频率 Mel 频率 Mel 频率 频率 Hz 10 MFCC 计算流程 11 DFT 时域信号 线性谱域 Mel滤波器组 Log DCT Mel谱域 对数谱域 MFCC 12 主要内容 13 语音识别 AutomaticSpeechRecognition ASR 的中文含意是自动语音识别 语音识别技术的目标是让机器能够 听懂 不同人说的话 实现从声音到文字的转换 14 语音识别 基本术语 特定人和非特定人 话者相关或话者无关 词汇量 大 小 孤立词 连接词 关键词和连续语音自然发音和朗读发音口音 方言 背景噪音 环境噪音 信道差异 固定电话 麦克 手机等 声学模型 HMM mono phone bi phone tri phone 声学特征 MFCC 解码 Viterbi 15 语音识别 基本术语 识别指标 SER SentenceErrorRate 句子错误率 WER WordErrorRate 词错误率 CER CharacterErrorRate 字错误率 PER PhoneErrorRate 音节错误率 采样率 8kHz 电话或手机 16kHz 麦克风 时域 频域端点检测 静音检测或有效音检测 VAD 16 语音识别 分类 17 语音识别发展历史 50年代 AT TBellLab 可识别10个英文数字60年代 LP较好地解决了语音信号产生模型 DP则有效解决了不等长语音的匹配问题 70年代 DTW DynamicTimeWarp 技术基本成熟 实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统 80年代 HMM模型和人工神经元网络 ANN 在语音识别中成功应用 1988年美国CMU大学基于VQ HMM开发SI CSR系统SPHINX 90年代 大规模应用 工业标准 理论进展缓慢 18 语音识别 潜在应用 19 语音识别系统框架 特征提取 训练 模式匹配 拒识 语法 模型 结果 语音 说话人自适应 20 语音识别过程 21 HMM基础 1 隐含Markov模型观测可见 状态隐含基本要素N 模型状态数 i 初始概率分布A aij 状态转移矩阵B bj k 输出概率矩阵 22 HMM基础 2 转移概率矩阵aij 状态i到状态j发生跳转的概率 23 HMM基础 3 输出概率bi x x属于状态i的概率 24 HMM基础 4 HMM的三个基本问题 模型评估问题 如何求 P O 最佳路径问题 如何求 Q q1q2 qT 模型训练问题 如何求 A B 25 模型评估问题 如何求 P O 前向概率给定HMM参数 在t时刻处于状态i 部分观察序列为 o1o2 ot 的概率后向概率给定HMM参数 在t时刻处于状态i 部分观察序列为 ot 1ot 2 oT 的概率 26 模型评估问题 如何求 P O 前向和后向递推的示意图 27 最佳路径问题 如何求 Q q1q2 qT 前向 后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法不完全的状态空间搜索保留状态转移路径的信息 28 最佳路径问题 如何求 Q q1q2 qT Viterbi算法的搜索空间 29 Viterbi识别算法和路径回溯 30 模型训练问题 如何求 A B 优化问题优化目标 P O 最大Lagrange数乘法 辅助函数 31 Baum Welch参数重估算法 模型训练问题 如何求 A B 32 连续HMM算法 连续的含义参数重估识别算法 33 连续 的含义 连续混合高斯概率密度函数 pdf 每个状态表示为若干函数fn x 的线性组合fn x 是连续高斯概率密度函数 34 连续HMM参数重估 1 需要重估的参数 起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差 35 连续HMM参数重估 2 t时刻序列处于状态j 混合高斯密度l的概率 36 连续HMM参数重估 3 pdf的无溢出参数重估公式 37 识别算法 概率计算 P O Viterbi算法对数形式与离散HMM相似 只需替换bjl x 38 实际HMM系统的具体问题 起始概率的问题转移概率的问题模型的自适应区别性训练 39 起始概率的问题 自左向右结构的HMM 起始概率为 1 0 0 0 即 只能从第一个状态开始 40 转移概率的问题 大量实验证明 转移概率对识别性能的影响是微不足道的训练过程中 常常将其设定为常数 aij 0 5识别过程中 不进行log aij 的累加仅考虑bi 的作用 41 模型的自适应 1 自适应的必要性口音感冒 MAP自适应算法MAP 最大后验概率准则本质上是重新训练一次 对原B矩阵进行微调特点 简单 对每个HMM单独自适应 只需一次发音 42 模型的自适应 2 MLLR算法MLLR 最大似然线性回归本质 将原模型的参数进行线性变换后再进行识别特点 少量语音可以对所有模型进行自适应 只要得到线性变换矩阵即可 43 区别性训练 传统HMM训练算法的缺陷MCE算法MCE 最小分类误差准则使用场合 小词表识别系统需要细致调整算法参数 才能保证收敛 44 中文语音识别的特点 相对于西方语言来说 中文有自己的独特之处 中文是有调语言 发音的基本单元是声母和韵母并且以音节为自然单位 一个音节就是一个字甚至词 以至字词的时长很短 混淆度更大 另外 中文用415个基本的无调音节来构成7000多个基本汉字的发音 多音字很多 特别是 中文的发音和字是独立的 仅仅是中国大陆地区就有很多的方言 口音问题非常严重 特别是在做中文孤立词和短语命令识别的时候 由于没有上下文的信息并且语音的长度很短 口音会严重地降低识别率 45 中文语音建模基元比较 46 语音识别应用举例 嵌入式语音识别 智能玩具 语音对话娃娃 语音声控机器人智能家电 语音识别台灯 语音识别插座智能手机 语音拨号电话语音识别 语音电话簿 电信增值智能语音总机 企业应用 47 嵌入式语音识别 智能玩具 语音对话娃娃 智能玩具 语音声控机器人 50 语音增值业务 企业电话簿 会议通知 语音信箱 传真信箱 企业邮箱 信息发布 定向广告 个人电话簿 个人邮件 数据同步 资讯定制 个人财经 业务定制 语音门户 天气 股票 航班查询 51 主要内容 生物识别技术优势 生物识别技术比较 声纹识别技术 声纹识别 又称说话人识别 技术是从说话人发出的语音信号中提取声纹信息 并对说话人进行身份验证的生物识别技术 声纹识别 基本术语 类型分类 文本相关 Text dependent 文本无关 Text dependent 任务分类 说话人辨认 SpeakerIdentification 说话人确认 SpeakerVerification UBM UniversalBackgroundModel 通用背景模型GMM GaussianMixtureModel 高斯混合模型背景噪音 环境噪音 信道差异 固定电话 手机 麦克风 身体差异 语速快慢 时间间隔 声纹识别 基本术语 FAR FalseAcceptRate 错误接受率 FRR FalseRejectRate 错误拒绝率 EER EqualErrorRate 等错误率 即FAR FRR时的错误率 多说话人识别 分割 声纹识别 基本术语 经典模型 GMM 1 GMM 高斯混合模型基本原理 根据从语音信号中提取的特征参数 为每一个说话人建立一个GMM 为处理的方便 人为的使不同说话人的模型的概率密度函数在形式上都是一样的 不同的只是函数中的参数 优点 简单高效 可以很好的描述从语音信号中提取的特征参数等不规则的数据 GMM是当今应用于说话人识别的最主流模型 经典模型 GMM 2 一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到 如下 其中M是混合模型的阶数 X是一个D维随机向量wi是混合权重 满足 bi X 是子分布 每个子分布是D维的联合高斯概率分布 表示为 是均值向量 是协方差矩阵 经典模型 GMM 3 完整的高斯混合模型由参数 均值向量 协方差矩阵和混合权重共同描述 因此 一个模型可表示为如下一个三元组 GMM计算结构 经典模型 GMM 4 GMM的说话人鉴别 SpeakerIdentification 系统 UBM UBM 通用背景模型UBM也是一个GMM 只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布 这种特征是大多数说话人的共性特征 GMM UBM 建模说话人需要建立自己的模型时 就可以通过自适应UBM来得到个性特征 即修正后的参数 从而得到自己的GMM GMM UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型 说话人确认系统 研究热点 技术难题 跨信道 噪声 实验室理想条件 解决办法 信道补偿支持向量机 SVM 联合因子分析 JFA 迁移学习 TransferLearning SVM训练 声纹识别 应用产品 USBVoiceKey 声纹证件 公安系统 银行系统 01 02 03 声纹监听多人识别声纹比对 银行 电话 网上 证券银行卡 身份卡声纹密匙 高档酒店 会员俱乐部 贵族商城等玩具汽车个人电脑 家庭分级密码 公安领域 金融领域 生活领域 声纹识别 潜在应用 典型应用 司法鉴定 我们开发的智能声纹识别系统 已成功应用在司法鉴定等领域 目前已成功完成多个声纹鉴定 同一性认定 声音完整性认定等项目 为司法部门提供了可靠的判断依据 典型应用 科技馆 典型应用 教育系统 典型应用 教育系统 配置选项在线测试离线测试添加说话人添加新模型累积训练删除说话人删除模型说话人确认说话人身份确认波形图实时语音波形静音检测 典型应用 基于声纹识别技术的电话语音远程考勤系统 电话通信中 通过识别来电号码 必须是固定电话 和来电者说话声音的个人特征 我们的系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所执行任务 以及记录在该场所停留的时间长度 这个技术方案主要应用在电话远程考勤 移动办公 医疗服务监控 监狱管理 劳改犯人的狱外服刑以及对假释犯罪嫌疑人的自动监控等方面 参考资料 X D Huang A Acero andH W Hon SpokenLanguageProcessing aGuidetoTheory Algorithm andSystemDevelopment UpperSaddleRiver NewJersey PrenticeHall 2001 L R RabinerandB H Juang FundamentalsofSpee
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年江苏省扬州市中考语文试卷及答案
- 2025年仿制药一致性评价对药品生产设备更新的推动报告
- 元宇宙社交平台虚拟社交互动体验优化与用户粘性提升策略
- 国际教育咨询服务在中国的发展现状与竞争格局研究报告2025版
- 财富管理行业数字化转型:金融科技如何优化客户服务体验报告
- 科技与互联网融合下的互联网金融服务风险控制技术体系构建报告
- 深度解读2025年制造业数字化转型数据治理战略与实施
- 护理礼仪与人际沟通教学课件第九章护理工作中的人际沟通
- 核酸耗材运送管理制度
- 担保公司抵押物管理制度
- 2021年山东省6月普通高中学业水平合格考试化学试题(版含答案)
- 2020-2021学年河南省郑州市八下期末数学试卷(原卷版)
- 2025年广西宏桂资产经营集团招聘笔试参考题库含答案解析
- 家具公司工艺流程
- 《吸入性肺炎的护理》课件
- 5G无线技术及设备运行维护知到智慧树章节测试课后答案2024年秋青岛工程职业学院
- 机关事业单位财务管理制度(六篇)
- 管理心理学-终结性考核-国开(SC)-参考资料
- 金融行业金融科技在普惠金融中的应用方案
- 法院罚金缴纳申请书
- 2024年四川省凉山州初中学业水平考试生物试题含答案
评论
0/150
提交评论