




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
神经网络建模与话者识别 话者识别 人工神经网络 BP网络 RBF网络 话者识别 话者识别属于生物特征识别技术的一种 是一项根据语音信号中反映说话人生理和行为特征的语音参数 自动识别说话人身份的技术 与语音识别不同的是 声纹识别利用的是语音信号中的说话人信息 而不考虑语音中的字词意思 它强调说话人的个性 而语音识别的目的是识别出语音信号中的言语内容 并不考虑说话人是谁 它强调共性 话者识别系统主要包括两部分 即特征检测和模式匹配 特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征 模式匹配的任务是对训练和识别时的特征模式做相似性匹配 话者识别分类 话者识别 话者辨认 话者确认 固定文本系统 自由文本系统 话者辨认 语音 最大选择 辨识结果 话者ID 参考模型 话者 N 话者确认 模式匹配 welcometousethesePowerPointtemplates NewContentdesign 10yearsexperience 目前说话人识别技术主流方法大致有 1 基于模板模型的方法 动态时间归正法DTW和矢量量化法VQ 2 基于概率模型的方法 隐马尔可夫模型法HMM和高斯混合模型法GMM 3 基于人工神经网络 ArtificialNeuralNetwork ANN 的方法 4 基于支持向量机 SupportVectorMachine SVM 的方法 5 融合方法 利用各种方法的优点进行融合 人工神经网络 基于ANN的语音识别系统通常由神经元 训练算法及网络结构等三大要素构成 ANN采用了并行处理机制 非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成果 因此 具有高速的信息处理能力 并且有着较强的适应和自动调节能力 在训练过程中能不断调整自身的参数权值和拓扑结构 以适应环境的和系统性能优化的需求 在模式识别中有着速度快 识别率高等显著特点 人工神经网络的发展 人工神经网络的研究始于40年代初 半个世纪以来 经历了兴起 高潮与萧条 高潮及稳步发展的远为曲折的道路 1943年 心理学家W S Mcculloch和数理逻辑学家W Pitts提出了M P模型 1949年 心理学家D O Hebb提出突触联系可变的假设 根据这一假设提出的学习规律为神经网络的学习算法奠定了基础 1957年 计算机科学家Rosenblatt提出了著名的感知机模型 1960年 B Windrow和E Hoff提出了自适应线性单元 它可用于自适应滤波 预测和模式识别 1968年一本名为 感知机 的著作中指出线性感知机功能是有限的 它不能解决如异或这样的基本问题 而且多层网络还不能找到有效的计算方法 60年代末期 人工神经网络的研究进入了低潮 80年代初期 模拟与数字混合的超大规模集成电路制作技术提高到新的水平 完全付诸实用化 美国的物理学家Hopfield于1982年 1984年在美国科学院院刊上发表了两篇关于人工神经网络研究的论文 引起了巨大的反响 人们重新认识到神经网络的威力以及付诸应用的现实性 神经网络模型 神经元 神经元是神经网络的基本计算单元 一般是一种多个输入和一个输出的非线性单元 可以有反馈输入和闭值参数 神经网络连接方式 前馈型网络反馈性网络 神经网络的连接方式 在前馈型网络中 各神经元接受前一层的输入 并输出给下一层 没有反馈 连接点分为两类 即输入单元和计算单元 每一个计算单元可以有任意n个输入但只有一个输出 它可祸合到任意多个其它结点作为输入 通常前馈网络分为不同的层 第l层的输入只与第卜l层的输出相连 输入和输出结点与外界相连 而其它中间层则称之为隐层 根据隐层的层数 还可以再分为单层连接方式 多层连接方式 神经网络的连接方式 在反馈型网络中 可以看成包含一个单层的神经元 所有神经元结点都是计算单元 同时也可接受输入 并向外界输出 这种网络可以画成一个无向图 其中每条连接线都是双向的 反馈型网络的输出由当前输入和先前的输出 以及网络参数和结构决定 因此显示出短期一记忆的性质 HoPfield网络就是反馈型网络的代表 典型神经网络模型 1 感知机2 线性神经网络3 BP网络4 径向基函数网络5 自组织网络6 反馈网络 BP神经网络 BP BackPropagation 网络是1986年由Rumelhart和McCelland为首的科学家小组提出 是一种按误差逆传播算法训练的多层前馈网络 是目前应用最广泛的神经网络模型之一 多层BP神经网络模型的拓扑结构如图所示 由图可见 它由输入层 中间层和输出层组成 其中 中间层也叫隐含层 它可以是一层或多层 BP网络标准学习算法 网络结构 输入层有n个神经元 隐含层有p个神经元 输出层有q个神经元 输入向量 隐含层输入向量隐含层输出向量输出层输入向量输出层输出向量期望输出向量 输入层与中间层的连接权值隐含层个神经元的阈值隐含层与输出层的连接权值输出层个神经元的阈值样本数据个数K 1 2 m激活函数f s型函数误差函数 BP算法基本流程 初始化网络权值和神经元的阈值 最简单的办法就是随机初始化 前向传播 按照公式一层一层的计算隐层神经元和输出层神经元的输入和输出 后向传播 根据公式修正权值和阈值 BP网络标准学习算法 第一步 网络初始化给各连接权值分别赋一个区间 1 1 内地随机数 设定误差函数e 给定计算精度值和最大学习次数M 第二步 随机选取第k个输入样本及对应期望输出 第三步 计算隐含层各神经网络的输入和输出h 1 po 1 q BP网络标准学习算法 第四步 利用网络期望输出和实际输出 计算误差函数对输出层的个神经元的偏导数 第五步 利用隐含层到输出层的连接权值 输出层的和隐含层的输出计算误差函数对隐含层个神经元的偏导数 第六步 利用输出层各神经元的和隐含层个神经元的输出来修正连接权值 BP网络标准学习算法 第七步 利用隐含层个神经元的和输入层个神经元的输入修正连结权 第八步 计算全局误差 BP网络标准学习算法 第九步 判断网络误差是否满足要求 当误差达到预设精度或学习次数大于设定的最大次数 则结束算法 否则 选取下一个学习样本及对应的期望输出 返回到第三步 进入下一轮学习 BP网络的优点 1 非线性映射能力 神经网络能以任意精度逼近任何非线性连续函数 2 并行分布处理方式 信息存储在神经元之间的连接上 从单个权值中看不出存储信息的内容 这种分布储存和并行处理使它具有很强的容错性和很快的处理速度 3 自学习和自适应能力 神经网络在训练时 能从输入 输出的数据中提取出规律性的知识 一记忆于网络的权值中 并具有泛化能力 即将这组权值应用于一般情形的能力 5 容错能力 由于信息被分布存放在几乎整个网络中 当其中的某一个点或者某几个点被破坏时信息仍然可以被存取 系统在受到局部损伤时还可以正常工作 BP网络的缺点 1 BP网络是一个非线性优化问题 这不可避免地存在局部极小问题 网络的极值通过沿局部改善的方向一步一步进行调整 力图达到使误差函数E最小化的全局解 但实际上常得到的是局部极小点 2 BP算法收敛速度很慢 学习过程中 下降慢 学习速度缓 易出现一个长时间的误差平坦区 即出现平台 3 BP网络结构选择不一 网络过大 在训练中效率不高 而月 还有可能由于过拟合造成网络性能脆弱 容错性下降 浮点溢出 而太小的网络可能根本不收敛 RBF神经网络 径向基函数神经网络是由J Moody和C Darken在80年代末提出的一种神经网络 它是一种具有单隐层的三层前馈网络 它模拟了人脑中局部调整 相互覆盖接受域的神经网络结构 因此 RBF是一种局部逼近网络 它能够以任意精度逼近任意连续函数 特别适用于解决分类问题 全局逼近网络 当神经网络的一个或多个可调参数 权值或阈值 对任何一个输出都有影响 局部逼近网络 对网络输入空间的某个局部区域只有少数几个连接权影响网络的输出 RBF神经网络结构 RBF网络的结构与多层前向网络相似 它是一种三层前向网络 第一层即输入层有信号源节点组成 第二层为隐含层 隐单元数视所描述的问题的需要而定 隐单元的变换函数为径向基函数 它是对称中心径向对称且衰减的非线性函数 第三层为输出层 节点激活函数为线性函数 它对输入模式的作用作出响应 由于输入到输出的映射是非线性的 而隐含层空间到输出空间的映射是线性的 从而可以大大加快学习速度并避免局部极小问题 RBF网络工作原理 函数逼近 以任意精度逼近任一连续函数 一般函数都可以表示成一组基函数的线性组合 RBF网络相当于用隐层单元的输出构成一组基函数 然后用输出层来进行线性组合 完成逼近功能 分类 解决非线性可分问题 RBF网络用隐层单元先将非线性可分的输入空间变换到线性可分的特征空间 然后用输出层来进行线性划分 完成分类功能 RBF的特点 1 前向网络 2 RBF网络的作用函数为高斯函数 是局部的 BP网络的作用函数是S函数 是全局的 3 如何确定RBF网络隐层节点的中心及基宽度参数是一个困难问题 4 RBF网络具有唯一最佳逼近的特性 且无局部极小 神经网络在话者识别中存在的问题 用于说话人识别的人工神经网络大部分集中在多层感知器结构的神经网络结构上 如反向传播人工神经网络 人工神经预测网络 径向基函数神经网络 时间延迟人工神经网络等 说话人识别中 待识人群往往很大 随着待识人群数目的增加 说话人特征分布间重叠区域增加 说话人识别率将降低 换句话说 在识别过程中不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 申报护理市级课件要求
- 2025年建筑设计师入门模拟题集与答案详解初级
- 外科常见各种引流管护理
- 诗经秦风蒹葭市公开课金奖市赛课一等奖课件
- 三助式教学课件
- 江苏苏州2014-2021年中考满分作文78篇
- 用电消防安全知识培训课件
- 河南省郑州市枫杨外国语中学2024-2025学年八年级下学期期末历史试题(含答案)
- 中考新突破教学课件
- 了解纸藤花教学课件
- 【高质量】如何进行有效的校本研修PPT文档
- 水工闸门课件
- 水泥生产企业生产安全事故综合应急预案
- 全自动血液细胞分析仪产品技术要求深圳迈瑞
- 找对英语学习方法的第一本书
- 安徽涵丰科技有限公司年产6000吨磷酸酯阻燃剂DOPO、4800吨磷酸酯阻燃剂DOPO衍生品、12000吨副产品盐酸、38000吨聚合氯化铝、20000吨固化剂项目环境影响报告书
- 《诺丁山》经典台词
- 对铁路机车乘务员规章培训的探讨与实践
- 临床医学实验室 仪器设备一览表格模板
- 《绿色建筑》绿色建筑与建筑节能课件
- 二级生物安全实验室备案登记申请表(模板)
评论
0/150
提交评论