




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
神经网络原理及其在词义消歧中的应用 张亚森2011202110090 内容 介绍神经网络的基本原理BP神经网络在词义消歧 WordSenseDisambiguation 中的应用总结 背景 人工神经网络 ArtificialNeuralNetwork ANN 是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统 早在20世纪40年代初期 心理学家McCulloch 数学家Pitts就提出了人工神经网络的第一个数学模型 从此开创了神经科学理论的研究时代 其后 Rosenblatt Widrow和Hopfield等学者又先后提出了感知模型 使得人工神经网络技术得以蓬勃发展 基本特征 1 神经元及其连接 从系统构成的形式上看 由于人工神经网络是受生物神经系统的启发构成的 从神经元本身到连接模式 基本上都是以与生物神经系统相似的方式工作的 2 信息的存储与处理 从表现特征上看 人工神经网络也力求模拟生物神经系统的基本运行方式 并且可以通过相应的学习 训练算法 将蕴含在一个较大数据集中的数据联系抽象出来 就像人们可以不断地探索规律 总结经验一样 可以从先前得到的例子中找出一般规律或一般框架 再按要求产生出新的实例 人工神经网络的特点 可以充分逼近任意复杂的非线性关系所有定量或定性的信息都等势分布存储于网络内的各神经元 故有很强的鲁棒性和容错性采用并行分布处理方法 使得快速进行大量运算成为可能可学习和自适应不知道或不确定的系统能够同时处理定量 定性知识 人工神经元的组成 一个神经网络由多个互连的神经元组成 神经元是神经网络的基本处理单元 它一般是多个输入 一个输出的非线性单元 如下图 人工神经元的组成 神经元的输入为其中 wij是单元j与前一层单元i之间的连接权值 Oi是单元i的输出 为改变单元j活性的偏置 一般在区间 1 1 上取值 神经元的输出Yj f netj 其中f netj 为神经元输入 输出关系的函数 称为神经元功能函数 激活函数 通常 神经元功能函数 激活函数 f描述了神经元在输入信号作用下产生的输出信号的规律 这是神经元模型的外特征 f函数形式多样 根据激活函数的不同 相应的有不同的形式神经元模型 1 阈值型 激活函数f为一阶跃函数 2 线性饱和型 输入 输出特性在一定的区间内满足线性关系 3 S sigmoid 型 f为sigmoid函数 它是一个有最大输出值的非线性函数 其输出值是在某个范围内连续取值的 S型激活函数反映了神经元的非线性输出特性 4 子阈累积型 5 概率型 神经网络的互连结构 分层网络结构分层网络结构又称为层次网络结构 按层的多少 可分为单层 双层及多层的网络结构 1 单层或双层网络结构 最早的神经网络模型的互连模式是单层或双层结构 这种互连模式是最简单的层级结构 感知机就是采用这种结构 如下图所示 单层与双层神经网络互连结构 2 多层网络结构 在神经网络模型中 有一种十分典型的互连模式 这就是多层神经网络结构 这种互连模式的代表有简单的前向网络 BP神经网络 模式 多层侧抑制 神经网络内有相互连接的前向网络 模式和带有反馈的多层神经网络模型 如下图所示 一个简单的前向多层神经网络 输入模式由输入层进入网络 经过中间层的顺序模式变换 最后由输出层产生一个输出模式 便完成一次网络状态更新 神经网络模型分类 按学习方式分类按学习方式分为有导学习 有监督训练 强化学习和无导学习 无监督训练 3类网络模型 1 在有导的学习中 必须预先知道学习的期望结果 并按照某一学习规则来修正权值 2 强化学习是利用某一技术表示 奖 惩 的全局信号 衡量与强化输入相关的局部决策 3 无导学习不需要指导信息 只要给定输入信息 网络能通过自组织 自调整 自学习并给出一定意义下的输出响应 神经网络的学习 确定了网络结构 网络层数 各层单元数 之后 应该确定各单元的偏置及单元之间的连接权值 学习过程就是调整这组权值和偏置 使每个训练样本在输出层单元上获得期望输出 学习目的就是找出一组权值和偏置 这组权值和偏置能使所有训练样本在输出层单元上获得期望输出 神经网络的学习算法 误差向后传播方法误差修正学习方法是一种监督学习 有导 过程 其基本思想是利用神经网络的期望输出与实际输出间的偏差作为调整连接权值的参考依据 并最终减少这种偏差 误差向后传播方法的基本思想首先赋予每条有向加权边初始权值 每个隐藏层与输出层单元初始偏置 然后迭代地处理每个训练样本 输入它的描述属性值 计算输出层单元的实际输出 比较实际输出与期望输出 类别属性值 将它们之间的误差从输出层经每个隐藏层到输入层 后向传播 根据误差修改每条有向加权边的权值及每个隐藏层与输出层单元的偏置 使实际输出与期望输出之间的误差最小 对于某个训练样本 实际输出与期望输出的误差Error定义为式中 c为输出层的单元数目 Tk为输出层单元k的期望输出 Ok为输出层单元k的实际输出 首先考虑输出层单元k与前一层单元j之间的权值wjk的修改量 wjk 单元k的偏置的修改量 式中 l为避免陷入局部最优解的学习率 一般在区间 0 1 上取值 求解上式可以得到权值 偏置的修改量为式中 Oj为单元j的输出 Errk是误差Error对单元k的输入netk的负偏导数 即 类似地 隐藏层单元j与前一层单元i之间的权值wij的修改量 wij 单元j的偏置的修改量为式中 l为学习率 Oi为单元i的输出 Oj为单元j的输出 Errk为与单元j相连的后一层单元k的误差 wjk为单元j与单元k相连的有向加权边的权值 权值 偏置的修改公式为权值 偏置的更新有两种策略 1 处理一个训练样本更新一次 称为实例更新 一般采用这种策略 2 累积权值 偏置 当处理所有训练样本后再一次更新 称为周期更新 一般 在训练前馈神经网络时 误差后向传播算法经过若干周期以后 可以使误差Error小于设定阈值 此时认为网络收敛 结束迭代过程 此外 也可以定义如下结束条件 1 前一周期所有的权值变化都很小 小于某个设定阈值 2 前一周期预测的准确率很大 大于某个设定阈值 3 周期数大于某个设定阈值 23 算法 误差后向传播算法输入 训练数据集S 前馈神经网络NT 学习率l输出 经过训练的前馈神经网络NT步骤 1 在区间 1 1 上随机初始化NT中每条有向加权边的权值 每个隐藏层与输出层单元的偏置 2 while结束条件不满足 2 1 forS中每个训练样本s 24 2 1 1 for隐藏层与输出层中每个单元j 从第一个隐藏层开始向前传播输入 2 1 2 for输出层中每个单元kErrk Ok 1 Ok Tk Ok 25 2 1 3 for隐藏层中每个单元j 从最后一个隐藏层开始向后传播误差 2 1 4 forNT中每条有向加权边的权值wijwij wij l ErrjOi 2 1 5 for隐藏层与输出层中每个单元的偏置 j j j l Errj 一个学习的例子 例 假设训练样本s的描述属性值与类别属性值分别为 1 0 1 与1 前馈神经网络NT如下图所示 NT中每条有向加权边的权值 每个隐藏层与输出层单元的偏置如表7 3所示 学习率为0 9 写出输入s训练NT的过程 2020 3 17 27 可编辑 前馈神经网络结构 29 wij和 j是随机产生的 l 0 9 30 31 Errk Ok 1 Ok Tk Ok 32 wij wij l ErrjOi j j l Errj 神经网络分类 学习结束后 神经网络得到一组固定的权值及偏置 新样本到来后 将其描述属性值送入输入层各单元 从输入层到输出层正向传播 计算输出层各单元的值 O1 O2 On 令r max O1 O2 On 则第r个输出层单元所代表的类别就是该样本所属的类别 例如 在例7 6中 只有一个输出层单元 表示只有两个类别 A类 B类 神经网络学习结束后 表7 6中的各权值和偏置都固定 将一个新样本X x1 x2 x3 送入输入层后可以计算出O6 若O6 1 则表示X应属于A类 若O6 0 则表示X应属于B类 若O6 0 5 则拒绝分类 神经网络在词义消歧中的应用 词义消歧 WSD 一直是自然语言处理 NLP 领域一个非常重要的研究课题 词义消歧问题几乎覆盖了各种自然语言处理系统 其中包括信息检索 IR 机器翻译 MT 关键词的提取 语音识别 文本分类和自动文摘等 据统计 在信息检索中引入词义消歧技术术后 可使检索的准确率提高5 2 可见 词义消歧在自然语言处理中是不可避免的基础问题 Forinstance considerthefollowingsentences a Icanhearbasssounds b Theylikegrilledbass 出现在上面两个句子中的bass很明显表示不同的意思 低音的 adj 和一种鱼 n 鲈鱼 问题描述 多义词的词义消歧主要是为了解决自然语言中同形异义词义在不同语境下的义项问题 因此主要利用多义词的上下文信息来决定义项类别的归属问题 在早期主要采用规则方式来解决词义消歧 此种方法主要通过约束性规则来定义上下文中带消歧的词义 这样需要一个具有完备性 一致性 可扩充性和对开放领域适应性的语料库 如何有效构造规则库和进行知识获取是该方法的瓶颈问题 随着用在词义消歧上的机器学习方法的增多 如决策树 决策表 Na ve Bayes 神经网络 最大熵方法等 我们逐步使用基于语料库的统计方法来进行词义消歧 基于语料库的统计方法根据训练语料事先是否经过人工标注又分为有指导的和无指导的两类 有指导的机器学习方法在此问题上取得了比较好的效果 但是它存在数据稀疏问题 要获得更有效的消歧效果 必须要有一个规模大 覆盖广 有效的 带标注的语料库的支持 而语料库始终难以覆盖自然语言领域中所有的情况 并且带标注的语料库需要大量的人工劳动 客观上这些问题限制了该类方法的应用 基于BP神经网络 Back Propagation 的有导词义消歧方法利用BP神经网络的泛化功能来解决传统有导消歧中的数据稀疏问题 达到比较好的词义消歧实验结果 BP神经网络的体系结构 BP网络对于在样本集合中未训练过的输入 也能根据网络的节点分析给出合适的输出 即BP网络的泛化 Generalization 功能 从函数拟合的角度看 这种泛化也说明BP网络具有插值功能 这个功能也就是我们在词义消歧中采用此种方法重要的原因之一 因为它可以很好地避免数据稀疏问题 利用BP神经网络构建WSD模型 对BP神经网络模型来说 如何较好地确定神经网络的拓扑结构对神经网络的应用效果是非常重要的 在实验过程中 对神经网络的参数要进行优化和研究 主要有 输入层节点数 隐藏层节点数 输出层节点数 激发函数 学习因子等 汉语多义词统计 4 确定输出量对于每一个待消歧词都会训练一个模型 由表2可知 多义词的平均义项在2 3个 因此 实验中取每个待消歧词的三个义项来构成输出向量 5 确定隐藏层的节点数中间的隐含层的节点数比较灵活 在实验中通过枚举的办法最终确定15个节点的实验结果最优 6 实验的过程与结果利用BP神经网络进行词义消歧主要包括两个阶段 训练或学习阶段 trainingorlearningphase 向神经网络提供一系列输入 输出数据组 通过数值计算方法和参数优化技术 使节点连接的权重因子不断调整 直到从给定的输入能产生所期望的输出 预测 应用 阶段 generalizationphase 对训练好的网络 即网络的误差为0或接近于0 进行未知的样本预测 结果如表3所示 总结 利用BP神经网络模型和待消歧词的上下文信息来进行词义消歧 从实验的结果也可看到此方法是切实可行的 选择神经网络的方法 主要是由于它具有下面两个非常显著的特点 1 神经网络强信息和知识分布储存在大量的神经元或整个系统中 很大地解决了有导消歧中 数据稀疏的问题 从而达到较高的准确性 2 有较强的容错能力 部分节点不参加运算 不会对整个系统的性能造成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版人工智能在金融领域应用三方合作合同范本
- 2025年度养老地产用地地基买卖合同范本
- 2025年度教育培训机构第三方代付款协议
- 2025年新型家居用品试用推广协议
- 2025年度天使投资合同:智慧城市建设项目合作模板
- 2025年新型建筑保温材料供应合同范本
- 2025版商场租赁合同范本:全业态融合版
- 2025版商铺租赁合同范本:包含产权变更及转租协议
- 2025年度节能型二手电机购销合同范本
- 2025年度石厂开采承包合同矿产资源审批流程范本
- 连锁餐饮合伙合同范本
- 2025外研社小学英语四年级上册单词表(带音标)
- 2025至2030中国体育赛事行业市场发展分析及发展前景与投资报告
- 小学戏剧教学课本剧剧本集锦
- 【一年级上册语文统编版(2024)-第四单元汉语拼音】14. ang eng ing ong第二课时课件
- 2025年交管12123驾驶证学法减分及驾驶安全理论知识试题库(附含答案)
- 知识产权保护与服务平台创新创业项目商业计划书
- 2025年胎膜早破护理胎膜早破护理查房模板
- 工贸行业安全管理和企业现场常见隐患排查解读(1)精
- 2025年注册核安全工程师执业资格考试(核安全专业实务·核技术)历年参考题库含答案详解(5套)
- 镇痛镇静指南解读
评论
0/150
提交评论