




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
循环卷积神经网络用于文本分类 问题 文本分类 特征表示 词袋方法 一元 两元 N元 其它方法 frequecy MI pLSA LDA缺点 忽略了词语所在的语境和词语的顺序 不能有效获取词语的语义EX AsunsetstrollalongtheSouthBankaffordsanarrayofstunningvantagepoints Bank在这里是河岸 而不是银行 已有解决方法 1 增加词袋元素维度 比如扩展到 strollalongtheSouthBank 5 gram 2 更复杂的特征表示方法 比如TreeKernels方法3 存在问题 数据稀少 datasparsity 即有效的信息量太少 影响分类的准确度 单词表示 词向量 1 词向量 wordembedding 传统的词向量 One hotRepresentation 话筒 表示为 0001000000000000 麦克 表示为 0000000010000000 缺点 词汇鸿沟 纬度高 数据稀疏改进的词向量 DistributedRepresentation即一种单词的分布式表示方法 能有效降低数据稀疏问题 经过训练的词向量可以表征句法和语义信息 DistributedRepresentation表示形式 0 792 0 177 0 107 0 109 0 542 维度以50维和100维比较常见 这种向量的表示不是唯一的 特点是越相似的词距离越近 解决了One hotRepresentation表示词汇时不能表示两个词汇关系的问题 文本表示 神经网络 神经网络结构 基本的神经网络结构包含三部分 输入层 隐含层 输出层神经网络的特点 自学习 联想存储 高度并行性 容错性 鲁棒性 文本表示 递归神经网络 RecursiveNN 利用树结构对语句进行建模 时间复杂度 至少是O n2 其中n是句子或者文本的长度 因此不适合长句子或者文本 另一方面 两个句子之间的关系很难通过树结构进行表示 文本表示 循环神经网络 RecurrentNN 对文本进行逐词分析 将已有的文本信息存储在固定大小的隐藏层 时间复杂度 n 缺点 不公平性 后出现的单词比前出现的单词重要性更高 因此对于整个文本进行分类时会降低有效性 因为文本中重要的单词会在任何地方出现 文本表示 卷积神经网络 ConvolutionalNN 卷积神经网络可以有效解决不公平性问题 时间复杂度O n 已有的研究大多使用简单的卷积内核 比如固定窗口大小 这样窗口大小成为制约性能的关键因素 太小可能会丢失重要信息 太大会导致参数空间过大而难以训练 本文解决方法 利用循环卷积神经网络 RCNN 解决文本分类问题 即将循环神经网络和卷积神经网络结合 对文本进行表示 方法主要贡献 1 利用双向循环神经网络来表征单词的上下文信息2 利用最大池层自动判断哪个特征在文本分类中的作用更大 方法细节 单词表示 利用单词和它的上下文信息共同表示一个单词 wi cl wi e wi cr wi cl wi 单词wi左边的文本内容cr wi 单词wi右边的文本内容e wi 1 单词wi 1的词向量W l 将隐藏层传递到下一层的矩阵W sl 将当前单词的语义和下一个单词左边的文本组合起来的矩阵f 非线性激活函数 方法细节 单词表示 利用循环神经网络对语句 AsunsetstrollalongtheSouthBankaffordsanarrayofstunningvantagepoints 进行建模表示 方法细节 文本表示 得到单词wi的表示形式xi之后 利用双曲正切函数进行转换 将结果传递到下一层 Yi 2 tanh w 2 xi b 2 利用卷积神经网络来表示文本 当所有的单词的表示都计算完成后 进行池化操作 这里采用的是最大池化 Y 3 maxyi 2 i 1 2 n 最大池层将不同长度的文本转换为具有相同长度的向量 采用最大池层的好处是可以发现文本中最重要的语义信息 方法细节 输出结果 输出层 y 4 W 4 y 3 b 4 转换为概率 意义 表示文本属于某个类别的概率 参数训练 神经网络的参数 将所有的参数都用来进行对 的训练 目标是使得对应 的值使得下式最大 其中 D是待分类文本 ClassD是该文本的正确分类类别 训练过程中采用了梯度下降的方法 为学习速率 参数训练 词向量训练 Skip grammodel 目标 使得上式的值最大 其中 C是训练文本的长度 概率p的定义如下 用到了softmax
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025垫资合同范本:文化旅游项目资金投入
- 2025年度商品混凝土原材料供应与加工合同
- 2025年新型环保材料全国总代理销售合同
- 2025版教育系统岗位配置与教师职称评定合作协议
- 2025版全国蔬菜种植基地居间销售合同
- 2025年度水稳材料运输与配送服务合同模板
- 重庆主城区半期高2024届高三第一学期期中考试生物试题
- 2025年高效车间承包运营与管理合同
- 2025年商品房代理销售项目风险控制及收益分配协议
- 2025年度电子商务区域代理产品售后服务与品牌保护协议
- GB/T 31091-2014煤场管理通用技术要求
- GB/T 24218.1-2009纺织品非织造布试验方法第1部分:单位面积质量的测定
- 万东GFS型高频高压发生装置维修手册
- 公寓de全人物攻略本为个人爱好而制成如需转载注明信息
- 企业经营沙盘模拟实训指导书
- 汉密尔顿抑郁量表17项
- 《现代物流管理》第一章-导论(课用)
- 智能制造生产线运营与维护课件完整版
- 树木清障专项施工方案
- 内部审计-内部审计准则完整版-中国内部审计准则体系
- 《爱的教育》读书分享读书分享2
评论
0/150
提交评论