




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文作者:万亿指导教师:何婷婷教授学科专业:计算机应用技术研究方向:数据挖掘,自然语言处理华中师范大学计算机学院 篜 华中师范大学学位论文原创性声明和使用授权说明原创性声明日期:谥衲阥月土影日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中师范大学可以用不同方式在不同媒体匕发表、传播学位论文的全部或部分内容。作者签名:万彳乙导师签名:饲财好作者签名:万忆 疭文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果。传统的机器学习方法仅仅使用了文本本身所提供的信息来建模和运算,面对复杂多变的网络用语和短文本,仅仅依靠文本自身所提供的信息来理解文本语义信息变得越来越困难。这是因为传统的机器学习方法大多数是基于词袋模型,即依靠词或短语之间的匹配,面对词 虽然本文使用了维基百科作为外部知识库来建模,但本文所提的模型不仅限于它,该模型同样适用于其它符合条件的外部知识库。关键词:知识表示:维基百科:概念图; 瑆 嘴 , : 目目第一章导论第二章相关理论与工作介绍 实验结果分析与评估甀本文总结下一步研究工作 征和分析。传统的机器学习方法直接运用到这一类网络文本上的效果并不好。传写不相同,因此,在词频向量模型中,它们会分属于词频向量的三个不同维度。这样,在比较文本的语义时,就可能导致一些出乎意外的结果。比如,表达相同语义的文本可能被判定为不同类别,而表达不同语义的文本反而会被判定为同一类别。除了无法解决同义词、多义词这些常见的语言现象,传统模型的建模过程也存在很多不足之处。对于有监督学习的机器学习方法,它们的效果过分依赖于 为例,它虽然不需要提供标注好的训练语料,但其在建模过程中需要经历反复的迭代,而迭代到收敛状态所需要的计算量非常大,有研究表明,当需要处理的文本数量过大时,它的时间复杂度大到难以让人接受。此外,针对网络上兴起的微博、商品评论等短文本,这些文本能够包含的单词过少,所能提供的语义信息也不充足。不借助其它知识而仅仅依靠文档自身提供的语义建立起来的模型很难取得令人满意的效果。当前使用外部知识帮助理解文本语义信息的工作,主要集中两类资源上,一 第六章,对本文做了总结,并讨论了下一步研究的可能方向。 第二章相关理论与工作介绍传统的文本表征与相似度计算方法 用表格、关系数据库来存储、展示知识是人们最自然的一种想法。因此,早期的不少研究都基于这样一个基础。尽管现在维基百科已经提供了数据库格式的数据供用户下载,很多研究发现,这些提供的数据表格中存在大量不尽人意之处。如,很多表格中包含重复的内容;一些表格中的数据版本不一致;有些数据项目空缺法。 琂构建矩阵时加入超链接等信息。 值得一提的是,在工业界,按照图的结构来对知识建模正大受追捧。无论是,还是公司提出的图 第三章概念图模型外部知识的选取结构化的知识如百度问答、知乎问答、天涯问答等。科包含近四百万词条,其准确性和内容质量也有目共睹。值得一提的是,尽管本文采用了英文版的维基百科作为外部知识库,但本文所提的方法完全可以迁移到 维基百科页面简介骸眎吐精佃孵协语的解释。一个概念中往往以下几个关系的区域:晏庖约爸囟虮晏猓缤贾械摹癈的字段往往可以看作一个概念的名字。 些文本还包含和与该概念相关的内容的介绍。等文字,这些文字出现在概念的中文中,它们是与该概念相关的概念的标题。 外链接疶薄眅对村“甘辬甜蜘韗芒 噼 浴圮缤贾杏梅娇虮硎境龅摹癈 图维基百科中的类别链接醜坫血仃発蛆盯錿瘢瑅甴图维基百科的消歧页 除去概念,维基百科中还包含两大类页面,一类称之为消歧页面,它列举了同一个词或短语所对应的各种可能的概念页面,如上图中所示,这个,“和“”三一一甿馠旺籼】醜凹岫瓼该数据库中主要包含有、 三种类型的页面需要被排除在候选页面以外。在筛选出符合的概念页面后,我们还需要对这些页面的文本内容做一些预处理操作,具体流程如下: 与汉语中的词汇不同,英文同一个单词可能以多种不同的形式出现,例如大部分在对维基百科的页面进行筛选,并完成去停用词,词干化的工作后,这些候选的概念将被重新存储,本文使用了开源的文本检索工具将这些信息以索引的形式重新存储起来,是基金下的一个开源的全文检索引擎工具包,它附带有一些简单的文本分析功能。本文选择了将文本存储为索引,而不是重新存回数据库,因为可以将抽取出来的信息分字段存储,并方便给各个部分的字段设定不同的权值,此外,用它还可以直接获取一篇文档的词频空间向量,方便做之后的词义相似度计算。以及出现在类别信息中的保庑丶侄岳斫狻癈 通过概念图的边,融入到语义相似度计算的过程中去,我们将在下一小节构建概念图的过程中做介绍。表构成概念图边的两种连接类型概念名类别标签文本 矿一磁,玩,姿蹋渲杏芳。即表示两篇文档间的语义相似度。 同时也大大减小了计算的复杂程度。概念图的另一种类型的边。为了方便计算,我们也仅随机选择了】,个链接来构建接信息融合起来,从而得出概念图的邻接矩阵表示方法。 概念与文本间的词义相似度值归一化得到。 提出了的一个算法,它是基要”。机访问者的位置的概率分布可以通过一个维的列向量来描述,其中向量中的第 的调整矩阵以及调整概念图中节点的过程如下:设趣艿代表概念图中的节点集合,任意两个节点墨和已之间可以为了将两种类型的联系合并到一起,本文采用了线性加强的方法,最终就可以的概念图整体的状态转移矩阵:。 在概念图中比较文本的语义相似度 司如下:砌鍄南置功臼鰔鰕 如: 本章提出了一种基于概念图的文本表征方式,文本通过两步映射,。实现了词空间到概念中间的转变,通过两步映射,本文充分考虑了概念之间相互的语义联系给整篇文本的语义所带来的影响。文本映射到概念图后,本文提出了几种与其配套的文本语义相似度计算方法,并对这些语义相似度计算方法做了简要的分析。 单词词干化,统一不同词的各种不同形态。 文本的基本特征一般称之为词项,即单词,特征选择就的:其次,特征选择能够去除很多噪音特征,提高文本相似度计算的准确性。一些文本中可能存在一些很罕见的单词,或是拼写错误的单词,这些单词对类别不能提供区分信息,如果将这些异常的词包含到特征中去,不仅弱化了正常词项在特征向量中所起到的作用,甚至可能导致不正确的相似度计算结果,这种现象被称之为过度拟合。 铋惦甜玎加均噗鉓图抽取出的特征信思 并将该测试文本分类到与其距离最接近的类别中。为外部知识的显示语义分析方法隽硕员取是目前基于文本本身内容分类效果最好的机器学习方法,但由于它仅仅使用文本本身的语料进行训练,因此它的分类效果会受到语料质量的严重影响。显示语义分析的方法利用了维基百科的知识,它通过将词映射成为概念,使文本特征的粒度边大,但它在映射过程中,对所有词项采用了一视同仁的对待方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 20882.5-2025淀粉糖质量要求第5部分:麦芽糖
- 护理员体位转移技术规范
- 首钢矿业合作协议书
- 山东联通5g协议书
- 运输道路重修协议书
- 违反班级纪律协议书
- 车祸死亡调解协议书
- 门店股权转让协议书
- 铺面租金保密协议书
- 门店入股合同协议书
- 护理影像学试题及答案总结
- DB65-T 4623-2022 分散式风电接入电力系统管理规范
- 退休终止劳动合同协议书
- 中国兽药典三部 2020年版
- 实验室质量管理体系与试题
- 婴幼儿期的食物过敏识别与管理考核试题及答案
- 基于S7-200 PLC及MCGS组态的苹果分拣机系统控制设计
- 泥水平衡顶管施工工艺详解
- 施工现场门禁管理制度
- 贵州企业招聘2024贵州金融控股集团有限责任公司招聘笔试参考题库附带答案详解
- 2025年城管考试题库及答案
评论
0/150
提交评论