




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答 系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目| j 也有很 多种,针对总体研究情况来看,这些方法缺乏对文本的语义分析,本文主要考虑利用知 网提供的词语标注从中文语义角度计算词语相似度,从而提高相似度的精度。 作为相似度研究的一个基础环节,中文自动分词处理结果的好坏直接影响最后计算 结果的准确性。文章介绍中文自动分词消歧技术的相关研究背景及发展状况。文中采用 以语料库为手段的相对词频语境计算模型的算法先对中文文本词语分词消歧,从歧义字 段的上下文中求得消歧信息,通过计算上下文信息来达到消歧的目的,使得分词效果较 以往方法得到改善。 经分词消歧后得到的特征词集利用基于知网语义词典,通过计算特征词之问的语义 相似度,将原有特征集经过计算后分成若干特征词集。同一特征词集中的特征词语义相 似度较大,而不同特征词集的特征词语义相似度较小。在此基础上,将同特征词集的 所有特征项的特征值相加,并将特征词集中的特征项浓缩成为一个独立的特征,把该方 法通过应用在文本分类实验来说明其有效性。 最后文章给出中文文本分词及相似度计算的计算机系统实现过程,并以大量文本为 例进行了测试,对该系统的功能模块进行尝试性的实践,取得一定的效果。 实验结果表明,采用的语义相似度计算方法是行之有效的。这一课题的研究及其成 果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。 关键词:分词消歧;相对词频;语义相似度;知网 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得 的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均己在文中作了 明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许 论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、 汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技 术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 蚪 2 血金v 幻 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:孙捌 日 期:且以上刁 电话: 邮编: 东北师范大学硕士学位论文 第1 章绪论 当今世界以信息技术为代表的现代科技日新月异,并正在对人类社会发展产生巨大 而深刻的影响。如何在海量的信息中快速查找相关信息变得非常重要,用户的检索结果 中经常出现大量重复文本信息,使得有效的信息提取技术的研究越来越重要。在实际的 应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而相似度就是其中的一 种。相似度是表示两个或多个文本或词语之间匹配程度的一个度量参数,相似度大,说 明对比的内容相似程度高,反之相似程度就低。对于文本聚类、信息检索、问答系统、 网页去重、文本分类等很多领域,相似度的有效计算问题是进行信息处理的关键。在信 息检索中,为了提高检索的查全率和查准率,需要对文档进行分类、聚类、排序和相关 性反馈,这些操作都需要计算和分析文档之间的相似度。由此可见关于相似度的研究对 信息技术的发展有重要的意义。 1 1 相似度概述 1 1 1 相似度的定义 一般地,相似度满足下面三个条件n 3 : ( 1 ) a 和b 之间的相似度和它们的共性有关,如果它们之间的共性越大,则它们的 相似度也就越大。 ( 2 ) a 和b 之间的相似度和它们的差异有关,如果它们之间的差异越大,则它们的 相似度也就越小。 ( 3 ) 如果a 和b 是一致的,不管它们间的共性有多大,它们的相似度达到最大值。 目前,关于相似度的定义还没有一个通用方法,因为其涉及到语言、语句结构和其 它一些因素。因此,有必要根据系统的具体实现去寻找合适的定义。文本相似度包括词 素、词、组块、句子、段落等多个层面( 如图1 1 所示) ,该领域的研究进展将会直接 推动文本相似度在诸多应用领域的发展。 1 1 2 相似度的应用 相似度计算的应用主要体现在以下几点: ( 1 ) 在基于实例的机器翻译中,相似度主要用于衡量文本中词语的可替换程度。 ( 2 ) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。 东北师范大学硕士学位论文 ( 3 ) 在多文本文摘系统中,相似度可以反映出局部主题信息的拟合程度。 ( 4 ) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内 容的相似度上。 ( 5 ) 在文本分类中,相似度可以反映文本与给定的分类体系中某类别的相关程度。 ( 6 ) 相似度计算是文本聚类的基础,通过相似度计算,把文本集合按照文本间的 相似度大小分成更小的文本簇。 段落文章 段落媳p i 棚器到圣 句子 句子净 信息检索 相 似 k 自动闻答 ; 自动摘要 组块- jl 组块ii i i 组块净 度 r 信息过滤 计 辅助写作 算 词语 词语净 l l 词素 词素尸 1 1 3 相似度研究面临的问题 图1 1 文本相似度计算层次图 用计算机来实现自然语言理解,汉语比英语具有更大的困难。英语是形合语言, 造句要求词的形态变化符合规则,注重句法平面。而汉语是意合的语言,造句要求词的 意义搭配符合情理,注重语义平面。所以,汉语词语的相似度计算难度更大,而目前关 于汉语词语的相似度计算的方法或多或少的存在一些不够完美问题。它们只是单纯的使 用语义词典的计算方法,没有充分利用句子中的其他特征,没有考虑到句子的内部结构 和词语之间的相互作用和联系,因此准确率并不高。而其基于编辑距离的方法通常被用 于句子的快速模糊匹配领域,但是此种规定的编辑操作并不灵活。因为编辑距离算法是 以字为基本计算单位,而在汉语中,单个的字往往是不具备意义的。并且还有使用较多 的基于向量空间模型的t f i d f 方法,也有一些不足之处。首先,只有当句子所包含的 词语足够多时,采用该方法效果才会比较好。例如该方法使用在问答系统的常用问题库 r 2 东北师范大学硕士学位论文 中,用于比较问句和问题答案对的问句的相似度时,f a q 库中所面对的是单个的句子, 句子包含的词的个数往往不足体现这种效果。它是一种基于统计的方法,基于统计的计 算方法需要有大规模的语料库支持,大规模的语料库的构建本身就是一件比较困难,需 要消耗大量的人力和时间的工作,并且还存在着数据稀疏的问题。其次,t f i d f 方法 只考虑了词在上下文中的统计特性,而丢弃了句子的结构信息和语义信息,因此具有一 定的局限性。 1 2 国内外相似度研究现状 1 2 1 国外发展情况 现在国内外有很多学者在研究句子相似度的计算方法n 1 。在国外例如哥伦比亚大学 的g o l d s d e i n 等人通过最大边缘相关的方法( m a x i m a lm a r g i n a lr e l e v a n c e ) 进行相似度 计算。学者c l l r i sh q d i n g 等采用了隐含语义索引( l a t e n ts e m a n t i ci n d e x i n g ) 的方法心1 。 l 锄b r o s 等提出同时依据句子的表层结构和内容计算相似度的方法n 1 。在计算相似度时, 系统使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算 语句相似度。n i r e n b u r g h l 等提出了两种串匹配的方法,即更规范的“切块+ 匹配+ 重组” 方法和整句级匹配的方法。这两种方法所采用的相似度衡量机制都是词组合法。该系统 的相似度计算采用罚分制,两个句子匹配所得到的总罚分值由句子中每个对应单词对的 比较所得的罚分组合而成。c a 仃o u 和s u m i t a 都建立了“距离”或“相似度”衡量机制m 刚。c 姗n 用基于两个测试点的三角形法来计算句子之间的相似度,一个测试点是被比 句子的长度,另一个是被比句子的内容,一些误匹配用相似度得分中的“费用”来体现。 s 啪i t 等的相似度计算是基于单个词的,规定两个语言片段的距离由它们所包含的词之 间的距离与相应权值的乘积之和来决定。n i l a d r i 提出了一种基于线性模型的相似度度量 模式,其相关系数由多重回归技术确定。他将句子的相似性( 或者更准确地既是非相似 性) 看成是一系列决定句子不相似的成分的共同作用的结果。 1 2 2 国内发展现状 国内对于汉语句子的相似度计算研究方面也取得了一定的成果。张民等设计了一种 基于词的汉语句子相似度计算方法口1 。由于进行相似度计算的两个句子往往长度相差较 大,单词的个数不一致,因此,两个句子中每个单词都可能是相互相关的,这种相关性 可通过相对位置加权处理。该方法考虑了词一级的相关性、词( 同义词) 的同现以及评 价值的向后叠加,并设计了一个递归定义的算法,不仅可以给出句子级相似,而且也可 以给出“亚句子”级相似。陈利人哺3 等提出了句子相似度包括结构相似度和语义相似度 的概念,认为句子相似度计算包括两个步骤:首先,经过词的结构相似度计算,得到句 3 东北师范大学硕士学位论文 2 1 2 知网的特点 知网作为一个知识系统,实副其名是一个网而不是树。它所着力要反映的是概念的 共性和个性,例如:对于“医生”和“患者”,“人”是它们的菇性。知网在主要特性 文件中描述了“人”所具有的共性,那么“医生”的个性是:他是“医治”的施事,而 “患者”的个性是:他是“患病”的经验者。对于“富翁”和“穷人”,“美女”和“丑 八怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑” 等不同的属性值,则是它们的个性。 同时知网还着力要反映概念之间和概念的属性之间的各种关系。知网把下面的一种 知识网络体系( 图2 1 ) 明确的教给了计算机进而使知识对计算机而吉是可操作的。 旺 图2 。1 知识网络体系 总的来说,知网描述了下列各种关系: 上下位关系、同义关系、反义关系、对义关系、部件一整体关系、属性一宿主关系、 材料一成品关系、施事经验者关系主体一事件关系、受事内容领属物等一事件关系、 工具一事件关系、场所一事件关系、时间一事件关系、值一属性关系、实体一值关系、事件一 角色关系、相关关系。 知网的一个重要特点是:类似于同义、反义、对义等种种关系是由用户自行形成面 不是逐一地、显性地标注在各个概念之上的。 知网是一个知识系统,而不是一部语义词典。尽管被称为知识词典的常识性知识库 是知网的最基本的数据库。知网的全部的主要文件包括知识词典构成了一个有机结合的 7 东北师范大学硕士学位论文 1 9 9 2 年制定的国家标准信息处理用现代汉语分词规范虽然给出了词和分词单位 的非形式化定义,但是语言学界对词还没有给出一个为大家广泛接受的、严格且统一的 非形式定义。 2 歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表 面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称 为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉 歧义引起的错误。“化妆和服装 可以分成“化妆和服装”或者“化妆和服装”。 由于没有人的知识去理解,计算机很难知道到底哪个方案订三确。 3 未登录词识别 未登录词的识别。由于新词不断增加,而词典的容量有限,文本中必然会存在词典 中没有收录的词,如人名、地名、机构名等专有名词及新词语等,这些词统称为未登录 词。未登录词是自动分词中一个重要的问题,在新闻类文本中十分突出,该问题的解决 有赖于人们对汉语结构的进一步认识。 2 3 歧义的解决 2 3 1 歧义字段类型 汉语分词问题中歧义字段切分是影响分词系统切分精度的重要因素,它是分词系统 设计中的一个最困难也是最核心的问题。衡量一个分词系统的指标主要有三个:切分速 度、切分精度、系统的可维护性。其中,切分精度则直接反映系统的f 确性与科学性, 是三个指标中最重要的一个。所以,要提高自动分词的精度,必须有效地处理歧义字段。 通过对大量语料中发生的歧义情况进行统计,歧义切分字段构成形式上可以分为以 下两个方面:交集型歧义切分字段和组合组合型歧义切分字段。 ( 1 ) 交集型歧义字段指:在字段a b c 中,a b w 并且b c w ,则称a b c 交集型 歧义字段。其中a ,b ,c 为字串,w 为词表。 例如:a 毛泽东领导地位的确定是在遵义会议上。 b 这件事一时的确定不下来。 其中“的确定为交集型歧义字段。 ( 2 ) 组合型字段是指:在字段a b 中,a b w ,a w ,b w ,w 为词表,则称 a b 为组合型歧义字段。 例如:a 少年儿童一起拉小提琴。 b 一起领导干部违纪事件。 其中“一起为组合型歧义字段,a 中“一起”不应该切分,b 中“一”和“起”都 是词,切分开来。 l o 东北师范大学硕士学位论文 另外,有些歧义字段属于混合型歧义字段,既是交集型歧义字段,又是组合型歧义 字段。 2 3 2 交集型歧义字段切分方法 多年来,对于交集型切分歧义的消解方法,许多学者做了大量的工作,研究出许多 消解方法。交集型歧义字段占歧义字段总数的9 0 以上,所以处理好分词中产生的交集 型歧义字段问题,将对提高分词系统的分词精度有很大的帮助。处理歧义的首要任务是 进行歧义字段的识别。目前在分词系统中使用较多的交集型歧义字段识别方法是双向最 大匹配法和逐词扫描法。 ( 1 ) 双向最大匹配法 该方法分别用正向最大匹配法和逆向最大匹配法对同一文本进行扫描。两种方法扫 描结果不同的字段,则认为是歧义字段。例如,对“小学生日常行为规范”字符串,用 正向最大匹配法的切分结果为“小学生同常行为规范”,而用逆向最大匹配法的切 分结果为“小学生日常行为规范”,在“小学生同常”字段的处理结果上出现了不 同,由此可以将其作为歧义字段,进行后续处理。由于双向最大匹配法对分词词典的要 求很高,在分词词典的组织上同时要求有正向和逆向两种词典索引机制,在进行分词时 要同时进行正向和逆向两种方式的扫描,因此在一定程度上也增加了分词系统的时空复 杂性;并且,对于有些歧义字段,采用正向和逆向最大匹配法的扫描结果是相同的,所 以无法识别出某些歧义字段。以字符串“当原子结合成分子时”为例: 正向最大匹配法扫描结果:当原子结合成分子时 逆向最大匹配法扫描结果:当原子结合成分子时 由此可见,两者的扫描切分结果是一样的,无法识别出任何歧义,而上面两种切分 结果都不是正确的。 ( 2 ) 逐词扫描法 研究表明,采用双向最大匹配法可以识别出大多数的交集型歧义字段,而采用逐词 扫描法可以识别出全部的交集型歧义字段瞄引。该方法的缺点是:不论分词词典多大,被 处理材料多么小,都得把整个分词词典扫描一遍,时f 刚复杂度较高,所以也很少采用。 2 3 3 组合型歧义字段的切分方法 目前汉语分词歧义的研究多集中在交集型歧义消解上,对组合型歧义的研究目前十 分薄弱。 郑家恒、吴芳芳( 1 9 9 9 ) 主要依靠人工总结出来的规则对组合型歧义进行消解n 圳,这 种方法只能处理有限的语言现象,难以推及一般。人们也试图对歧义单位的上下文语境 进行计算。其中,以向量空间模型最为典型。肖云、孙茂松、邹嘉彦( 2 0 0 1 ) 利用上下文 东北师范大学硕士学位论文 第3 章关键技术概述 本章分别重点的介绍本文中采用的相对词频算法对文本分词消歧以及通过知网对 词语相似度计算的算法。 3 1 语境计算模型 在汉语自然语言处理研究领域中,句法研究已经取得了可喜的进展,语义研究也日 益受到重视:而对于语境分析,目前却研究得不多。张普曾从汉字输入、汉语自动分词、 汉语理解、机器翻译、汉字识别、汉语语音识别等方面概括介绍了语境研究的应用或应 用前景。“;钱树人在剖析歧义、系统歧义与语境关系的基础上,构建了汉语语言片段歧 义分析模型系统c a a m s 。“;简幼良等针对日汉机器翻译提出了一种基于语境类似度的 并列成分的判定方法”;郑杰等针对英汉机器翻译系统( e c m t ) 中的语义排歧问题,提 出了一种根据单词与语境之间的关系以消除单词语义歧义的模型“”。这些研究各有特 点,但都没有对自然语言的语境构成作系统分析,也没有就自然语言理解尤其是汉语理 解中的语境问题展开理论探讨,甚至并没有对语境概念做科学界定。 在中文信息处理的研究中,存在的最大难题之一就是歧义问题。但是,这些对计算 机处理来说困难重重的问题,在人类语言的学习和使用过程中却并不感到特别难以解 决。根本原因在于,人们可以通过对歧义语言单位前后的词语、这些词语f : 现的特定位 置、以及这些词语之间的特定排列顺序等许多和上下文语境相关的知识,很容易地将歧 义消除。因此,我们如果能够找出歧义语言单位不同的词语搭配规律,就可以将这些规 律应用到各自的歧义消解过程中。本文中采用的语境计算模型是指该词在篇章中所处的 上下文关系。任何一个多义单词只有在一定的上下文中,也就是一定的语境中彳具有确 定的意义,因此,本文可以通过语境来对歧义词进行排歧。 在多数现有的自然语言处理算法中,上下文通常取自以目标词为中心的单词窗,这 个窗一般只取目标词周围的一或二个单词,并且不考虑与目标词的距离及语法关系等 。在本文中语境的表示是通过抽取篇章中的一些主要词汇来实现的,称这种词为语 境词。通过这些语境词来确定某个歧义词在该语境中的含义。 语境计算模型在大规模语料库的支持下,训练出歧义字段前后语境中出现的词语在 特定位置的相对词频作为消歧的依据。该模型考虑了每个词语在语境中的位置信息、在 该位置的相对词频信息,并将这些相对词频信息累加,类似人们根据语境信息迸行综合 决策的过程。在这里,语言知识已经附带上概率信息,较规则而言,更准确,也更科学 【2 对 d 通过建立基于统计的语言模型,用以从歧义字段的上下文中求得消歧信息,通过计 1 1 东北师范大学硕士学位论文 算上下文信息来达到消歧的目的。 3 2 本文采用的歧义识别算法 3 2 1 相对词频语境计算模型 并不是任何的上下文都是可以计算的。要使语境可以计算,必须保证待计算的语言 现象,其上下文保持稳定性,即每次语境计算的结果大致相同;特殊的语法现象具有与 众不同的特性,即歧义现象在不同语境下反映出不同的特性,能相互区别;并且这些特 性在大规模语料中可以通过计算值而相互区别开来心7 。语境可计算的基本假设为: 假设1 稳定性假设 同一个词语在若干个大规模同质语料库中的频率和位置分布具有稳定性。 假设2 特殊性假设 在某种特殊的语境下,词语的使用频度和在这个特殊语境下的位置排列,表现出与 其他语境不同的特性。这种特殊性在大规模语料中仍表现出稳定的特点。 假设3 区别性假设 歧义消解的依据是语境,而语境的差异是可以计算的。反映到统计量中,就是歧义 字段不同类别的语境中,词语排列的模式具有特殊性,而且这种特殊性也保持稳定。不 同歧义类别的特殊性具有差异,可以据此相互区分。 以上三个假设之间相互依赖,共同作用的关系。首先,稳定性为语境可计算奠定基 础,只有语境的稳定性,才能在每次计算中得到相近的结果。特殊性是语境计算的依据, 不同的语法现象,本质上都表现出与其他语法现象相互区别的特征,而且这种特质在大 规模语料中表现出稳定性,即每次都可以将这种特殊性计算出来。区别性则是语言消歧 的本质所在。语言歧义表现在语境中共现词语的特殊性以及这些词语在句子中出现位置 的特殊性,这些特殊性反映了语言歧义类别之间的区别性,因而可以用来据此进行歧义 消解。 3 2 2 相对词频语境计算的统计学模型简介 基于相对词频语境计算模型的算法如下瞳8 | 。设待消歧字段的上下文为: 矽i 矿1 ) 矿2 矿l 彳坳彬形川) 形 0 3 一1 ) 下标中负号表示左语境,没有符号的代表右语境。尼表示左语境选择七个词;s 表示右 语境选择j 个词。 对于一批含歧义词的语料,经人工消歧,形成f 个集合,每个集合中都具有相同的 语言功能。这里f 表示彳脚有f 种歧义形式,分别表示为:么脚。,彳坳:,彳 境中出现的词频,形成4 个语境词频表:强势前语境词频表、强势后语境词频表、弱 x 东北师范大学硕士学位论文 步骤5 :对每个语境词频表中的每个词,求其相对词频r w f ( r e l a t i v ew o r d f r e q u e n c y ) ,形成语境相对词频表。对于词w 的相对词频为: r 阿f ( w ) = 三d c 凡g ( w ) g 肠6 ,y p g ( w ) ( 3 4 ) 其中,d c 凡g ( 们代表w 在语境词表中的词频,g 肠6 乃叼( w ) 代表w 在全局词表中的词 频。如此构成4 个相对词频表:强势前语境相对词频表、强势后语境词相对词频表、弱 势前语境相对词频表、弱势后语境相对词频表。 有了语境相对词频表,消歧的过程非常简单,分别计算该歧义字段在不同语境下的 相对词频之和,然后进行简单比较即可进行决策: 1 对于待消歧句子,通过利用i c t c l a s 系统处理,可以形成带词性标注的语料。 2 计算在不同语境下的相对词频之和。 3 比较第2 步中求得的结果,判定歧义字段在该句子中应取相对词频之和最大值 对应的语境。 采用相对词频的概念,利用语境的相对词频信息进行消歧瞳6 1 。这样不仅考虑了语境 中存在的词频,而且考虑了语境中出现词语相对于整个语料词频的相对比率,用相对词 频来模拟人们判断语境中出现词语对消歧的重要程度;同时又区分了语境的位置,将语 境分为前语境和后语境,从而把前后语境出现的词语区分开来,提高了语境信息计算的 准确性。将语境的相对词频相加的过程,类似于人们根据语境信息进行综合决策的过程。 使之较传统的歧义识别方法更加优越。 本文先对中文文本词语分词消歧,采用了相对词频的语境对词语分词消歧,这是本 文中语义相似度计算的基础,分词的好坏直接影响到后面的相似度计算。下面我们介绍 利用知网计算词语的相似度问题。 3 3 本文采用的知网相似度计算 3 3 1 义原的层次结构 义原一方面作为描述概念的最基本单位,另一方面义原之间又存在复杂的关系。知 网的义原之问组成的是一个复杂的网状结构,并不像w 6 r d n e t 和同义词词林那样的树型 结构3 删。但是,义原关系中最重要的是上下位关系,根据义原的上下位关系,所有的 基本义原组成一个义原层次体系。这个层次体系是一个树状结构,这就是我们进行语义 相似度计算的基础。 义原分类树把各个义原及它们之间的联系以树的形式组织在一起如图3 1 ,树中父 节点和子节点的义原具有上下位的关系。我们可以利用义原分类树计算两个词之间的语 义距离。知网中存在e n t 时、e v e n t 、a t t m u t e 等1 1 棵义原树。但有些义原树,例如c o n v e r s e 、 a n t o n v m 等,里面的义原没有父子关系,并不体现上述的词与词之问的上下位特征,因 此无法使用。我们在义原树中总共选取了以下6 棵义原树用来计算词的语义距离:e n t 时、 1 6 东北师范大学硕士学位论文 e e n t 、a h d b u t e 、a t t r i b u t ev | a l u e 、q u a n t i t ) ,、q u a n t i t yv a l u e 。 从表面上看,其它的语义词典,例如同义词词林和w o r d n e t ,也有一个树状的概念 层次体系,好像知网和它们很相似,但实际上有着本质的不同。懈叫0 1 。在同义词词林和 w o r d n e t 中,概念就是描写词义的最小单位,所以,每一个概念都是这个概念层次体系 中的一个结点。而在知网中,每一个概念是通过一组义原来表示的,概念本身并不是义 原层次体系中的一个结点,义原才是这个层次体系中的一个结点。而且,一个概念并不 是简单的描述为一个义原的集合,而是要描述为使用某种专门的“知识描述语言”来表 达的一个语义表达式。也就是说,在描述一个概念的多个义原中,每个义原所起到的作 用是不同的,这就给相似度计算带来了很大的困难。 图3 1e n t 义原分类树的树结构表示 3 3 2 知网语义相似度计算方法 由于所有的概念都最终归结于用义原( 个别地方用具体词) 来表示,所以义原的相似 度计算是概念相似度计算的基础h 。由于所有的义原根据上下位关系构成了一个树状的 义原层次体系,所以可采用简单的通过语义距离计算相似度。通过义原关系网络中得到 的义原之间的关系路径的长度来计算义原之间的相似度。一般而言,义原相似度是一个 0 ,1 之间的实数,义原距离与义原相似度之间有着密切的关系。两个义原的距离越大, 其相似度越低;反之,两个义原的距离越小,其相似度越大。二者之间可以建立一种简 单的对应关系,这种对应关系需要满足以下几个条件: 1 两个义原距离为0 ( 一个义原与其本身的距离为0 ) 时,其相似度为1 ; 2 两个义原距离为无穷大时,其相似度为0 ; 3 两个义原的距离越大,其相似度越小( 单调下降) 。 对于两个义原文,s ,在这个层次体系中的义原距离为d ,可以定义一个满足以上条 1 7 东北师范大学硕士学位论文 件的义原距离和义原相似度转换关系,得到两个义原之间的相似度。 公式3 5 如下: 跏( 轧s ,) :j 熹 矿( s - ) = ( s 2 ) ( 3 5 ) 删q 卜骶口 尚描 巧 ln v o l ,+ ) 2 , 其中函,岛表示两个义原,d 是& 和j :在义原层次体系中的路径长度,值为一个正整数。 f ( s ) = f ( s ,) 表示义原品和j ,处于同一棵义原树中。口是一个可调节的参数,它的值根 据义原之间的相互关系来确定,如果在计算时考虑进来,可能会得到更精细的义原相似 度度量。例如,我们可以认为,具有反义或者对义关系的两个义原比较相似,因为它们 在实际的语料中可以互相替换的可能性很大。对于这个问题这里不展开讨论,留给以后 的研究工作来处理。 由于知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念 之间以及概念所具有的属性之间的关系为基本内容的常识知识库,其中包含丰富的词汇 语义知识和世界知识。在知网中,词汇语义的描述被定义为义项( 概念) 。每一个词可以 表达为几个义项,义项又是由义原来描述的。义原根据义原之间的属性关系分为多棵义 原树,树与树之间又存在一定的关系,形成知网所具有的网状知识结构相比词汇的规 模,义原的数量很少,只有1 5 0 0 多个,但其组合起来可以表达数以万计的词语。这样, 将词语的相似度计算转化为义原的相似度计算可以提高计算效率,有利于知识库的扩 展。义原的相似度可以根据义原树结构的相对位置关系求出。由于义项都由义原表示, 义项相似度计算又归结为义原相似度的计算。所有的义原根据上下位关系构成了一个树 状的义原层次体系,原理上可以通过计算语义距离的办法计算义原相似度。但是在研究 中我们发现,义原之间的相互关系并不仅仅与义原之间的距离相关,义原之问相对位置 关系对义原的相似度也有着较大的影响,所以计算过程中引入了义原相 x 东北师范大学硕士学位论文 一个描述式,这个基本义原描述了该实词的最基本的语义特征,称做第一独立义原描述 式。 实现时考虑到在汉语中实词才是表达文章意义的关键词汇,所以在相似度算法中省 略了虚词部分的相似度计算,这样可以在保证计算准确性的前提下提高计算效率。 对于实词概念的语义表达式,参照知网对实词的描述,将实词相似度计算分成以下 4 个部分h 2 l 。 ( 1 ) 第一独立义原描述式:两个义项的这一部分的相似度记为j f m 印( p 。,p :) ,其可 由式( 3 6 ) 直接算出。 ( 2 ) 其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原 称做其他独立义原。两个义项的这一部分的相似度记为s f 聊印:。,p :) ,其值是独立义 原相似度最大组合序列的加权平均值; s 砌印z 0 ,p :) - ,;允嘻l 嬲。s z 聊印b ,一,) ( 3 7 ) ( 3 ) 关系义原描述式:语义表达式中所有用关系表示的义原称做关系义原。两个义 项的这一部分的相似度记为s f 聊即,0 。,p :) ,其值是关系相同的义原组合的最大值; s 砌即3 0 l ,p 2 ) = ,m 呸s f 聊叩恼,p ,j ( 3 8 ) ( 4 ) 符号义原描述式:语义表达式中所有的用符号表示的义原称做符号义原。两个 义项的这一部分的相似度记为s f 聊叩。0 ,p :) ,由于符号义原与关系义原在知网中表示 方式相同,其公式与关系义原描述式类似。 s 棚即4 0 l ,p 2 ) = ,m 呸s 砌叩b ,p ,j ( 3 9 ) 于是,两个义项语义表达式的整体相似度记为心明 j 砌w s g 。,j :) = 屈s f m 叩,0 。,p :) ( 3 1 0 ) ,一l 其中,屈( 1 f 4 ) 是可调节的参数,并且届+ 厦+ 屈+ 4 = 1 ,届履屈屈。s 砌印i 到s f 聊即。对于总体相似度所起到的作用依次递减。 在使用式( 3 1 0 ) 的算例验证中发现,如果s 砌,叩。非常小,但s f 胴伊3 或者s f 胴垆。比 较大,将导致整体的相似度仍然较大的不合理现象。同时考虑到根据知网的描述,除第 一独立义原相似度之外的其他义原相似度是相对独立的,所以最终相似度计算公式为: 4 s 砌w ( s ,j :) = 届s 砌叩。0 。,p :) + 届s 砌叩。0 。,p :) 届s 砌叩,0 ,p :) ( 3 1 1 ) 卜2 至此,可以算出两实词之间的相似度值。这样,就把两个词语之间的相似度问题归 结为两个词语的义项之间的相似度问题。 基于知网的语义相似度计算通过综合考虑词汇标注的第一义原项和其他义原项,使 相似度较大的词汇位于同一类别的概率很大。 1 9 东北师范大学硕士学位论文 3 4 本章小结 本章的主要工作是对基于相对词频的语义相似度的主要算法进行深入的研究。因此 本文先对中文文本采用了相对词频的语境对词语分词消歧,根据分词结果和词频统计分 析,提取出代表待比较文本的特征词;进而根据知网的语义相似度算法计算,合并特征 词汇集。下一章的工作是在这些关键技术算法的基础上进行系统的设计与实现。 东北师范大学硕士学位论文 4 1 系统的基本思想 第4 章系统的设计与实现 相似度的方法目前也有很多种,传统的方法都是利用欧氏空间、微分几何中单纯形 等概念,把文本与查询式描述成空间中的向量。再定义诸如内积等运算,由此来定量地 描述文本与查询式之间的相似度。针对总体研究情况来看,这些方法缺乏对文本的语义 分析,一个i 文文本是由可以表达语义的最小元素一词语组成的,于是对文本的处理最 基本的就是对词语的处理。 本文主要考虑利用知网提供的词语标注从中文语义角度计算词语相似度,从而降低 文本特征词数量,去除一些同义、相近的特征词,提高数据挖掘的质量。而中文分词是 相似度研究中的基础课题之一,在相似度处理中占据着相当重要的地位。因此本文先对 中文文本词语分词消歧,采用了相对词频的语境对词语分词消歧,根掘分词结果和词频 统计分析,提取出代表待比较文本的特征词;进而根据知网的语义相似度计算,合并特 征词汇集。把该方法通过应用在文本分类实验来说明其有效性。 4 2 系统组成模块 前面三章详细的讨论了中文文本分词以及词语相似度算法原理,基于统计的相对词 频语境模型,从歧义字段的上下文中求得消歧信息,通过计算上下文信息束达到消歧的 目的。基于知网的语义相似度计算方法,考虑了语义因素,将语义相似度计算值用于分 析文本的特征词的语义,从语义的层面上,计算它们之间的相关性。本章介绍系统的设 计与实现。 系统主要由以下几个模块组成: 文本库模块:用于存放实验的中文文本: 分词消歧模块:通过i c t c l a s 系统处理形成词性标注的语料后对文本采用相对词 频语境切分词条并进行歧义校正,生成文本特征向量; 特征词抽取模块:根据分词结果和词频统计分析,提取出代表待比较文本的特征词; 相似度计算模块:根据知网中的语义标注,计算提取出的特征词之间的相似度,合 并特征词汇集。 系统的组成及工作流程如图4 1 所示 2 l 东北师范大学硕士学位论文 4 3 系统实现 图4 1 基于分词的文本相似度计算系统模型 4 3 1 程序设计工具 本文设计使用j a v a 语言来实现算法,使用的开发工具为e c l i p s e3 x 。 4 3 2 相对词频分词消歧的实现 中文自动分词是中文信息处理的基础环节,是计算词语相似度的基本前提,分词处 理的好坏直接影响最后计算结果的准确性。在这里,我们主要采用第3 章中所介绍的相 对词频语境计算方法来对中文文本进行分词处理并进行歧义校正。如前所述,它从歧义 字段的上下文中求得消歧信息,通过计算上下文信息来达到消歧的目的。 我们按照训练过程和歧义校正的顺序分别加以说明。 训练过程:建立语料库,循环处理训练样本集每个文件中的每一行。按照语境窗口 设定的大小,取待消歧字段的前后语境,并修改数据库中语境词频表对应的信息。对语 境词频表中的每个词求其相对词频,构成相对词频表。 2 2 东北师范大学硕士学位论文 n 心q 1 。 步骤2 :计算训练文本集合中w f 在某类文本g 的词频的次数( h :g ) , n k ( w j :c 。) = ( ) ( 4 2 ) = l 同时建立该类别的特征词库q 。虹) 。 步骤3 :计算在整个训练文本集合中词出现的次数, h ( w ) = ( m :g ) ( 4 3 ) ;i 同时建立全部训练集合的词q 。 4 3 4 词语相似度计算实现 基于知网语义词典,通过计算特征词之间的语义相似度,将原有特征集经过计算后 分成若干特征词集。将特征词集中的特征项浓缩成为一个独立的特征集合,在此基础上, 将同一特征词集的所有特征项的特征值相加,并将特征词集中的特征项浓缩成为一个独 立的特征,以降低文本比较的特征维数,以降低文本比较的特征维数,从而提高文本分 类的精度。 特征词概念相似度算法描述: 步骤l :设q 为合并浓缩以后的特征词集,丁为相似度计算大于一定阈值的临时词 汇集合;初始值q 不为空。令x 表示q 中词汇集合的大小; 步骤2 :取9 中的词( f = o ,1 ,2 ,x 一2 ) ,将w ,一r ,根据公式( 3 1 1 ) 计算w 与 词w ,o = o ,1 ,2 ,x 一1 ) 之间的语义相似度,如果相似度值 口( 口为一闽值,在本实验中 分别取o 8 ,o 9 ,1 0 进行计算) 则丁+ w ,_ 丁,g w ,4q ,x l x :7 集合代表与 词汇相似度大于一定阈值的特征词汇子集; 步骤3 :q + 丁一q ; 步骤4 :如果q ,为空集时,处理完毕,经过上述算法后,划分为浓缩的特征集。 例如:特征词集 “大学”,“西红柿”,“高中”,“初中”,“番茄”,“小学”,“红薯” 划分为浓缩的特征集 “大学”,“高中”,“初中”,“小学” 西红柿”,“番茄”,红薯”) 。 如果在文本相似度计算分类中,出现的“西红柿“番茄”“红薯”这三个词语相似度计 算值较高,“大学”,“高中”,“初中”,“小学”这几个词语相似度计算值较高,词语的 语义越接近,那么同属于一个类别的可能性越大。 步骤5 :用处理后的特征词汇集合包重新描述训练文本。对于文本d ,= w l ,比,嵋j ,取出其中的一个词w ,( f = o ,l ,2 ,i 一1 ) ,设l 为某特征词汇的权重。根 据步骤2 中计算与w l 相似度值 岱的所有q 中的子集0 ,取出l 子集中的每一个特征词 汇用( 胁。,肌:,册。) 表示,如果埘。d ,则把肌,的权重加到中。 2 s 东北师范大学硕士学位论文 词语相似度计算流程如图4 3 所示: 图4 3 词语相似度计算流程图 东北师范大学硕士学位论文 4 4 实验数据及结果 4 4 1 实验评估方法 本文采用的相似度计算方法可以通过对测试文本进行分类来评估。 文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确 程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度是将 文本的分类结果与人工分类结果相比较,越相近,分类的准确程度就越高,这罩有评估 文本分类系统的两个指标:准确率和召回率。 准确率:采用文本分类方法分类的正确文本数与实际分类的文本数所占的比率。其 数学公式如( 4 4 ) : 准确率o m c 捃r 。玎) = 姜纛募;:;嚣 c a a , 召回率:采用文本分类方法分类的正确文本数与分类应用的所有文本数的比率。其 数学公式如( 4 5 ) : 召回率呦) = 篙瓣 m 5 ) 4 4 2 实验数据及实验结果 从人民日报语料库中选出1 2 0 0 篇文稿,取出4 0 0 篇作为训练文本,对这4 0 0 篇训练文本采用手工分类方式,共分为政治,体育、财经、计算机科技、艺术、医疗卫 生等6 个类别。取出8 0 0 篇作为测试文本。具体实验数据如表4 1 所示: 表4 1 训练和测试文本集的主题类别分布 主题类别政治体育 财经 计算机 艺术医疗甲生 训练文本集6 07 8 6 0 6 6 6 8 6 8 测试文本集 1 3 81 3 81 1 81 3 41 3 61 3 6 文本分词消歧后,我们设计一个对比实验。对提取特征词分别采用: ( 一) 比较普遍的t f i d f 公式( 4 6 ) 对每个类别排序提取出预定数目特征词。 东北师范大学硕士学位论文 缈琥2 矿江- 。g ( 尝;+ 。 ( 4 6 ) 其中,以f ,后) 为词f 在文本七中的权重,以为在训练文本尼中词语f 出现的次数;为训 练集中文本的数目;刀,为训练集中出现词语f 的文本数目;分母为归一化因子。 ( 二) 将( 一) 中提取出的特征词根据知网中的语义标注,按照特征词概念相似度 算法描述步骤计算特征词之间的相似度,用处理后的特征词汇集合代表文本信息。从而 对比两种方法对文本分类的处理结果。实验结果如表4 2 所示。图4 4 和4 5 分别独立 直观的显示出两种方法召回率和准确率的对比图。图4 6 是两种方法平均评价指标的实 验的对比图。 ( 三) 将上述特征词根据知网中的语义标注,按照特征词概念相似度算法描述步骤 计算特征词之间的相似度。口分别取值为0 9 和o 8 ,我们对比不同阈值下的词语相似度 计算的实验结果。系统运行结果图如图4 7 所示。 表4 2 实验结果 各个类别的召回率和准确率 t f i d f 概念特征 类别数量( 篇、类) 召回率准确率召回率准确率 政治1 3 87 4 1 8 6 5 8 7 6 8 8 6 体育 1 3 87 1 3 8 0 5 8 0 1 8 3 2 财经 l1 87 5 4 8 1 3 8 2 4 8 6 7 计算机 1 3 47 0 6 8 5 8 8 9 4 9 2 1 艺术 1 3 67 9 8 8 3 2 8 5 6 8 7 7 医疗卫生 1 3 66 5 4 7 0 4 8 1 6 8 2 2 东北师范大学硕士学位论文 9 5 0 0 9 0 0 0 8 5 0 0 8 0 0 0 7 5 0 0 7 0 o o 6 5 o o 6 0 0 0 5 5 0 0 5 0 o o 9 5 0 0 9 0 o o 8 5 o o 8 0 o o 7 5 0 0 7 0 0 0 6 5 0 0 6 0 0 0 5 5 0 0 5 0 0 0 召回率对比 政治体育财经计算机艺术 医疗1 i 生 图4 4 各类别召回率比较 准确率对比 政治体育 财经汁算机艺术医疗j 生 图4 5 各类别准确率比 2 9 一r r i d f m 慨念特7 i f 一t f i d f * 概念特征 东北师范大学硕士学位论文 类。对同样的8 0 0 篇测试文本,传统t f i d f 方法正确分类6 6 2 篇,平均准确率为8 2 8 ,而本文提出的方法正确分类6 8 3 篇,平均准确率为8 5 4 。从图4 6 中可以看出, 对每一个类别,基于特征词概念相似度方法都优于传统t f i d f 选择方法。 从上面的实验结果可以看出,相似度计算方法使准确率和召回率有显著提高。对于 类别专有词汇较多的类别准确率和召回率提高比较明显。这些类别之所以提高比较明 显,是因为类别中含有较多的专业词汇,所以经过语义相似度计算后,所包含的子集数 较少,每个子集所代表的类别权重比较大,从而更有利于分类决策。 另外,实验中还可以调整语义相似度计算的阈值来调整特征子集数量,将相似度比 较的阈值从0 9 调整到o 8 ,这样调整对分类的准确性和分类时间影响是明显的,词语相 似度计算值越高,词语的语义越接近,那么同属于一个类别的可能性越大,分类准确性越 高;但是计算量越大,分类性能越低。 以上是对t f i d f 特征选择和我们提出的基于特征词概念相似度方法,对同样的数 据集和同样的分类器来比较的。该实验得到了非常高的准确率、召回率,这是因为我们 的数据集规模很小,样本的类别性很高,而且采用的测试方法是封闭测试。在丌放测试 中,他们表现很差,这也是由于样本规模小,类别特征集不够大造成的。但是,作为对 基于特征词概念相似度方法的考察,这样的数据还是能够说明其有效性的。 东北师范大学硕士学位论文 5 1 总结 第5 章结束语 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景,其研究
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单身购房抵押合同范本
- 租赁线上合同范本
- 出口模具的合同范本
- 上海校服采购合同范本
- 展销大棚租赁合同范本
- 朋友合股开店合同范本
- 机构如何签到合同范本
- 学生租房协议合同范本
- 宜家沙发租房合同范本
- 提前打款合同范本
- 2025年山西航空产业集团有限公司招聘考试笔试试题(含答案)
- 电梯安全培训课件内容
- 2025年事业单位招聘职业能力倾向测验考试题库附参考答案满分必刷
- 应聘副研究员汇报
- 2025年中考历史(河南卷)真题评析
- 手术室时间管理课件
- 2025版线上直播场推广服务合同模板
- 高一上学期数学学法指导课件2024.9.14
- 2025年生猪屠宰兽医卫生检疫人员考试题(附答案)
- (完整word版)高中英语3500词汇表
- 柴芍六君子汤加减治疗脾胃病三则
评论
0/150
提交评论