(信息与通信工程专业论文)基于语义情感倾向的文本相似度计算.pdf_第1页
(信息与通信工程专业论文)基于语义情感倾向的文本相似度计算.pdf_第2页
(信息与通信工程专业论文)基于语义情感倾向的文本相似度计算.pdf_第3页
(信息与通信工程专业论文)基于语义情感倾向的文本相似度计算.pdf_第4页
(信息与通信工程专业论文)基于语义情感倾向的文本相似度计算.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

(信息与通信工程专业论文)基于语义情感倾向的文本相似度计算.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在中文信息处理中,汉语文本相似度计算是一项基础而重要的工作,广泛应 用于信息分类、信息检索、信息过滤、信息管理等领域。由于汉语的特殊性和复 杂性,中文文本相似度处理一直都是人们研究的热点和难点。 传统的中文文本相似度算法是根据语料统计结果或是词语语义来计算,而根 据文本中体现出的作者的对描述内容的看法、观点、情感倾向等主观感情色彩进 行的研究较少。因此,本文将作者情感倾向引入文本相似度计算当中。 作者的情感倾向在语言中体现为语言的褒贬度。在本文中,句子是进行褒贬 度度量的最小语言单位。句子的褒贬性确定和褒贬度度量,以及褒贬度如何对句 子相似度产生影响都是本文研究的关键。本文主要有如下几个方面的研究成果: 1 研究了引入情感倾向对于中文相似度计算的重要性,并研究了情感倾向 因素适合使用的文本情况。人类使用自然语言来描述事物,传达信息, 交流情感,因此情感是人类语言最显著的特征,我们在对中文文本信息 处理时,不应该忽略情感对于信息处理结果带来的影响。情感倾向在两 个文本主题相似或完全相同的情况下将对文本相似度计算发挥决定性的 作用。 2 研究了句子情感倾向的判定,并给出句子褒贬度衡量方法和计算公式。 作者通过结合知网等研究成果,构建反义义原词典、程度副词词典和句 子结构化模板,提取和识别句子中词语( 主要是动词、形容词) 的褒贬 度和句子结构的褒贬特征,建立褒贬评价规则,计算句子褒贬度。在分 别获得待比较句子褒贬度的情况下,提出了褒贬相似度的计算规则,得 出句子褒贬度的比较结果。 3 针对汉语由词语构成句子,句子构成段落,段落构成文章的特点,分别 对汉语中的词语、句子、段落四个层次的相似度计算进行了研究。这四 者层次不同,但是联系密切,由部分构成一个有机的整体,整个计算过 程每一步都利用上一步的计算结果。并对基于知网语义的句子和段落相 似度计算方法进行改进,引入了句子长度、词语个数、段落长度等多种 特征考察文本相似度。 4 以计算机取证系统的模型为实例,体现情感倾向因素在具体应用领域的 摘要 重要性。并对本文提出的理论进行实验,取得了较好的成绩。 关键词:语义,知网,情感倾向,褒贬度,褒贬相似度 a b s t r a c t 一一_ _ 一 a b s t r a c t c h i r l e s es e n t e n c es i i n i l 耐够c o m l ) u 1 蜥o ni sa n 韶s 训a 1t a 啦w i l i c hi s 诵d e l yu s e d i n l ec h i i l e s ei n f o r i n 撕o np r o c 鼯s i i l g 跚6 h 嬲i n f 0 一d a s s i 丘c a t i o 玛i n f 0 - s e 鲫c :h , i l l f o f i l 衙a 堇l di i 曲- m a n a g e l l l e n t 咖c h i n e s ei s as p e c i a l 砌唧h c a 吼1 孤g u a g e h o wt 0c 0 呲m es e n 锄批s i i n i l 撕够i so n co ft h em o s t 劬唧吨m tp b l e m ,w 扯c h i s a l s 0ah o t s p o t ,a n dv e r yd i 伍c l 】埘也a tp e o p l e 蛐f o ra l o n g d m e t r a d i 廿o i l a lc h i n 鹤et e x ts i l i l 撕锣唧u t a t i o 璐w e r eb 硒c do nw o r d ss t a t i s d c ,0 r w o r d ss e m a n :t i c s ,w 】 1 e r e 鹤c o m p u t a t i o nb a s i n gs u b j 硎v es e n s 撕0 ns l l c h 嬲枷伽e , 、,i e w p o 砒舳da 髓c t i 、,i 锣o fa u t h o ra r el 鼯s 砸sl h e s i sd 0 镐r e s e 诎0 n 廿1 et e x t s i i n i l 砸坶锄p u 洲0 nb 嬲i l 坞o n 蚯硎访够 a 彘c t i 、,i 锣o fa u t h o rr e p r 骼咄瑟a p p r a i s i v eo f s 枷s 蝴i s m es m a l l e s t d e m 即呜w l l i c hc o m p u t 铝s i m i l 耐t ) rb a s i l l g o na 丑e 甜v i 够1 1 1 i st l l e s i sd i s c l l s s e s s 锄白e n c ea p p r a i s i v e 丽e n t a t i o n 鹪t i m a t i o 玛a p p i r a i s i v ed e 蓼c ec o m p u t 撕o n a n d a 丘& 短o no ft e x ts i 玎血l 碰锣c o m p i 删o n t h em a i ni m l o v a :t i o n 础l i e v e m 翎t so f t h i s 也e s i sa r e a sf 0 1 l o w s : f i r s t l m 也ei m p o r t 趾c eo fc o m p u t 撕o nb a s i n g 0 na 硎啊t ya n dt l l et e ) 【t e n 啊r o n m e 吐砌c ht t l e 删v i 够m e m o d6 t sf o ri sp r e s e n t e d h 啪纽l l s el a n g u a g e t 0 d 鼯c 曲eo b j e c t s ,懿c h 姐g e 蛐矾o na n d 唧r e s s 既n 0 硒mh l 曲a nl a i l g u a g ei s 伽l o f 即t i o n s ow h 吼w ep r o c e s sq i i i l e s et e x ti n :f o 衄撕o n ,w es h o u l dn o ti 萨o r em e i n 日u 锄c eo fe m o t i o n 。a 腩c t i 嘶w i l ld 0g r e a te 虢c t st 0 也es i l n i l 撕t ) ,c o m l ) u t 撕0 no f t w ot 眍t s ,w h i c hh a ss a m eo rs 证1 i l a r t o p i c s c c o n m y d 0r 锱e a r c ho nm em e t l l o dt 0e s 廿m a :t et h ea p p 脚s i v e 耐e n t a t i o na n d a l g o 衄1 mt 0c o 呲o fa p p r a i s i v ed e 鲈w _ ec 0 删b a s e 嘲p 姐i s i v e d i 砸o m r ya n d s e n t c ec o i l s 饥l i c t i o nt e n l p l a t cb 嬲魄0 nh o w n e t w b u s em e s er e s o l 】r c e st 0c o n s t r l 赋 a p p r a i s i v ee s t i m a :t er e g u l 撕o na n dc o n l p l l t ea p p 俩s i v ed e g 嘴o f s 饥t 髓c eb ya 0 咖g 、0 r d s 印p r a i s i v ed e 莎a n di i i 础驰ga p p r a i s i v ep r o p e m o f s e n t e n c ec 0 璐咖鼬0 n a c c o r d i i 】gt 0 也ea p p r a i s i v ed e 蓼c eo ft 、) i r os e n t e n c e s ,w ec 蛆a a q u 沁t 1 1 e 印p r m s r v c s i i i l i l 撕锣o fs 锄t e l l c eb y 印耐s i v es i l m l 砸够c o m 叫er e g u l 撕o n m n i r d l 弘d u 血g 廿1 er e s e 鲫c ho fc h i l l e s es e m c es i i n i l a r i 够c o m 删i o i l ,1 e s i 觚l a r i 哆c 0 m 1 ) u t a t i o nm a tw eh a v es t l 地e di sf o c 啵0 nn l r l e v e l s :w b 吐s e n t c e a n dp a r a 蓼a p h i ti sb a s e do nm ep f o p e f t yo fc l l i n e s e ,w l l i c hi s 也es 衄t c ei sc 0 叩s e do fw o r d s a i l dp a r a g r a p hi sc 0 m p o s e do fs e n t e n c e a l m o l 】曲t 1 1 r e el e v e l sa r ed i 仃醯t ,五b o mm e s i m i l 撕t ) rc o m l ) u t 撕o nt 0 i t s a p p l i c a t i o n s ,i t i sa 印灿a 1 1 yp r o c e s sw i md o r c l a 缸o n s “p 嬲aw h o l e t h ei n l p r 0 班to fm e i :h o dw l l ic :hi su s e dt 0c o m p 毗e s i 血l a r i 锣o fs e n t e n c 懿a n dp a r a 蓼a p 岫b a s i n go n l es e m e m eo fh o w - n 戍i sp r c s e n t e d t l l i st h e s i ss t i l d i c dt 1 1 ei 1 1 n u 髓c eo fm a n yp r o p e n i 璐s l l c h 嬲s e n t c l l c cl 饥g 电w o r 凼 m 1 i i l b e ra n dp a r a 鼬l 饥g mt ot e x ts i n l i l a r i t ) r 馏缸a t e f o u “m mt 出n gm ec o m p 眦e r 如r e 嬲i c ss y s t e m 鹤t 1 1 ee x a m p l 鹪,w es h o wm e i 岬n a n c er o l 懿m a ta f f e c t i 啊锣h a sb o i np m 舐c e 1 1 1 e i l ,w ec a r r i e d0 u tas e r i 舔o f e ) 【p 豳锄曲,趾da c q 悯p r e f 孤b l ee 伍e c t s k e y w o r d s :s e m 枷c , h o w n e t ,a f f 硎访够o r i e m a t i o 玛叩耐s i v ed e 伊, 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:雎拇 日期:伊g 年f 月7 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:一哆和手导师签名:监 醐一阵朋7 日 第一章绪论 第一章绪论 当今世界以信息技术为代表的现代科技日新月异,并正在对人类社会发展产 生不可估量的巨大而深刻的影响。随着i n t 觚僦迅猛发展,根据中国互联网络信息 中心发布的报告,截止到2 0 0 8 年1 月3 0 日,中国上网计算机总数1 6 2 亿。一方 面,它为世界各地的人们提供了一个平等高效、简洁易用的资源宝库,另一方面, 却又被如何从浩如烟海的网上资源中,如何快速、高效的查找自己需要的信息所 困扰。典型的信息处理需求有信息分类、信息提取、自动问答、基于内容的快速 信息检索、基于个性的信息推送,数字化图书馆和信息网格等。如何高效地组织 处理和管理这些信息,并快速、准确、全面地从中获得用户所需要的信息,这些 都是当前信息科学与技术领域面临的一大挑战。 1 1 研究背景 随着互联网的发展和信息化时代的到来,高度的信息共享已经实现。然而用 户如何在海量的资源中获得对自己有用的信息成为当前急需解决的问题。在这些 海量信息中,存在大量的文字类信息,如何对这些信息进行处理成为文字信息处 理领域的重要课题。对于文本信息处理必须解决网络环境下的、大规模的、信息 智能访问、加工处理、自动分析理解等问题,由此产生的文本信息的分类、检索、 过滤等技术就成为解决问题的焦点。而文本的分类、检索、过滤都需要根据用户 需求对文本相似度进行处理,因此如何计算用户需求文本与处理文本之间的相似 度成为其中的核心。在这一点上,国外同行对于英语文本处理的研究已经取得很 好的成绩。 面对丰富的信息资源,人们渴望能用本民族语言以十分自然的方式同计算机 进行交流,由计算机去处理各种信息,从而满足自身的需要。汉语是我们的母语, 是世界上使用人数最多的语言。在我们努力进行改革开放、加快脚步与国际接轨 的今天,对汉语的计算机处理进行研究是让中国走向世界、让世界了解中国的有 力保障。 汉语和英语一样属于人类自然语言。自然语言是人类在其社会生活中发展出 来的用来互相交际的声音符号系统,是人类历史长期发展而约定俗成的产物【1 1 。人 电子科技大学硕士学位论文 类使用自然语言来描述事物,传达信息,交流情感。自然语言是发展的语言,它 在人们的互相交流、互相影响中发生变化。这种变化表现在语言的词汇、结构、 意义等各个方面。在人类的相互交流中,主观情感等各种因素已经融入到漫长的 语言演变和发展的过程当中,成为人类语言一个非常重要的特征。而这一点在汉 语中体现的尤为突出,因为汉语是意合( s e m o t 枷c ) 的语言 1 】造句要求词的意义搭 配符合情理,注重语义平面。而英语是形合( m e 印1 0 t a c t i c ) 语言,造句要求词的形态 变化符合规则,注重句法平面。在汉语信息处理过程中更应该注重语义而不是语 法。这也使得用计算机来实现自然语言理解,汉语比英语具有更大的困难。因此, 除了借鉴国外同行在英语信息处理方面的研究成果,还应该在此基础上,根据汉 语语言的特点,将多个汉语语言特征融合起来,多角度、多元化、更立体的实现 汉语文本信息的处理。 1 2 研究现状 文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有 着广泛的应用。目前,国内外学者在中文文本相似度计算和相似性比较领域进行 了大量的研究,也取得了很大的进展。 从国内外研究情况来看,文本相似度的计算方法大体上可以分成两类: 一类是基于大规模语料库统计的方法,将词汇的上下文信息的概率分布作为 词汇间相似度计算的参照。主要有以下几种方法【2 】: g e r a r ds a l t o n 和m c g i n 于1 9 6 9 年提出的向量空间模型v s mm c t o rs p a c e m o d e d 【3 】,它的基本思想是把文档简化为以特征项的权重为分量的向量表示,通 过词频统计和向量降维处理计算相似度。基于向量的文本相似度计算方法是最常 用的文本相似度计算方法,该方法将要比较相似度的文本根据文本中的词语将文 本映射为n 维空间向量,然后通过比较向量间的关系来确定文本间的相似度,其 中最为常用的方法是计算向量间的余弦系数,但传统向量空间模型缺点是模型中 各词语间相互独立,无语义上的关系。为此,广义向量空间模型( g e n e r a l i z e dv e c t o r s p a c em o d d ,g v s m ) 就利用文本而不是用词来表示词间关系。 c n sh q d i i l g 采用隐性语义索引模型l s i ( l a t c n ts e m a 埘cm d e 妯幢) 方法, 先从全部的文档集中生成一个标引项一文档矩阵,该矩阵的每个分量为整数值, 代表某个特定的标引项出现在某个特定文档中次数。然后将该矩阵进行奇异值分 解,较小的奇异值被剔除。结果奇异向量以及奇异值矩阵用于将文档向量和待比 2 第一章绪论 较文本向量映射到一个子空间中,在该空间中,来自标引项一文档矩阵的语义关 系被保留,同时标引项用法的变异被抑制。最后,可以通过标准化的内积计算来 计算向量之间的夹角余弦相似度,根据这个值来比较文本间的相似度。 潘谦红、王炬等提出利用属性论计算文本相似度【4 】,建立了文本属性重心剖分 模型,通过坐标点与坐标点的距离计算关键词与关键词的相关性,通过坐标点与 单纯形的关系计算关键词与文本的相关度,通过单纯形与单纯形的关系计算文本 与文本的相似性。 张焕炯、王国胜等提出了基于汉明距离的文本相似度计算【5 】,该方法提出了汉 明码概念。与其它文本相似度计算公式相比较,首先,该方法只是利用模2 加等 运算,完全避开了诸如在欧氏空间中求相似度的大量乘法运算,方便性和效率都 得到很大提高。其次,该方法跳出了传统的借用空间的理念,而是用码字的方法 来表征文本信息的特征,可以不局限于关键字等孤立的信息,这为联合的描述文 本的信息提供了可能。 另一类是根据某种世界知识( 0 1 1 t o l o g y ) 或分类体系( t ;玎【o n o m y ) 来计算。这种方 法一般依赖于概念间结构层次关系组织的语义词典,主要是根据概念之间的上下 位关系和同义关系,利用概念距离方法( c o n c 印t 1 1 a ld i s t 跹c e ) 来计算;主要有以下 几种方法: 挪威a g d e r 大学的a d i l l l i r o l e s h c h l l k 等人提出基于o n t o l o g y 的文本相似度比 较方法,将本体论引入了文本相似度计算,它能计算文本的语义相似度。 姒r o s 等提出同时依据句子的表层结构和内容计算相似度的方法。在计算相 似度时,系统使用了两级动态规划技术,应用动态规划算法允许在两个长度不同 的句子之间计算语句相似度。 晋耀红提出了基于语境框架的文本相似度计算方法【6 】,它把文本内容抽象成领 域、情景、背景三个侧面,从概念层面入手,充分考虑了文本的领域和对象的语 义角色对相似度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语 言中的褒贬倾向,实现了文本间语义相似程度的量化。 在利用依存关系计算句子相似度的研究中,哈尔滨工业大学计算机科学与技 术学院智能内容管理实验室开发的依存句法分析器,可以分析句子间的依存关系, 准确率达到8 6 以上。利用句子依存关系可以计算句子间的相似度。 王荣波,池哲儒提出了基于词类串的汉语句子结构相似度计算方法川,该方法 比较两个句子的词类信息串,进行最优匹配,得到句子结构的相似性值。 穗志方博士提出了基于骨架依存分析的方法【8 】o 在该方法中,首先对汉语句子 电子科技大学硕士学位论文 进行谓语中心词的识别。如果两个句子的谓语中心词相似,再判断是否它们的直 接支配成分之间是一一对应的。如果是,再进一步计算谓语中心词之间以及对应 的直接支配成分之间的相似度之和,作为两个待比较句子的相似度值。 与基于统计学的相似度计算方法相比,基于语义理解的相似度计算方法不需 要大规模语料库的支持,也不需要长时间的训练,具有准确率高的特点。另外, 统计学方法计算相似度往往以丢失语义信息和句子结构信息为代价,不符合自然 语言的特点和人们的用语习惯。未来的文本相似度计算应该从基于统计的方法过 渡到基于语义理解的方法,从而更加符合汉语特点和人的语言理解习惯。 1 3 研究意义 目前,国内在中文文本相似度计算和相似性比较领域也进行了大量的研究, 但现有的相似度度量主要是通过词频统计或是语义计算,还有的根据属性论,或 是讨论句子结构等方式进行。这些方式都着眼于文本最小构成词语的语义、 概率、分布等特点,来实现对文本的相似性度量。然而,一段文字不仅由词语, 句子构成,其本质和根本目的是体现作者对某一事件产生的看法、观点,也可以 说,每一段文字都直接反映作者对于某一事件的情感或是态度倾向。而这种情感 或是态度倾向反映到文章中,就是文本内容的褒贬性。既然该特性对于文本来说 具有普遍性,因此,我们对文本相似度的把握不仅应该着眼于微观特征,更应该 进行宏观把握,对作者对所描述内容的看法、观点等主观情感色彩进行研究,掌 握文本内容褒贬性,并且把它应用于文本相似性度量,这样可以明显提高文本比 对的正确率和准确率。这种基于情感态度倾向和文本褒贬性的相似度计算方式, 更符合人的思维模式、语义使用和语义理解习惯,是未来实现多角度、立体化文 本相似性研究的一个重要方向,具有广泛的应用前景。 该方法适用于文本比对、文本分类、信息检索、信息过滤等领域。例如:使 用该算法,可以帮助公安机关检索、审核和过滤反党反政府的非法言论;可以帮 助信息统计部门快速及时的了解和统计民众对于某重大政策法规实施的反馈意 见,有助于政府机关对于旧政策的修改和新政策的制定;可以帮助企业获得群众 对产品的反馈和评价。 本文针对褒贬性文本相似度度量的特殊性和领域局限性,提出了文本内容主 观情感倾向和褒贬性分析、评价方法,探讨了文本褒贬性量化的工作原理,并通 过划分文章为四个层次,获得语义相似度与褒贬相似度结合的文本综合相似度计 4 第一章绪论 算的具体实现方法。 1 4 本文创新之处 在中文信息处理中,汉语文本相似度计算是一项基础而重要的工作,广泛应用 于信息分类、信息检索、信息过滤、信息管理等领域。由于汉语的独特性和复杂 性,汉语文本相似度处理一直都是人们研究的热点和难点。 无论是基于语料统计还是语义词典的文本相似度计算方法都忽略了情感对语 言的重要影响。本文以现有的研究为基础,提出了一种基于语义情感倾向的文本 相似度计算方法,充分考虑了情感倾向对文本相似度计算结果的影响。本研究开 展的工作和创新之处包括以下几点: 1 对情感倾向引入文本相似度计算进行研究 分析了情感对于语言的重要性,情感倾向引入中文文本相似度计算的合理性, 并阐述了情感倾向因素引入文本相似度计算的适合条件。 2 构建情感倾向评价资源 根据汉语语言的情感色彩和褒贬性,构建了三个情感倾向评价资源:反义义原 词典、程度副词词典、句子结构化模板。 3 识别句子褒贬特征 根据情感倾向评价资源,识别出句子褒贬特征,包括:词语褒贬性、程度副词 褒贬修正值、句子结构褒贬修正值。 4 提出情感倾向判断规则 提出了句子情感倾向的判断规则,根据已经获得的句子褒贬特征,判断句子褒 贬倾向,并计算句子褒贬度。 5 提出文本相似度计算层次 根据汉语文章特点,提出了文本相似度计算的四层结构:词语、句子、段落、 文章,给出计算流程图,描述四个层次相似度的计算关系。 6 提出褒贬相似度计算公式 提出褒贬相似度的概念,根据已经获得的句子褒贬度计算句子、段落褒贬相似 度。 7 提出引入情感倾向的文本相似度计算方法 在获得褒贬相似度和语义相似度的情况下,融合两种相似度计算因素,提出了 句子综合相似度的计算规则和算法。 5 电子科技大学硕士学位论文 通过实验,证明了情感倾向引入文本相似度的可行性,提高相似度计算结果 的准确率,使得计算机汉语文本信息处理方式更符合人的语义理解习惯。 1 5 论文组织结构 本文研究了中文文本相似度计算的主要方法和关键技术,重点探讨了如何通 过分析中文文本内容实现褒贬感情色彩的综合评定,研究了中文文本褒贬倾向性 分类的原理和基于该褒贬性进行中文文本相似度度量的实现方法,并将在计算机 安全取证系统中的文本比对模块实现功能并提出实验数据。全文共分七章。 第一章是绪论。分析了课题研究的背景,内容,确定了课题研究的目标。并 介绍了论文的组织结构。 第二章是文本相似度计算关键问题。首先介绍了文本相似度的概念,其次讨 论了文本相似度计算的关键技术和问题,包括中文分词技术和常用的文本相似度 计算方法,分别研究了基于语料统计和基于语义词典的计算方法。 第三章是基于知网语义的相似度计算。首先阐述知网理论,包括知网的概念、 背景和目的,以及知网的结构和语义描述策略。其次,对基于知网的词语、句子 和段落的语义相似度算法进行研究。 第四章是文本情感倾向的判断。首先对汉语语句的特点进行了分析。其次研 究了如何构建文章情感倾向褒贬性评价资源,并根据该资源对语句的褒贬性 进行评价。最后根据褒贬性评价结果获得句子褒贬度,进而提出语句褒贬相似度 的计算方法。 第五章是情感倾向引入文本相似度计算。首先阐述了情感倾向引入文本相似 度计算的必要性和适用环境。其次提出了文本相似度计算的四个层次,并分别提 出句子、段落、文章的褒贬相似度和综合相似度计算方法。 第六章是验证系统的设计与实现,包括实验结果与评价。基于语义情感倾向 的文本相似度计算方法的实际应用背景为计算机取证系统。首先介绍了计算机取 证和计算机取证系统的概念、背景、和关键技术。其次阐述了计算机取证系统文 本比对模块的模块组成、工作流程和模块功能实现。最后,通过收集到的实验数 据,对本文提出的理论进行了实验验证。 第七章是总结,对本文主要工作进行了总结,明晰了各部分的主要工作内容, 并明确了在今后需要进一步开展的工作和研究。 6 第二章文本相似度计算关键问题 第二章文本相似度计算关键问题 本章首先介绍了文本相似度的相关概念。并且研究了在文本相似度计算过程 中,必不可少的一些关键技术。由于汉语的特殊性,词与词之间却没有明确的分 隔标记,因此分词技术成为中文文本相似度计算的前提与基础。文本相似度计算 的准确性在很大程度上就取决于汉语分词的准确性。本章研究了目前常用的分词 技术,以及分词中需要解决的难题。目前,国内外在文本相似度计算和相似性比 较领域进行了大量的研究,也取得了很大的进展。从国内外研究情况看文本相似 度的计算方法大体上可以分成两类:一类是基于语料统计的文本相似度计算;另 一类根据某种世界知识( o n t o l o g y ) 或分类体系m x o n o m y ) 来计算文本相似度。这两 种方法各有优缺点。然而统计学方法计算相似度往往以丢失语义信息和句子结构 信息为代价,不符合自然语言的特点和人们的用语习惯。未来的文本相似度计算 应该从基于统计的方法过渡到基于语义理解的方法,从而更加符合中文的语言特 点和语言习惯。 2 1 文本相似度的概念 文本相似度是一个很复杂的概念,在语义学、哲学和信息理论中被广泛的讨 论。目前,关于相似度还没有一个通用定义,因为其涉及到语言、语句结构和其 他一些因素。词语是汉语最基本的语义和语法的单位,汉语词语的语义相似度计 算是计算句子相似度的基础。词语相似度是一个主观性较强的概念,没有非常明 确的客观标准可以衡量。因为词语之间的关系非常复杂,其相似或差异之处很难 用一个简单的数值来进行度量。脱离具体的应用背景谈论词语相似度,很难得到 一个统一的定义,在具体的应用中,词语相似度的含义才会比较明确。例如,在 计算机安全取证系统的文本比对模块中词语相似度是指词语在语义上的相似程 度。在基于实例的机器翻译中,词语相似度反映的是文本中词语的可替换程度。 在此说明一点,本文研究的词语相似度和句子相似度都是以计算机安全取证系统 为背景。相似度这个概念,涉及到词语的词法、句法、语义甚至语境等方方面面 的特点。其中,对词语相似度影响最大的是词的语义。 定义2 1 文本相似度指两个待比较文本在语义上的匹配符合程度,值为 0 ,1 】 7 电子科技大学硕士学位论文 之间的实数,值越大表明两个文本越相似。当取值为l 时,表明两个文本在语义 上完全相同;值越小则表明两个句子相似度越低,当取值为0 时,表明两个文本 在语义上完全不同【9 】。 在文本相似度度量过程中,词语是度量的重要单位。词语相似度与词语距离 之间有着密切的关系。实际上,词语距离和词语相似度是一对词语的相同关系特 征的不同表现形式,二者之间可以建立一种简单的对应关系。对于两个词语彤和 吸,记其相似度为跏( ,呒) ,其词语距离为肪( 瞩,) ,那么我们可以定义一 个满足以上条件的简单转换关系: 跏( 磁,) 2 面蒜 ( 2 - 1 ) 其中口是一个可调节的参数。口的含义是:当相似度为o 5 时的词语距离值。 这种转换关系并不是唯一的,这里给出了其中的一种可能。在很多情况下,直接 计算词语的相似度比较困难,通常可以先计算词语的距离,然后再转换成词语的 相似度。词语相关性反映的是两个词语互相关联的程度。可以用这两个词语在同 一个语境中共现的可能性来衡量。词语相关性和词语相似性是两个不同的概念, 二者没有直接的对应关系。 同样的,句子相似度也是一个主观性较强的概念,脱离具体的应用背景谈论 句子相似度,很难得到一个统一的定义。 在本文的研究背景计算机安全取证系统文本比对模块中,句子相似度更多地 反映句子之间的语义上的相似程度。例如,“我爱吃马铃薯和“我喜欢吃土豆” 这两个句子就是语义相似的。在句子相似度计算中,按照对语句的分析深度来看, 主要存在两种类型的方法: 1 基于向量空间模型的方法。该方法把句子看成词的线性序列,不对语句进 行语法结构分析,相应的语句相似度衡量机制只能利用句子的表层信息, 即组成句子的词的词频、词性等信息。由于不加任何结构分析,该方法在 计算语句之间的相似度时不能考虑句子整体结构的相似性。 2 对语句进行完全的句法与语义分析,这是一种深层结构分析法,对被比较 的两个句子进行深层的句法分析,找出依存关系,并在依存分析结果的基 础上进行相似度计算。 2 2 中文分词 第二章文本相似度计算关键问题 中文分词技术属于自然语言处理技术范畴。目前在自然语言处理技术中,中 文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能 直接采用,就是因为中文必需有分词这道工序。在汉语中,词是最小的能够独立 活动的有意义的语言成分n 阳。在中文文本中,词与词之间却没有明确的分隔标记, 是连续的汉字串。人可以通过自己的知识来明白哪些是词,哪些不是词,但问题 是如何让计算机也能理解,因此汉语分词就成为中文信息处理的首要问题。中文 分词具有十分广泛的应用,比如机器翻译( m t ) 、语音合成、自动分类、自动摘要、 自动校对、中文信息搜索等等,都需要用到分词。 所谓分词,是指自动识别词边界,将汉字串切分为正确的词串的过程。在文 本建模之前,首先要进行中文分词处理,将文本表示成为一系列特征项的形式。 这里的特征项是基本的文本表示单位,特征项可以选择字、词或词组,实验结果 表明,选取词作为特征项要优于字和词组。 2 2 1 常用分词技术 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分 词方法和基于统计的分词方法n u 。 1 基于字符串匹配的分词方法 又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个“足够大 的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。按照扫 描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优 先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词 性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 常用的几种机械分词方法如下: ( 1 ) 正向最大匹配法( 由左到右的方向) ; ( 2 ) 逆向最大匹配法( 由右到左的方向) ; ( 3 ) 最少切分( 使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合。正向最大匹配方法和逆向最大匹配方法结 合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹 配一般很少使用。研究表明,逆向匹配的切分精度略高于正向匹配,遇到的歧义 现象也较少。统计结果显示,单纯使用正向最大匹配的错误率为l 1 6 9 ,单纯使用 逆向最大匹配的错误率为l 2 4 5 。但这种精度还远远不能满足实际的需要。实际使 9 电子科技大学硕士学位论文 用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语 言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串 中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为 较小的串再来进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词 类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中 又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 2 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其 基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处 理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来 对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用 大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信 息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在实验阶段。 3 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次 数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的 反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计 算它们的互现信息。定义两个字的互现信息,计算两个汉字x 、y 的相邻共现概 率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值 时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行 统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法 也有一定的局限性,会经常提取一些共现频度高、但并不是词的常用字组,例如 “这一力、“之一一、“有的 、“我的 、“许多的”等,并且对常用词的识别精度差, 时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配 分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既 发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别 生词、自动消除歧义的优点。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词 系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。 1 0 第二章文本相似度计算关键问题 2 2 2 分词中的难题 汉语是一种十分复杂的语言,让计算机理解汉语更是困难。在中文分词过程 中,有两大难题一直没有完全突破。 1 歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的, 因为拜表面帮群面的劳都是词,那么这个短语就可以分成鞋表面的秽和搿表面 的。“化妆和服装可以分成“化妆和服装 或者“化妆和服装 。交叉 歧义十分常见,由于没有入的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个 句子来判断了。例如,在句子搿这个门把手坏了捧中,“把手弦是个词,但在句子 请把手拿开秽中,“把手就不是一个谲;在甸子“将军任会了一名中将中, “中将是个词,但在句子“产量三年中将增长两倍 中,搿中将就不再是词。 除了交叉歧义和组合歧义以外,还存在一种歧义,称失真歧义。真歧义是指 人也无法判断词语如何切分。例如:搿乒乓球拍卖完了”,可以切分成“乒乓球拍 卖完了、也可切分成“乒乓球拍卖完了捧,如果没有上下文环境,无法确定 “拍卖该如俺切分。 2 新词识别 新谲,也称为未登录词,是指没有被字典收录,又确实称为词的那些词。最典 型的例子是人名。例如,句子“王军虎去广州了 。“王军虎 是个词,人可以很 容易理解它表示一个人的名字,但是计算机很难识别。无法将“王军虎”作为一 个词收录到字典。全世界有大量名字,每时每刻都有新增的人名,收录这些人名 本身就是工程巨大,并且没有实际意义。即使这项工作可以完成,还是会存在问 题,铡魏:在句子“王军虎头虎脑豹 中,样王零虎不能被理解为人名。 新词中除了人名以外,还有类似的问题,比如机构名、地名、产品名、商标 名、简称、省略语等。这些词语人们经常使用,特捌是对于搜索技术,分谲系统 中的新词识别十分重要。目前新词识别准确率已经成为评价分词系统好坏的重要 标志之一。 2 3 常用文本相似度计算方法 目前,国内信息科学与技术领域在中文文本相似度计算的研究上开展了大量 电子科技大学硕士学位论文 的工作,也取得了很大的进展。从国内外研究情况看文本相似度的计算方法大体 上可以分成两类:一类是基于语义理解的方法,主要是根据某种世界知识( o n t o l o g y ) 或分类体系( 1 奴0 n o m y ) 来计算。这种方法一般依赖于概念间结构层次关系组织的语 义词典,主要是根据概念之间的上下位关系和同义关系,利用概念距离方法 ( c o n c 印t u a ld i s t 觚c e ) 来计算;另一类是基于大规模语料库统计的方法,将词汇的 上下文信息的概率分布作为词汇间语义相似度计算的参照。但是统计学方法计算 相似度往往以丢失语义信息和句子结构信息为代价,不符合自然语言的特点和人 的用语习惯。未来的文本相似度计算应该从基于统计的方法过渡到基于语义理解 的方法,从而更加符合中文的语言特点和语言使用习惯。 2 3 1 基于语料统计的文本相似度计算方法 2 3 1 1 向量空间模型 向量空间模型【3 1 s m :、忱t o rs p a c em o d e l ) 是近年来使用较多且效果较好的 一种信息检索模型。在v s m 中,将文档看作是由相互独立的词条组q ,互,z ) 构 成,对于每一词条互,据其在文档中的重要程度赋以一定的权值形,并将互,互, z 看成一个n 维坐标系中的坐标轴,形,形为对应的坐标值。这样由 ( 互,互,互) 分解而得的正交词条矢量组就构成了一个文档向量空间,文档则映射 成为空间中的一个点。对于所有文档和用户查询都可映射到此文本向量空间,用 词条矢量( 互,形,互,呒,互,形) 来表示,从而将文档信息的匹配问题转化 为向量空间中的矢量匹配问题。假设用户查询为q ,被检索文档为d ,两者的相 似程度可用向量之间的夹角来度量,夹角越小,说明相似度越高。 向量空间模型的常用方法有t f m f ( t e n nf r e q u e i l c ym e r t e dd o c u m e n t f r e q u 酬,- d f 方法综合考虑了不同的词在所有句子中的出现频率( 1 1 f 值) 和 这个词对不同句子的分辨能力( d f 值) 。基于向量空间模型的t f d f 方法被广泛 地用来计算文本之间的相似度。假设所有句子中包含的词为,暖,呢,则 每一个句子都可以用一个万维的向量丁墨,互,z 来表示。其中,互( 1 f 刀) 的 计算方法为:设刀为彬在这个句子中出现的个数,m 为其它所有句子中含有彬的 句子的个数,m 为句子的总数,那么互= 刀l o g ( m m ) 。从这个式子中可以看出, 出现次数多的词将被赋予较高的刀值,但这样的词并不一定具有较高的z 值。例如, 在汉语中“的出现的频率非常高,即t f 值( 刀值) 很大,但由于“的 在很多句 子中都出现,它对于我们分辨各个句子并没有太大的帮助,它的d f 值( 1 0 9 ( m ,z ) ) 1 2 第二章文本相似度计算关键问题 将是一个很小的数。因此,这种方法综合地考虑了一个词的出现频率和这个词对 不同句子的分辨能力。 用同样的方法,可以计算目标句子的刀维向量r = 。得到? 和 r 。后,它们所对应的两个句子之间相似度就可以丁和r 这两个向量之间夹角的余 弦值来表示。 互互 m f 肠疗纱( r ,zi ) = - 1 当= 亏= 一 ( 2 2 ) 、7 z 2 r :2 lf t l扭l 但是基于向量空间模型的盯一d f 也有不足之处。首先,只有当句子所包含的 词语足够多时采用该方法效果才会比较好。因为它是一种基于统计的方法,只有 当句子包含的词数多时,相关的词才会重复出现,这种统计的效果才会体现出来。 其次,一d f 方法只考虑了词在上下文中的统计特性,而没有考虑词本身的语义 信息,因此具有一定的局限性。 2 3 1 2 隐性语义标引 作为一种m 向量空间技术,隐性语义标引【1 2 】( l a t e n ts e m a 埘cm e x h 培,l s i ) 被证实比在s a l t o n 的s m 趟玎系统中使用的传统向量空间技术性能更好。其工作 原理是利用矩阵理论中的“奇异值分解( s v d ) 技术,将词频矩阵转化为奇异矩 阵:首先从全部的文档集中生成一个标引项一文档矩阵,该矩阵的每个分量为整 数值,代表某个特定的标引项出现在某个特定文档中次数。然后将该矩阵进行奇 异值分解,较小的奇异值被剔除。结果奇异向量以及奇异值矩阵用于将文档向量 和查询向量映射到一个子空间中,在该空间中,来自标引项一文档

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论