(计算机软件与理论专业论文)汉语句子相似度计算及其在自动问答系统中的应用.pdf_第1页
(计算机软件与理论专业论文)汉语句子相似度计算及其在自动问答系统中的应用.pdf_第2页
(计算机软件与理论专业论文)汉语句子相似度计算及其在自动问答系统中的应用.pdf_第3页
(计算机软件与理论专业论文)汉语句子相似度计算及其在自动问答系统中的应用.pdf_第4页
(计算机软件与理论专业论文)汉语句子相似度计算及其在自动问答系统中的应用.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)汉语句子相似度计算及其在自动问答系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录 l i i iiii ii iiii i i i r liiii 18 8 2 6 0 8 摘要i a b s t r a c t i i i 第l 章绪论1 1 1 研究背景及意义1 1 2 句子相似度计算的研究现状及存在问题3 1 2 1 国内外研究现状3 1 2 2 存在的问题3 1 3 研究内容及目标4 1 4 本文主要内容及其组织4 1 5 本章小结5 第2 章综合多特征的句子相似度计算方法7 2 1 设计思想7 2 2 中文分词及词性标注8 2 3 词形相似度计算8 2 4 语义相似度计算9 2 5 句法结构相似度计算1 3 2 5 1 分析树的形式化表示1 3 2 5 2 树核算法1 4 2 6 加权综合16 2 7 综合多特征权重的选择1 6 2 7 1 确定权重的方法1 6 2 7 2 遗传算法解决权重的过程l7 2 8 本章小结1 9 第3 章句子相似度计算在自动问答系统f a q 库中的应用2 1 3 1 基于常问问题库( f a q ) 的计算机领域问答系统的流程2 2 3 2f a q 库问句分析2 2 3 2 1 关键词提取2 2 3 2 2 关键词扩展2 3 3 3f a q 库问句匹配2 3 3 3 1f a q 库候选问题集的查找2 4 3 3 2 句子相似度计算用于f a q 问句匹配o 2 5 t rr 3 4f a q 库的更新2 5 3 5 本章小结2 6 第4 章实验与分析2 7 4 1 句子相似度计算方法对比实验2 7 4 1 1 评价方法2 7 4 1 2 实验结果及分析2 8 4 2 问句匹配对比实验2 9 4 2 1 评价方法2 9 4 2 2 实验结果及分析。2 9 4 3 本章小结3 1 第5 章总结与展望3 3 5 1 本文工作总结3 3 5 2 下一步工作展望3 3 参考文献3 5 附录3 7 致谢4 5 攻读学位期间所发表的学术论文4 7 r 摘要 汉语句子相似度计算 及其在自动问答系统中的应用 计算机软件与理论专业硕士研究生吴全娥 指导教师熊海灵副教授 摘要 随着网络技术的迅速发展,问答系统成为自然语言处理中最有活力的研究方向之一。常 问问题库( f a q ) 的问答系统把用户经常提问的问题和相关的答案组织在一起,给用户提供了 一种更方便、快捷的解决途径,它的应用也越来越j “泛。在问答系统中,句子相似度计算是 其中关键的技术。本文针对传统句子相似度计算方法利用句子的某一方面信息进行相似度计 算时考虑不全面的问题,提出了综合多特征的句子相似度计算方法。实验验证了本文的方法 在计算句子相似度时准确率要高于传统的三种句子相似度计算方法。最后本文将综合多特征 的句子相似度计算方法应用于计算机领域问答系统常问问题库( f a q ) 的问旬匹配中,进一步验 证了该方法的有效性。 论文的主要工作如下: 1 利用两个句子中词语共现的频率,计算句子的词形相似度。 2 采用了基于词典的词语相似度计算方法,利用哈尔滨工业大学同义词词林扩展提 供的丰富语义信息,计算句子词语语义相似度。 3 运用树核( t r e ek e r n e l ) 计算句子的句法结构相似度。树状结构是汉语句子结构最直 观的一种表现形式,而树核能很好地计算出两个树状结构的相似度。为此,用句法分析器将 两个句子分析成树状结构,使用树核对这种树状结构的相似性进行度量,从而得到两个句子 的句法结构相似度。 4 将两个句子的词形、词语语义、句法结构三个方面的相似度进行加权综合,得到两个 句子的相似度。 5 实验验证了本文的方法比传统的句子相似度计算方法在计算句子相似度时具有更高的 准确率。 6 把该方法应用于计算机领域自动问答系统中,进一步验证了方法的有效性。 关键词:词语相似度句子相似度多特征树核 【 a b s t f a c t 一一一一j 一 一 u h i i l e s es e n t e n c e ss i m i l a r i t yc o m p u t a t i o n a n di t sa p p l i c a t i o ni nq u e s t i o n - a n s w e r i n g s y s t e m c o m p u t e rs o f t w a r ea n dt h e o r y g r a d u a t es t u d e n tw uq u a n e s u p e r v i s o r :a s s o c i a t ep r o f x i o n gh a i l i n g a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fn e t w o r kt e c h n o l o g y , t h er e s e a r c ho nq u e s t i o n a n s w e r i n g ( q a ) s y s t e mh a sb e c o m eo n eo ft h em o s ta c t i v ea s p e c t si nd o m a i no fn a t u r a ll a n g u a g ep r o c e s s i n g t h e a p p l i c a t i o no fq u e s t i o n - a n s w e r i n gs y s t e mb a s e do nf r e q u e n t l ya s k e dq u e s t i o n ( f a q ) i sb e c o m i n g m o r ea n dm o r ew i d e l y , b e c a u s et h eq u e s t i o n st h a tu s e r sa s k e df r e q u e n t l ya r eo r g a n i z e dt o g e r t h e r w i t ht h er e l a t e da n s w e r s ,w h i c hp r o v i d e du s e r sw i t ham o r ec o n v e n i e n ta n de f f i c i e n ts o l u t i o n i n q u e s t i o n a n s w e r i n gs y s t e m ,c h i n e s es e n t e n c es i m i l a r i t yc o m p u t a t i o ni sa l le s s e n t i a lt a s k i nv i e wo f t h ep r o b l e mt h a tt r a d i t i o n a ls e n t e n c es i m i l a r i t yc o m p u t i n gm e t h o dc o m p u t e ds e n t e n c es i m i l a r i t y b a s e do ns o m ea s p e c t si n f o r m a t i o no fs e n t e n c e sa n dn o tc o n s i d e r e d f u l l y , as e n t e n c es i m i l a r i t y c o m p u t i n g m e t h o db a s e do nm u l t i f e a t u r e si sp r o p o s e da n dt h e nd e s i g n e da ne x p e r i m e n tt op r o v et h e m e t h o dp r o p o s e di nt h i st h e s i sw i t hh i g h e ra c c u r a c yc o m p a r e dt ot r a d i t i o n a ls e n t e n c es i m i l a r i t y c o m p u t i n gm e t h o d f i n a l l y , s e n t e n c e s i m i l a r i t yc o m p u t a t i o nw a sa p p l i e di nt h ea u t o m a t i c q u e s t i o n a n s w e r i n gs y s t e mo fc o m p u t e rf i e l d t h et h e s i sh a st h ef o l l o w i n gm a i na s p e c t s : 1 c a l c u l a t e ds e n t e n c es i m i l a r i t yo fw o r dt e r mu s i n gt h ec o - o c c u r r e n c ef r e q u e n c yo fk e yw o r d s i nt w os e n t e n c e s 2 c a l c u l a t e ds e n t e n c es i m i l a r i t yo fs e m a n t i ct e r mo ft w os e n t e n c e sa c c o r d i n gt os y n o n y m o u s d i c t i o n a r y 3 c a l c u l a t e ds e n t e n c es i m i l a r i t yo fs y n t a c t i ct e r mo ft w os e n t e n c e su s e dt r e ek e r n e l t r e e s t r u c t u r ei st h em o s ti n t u i t i v ef o r mo fe x p r e s s i o nf o rc h i n e s es e n t e c e s ,a n dt r e ek e r n e lc a n a c c u r a t e l yc a l c u l a t et h es i m i l a r i t yo ft w ot r e es t r u c t u r e s s ob e f o r ec a l c u l a t i n gt h es y n t a c t i ct e r m s i m i l a r i t yo fs e n t e n c e s ,s e n t e n c e ss h o u l dp u ti n t ot r e es t r a c t r ef i r s tb yu s i n gp a r s e ra n dt h e nm a t c h e d t r e es t r u c t u r eo fs e n t e n c e su s i n gt r e ek e r n e l 4 c o m b i n e dt h ew o r dt e r m ,s e m a n t i ct e r ma n ds y n t a c t i ct e r ms i m i l a r i t yo ft w os e n t e n c sb y u s i n gaw e i g h t e ds u m t od e t e r m i n es e n t e n c e ss i m i l a r i t y 5 e x p e r i m e n ts h o w st h a ts e n t e n c es i m i l a r i t yc o m p u t i n gm e t h o db a s e do nm u l t i f e a t u r e sw i t h h i g h e ra c c u r a c yc o m p a r e dt ot r a d i t i o n a ls e n t e n c es i m i l a r i t yc o m p u t i n gm e t h o d i i i 两南大学硕十学位论文 6 t h em e t h o dp r o p o s e di nt h i st h e s i sw a sa p p l i e di na u t o m a t i cq u e s t i o n - a n s w e r i n gs y s t e mo f c o m p u t e rf i e l d ,f u r t h e rv e r i f i e dt h ev a l i d i t yo f t h em e t h o d k e yw o r d s :w o r ds i m i l a r i t y ;s e n t e n c es i m i l a r i t y ;m u l t if e a t u r e s ;t r e ek e r n e l i v r | i,1j_ 第1 章绪论 第1 章绪论 1 1 研究背景及意义 句子相似度计算是中文信息处理中的一项基本而核心的工作。它的研究受到人们的广泛 关注。由于其基础工作的地位,决定了句子相似度计算的重要性,它被广泛应用于中文信息 处理的各个方面,它的研究工作的开展状况对其他一些相关领域的工作起着决定性的作用。 例如文献【l 】中将句子相似度计算应用于机器翻译中,用以找出类似的译文;文献 2 】中将句子 相似度计算用于常问问题库的问答系统中,通过相似度计算找到目标问句的答案;同时还用 于信息检索领域,用来查找与目标检索相似的句子等。 虽然句子相似度计算在现实中有着广泛的应用,但却没有一个准确而公认的定义。因为 句子相似度是一个主观性较强的概念,句子相似度都是和具体的应用联系在一起的,所以, 对它的的定义都是从实际应用的角度来进行的。例如句子相似度在多文档自动文摘系统中被 定义为局部主题和某个句子的接近程度;在自动问答系统句子相似度应用于f a q 库的问句匹 配,它表示目标问句和候选问句在内容上的相近程度;而在机器翻译中,相似度又可理解为 目标翻译句子与双语语料库中的句子的接近程度,这种接近程度包括在句子结构上的接近程 度和在语义上的接近程度。本文研究的句子相似度计算主要是以常问问题库( f a q ) 的问答系 统为应用背景,常问问题库( f a q ) 的问答系统是问答系统的一种。句子相似度计算是问答系 统的一个重要的理论基础。通过计算用户提出的问句与常问问题库中问句间的句子的相似度, 可以实现问答系统中f a q 库问句的匹配,所谓的匹配是指用户的问句和f a q 库中的问句进行 句子相似度计算,如果相似度计算的结果满足一定的阈值就认为这两个问句是相同的,并把 该问句的答案返回给用户,作为用户问句的答案。 传统的句子相似度计算方法主要有三种,这三种方法都或多或少存在一些不够完美的地 方:一种是基于关键词信息的方法,具有代表性的是基于向量空间模型的t f i d f ( t e r m f r e q u e n c yi n v e r t e dd o c u m e n tf r e q u e n c y ) 方法,这种方法是将文档映射为向量空间中的一点, 这个点的坐标由文档中相互独立的词条组( 五,五,l ) 构成,坐标的值为文档中的每一词条 乃,依据它在文档中的重要程度被赋予的权值形,即( 形,:,既) 为坐标值。这样就构成 词条矢量( 正,形p 正,吸,瓦,呢) ,从而把向量空间中的矢量匹配问题用米解决文档信息中的 问句匹配问题【3 】。句子的相似度与向量空间的夹角成反比,即向量间的夹角越大,句子相似度 越低,夹角越小,句子相似度就越高。 向量空间模型的t f i d f 方法是对关键词词频进行统计的方法,要使统计效果很好地表现 出来,句子中包含的词语数量需要足够得多,相关的词语才会重复出现,因此这种方法是以 大规模语料做为基础的。另外,t f i d f 方法对于同义词以及一词多义情况计算效果不太好, 因为这种方法只考虑了词语在上下文中的统计信息,而没有考虑词语蕴含的语义信息。 二是基于语义信息的句子相似度计算方法,这种方法的思想是通过计算句子的词语相似 荫南大学硕十学何论文 度从而得到句子的相似度。句子词语的相似度通过计算词语对应的概念在概念层次体系结构 中的距离得到的,概念间的距离又由概念的上下位、同义和反义关系得到。因此使用这种方 法计算句子相似度时两个句子中的词语间需要具有一定的语义相关性,这种相关性建立在它 们在概念间的层次网络中存在一条通路这样的假设基础上f 4 1 。基于语义信息的方法需要依赖于 比较完备的大型语义词典,这些词典是按照概念间层次关系组织的。在英文方面,常用的具 有代表性的语义词典有w o r d n e t 5 1 等;汉语方面有知网( h o w n e t ) 6 1 、同义词词林【6 】等。 基于语义信息的句子相似度计算方法会因为语义词典的不全面和未登录词语义代码的缺 失而给计算结果带来一定的误差。另外,基于语义信息的句子相似度计算方法在计算句子相 似度时,没有考虑句子的结构信息,计算过程中采用了一种最火匹配法,准确率还没有达到 矗 使人满意的程度。 三是基于句法结构信息的句子相似度计算方法,基于句法结构信息的句子相似度计算方 法又可分为结合词序的方法和基于句法结构分析的方法。结合词序的方法具有代表性的是基 于编辑距离的句子相似度计算方法【7 。10 1 ,基于句法结构分析的方法典型的是基于语义依存的句 子相似地方计算方法【1 1 1 。这种基于句法结构信息的句子相似度计算方法在计算句子相似度时 把句法结构信息纳入相似度计算中,对句子理解更为充分,理论上是一种较为理想的的计算 方法。这种方法的缺陷主要在于算法的正确性与句法分析技术的正确率耦合性太强,而现在 句法分析的技术还有待完善,从而导致该种方法的准确率难以提高,使得方法实用性不强。 因此,针对现有句子相似度计算方法考虑不全面的问题,本文提出了一种改进的句子相 似度计算方法,即综合多特征的句子相似度计算方法,这种方法在计算句子相似度时综合考 虑句子所包含的词语信息、词语的语义信息和句法结构信息,利用句子的深层信息和表层信 息,加权整合特征权值,对目前句子相似度计算将会起到一定的促进作用。 综合多特征的句子相似度计算方法,在计算句子相似度时综合考虑了句子的词形信息、 词语语义信息和句子的句法结构信息这三个层面的信息,这种方法在理论上是可行的: 首先,计算句子相似度时可以分别根据句子的任一方面信息进行计算,并且国内外学者 对这方面研究也比较成熟:也可以将句子的某些方面的信息综合到一起来计算句子相似度, 比如:刘宝艳等【1 0 】利用编辑距离和依存文法结合来计算句子相似度。由此可见,综合多特征是 可行的。 其次,综合多特征是合理的。因为采用某一方面的信息计算句子相似度,其结果是有一 定的使用范围和局限性的;而采用多特征综合的方法可以在某些场合弥补这种不足。比如在 文献 1 0 】和文献【1 8 】中,都是通过某两类信息的综合来计算句子相似度的。 最后,综合多特征有时是必要的。在计算句子相似度的过程中,应该针对不同的语料特 征,利用不同的句子信息来计算句子相似度,而不应该一层不变。比如:在有的领域,语义信 息有很大的作用,基于语义信息的句子相似度方法正好可以解决这种问题;而在另外的领域, 词形信息有很大的作用,基于关键词信息的方法效果不错。因此,针对不同性质的语料中, 2 第1 章绪论 各信息侧重不同的特点,有必要把多元信息综合起来,在实际运用过程中可以通过调整权重 来处理更为广泛的语料。 1 2 句子相似度计算的研究现状及存在问题 1 2 1 国内外研究现状 句子相似度计算方法是人们研究的一个热点,国内外的很多学者对其进行了研究。国外 如哥伦比亚大学的g o l d s d e i n 等人在进行句子相似度计算时使用了一种最大边缘相关的方法 ( m a x i m a lm a r g i n a lr e l e v a n c e ) 2 1 。学者c h r i sh q d i n g 等人采用了隐含语义索引( l a t e n t s e m a n t i ci n d e x i n g ) 的方法计算句子相似度【l 引,该方法是基于假设“任何一个词语在语义上是 相互独立的,互不相干的”,而在现实文本中每一个词语并非完全独立,文本中的词语彼此在 语义上存在一定的关系。l a m b r o s 等提出将句子的表层结构和句子的内容同时纳入句子相似度 计算过程中【1 4 1 5 】。g r e g o rl e u s c h 等提出的基于编辑距离的句子相似度计算方法【7 】,该方法通 过计算将一个句子经过编辑操作转化成另外一个句子的代价来计算这两个句子的相似度,代 价越高则说明这两个句子的相似度越小,反之,句子相似度越大。编辑操作包括插入一个字 符、删除一个字符和替换成另外一个字符三种。此外还有m c w p a 字符串快速比较算法【1 6 1 。 国内,对汉语句子相似度计算方法的研究较多,并取得了一些成果。例如穗志方、俞士 汶设计了一种骨架依存句子分析法,在这种句子分析方法的基础上提出了基于骨架依存树的 语句相似度计算方法,并将其应用于基于实例的机器翻译中1 7 】。李素建利用知网和同 义词词林,提出了计算语句相似度的方法【1 8 】。李彬等在文献【l1 】中认为句子相似度应该结合 句子句法结构信息,提出了基于语义依存的句子相似度计算模型。夏天提出了一种基于知 网,计算未登录词和未登录词之间以及未登录和登录词之间的相似度的方法【19 】。吕学强等在 文献【2 0 】中,提出了一种综合考虑词形相似度和词序相似度的句子相似度计算方法,并应用到 最相似句子的查找中。车万翔等提出了改进编辑距离的句子相似度计算方法,应用于相似句 子的检索【9 j 。秦兵等结合向量空间模型的t f i d f 方法和基于语义的方法,提出了用于自动问 答系统常问问题库中问旬匹配的计算模型【2 1 1 。崔桓等提出了一种应用于基于网络的问答系统 中的句子相似度计算新方法,这种方法综合考虑了关键词的顺序和距离、以及问句和答案的 长度等信息【2 2 】。 1 2 2 存在的问题 传统的句子相似度计算方法或多或少的存在一些不完美的地方。例如:基于关键词信息 的方法简单易实现,效率高,但是它是对关键词词频进行统计的方法,要使统计效果很好地 表现出来,句子中包含的词语数量需要足够得多,相关的词语才会重复出现。另外,1 3 = i d f 方法对于同义词以及一词多义情况计算效果不太好,因为这种方法只考虑了词语在上下文中 的统计信息,而没有考虑词语蕴含的语义信息。 。 基于语义信息的句子相似度计算方法对句子的词语语义信息进行了分析,与向量空间模 3 两南大学硕十学位论文 型的句子相似度计算方法相比能够更好地处理句子中词形不同但是具有相同语义的句子相似 度。但是基于语义信息的句子相似度计算方法会因为语义词典的不全面和未登录词语义代码 的缺失而给计算结果带来一定的误差。另外,基于语义信息的句子相似度计算方法在计算句 子相似度时,没有考虑句子的结构信息,计算过程中采用了一种最大匹配法,准确率还没有 达到使人满意的程度。 基于句法结构信息的相似度计算方法考虑了句子的句法结构对相似度的影响。通过句法 分析能更准确把握句子的含义,从理论上说它是一种较理想的相似度计算模型。但是这种方 法计算句子相似度过程中依赖的句法分析技术,目前研究依然不够完善,从而使得方法的准 确性难以提高。 如上所述,句子相似度计算方法的研究虽然有所进展,但实际应用中仍然存在一定的问 题,三种传统的算法都存在各自的缺陷。接下来要介绍一种新的句子相似度计算方法。 1 3 研究内容及目标 研究中发现目前句子相似度计算的三种主要方法都存在一些不足的地方:基于关键词信 息的句子相似度计算方法只考虑了句子的表层信息,而没有考虑句子的语义信息,存在较大 的不足;基于语义信息的方法,利用语义词典考虑了句子的语义信息,但是词典的不全面和 一些未登录词语义的缺失会给计算带来一定的误差;基于句法结构信息的句子相似度计算方 法过于依赖现有的不够成熟的句法分析技术,从而导致相似度计算准确率不够,实用性不强。 针对以上问题,本文提出了一种综合多特征的句子相似度计算方法。综合多特征的句子 相似度计算方法在计算句子相似度时综合考虑了组成句子的词形信息、词语语义信息和句法 结构信息,利用句子的深层信息和表层信息,通过加权整合特征权值的方式,以期达到提高 句子相似度计算准确率的目的。同时,在计算句子句法结构相似性时,为了使句法结构相似 度计算更为精确,引入了树核( t r e ek e r n e l ) 算法。由于树状结构是汉语句子结构最直观的一 种表现形式,而树核能精确地计算出两个树状结构的相似度。为此,在计算两个句子的句法 结构相似度时,先用句法分析器将两个句子分析成树状结构,后使用树核对这种树状结构的 相似性进行度量,从而得到两个句子的句法结构相似度。最后将综合多特征的句相似度计算 方法应用于计算机领域问答系统的f a q 问句匹配中,从而验证算法的有效性。 1 4 本文主要内容及其组织 本文的主要研究对象是句子相似度计算方法,主要研究内容是综合多特征的句子相似度 计算方法。本文的内容安排如下: 第1 章绪论 首先讨论了句子相似度计算的研究背景和意义,并对目前句子相似度计算方法的国内外 研究现状进行了整理和分析。根据研究提出了一种综合多特征的句子相似度计算方法。 第2 章综合多特征的句子相似度计算方法 4 第1 章绪论 本章详细阐述了本文提出的综合多特征的句子相似度计算方法的设计思想和计算过程, 将树核应用于句子的句法结构相似度计算,并将句子的词语语义相似度、词形相似度和句法 结构相似度进行加权融合。 第3 章句子相似度计算在自动问答系统f a q 库中的应用 构建了一个基于常问问题库( f a q ) 的计算机领域自动问答系统,对其工作流程和主要步 骤进行了介绍。最后给出了句子相似度计算方法在计算机领域自动问答系统f a q 库中的应用。 第4 章实验与分析 通过实验验证了本文提出的句子相似度方法比传统的句子相似度计算方法正确率高,并 将本文的方法应用于问答系统中,验证了方法的有效性。 第5 章总结与展望 对本文的工作进行了总结,并对课题未来的发展进行展望。 1 5 本章小结 本章先阐述了句子相似度计算的研究现状和问题,说明了句子相似度计算的背景和意义。 然后结合现有句子相似度计算方法的不足提出了本文的研究内容和目标。最后介绍了本文的 内容和组织结构。 5 |一 第2 章综合多特征的句子相似爱计算方法 第2 章综合多特征的句子相似度计算方法 2 1 设计思想 句子信息的完整表达,需要依赖于组成句子的词语信息,词语的语义信息和句子的结构 信息。为此,进行句子相似度计算时从句子的句法结构、组成句子的词语词形以及词语的语 义三个方面进行研究,最大程度的将一个句子所包含的信息挖取出来,用于计算两个句子的 相似度计算中。以这种思想为指导,本文提出了综合多特征的句子相似度计算方法。 本文使用的综合多特征的句子相似度计算方法主要从组成句子的词语词形信息、语义信 息和句法结构信息三个方面进行相似度研究,这三个方面分别对应着句子的词形相似度、语 义相似度和句法结构相似度。 词形相似度:是指两个句子中相同词语的共现频率。 词语语义相似度:是指词语和词语之间的同义关系,挖掘句子中词语的深层含义,由这 种同义关系决定句子的词语语义相似度。 句法结构相似度:是指两个句子经过句法分析后的树状结构的相似度。 如下图所示,s y ns i r e 代表两个句子的句法结构相似度;s e ms i r e 代表词语语义相似度; w o r ds i m 代表词形相似度。首先,将两个句子经过分词和词性标注后,记录两个句子词语共 现的频率,从而得到两个句子的词形相似肋耐;随后使用 句法分析器将两个经s i m ; s t a n f o r d 过分词处理的句子,表示成树状结构,使用树核( t r e ek e r n e l ) 计算这两个树状结构的相似度, 从而得到两个句子的句法结构相似度s y n;之后使用同义词词林扩展版计算两个句子sire 词语语义相似度s e ms i r e ;最后将句子词形相似度w o r ds i m ,句法结构相似度s y ns i r e ,词语 语义相似度s e ms i r e 以加权整合地方式得出句子的相似度s e n t e n c es i r e 。 图2 1 融合多特征的句子相似度计算方法计算流程 7 两南大学硕+ 学位论文 2 2 中文分词及词性标注 汉语句子中,字是基本的书写单位,词语是基本的语义和语法单位,词语和词语之间没 有明显的分隔标志,分词是语法分析和语义分析的起点。因此,中文分词和词性标注是中文 信息处理的基础,是句子相似度计算的重要环节。 目前,对汉语分词词性标注的研究已达到了一个相对成熟的阶段。一些分词性能较好的 分词系统已经开发出来,其中,由中科院计算研究所开发的中文分词系统i c t c l a s ,分词正 确率高达9 7 5 8 ,未登录词识别召回率高于9 0 ,实现了分词和词性标注的一体化,具有较 高的实践性和正确性。词法分析不是本文的研究重点,但是必不可少的基础工作。为此,本 文利用i c t c l a s 词法分析系统对句子进行分词和词性标注。 例如句子:“西南大学是国家教育部直属重点综合大学,国家”2 1 1 ”工程重点建设学校。” 经过分词和词性标注后的结果为:“西南大学n 是v s h i 国家n 教育部n t 直属b 重点n 综合 大学n l ,w d 国家n n2 1 l m n 工程n 重点n 建设v n 学校n 。w j ”。 2 3 词形相似度计算 句子的词形相似度是指两个句子中相同词语的共现频率,通常是根据句子中的词语信息 进行统计分析,计算出两个句子的词形相似度。 设彪聍御表示句子s 中包含的词语个数,s a m e 似,矽表示两个句子4 和b 中同时出现的词 语的个数,当某个词语在句子么和b 中出现次数不同时,以出现次数少的计算。句子彳和b 的词形相似度可以使用公式( 2 1 ) 来计算: w o r d s i m ( a ,b ) :2 x 芒墼 ( 2 - 1 ) 一 7 z e n ( a 1 + l e n ( b ) 、。 例如: 句子彳= “我已经想象到了那颗不圾一,米高的d 树在寒冬中j ( 艮难努力生存的 样子。” 句子庐“他已经被那不及一米半高的老人在寒冬中屈艮难努力行走的背影所 吸引。” 句子彳和b 的词形相似度为0 5 7 。但实际上这两个句子是不太相似的。 实践中发现,动词和名词对句子的贡献较大,句子的基本信息都是围绕动词和名词展开 而得到的,因此,在进行句子词形相似度时应该加大动词和名词的权重,突出动词和名词的 作用,而不应该将所有词性的词语同样对待。为此本文在公式( 2 1 ) 的基础上提出了一种词 性加权的词形相似度计算方法。设口l ,口2 ,口。分别表示词语暇,w o 的权重。 8 第2 章综合多特征的句了相似度计算方法 因此,公式( 2 1 ) 经过改进为: k o t ,彬 w o r d s i m l ( a ,b ) = 2 ( 2 2 ) 式中k 代表句子a 和b 中相同词语的个数,m 代表句子a 包含词语的个数,r l 代表句子b 包含的词语个数。 经过大量实验数据的比较和分析,本文句子词形相似度中,动词和名词的权重o l 为o 3 , 形容词,副词的权重o t 为0 2 。 还是上面的两个例旬:句子彳= “我玎已经d 想象vn v 了u l e 那倒颗a 不d 及c c 一m 米q 高a 的u d e l j 、a 树n 在p 寒冬t 中f 艰难a 努力a d 生存v i 的u d e l 样子 n ”。 句子庐“他仃已经d 被p b e i 曼g r z v 不d 及c c 一m 米q 半m 高a 的u d e l 老人n 在p 寒冬t 中f 艰难a 努力a d 行走v i 的u d e l 背影n 所u s u o 吸引v ”。 使用公式( 2 2 ) 计算得到句子彳和b 的相似度为0 2 。比使用公式( 2 1 ) 计算的相似度 结果更接近人工判断。 2 4 语义相似度计算 汉语句子中,字是构成句子的最小单位,在句子中单个的字并不能表达具体的含义,由 字的组合构成的词语才是句子语义和语法的基本单位。因此,计算词语的语义相似度是计算 句子语义相似度的基础。与句子相似度计算类似,词语相似度计算的主观性也较强,需要与 具体的应用背景联系在一起,脱离了具体的应用背景,很难得到一个统一的定义。例如,在 自动问答系统中词语相似度是指词语在语义上的匹配符合程度,而本文研究的相似度计算都 是以自动问答系统为背景。 本文将词语语义相似度定义为词语在语义上的匹配符合程度,它的取值范同是0 到1 。两 个词语语义越相近相似度的值也就越大,当相似度的值达到1 时,说明这两个词语在语义上 是完全一致的;反之,两个词语语义差距越大相似度的值也就越小,当相似度的值为0 时, 说明这两个词语在语义上是完全不同的。 词语语义相似度计算模型有多种,目前从国内研究情况看可以分成两类:一类是基于大 规模语料库统计的方法f 2 3 j ;一类是基于语义词典的方法f 2 4 , 2 5 】。 ( 1 ) 基于语料库统计的词语语义相似度计算 基于统计的词语相似度计算方法其基本思想是利用大规模语料库中,词语在上下文中的 概率分布信息来计算词语间的相似度。使用这种方法计算两个词语的语义相似度是建立在这 两个词语处于相似的上下文环境中这一假设基础上的。 国外有b r o w n 提出的基于平均互信息的方法f 2 6 j ,l i l l i a nl e e 提出的的基于相关熵的方法 9 口 。一 + 彬 口 。一 两南人学硕十学伊论文 【2 引,d a g a n 使用了更为复杂的概率模型来计算词语的相似度2 8 1 等等,国内有关毅等提出的基 于统计的汉语词汇间语义相似度计算【2 9 1 ,主要研究了汉语中的主要实词( 名词、动词、形容 词) 的语义相似度计算;还有李涓子利用基于统计的方法实现语义的自动排歧。 基于大规模语料库统计的词语相似度计算方法能够对词语间的语义相似度进行比较精确 和有效地度量。但是,这种方法对训练所用的语料库有较强的依赖性,另外对于语料分析的 计算量大,稀疏数据以及数据噪声对结果的干扰也很大,使得计算结果有时会出现明显的错 误。 ( 2 ) 基于语义词典的词语语义相似度计算 基于语义词典的词语语义相似度计算方法是以语义词典作为语义分类体系进行词语相似 度计算。语义词典中概念间存在上下位、反义和同义等关系,基于语义词典的词语相似度计 算方法的主要思想是利用语义词典中概念间的这些关系计算得到概念之间的语义距离,由概 念之间的语义距离进而得到概念间的语义相似度,最后由概念间的语义相似度来衡量词语间 的语义相似度。 基于语义词典的词语语义相似度计算方法建立在大规模语义词典的基础上,汉语语义词 典中具有代表性的有知网( h o w n e t ) 【6 1 、同义词词林等:英语语义词典有w o r d n e t t 5 1 、 m i n d n e t 等。国内的学者多利用知网和同义词词林研究词语相似度计算。 基于语义词典的方法比较直观而且简单有效,但是构造汉语语义词典是一件规模浩大的 系统工程。 目前,基于语义词典的词语语义相似度计算方法要比基于统计的方法好些。 词语语义相似度的研究相对较为成熟,并且已经应用于自动问答、机器翻译、文本聚类 和词义排歧等领域。为此,词语相似度计算不是本文研究的重点,本文使用的是基于语义词 典的相似度计算方法,使用的语义词典是同义词词林扩展板。同义词词林是现代汉语 比较常用的一部义类词典,它的著作时间较为久远,且没有更新,书中有不少词语为生僻词, 并且很多新词没有加入。为此,哈尔滨工业大学信息检索实验室投入了大量的人力物力对其 进行改进,最终形成哈工大同义词词林扩展版。扩展版同义词词林共收录词语7 7 ,3 4 3 ,全 部按意义进行编排,是一部义类词典,词典中的所有词语以树状结构的方式组织在一起,所 有词汇被划分为三种主要层次:大类、中类和小类。其中有1 2 个大类,9 7 个中类和1 4 0 0 多 个小类。而三种层次中最后一层又以同义原则将其划分成很多词群,在词群之下又被划分为 很多的原子词群。至此,同义词词林扩展版由5 级层次被描述为一个由上到下,从宽泛到 具体概念的语义分类体系,之后将所有的词语都按照各种层次关系收录其中。其中每个词语 都通过一个编码进行描述,编码格式如表2 1 所示: l o 第2 章综合多特征的句r 相似度计算方法 表2 1 哈工大同义词词林扩展版编码规则表 编码位123 4 5 678 符号举例 da15bo2 = 群 符号性质大类中类小类词群原子词群 级别 第一级第二级第三极第四级第五级 表中的编码位是按照从左到右的顺序排夕。第八位的标记有3 种,分别是“- ,、“拌”、 “ ”,末尾的“= ”代表“相等”、“同义”。末尾的“撑”代表“不等”、“同类”,属于 相关词语。末尾的“ ”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相 关词。 例如词语“拥挤”的语义编码是“e f 0 3 8 0 1 = ”,表示它处于第e 大类、f 中类、0 3 小类、 b 词群、0 1 原子词群,“= ”代表以“e f 0 3 8 0 1 = ”为编码的词语间的关系为同义关系。显然这 种分类体系是层次的,假如增加一个虚的总根结点o ,则同义词词林扩展版的整个语义分 类体系可以用树形图表示如下: o ,:;77卜 ,a b l 7 7 7 ? aba i 1 j j 0 10 2 0 1 0 1 ;0 1 f 穴、i j f ,0 10 2 ;0 1 0 1 0 1 f 刃v v | | 0 10 2 0 1 0 10 1 0 1 虚线用于标识某根节点到叶节点的路径 图2 2 同义词词林语义分类体系树形图 使用同义词词林扩展版进行词语语义相似度计算思想是利用同义词词林扩展版 中对每个词语提供的语义编码进行两个词语之间的语义距离计算。我们用的同义词词林扩 展版将词语的词义逐级划分为5 级,每一个词语都有一个或多个5 位的语义代码,这个语 义代码是按照语义赋予的。 下面对使用同义词词林扩展版进行词语语义相似度的过程介绍如下: 假设有两个词语w ,w 2 ,我们先计算这两个词语之间的语义距离,在同义词词林扩展版 中查到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论