已阅读5页,还剩66页未读, 继续免费阅读
(计算机软件与理论专业论文)基于向量空间的中文科技文献信息检索系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高, 针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种 文献的检索,这样性能就更加低效,与其说使检索系统适应各种文献类型不 如退而求其次,针对不同的文献类型设计不同的检索系统,本文对使用最多 的科技文献的结构进行了分析,针对科技文献的特点,对中文科技文献信息 检索系统的各个方面进行了改进。 在讨论科技文献的自动分词之前首先分析了用来标引文献的关键词,根 据文献标引中使用的关键词的特点,改进了分词词典和停用词表,使其更加 适用于中文科技文献的标引需要。针对文献的五个部分使用了不同的分词算 法,对篇名、摘要和参考文献使用双向最大分词算法,可以从中识别出歧义 词。对于正文由于词语的重复率比较高,不对正文出现的少量歧义进行处理, 也不会对词频产生大的影响。正文就只采用正向最大分词方法。 。 信息检索系统选用向量空间模型作为检索模型。在基于向量空间的信息 检索系统中加入了位置空间,位置空间中篇名、摘要、关键词、正文和参考 文献分别作为一个位置来处理,从中提取的关键词单独计算权值,构成位置 向量,然后用位置向量来构造文献向量。文献向量构成整个文献空间矩阵。 为了减小文献矩阵的摄动和长文献对词频的影响,本文把文献矩阵规范成了 概率阵,并用矩阵的条件数证明了概率阵的摄动明显减小。由于信息检索系 统的评价方法一直用查全率和查准率,这两种方法都是二值的评价方法,本 文提出了一种偏移距离的方法来评价检索系统。 , 关键词:信息检索;向量空间模型;汉语自动分词;矩阵摄动:偏移距离 哈尔滨工程大学硕士学位论文 a b s t r a c t i nt h ei n f o r m a t i o nr e t r i e v a ls y s t e me m p l o y e d , t h er e c a l la n dp r e c i s i o na n o t h i g h , w h e nu s e di nd i f f e r e n td o c u m e n ts e t s ,t h ee f f e c t so fi n f o r m a t i o nr e l r i e v a l s y s t e m a r ca l s od i f f e l 嘲a t i no r d e rt om e e tt h en e e d so f v a r i o u sd o c u m e n tr e t r i e v a l , t h ee f f e c t sb e c o m el o w e r t h e r e f o r e , i ti sm o l ee t l i e i e n tt od e s i g nd i f f e r e n t i n f o r m a t i o nr e t r i e v a ls y s t e m sr a t h e rt i mh a v et h e s es y s t e m sm e e td i f f e t 嘲r i tn e e d s o fi n f o r m a t i o nr e t r i e v a l t b i st h e s i sa n a l y z e st h es t r u c t u r eo ft h em o s tf r e q u e n t l y u s e ds c i e n t i f i cd o c u m e n t a c c o r d i n gt ot h e i rc h a r a c t e r i s t i c s t h ea u t h o ra i m st o i m p r o v et h ev a r i o u sa s p e c t so f c h i n e s es c i e n t i f i cd o c u m e n ti n f o r m a t i o nr e t r i e v a l s y s t e m s i nt h i st h e s i s , t h es c i e n t i f i cd o e u m c l a ti sc l a s s i f i e di n t of i v ei n t e r d e p e n d e n t p a r t sr e a e e t i n g i t s c o n t e n t s :吐t l e , a b s t r a c t , k e y w o r d , c o n t e n ta r i dr e f e r e n c e a c c o r d i n g l y , d i f f e r e n tm e t h o d so fw o r ds e g m e n t a t i o n , k e y w o r d sd i s t i l l a t i o n a l g o r i t h m sa n dw e i g h to f d o c u m e n tv e c t o ra l ee m p l o y e d 1 1 尬t h e s i sf i r s ta n a l y z e st h ek e y w o r d si n d e x i n gt h ed o e t t m e n ta n di m p r o v e s s e g m e n t a t i o nd i c t i o n a r i e sa n ds upl i s t sb a s e do i lt h ee h a m c t e r i s t i e so fk e y w o r d s s oa qt oe n a b l ei tt oi n d e xc h i n e s es c i e n t i f i cd o c u m e n t a m b i g u i t i e s 怕nb e r e c o g n i z e dw h e nd i f f e r e n tm e t h o d so f w o r ds e g m e n t a t i o na n d l - e v e l s ea n df o r w a r d m a i 【j 衄m a t c hm e t h o d sh a v eb e e ne m p l o y e d s o m et e r m si nt h ec o n t e n ta 糟 e m p l o y e dr e p e a t e 娅ya n dt h ea m b i g u i t yi sn o td e a l tw i t h , w h i c h c a l ln o ta f f e c tt h e t e r mf 钮嘲c ) 0s ot h ef o r w a r dm a x i m u mm a t c hm e t h o di se m p l o y e di nt h e c o n t e n t i nt h ei n f o r m a t i o nr e l r i e v a ls y s t e m , t h ev e c t o rs p a c em o d e li se m p l o y e da s t h er e t r i e v a lm o d e l t h el o c a t i o ns p a c ei ss e ti nt h ei n f o r m a t i o nr e l a i e v a ls y s t e m b a s e do nv e c t o rs p a c e t h et i t l e , a b s w a e t , k e y w o r d , c o n t e n ta n dr e f e r e n c ea d e a l t w i t ha sas p a c er e s p e c t i v e l y t h e r e f o r et h ek c y w o r d sc a l lb er e t r i e v a lt oc a l c u l a t e t h ew e i g h ts e p a r a t e l ya n dt of o r mt h el o c a t i o nv e c t o r t h e nt h el o e a d o nv e c t o ri s u s e dt oc o n s i z l l c tt h ed o c u m e n tv e c t o rw h i c hi sc o m p o s e do ft h ed o c u m e n ts p a c e m a t r i x 1 1 蟛t h e s i sn o r m a l i z e st h ed o c u m e n tm a t r i xi n t ot h ep r o b a b i l i t ym a :h - i x , i n h o p i n go f r e d u c i n gt h ep e r t u r b a t i o no f d o c u m e n tm a l l - i xa n d t h ee f f e c t so f l e n g t h y d o c u m e n t0 t l lt h ew o r df r e q u e n c y ;t h et h e s i st e s t i f i e st h a tt h ep e r t u r b a t i o no f 哈尔滨工程大学硕士学位论文 p r o b a b i l i t ym a t r i xd e c r e a s e st oag r e a te x t e n tu s i n gt h ec o n d i t i o nn u m b e r a st h e r e c a l la n dp r e c i s i o na l 导a l w a y se m p l o y e dt oa s s e s st h ei n f o r m a t i o nr e t r i e v a l s y s t e m , t h ea u t h o rt r i e st op r o p o s ean e wm e t h o do f t oa s s e s st h er e t r i e v a ls y s t e m k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ;v e c t o rs p a c em o d e l ;c h i n e s ew o r d s e g m e n t a t i o n ;m a u i xp e r t u r b a t i o n ;o f f s e td i s t a n c e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的 指导下,由作者本人独立完成的。有关观点、方法、 数据和文献的引用已在文中指出,并与参考文献相对 应。除文中已注明引用的内容外,本论文不包含任何 其他个人或集体已经公开发表的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确 方式标明。本人完全意识到本声明的法律结果由本人 承担。 作者( 签字) :昼丝睦 日期:勿7 年月 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 研究的目的和意义 在传统的手工文献检索中,科技文献的标引和检索都是人工完成的,随 着电子文献的增多,手工处理文献已经显得力不从心,为了对大量的文献进 行自动处理,需要从文献的标引到检索都用计算机进行处理,使文献处理的 数量和速度都大大增加。信息检索系统经过几十年的发展,取得了长足进展, 实现了很多信息检索系统,从基于简单好用的布尔模型系统,到基于向量空 间模型和概率模型的检索系统等,使信息检索的精度不断提高,但是不同的 检索系统面对不同的文献会显示出不同的性能。中文科技文献和其他文献比 较,有其自己的特点:用词规范;在不同级别的刊物上发表的文章,对检索 者的相关程度一般不一样,刊物的级别越高,其相关程度越高;科技文献的 结构也比较标准,结构清晰等。为了提高信息检索系统的针对性,对现有检 索系统进行改进以适应中文科技文献,是很实用和必要的。从而提高科技文 献信息检索系统的性能。本文在对科技文献结构分析的基础上,改进了基于 向量空间的信息检索系统,使信息检索系统对科技文献具有更强的针对性 由于中文是大字符集上的连续字串,在信息检索中首先需要把汉字串分 成词,汉语自动分词已经被研究了二十多年,目前仍然是信息处理的瓶颈“, 因此中文信息检索的难度比西文更大。中文科技文献检索只要求正确切分出 能表示文献内容的关键词,从而能正确表示文献,就足够了,没有必要把文 献的每一个词语都切分出来,因此,科技文献检索对中文分词的精确度要求 有别于其他的中文信息处理,这就要求改进中文分词方法,从而更适合信息 检索。, 1 2 相关的研究内容 本文以提高中文科技文献检索的有效性为研究目标,研究了两部分内容: 一是作为中文信息检索的前提一中文分词算法的改进,使其满足中文科技 文献检索的需要;二是优化信息检索系统的各个方面,使其更加适合中文科 技文献的检索需要。 哈尔滨工程大学硕士学位论文 1 2 1 中文科技文献的自动分词 , 1 如何确立适合信息检索中表示文献内容的词( 信息检索中分词的规范) 分词规范应尽可能同中国国家标准g b l 3 7 1 5 “信息处理用现代汉语分词 规范”保持一致,以该规范为参照,北京大学与富士通集团共同制作了1 9 9 8 年人民日报语料标注语料,是日前世界上最大的汉语标注语料库,并提供了 1 个月人工切分标注后的语料p f r i 0 免费下载和使用。目前,p f r i 0 已被国 内外多家科研机构、大学和研究所应用。本文通过解析p f r l 0 得到一个包含 了5 6 ,3 8 2 个词条的词典,并应用到基于字符串匹配的书面汉语自动分词算法 中,这些词语和通常用来标引文献的词语并不一样,对于文献的手工传统文 献标引是以汉语主题词表中的词作为标引词的,本文对汉语主题词表 和科技文献中关键词部分的词语进行了分析,发现汉语主题词表和关键 词中给出的词语和p f r i 0 中的词语有很大差异,大部分是词语的组合。 2 科技信息词典的组织 由于关键词和规范中规定的词语存在的差异,在科技文献的分词中 为了分词部分的性能和关键词的确定的方便,本文把汉语主题词表中的组合 词语进行了手工切分,把没有在规范中出现的词加入词典中;本文同时对 1 0 0 0 篇科技文献中的关键词部分进行了分析,发现这些关键词和汉语主题 词表中的词语相像,因此本文的分词词典是p f r i 0 中的词语、汉语主题 词表中分出的词和文献集合空问中关键词部分的组合 3 如何进行词的切分,即自动分词的切分算法 由于信息检索中只是提取出和文献内容相关的主题词就足够了,因此对 中文文献的切分精度达到9 0 就足够了w 正向匹配法的错误率为1 1 6 9 ,逆 向匹配法的错误率为1 2 5 4 “因此在切分中只使用正向最大切分方法,就可 以满足提取关键词的需要 4 如何进行歧义字段检测和切分,即自动分词的消歧问题 因为在自动分词中,歧异字段占的比例很小,对文献的正文部分对信息 检索中主题词的影响不大,正文部分不进行歧义检测对于文献的篇名、摘 要、和参考文献部分关键词出现的次数少,并且这几部分篇幅短,用正向和 逆向分词方法进行分词,也不会影响系统的性能,因此,对于文献的篇名、 摘要、和参考文献部分进行歧义字段处理。 哈尔滨工程大学硕士学位论文 5 信息检索中自动分词的未登录词问题 对于新加入集合的文献,对文献的关键词部分进行切分,如果得到新词, 则作为未登录词,加入词典中。 1 2 2 中文科技文献检索系统 1 中文科技文献的结构对信息检索的影响 不同种类的文献有不同的逻辑结构,例如法律文献一般是由法律条文等 组成,而科技文献则是由篇名、摘要、关键词、正文和参考文献这五个部分 组成,这五个部分都在宏观上完整地反映了文献的主题,这五个部分都可以 用来标识一篇文献本文把科技文献的篇名、摘要、关键词、正文和参考文 献首先表示成五个位置向量,然后再合成为文献向量。 2 信息检索系统中信息检索模型的选择 文献 3 9 1 中详细地描述了三种主要的信息检索模型:布尔模型、向量空 间模型和概率模型。本文对向量空间模型进行了改进,把科技文献拆分成五 个部分,每个部分都组成一个位置空间,整个文献空间是由五个位置空间合 并得来,文献空间中的文献向量是由五个位置空间计算而来。这样,可以突 出各个部分位置中词语的重要程度。 3 词权的计算与规范问题 文献向量中的词权是以词语的出现频率作为依据的,最著名的词权计算 方法是逆文献频率法w ,同时为了消除文献长度对词频的影响,都要进行规 范化处理,主要有:最大矿规范、对数矿规范、余弦规范化和轴规范w 本 文利用停用词表来消除停用词,因此只使用词频,没有使用逆文献频率,减 少了计算的复杂度,在规范化方面使位置矩阵和文献矩阵都规范成了概率阵。 4 检索系统的评价方法。 评价检索系统的方法除了系统的空间和时间复杂度外,最常用的就是查 全率和查准率,但是查全率和查准率对一篇文献来说要么在相关集合,要么 在不相关集合,是二值的。本文提出了偏移距离的概念,用每一篇文献对于 查询的偏移距离来衡量检索系统。 1 3 本文的主要工作 本文主要研究了中文科技文献的信息检索方法,并针对科技文献检索的 哈尔滨工程大学硕士学位论文 前期工作自动分词进行了探讨和改进,以使其更加适应中文科技文献检索的 需要。在自动分词方面主要是重新构造了词典中的词语和停用词表,对文献 的不同部分出现的词语给与了不同的对待,由于科技文献的结构都比较规范, 各个部分好划分。自动分词主要集中在对p f r i 0 中的词语和汉语主题词表 中的词语进行对比分析,以确定在文献关键词矩阵中词语的形式在信 息检索部分对文献向量进行了重新的规范化,并讨论由规范化后的向量组成 的文献关键词矩阵对原来矩阵的优点。本文的主要工作有:1 对通用向量空 间模型进行了形式化描述,对信息检索的空间进行了细致的划分,分为三大 部分:文献空间、位置空间和查询空间。对各个空间的向量表示进行了详细 的描述,对向量、矩阵间的运算及其语义给出了明确的解释。2 在自动分词 中分析了普通用词和主题词表中词语的差别,为文献词语矩阵中词 语的选择做好理论准备,在词典中加入未登录词时,只是从文献的关键词部 分提取。3 分析了科技文献的结构,进而确定在不同部分出现的词语对文献 向量中词语权值的影响,用一种新的方法对其进行了规范,并用矩阵的理论 证明了这种规范对文献关键词矩阵的摄动明显减少。并提出了一种新的 系统评价方法,给出了评价公式 1 4 本文的组织结构 本文共分五章,主要内容如下: 第一章概述了本文研究目的与意义、研究内容、主要工作以及组织结构 等。第二章为信息检索模型综述,介绍了信息检索中的基本概念和基本的三 种信息模型:布尔模型、向量空间模型和概率模型,以及信息检索模型现在 的研究进展。第三章给出了通用向量空间检索模型的基本概念和三个空间( 文 献空间、位置空间和查询空间) 及其向量和矩阵表示,并对空间中的语义给 与了清晰的解释,并对各个矩阵的计算及其计算语义也给出了明确的说明, 对查询空间进行更具体的表示。最后给出了通用向量空间模型的普遍适应性。 第四章对标引文献的关键词进行了分析,然后分析了科技文献的结构,科技 文献的结构比较固定,在对关键词的处理中分别考虑了文献的篇名、摘要、 关键词、正文和参考文献中出现的词语对文献词频矩阵中词语出现权值 的影响给出中文信息检索中用到的分词技术,及其详细的说明总结了自动 分词技术及其研究现状。第五章首先根据中文科技文献的不同部分,采用不 4 堕玺堡三矍盔堂堡主堂丝垒塞 同的方法来计算这些部分的权值,再把这些不同部分的权值进行合并,得到 文献向量的各个项的最后值。文献的权值确定后,假设各个文献在文献集合 中的地位是相等的,对文献向量进行了规范化处理,并证明了经过这种规范 化后,文献一词频矩阵对查询向量的摄动要小得多,从而避免由于查询和 文献向量的微小变动对检索结果的冲击最后分析了传统的信息检索系统评 价方法的不足,根据这些不足提出了文献相对于查询的偏移距离,从而给出 了一种用偏移距离来评价信息检索系统的方法。 哈尔滨工程大学硕士学位论文 第2 章科技文献的信息检索模型 文献中信息的表示和存储方式是信息检索的基础,原始的文本文献不能 直接进行检索,需要从这些原始数据中抽取逻辑视图。以支持信息检索。用 户则用查询来表示信息需求,用自然语言表示的信息需求同样需要抽取逻辑 视图,便于计算机的表示和计算。检索系统根据用户的查询的表示,搜索经 过抽象表示后的文献集合,获取与用户查询相关的文献。并对查询的结果与 查询的相关程度进行相关性排序因此信息的检索涉及三个过程:文献的逻 辑表示、查询的逻辑表示、相似度匹配计算及结果集的排序。对这些检索因 素和过程建模,就产生了各种不同的信息检索模型。 2 1 信息检索模型的定义 一个信息检索模型是将文档表示、查询表示以及他们之间的关系进行建 模的框架,可以把信息检索模型看作一个三元体: 。f d ,q ,r ( q 。,吐) j ( 2 1 ) 其中,f 表示检索系统的检索结果,d 是文献集合中一组文献的逻辑视图, 称为文献的表示;q 是一组用户信息需求的逻辑视图表示。称为查询; 定h ,珥) 是一个排序函数,该函数的输出是查询q j q 和嗄d 的相关程度的 实数,这样就在文献表示之闻根据查吼定义了一个顺序m 。 信息检索中的四个传统模型是:布尔模型、向量空间模型,概率模型和 逻辑模型。随着对信息检索研究的深入,对这些传统的模型进行了优化和改 进,在集合论的检索模型的基础上,提出了模糊布尔模型和扩展布尔模型; 在代数模型的基础上,衍生出了广义向量模型、潜语义索引模型和神经网络 模型;在概率检索模型的基础上,发展出推理网络模型和信念网络模型。 2 2 基本概念 2 。2 。1 关键词 关键词是从文献中抽取出来,用来表示文献的内容并标引一篇文献的词, 6 哈尔滨工程大学硕士学位论文 一篇文献可以用关键词的集合来表示,其语惹可以用来揭示文献的主题。又 称标引词。从文献中抽取的关键词一般是有实际语意的名词,起修饰作用的 形容词、副词、连词很少用作标引词 2 2 2 权值 权值是用来表示关键词对文献内容的揭示程度的实数值一篇文献中关 键词的集合中的关键词描述文献内容的作用不尽相同,根据关键词对文献内 容描述的重要程度赋予关键词的权值也有所不同,权值不但标示了关键词对 文献内容的描述程度,还是区分文献在集合中所属类别的一个特征如果一 篇文献中的关键词把文献从文献集合中明显地区分开来,则应赋予此关键诃 高的权值。只是为了标示关键词在文献中出现与否,可以用二值( o 和1 ) 作 为关键词的权值就足够了,要体现关键词的重要程度就要为关键词的权值赋 予一个连续的非离散值。 2 2 3 停用词 在文献集合中出现的关键词只有能深入地揭示文献的内容,并把文献从 文献集合里区分开来,才可以用来标引文献,成为检索文献的依据。在文献 集合中出现在大部分文献中,不能区分文献的词就是停用词。关键词成为停 用词在不同的文献集合中有所不同,例如:“计算机”一词,在计算机的文献 集合中就应该作为停用词处理,而在生物科学文献的集合中就不是停用词。 2 2 4 关键词和权值的集合表示 7 = “,f 2 ,0 是关键词的集合,甩表示文献集合中关键词的数目,表 示关键词集合中第i 个关键词:文献j ,可以用关键词向量表示为 乃= ( m ,) ,o 是文献嘭中关键词的权值,_ = o 时表示 关键词t 没有出现在文献d 。中;查询也可以用关键词向量表示为: ,、 g2 【嵋j ,w z j , j 2 ,3 布尔检索模型 布尔检索模型在信息检索中是一种使用最普遍也是最简单的模型,它是 基于集合论与布尔代数的一种简单检索模型,为使用信息检索系统的普通用 7 哈尔浜工程大学硕士学位论文 户提供了一种便于掌握,信息检索系统的设计者易于实现的模型,为许多系 统所使用标准的布尔逻辑模型使用二元逻辑,被检索的文献要么和查询相 关,要么不相关布尔模型的关键词权值都是二元的,即, 0 , 1 l 。 2 3 1 布尔检索模型的理论基础 布尔检索模型的理论基础是布尔逻辑和集合论,是以布尔逻辑运算:与 ( a n d ) ,或( o r ) ,非( n o t ) 作为运算基础,文献和查询中关键词的表 示也是以0 或1 的形式表示,只表示词语的出现与否,检索结果也是二值的, 一篇文献要么和查询相关( 用1 表示) ,要么和查询不相关( 用0 表示) 。 2 3 2 布尔模型中文献的表示 文献集合空间用d 表示,其中包含所篇文献,分别用4 ,畋,吒来表示; 文献集合空间中出现的关键词全体用集合r 来表示,其中包含一个关键词 t i , t 2 ,f 。,文献集合d 中的文献歹为: :嘭= ( m ,w 2 ) ( 2 2 ) 其中为关键词在文献中的权值: fl 如果文献力中包含关键词r9 一 ,峋2 1 0 如果文献j 序不包含关键词 喵 2 3 3 布尔模型中查询的表示 在布尔检索系统中,根据用户提出的检索要求,选取适当的检索标识, 与布尔运算符共同构成与查询相符的检索提问式,查询孽由连接词 加氏彻反o r 连接起来的多个关键词组成,因此查询g 是一个常规的布尔表 达式,可以表示为多个合取向量的析取,即析取范式,例如g = 厶 玩 - 1 ,c ) 可以表示为析取范式的形式为:孽村- - ( 1 ,i ,1 ) v ( 1 ,l ,o ) v ( 1 ,0 ,0 ) ,其中每一个分 量都是三元组以,厶,) 的二值加权向量 2 3 4 布尔模型的匹配函数 布尔模型中应用的匹配函数就是布尔逻辑和集合运算,用表示查询g 的析取范式,钻表示g 村的任意合取向量,则文献以和查询g 的相似度为: 哈尔滨工程大学硕士学位论文 s i r e ( d ) = : 嚣“似嘶耐一”一p 铝“) ) , 、 ( 2 - 4 ) 如果砌l i d ,q ) = l ,则表示文献d ,和查询g 相关,否则不相关,函数蜀用来 返回文献向量中第i 个词的权值。 、 2 3 5 布尔模型的优缺点及其改进 这种传统的布尔模型结构简单、客易实现、检索速度快,倒排档的存储 结构能够容易、有效地进行集合操作,很多商用系统都使用这一模型。但是 布尔模型的查询式的构造对不懂逻辑数学的入来说就显得比较困难,为了克 服这一不足,针对用户的自然语言查询,可以设计自动构造查询式的方法“ ”法定检索的基本原理是逐步减少布尔检索式的逻辑乘项目,从而逐步 提高命中的文献量,达到或接近用户指定的数量为止。法定数检索算法是根 据检索词在文献数据库中的登录数来确定检索词的权重。检索词在文献数据 库中登录的文献数越小,专指度就大,对于提问的重要性就越大。反之,检 索词的文献登录数越大,对于提问的重要性就越小m 逐步求精算法的基本 思想是先构造一个检索范围较宽的提问式。然后通过不断对提问式中的检索 词加以限定而逐步减小检索范围,直到检出的文献量达到或接近用户指定的 文献数为止。两种算法均存在两点不足:( 1 ) 检索词权重的计算只依赖于检 索词在数据库中的文献登录数,面没有考虑它在用户提问的重要性。因此, 不能反映用户提问的特殊性。( 2 ) 提问式的形成与修正以用户指定的检出文 献数为基础,而对用户来说,这种事先确定检索文献数的方法是很难接受的。 在此基础上提出了一种新的算法,基于样本文献提问构造布尔检索提问式算 法。该算法以样本文献提问为基础计算检索词的权重,根据检索词权重值的 分布规律来构造布尔检索提问式。简化用户在检索中与情报检索系统的交互 过程,从而提高检索效率,并利用a u b q 检索系统对算法进行了验证。结果显 示该算法在相同的查全水平上的查准率普遍高于手编提闯式的检索结果m 。 针对传统布尔模型无权重计算的缺点提出了p 范式模型。对于检索系统, 影响其性能的主要环节:特征项的选择;权重的计算方法;查询的表示形式; 查询的调整( 优化) ;查询文献相似度的计算方法。文中主要对;权重的计 算方法;查询的表示形式;查询文献相似度的计算方法进行了优化m 9 2 4 向量空间模型 向量空间检索模型,是将文献和查询表示为关键词向量的形式,向量的 项是关键词在文献中或查询中的权值。这些词语的权值用于计算文献集合和 用户查询之间的相似度,检索系统根据计算出的相似度来排序文献集合,排 序后的结果集就是和特定查询相关的文献的集合。 2 4 1 向量空间模型的文献空间 在文献集合中,每一篇文献都可以用公式( 2 2 ) 来表示,所有由公式( 2 2 ) 表示的文献向量组成的向量集合: ”d = 似,吐,反) ( 2 5 ) 就构成文献向量空间模型中的向量空间,其中z 可以作为一个文献向量,也 可以看作碣在文献空间d 中的权值,这一权值反映了文献4 在文献空间d 中 的重要程度。 2 4 2 标引词空间 一个文献向量可以包含多个标引词,一个标引词可以作为不同文献向量 中的某个分量。既然可以通过标引词定义一个文献空间来表示文献向量,那 么也可以定义标引词空间,文献中的一篇文献就是标引词空间的一维。 2 4 3 项的权值 。 在文献空间的构成中,为关键词赋予权值是信息检索过程中最重要的一 个环节,是向量检索中首先要考虑的问题。为关键词赋予权值主要涉及到三 个因素;词频、词的文献频率、和向量规范化。 词频是指关键词在文献中出现的频数,反映了词在文献中的重要程度, 常用矿来表示。原始词频只是反映了词语在文献中出现的次数,原始词频在 长文献中会比短文献大,因此在用关键词标引文献时,需要对关键词进行规 范化处理,常见的规范化处理方法有: 1 最大矿规范: , 。 矿, 坳= j ( 2 6 ) v m 丝 其中矿。是文献中出现频率最大的词的词频,可以把词的权值限制在( o 1 ) l o 哈尔滨工程大学硕士学位论文 之间,著名的s m a r t 和i n q u e r y 系统都是使用最大规范的一种变形来表示词 的权值的,如下式; 1 4 wf = d + 6 笋其中a + b 。1( 2 7 ) v m 鼻 这样得到的关键词的权值是一个相对量。最大矿规范一个潜在的不足是:文 献的规范化因子仅仅依赖文献中出现的最为频繁的词的词频,是规范化的范 围限制在一篇独立的文献中,不能和整个文献集合空间发生联系。 2 对数矿规范 对词频矿取对数,然后加上一个常数; l n ( 矿) 扣 ( 2 8 ) 这一方法虽然能降低词的权值异常高的情况,但未能明确地考虑文献长度和 向量表示中的最大词频,只是用对数运算在一定程度上减少原始词频受文献 长度大的文献中词语出现次数偏多的负面影响 3 余弦规范化 余弦规范化是向量空间模型中最为常用的一种规范化方法,余弦规范化 ,。一 的规范因子为:4 w , + 啦+ 其中m = 吮x 蛾,硪是逆文献频率: 。 r i a f , = l o g 三 ( 2 9 ) 儿 其中是文献集合空间中文献的总数,鸭表示包含关键词的文献数。 4 轴规范 文献被检出的概率与文献的规范因子成反比,s i n g h a l 在对大量文献试 验的基础上发现,在用几种传统的规范化方法规范的文献集合中,短文献被 检出的概率大,长文献被检出的概率小:s i n g h a l 提出了一种轴规范方法, 把规范因子调整为:轴规范因子= s l o p e x 原规范因子+ ( 1 o - s l o p e ) x p i v o t * j 2 4 ,4 相似度计算 集合中的每一篇文献在向量空间里形成了相应的向量表示,查询也用向 量表示好了,就可以计算查询和向量的相似度来排序整个文献集合,文献向 量表示为: 哈尔滨工程大学硕士学位论文 d = ( ,) ( 2 一1 0 ) 查询向量表示为: , q 2 ( ,) ( 2 一i i ) 相似度的计算有以下几种: 1 内积相似度运算 在文献向量空间中,内积相似度计算公式是最常使用的相似度计算公式: 。s i m ( q ,= h 屹 ( 2 一1 2 ) 瑚 公式中权值的选择有多种方法,若选择的二值权值,即心, 0 , i 则可简 单计算成: s i m ( d ,g ) = l d g l ( 2 1 3 ) 其中l d q i 表示同时出现在文献和查询中的项的个数。 2 余弦相似度 余弦相似度来源于点积运算的规范化,它的规范化是基于向量2 范数 的,余弦相似度可以定义为: s m 国,回= 一 扣l 瓦j 再j ( 2 1 4 ) 3 基于向量范数的相似度计算 查询向量和文献向量的差;由- - ( d g ) 可以反映文献向量和查询向量的 相似程度,这一相似程度的计算可以用砌的p 范数来表示: 、 ,三 o ( 玩p ) :l 杰h 一l l ( 2 - 1 5 ) l 捌 j 文献 2 8 中指出一般通过向量空间模型建立的矩阵都比较大,主要是由于两 个原因造成的;一是文献的大量增加,二是文献空间中的词汇太多造成的。 并且每篇文献中出现的词和文献空间相比很少,因此文献词频矩阵是一 哈尔滨工程大学硕士学位论文 个稀疏矩阵。文中使用了潜语义模型对文献空间进行了降秩分解,通过奇异 值分解不但能使矩阵简化,还可以使被检索到的有关信息与使用者的查询不 一定具有共同使用的术语,解决同义词的存在使检索信息丢失的现象,通过 对检索词文献矩阵降秩,可以去掉矩阵表示的数据库中的无关信息和噪 声。但是潜语义模型难于理解,很难解释计算的实际含义,很多结果是靠实 验结果来证实的,理论解释困难,并且一些中间结果难于解释,文献 z 9 给 出了一种理解潜语义模型的理论模型,指出矩阵彳被分解成t s d 的形式中, r 是词词矩阵,其中的元素表示了词和词之间的相关性。通过t s x t s 7 得到 t l 和t 2 的关联性则能发现r 中不相关的词的相关值明显增大,这时由于词 词闻的传递相关造成的,就是说词t 1 和t 2 同现,t 2 和t 3 同现,通过t s x t s 7 得到t l 和t 2 的关联性。文中用大量试验验证了一次乘积找到的相关词最多。 2 5 概率模型 2 5 1 事件空间 概率模型的事件空问为:q x d ,其中q 代表所有可能的查询组成的集 合,d 为文献集合,各种概率模型之间的不同就在于它们使用了不同的方法 来表示和描述查询和文献,从而得到不同的查询表示和文献表示。 对给定的查询鼋和集合中的文献4 口cd ,概率模型试图估计出用户 查询q 和文献一e 口的相关程度,并认为这个相关概率依赖于查询和文献的 表示,此外概率模型还假定文献集合中存在一个子集r ,给定一个用户查询 q q ,存在一个文献集合r c q ,集合r 只包含和查询g 相关的文献,而不 包含和g 不相关的文献,我们把这个文献集合r 称为理想结果集合 2 5 2 相似度的计算 对于概率模型来说,标引词的权值都是二值的,即w e 0 , 1 、 0 , 1 , 查询g 是标引词的子集,用r 表示已知的相关文献,用豆表示胄的补集,即 不相关的文献,同时,条件概率h 矗l d ,) 表示文献d ,与查询g 相关的概率, p ( r i d j ) 表示文献d ,与查询q 不相关的概率。因此文献d ,与查询g 的相似度 s i m ( d j ,g ) 可以定义为; 咖,g ) = ( 2 - 1 6 ) 根据贝叶斯定理: 毗劫2 揣 治m ,似,| 矗) 表示从相关文献集合五中随机选择文献d ,的概率,p ( 月) 表示从整 个文献集合中随机选择文献的相关概率,p ( d jf _ ) 表示从相关文献集合豆中 随机选择文献d ,的概率,户f 豆) 表示从整个文献集合中随机选择文献的不相 关概率 在概率模型中,为了使问题简化,讨论项在相关和不相关文献中的分布 情况时,常常使用独立的二元假设,也就是说,假定任何给定的项在文献集 合中的分布是独立于任何其他项的分布的;除此以外,任何出现在一相关文 献中的项的概率也是独立于出现在同一相关文献中的其他项的概率的,以这 一假设为基础的概率模型就被称为二元独立模型。又因为对文献集中的所有 文献来说,p ( r ) 和p ( 豆) 都是一样的,所以公式变为: j 砌( d ,孽) p ( d j ir)(2-18) 5 砌( 嘭,g ) e ( d j ir ) 同时在二元独立模型中,标引词是独立的,因此: 螂小器搿躲 为了计算方便和减少估计概率对相似度的影响程度比较平缓, 用对数方式表示,除去固定的不变因素,相似度公式写成: ( 2 - 1 9 ) 一般相似度都 s i m ( d j ,窖) = 喜v - m _ ( b g i :p 丽( t , i r ) + b g 三三;荨;导e 2 一z 。, 文献 3 0 对概率模型进行了全方位的总结和试验研究。文中对排序的方法和 原理进行了详细的论述,排序是对整个文献集合进行的,排序以后的集合按 照文献和查询的重要程度从大到小排序,至于查询者要看多少文献由查询者 1 4 、l,、l_-, 嘭一嘭 置= r ,ji、一,fl p p 哈尔滨工程大学硕士学位论文 来决定。相似度一般是通过公式;s i m c dq ) = p ( r i d ) p ( ri d ) 来计算,当 s i m ( d ,q ) 1 时,文档d 与查询相关,否则为不相关,相关值可以通过计算文 档样本来获得。文中还给出了一系列的推导和计算过程,详细描述了概率的 计算过程和公式推导。并在大样本和大测试集上进行了试验,对各种概率模 型的性能进行了测试。基于概率排序原则,进行了很多相关的工作,提出了 很多和概率模型相似的模型。把信息检索过程看成是一个决策过程,把信息 检索看作统计决策问题。作为传统布尔检索模型是检出文献的一个子集,不 进行排序,而向量空间模型是对整个文献集合进行排序。最小风险模型则是 对检出的子集进行排序。引入最小风险函数来调整文献和查询的相关值来排 序文献,最小风险函数的值由读者对文献阅读的停止位置和相关子集的情况 来决定。最小风险模型把统计语言模型合并进最小语言模型,作为最小语言 模型的一部分,因为统计语言模型可以通过统计推理和统计估计方法设置检 索参数。最小风险模型可以研究检索策略的优化。最小风险模型还扩展了传 统的独立的概念和主题相关问题m 如果信息检索被认为是基于内容的自动 信息检索,则从人工智能的角度看,信息检索就是人工智能里的搜索过程。 如果信息检索被看作是对自然语言文本的未知的,特定信息搜索过程,则信 息检索被看作是人工智能中的只是表示,不确定条件下的推理过程。信息检 索中有很多人中智能方面的特性:信息检索中的文献表示相对于人工智能中 的只是表示,文中指出文献的表示很弱,摄念没有标准化,描述集合中的词 都是独立不相关的;信息检索的推理功能也比较弱;信息检索的相关反馈能 力对于检索系统的学习功能影响不大,使信息检索的学习能力比较弱。同时 文中还指出了信息检索对人工智能的影响m 1 。 2 6 本章小结 本章介绍了信息检索中的基本定义:信息检索模型、关键词、停用词等。 对布尔检索模型、向量空间模型和概率模型进行了总结和描述,并对信息检 索研究的现状进行了总结。 哈尔滨工程大学硕士学位论文 第3 章信息检索系统中的向量空间分析 每篇文献都可以用一组有代表性的关键词来描述,并用这些关键词来检 索文献,从文献中提取的关键词作为项,组成向量来表示文献。文献向量就 是以一篇文献中的关键词组成的向量来表示文献,所有表示文献的向量构成 文献的向量空间。表示文献的向量的项是以表示文献中关键词在文献中的重 要程度的一个实数作为值的。一般的向量空间模型都是以整篇文献中关键词 的出现频率的某种规范形式作为权值的但是一个关键词在文献的不同部分 ( 题名、摘要、关键词、正文、参考文献题名) 出现,对文献的内容的表示 程度是不同的,在题名中出现的关键词对文献内容的揭示程度达到9 9 本 章对以篇为单位的向量空间模型迸行改造,对文献的不同部分,本文称为位 置进行关键词的向量表示,并讨论不同位置和整篇文献的关系。 3 1 空间的表示 一般的向量空间都包含两个空间:文献空间和查询空间基于位置的向 量空间则包括文献空间、位置空间和查询空间文献空间由文献和关键词两 维构成,位置空间是把文献分成几个部分,每个部分作为一个位置,每个位 置表示成一个向量,所有位置构成位置空间,查询空间贝l j 由用户需求和查询 词构成,用户需求是由查询向量构成,查询词构成查询词向量。以二维表示 的向量空间可以用矩阵表示。 为了便于计算,对空间矩阵和维向量进行表示分别用小写字母表示向 量空间,用大写字母表示维向量,用维向量的组合来表示矩阵如果有向量 空间s 的两维为x 和y ,向量分别为z 。和e ,表示空问5 的矩阵为魍,x y , 反映了空间中两维的关系,j 表示矩阵羁的行向量,y 表示矩阵e 的列 向量。 3 1 1 文献空间的表示 模型中的空间都是二维的文献空间由文献和关键词两维构成,文献维 是由文献向量构成,关键词维是由文献中关键词维构成的;位置空间则由文 1 6 哈尔滨工程大学硕士
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师版(新版)一年级下学期数学数学好玩单元试卷(附答案)-03
- 2026年蔬菜种植公司农资仓储设施管理与维护制度
- 幼儿影楼营销方案
- 大唐国际投资管理制度
- 方案全员营销建议
- 半岛酒店活动策划方案
- 单位工程管理制度
- 物业磨刀活动策划方案
- 2025年物流信息技术应用培训试题细选与解析实战集及答案
- 2025年西游记文言文试题和答案
- 2025年出台民政局离婚协议合同范本
- 精神分裂症测试题及答案
- NB-T35026-2022混凝土重力坝设计规范
- GB/T 19494.3-2004煤炭机械化采样第3部分:精密度测定和偏倚试验
- 遗传学试题库及答案-(12套-)
- 硫酸包装说明和使用说明书
- 山东师范大学成人教育《新闻写作》期末考试题库
- DBJ53T-69-2014云南省建筑与市政基础设施工程施工现场专业(管理)人员配备标准
- 放射CT质控考核表
- 清淤工程施工记录表
- 名字由来作文-完整版PPT
评论
0/150
提交评论