




已阅读5页,还剩64页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
密级: 论文编号: 中国农业科学院 硕士 学位论文 基于 文农业网页 搜索 系统 的设计与实现 of of I 摘 要 由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合 搜索引擎 ,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎 则搜索到很多无关的信息 。 要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。 本文通过研究背景的分析提出了一种“二次主题漂移”检索模式。 详细介绍了 全文检索与语义检索技术,为后面的研究奠定技术基础,提出了基于 法的语义检索技术实现方法。根据 法,构建了一个实验系统 来 验证 法处理大规模文档的能力, 同时 利用国家农业科学数据中心 10 个主题数据库中的 10 万条记录,来进一步验证“ 二次主题漂移” 技术的可行性。最后介绍了 基于 文农业网页搜索系统的设计与实现 ,包括系统的结构与功能以及实际运行的情况。 本文的主要成果: ( 1)研究并实践“二次主题漂移”检索模式,可以有效提高用户检索应用的体验。 ( 2)研究分析 法,找出了该算法在 台上的运行瓶颈,并提出了性能改进的具体方法。 ( 3)构建了基于 法的中文农业信息检索实验系统,验证大规模文档集下 法的可行性和“二次主题漂移”模式的可行性。 ( 4)设计并实现了一个基于 文农业网页搜索系统。 关键词 : 二次主题漂移 ,信息检索 s in an an so an to of in is on DD on to of DD on of a of At we on in (1) of (2) DD (3)on DD on (4)on 录 第一章 引 言 . 1 究背景 . 1 息检索的相关性理论 . 2 向系统的相关性 . 2 向用户的相关性 . 2 结 . 3 究内容和方法 . 3 题的提出 . 3 要研究内容 . 4 究思路和方法 . 5 文的写作框架 . 7 第二章 全文检索与语义检索 . 8 . 8 应用、特点及优势 . 8 统结构分析 . 9 用心得 . 10 文检索的不足 . 11 检索 . 12 统经典信息检索模型 . 12 含语义索引( 型 . 14 . 15 号 . 15 档匹配 . 16 引项匹配 . 17 念空间 . 18 结 . 18 第三章 法及其改进 . 19 . 19 . 19 计算 . 20 法的收敛性证明 . 22 . 23 据结构 . 23 用压缩存储的计 算 . 24 . 24 . 26 据压缩 . 27 据过滤 . 27 征抽取 . 27 第四章 进算法及“二次主题漂移” 检索模式验证 . 28 . 28 . 29 . 30 . 31 . 33 统设计 . 33 统实现 . 33 . 35 行向量空间模型( 矩阵分解后的索引文件比对 . 35 台与 台矩阵分解对比 . 36 4 7“二次主题漂移”检索模式验证 . 37 究方法 . 37 验数据 . 39 验结果与分析 . 40 第五章 基于 文农业网页搜索系统的设计与实现 . 47 . 47 . 49 国农业网站名录网页集 . 49 采用的 主要技术 . 50 统运行实例 . 52 据检索情况 . 52 站直达 . 54 第六章 总结与展望 . 55 . 55 . 56 参考文献 . 57 致 谢 . 61 作 者 简 历 . 62 V 英文缩略表 英文缩写 英文全称 中文名称 用程序接口 步 ,己成为互联网上非常重要的网络导航服务。目前, 上拥有超 100 亿的静态网页。而当前的通用搜索引擎所能检索的网页一般不超过 的 30%40%,即使是用户最多的 检索的网页也只在 30 亿左右。另一方面, 术的发展使更多的网页以动态形式存在,形成所谓的隐藏 估计这部分的信息是整个静态 间的 500 倍以上,而且有递增的趋势。由于搜索引擎在 所具有的重要地位,它一直就是用户关心的热点之一,也是各家相关公司全力开发的技术焦点。 根据中国互联网络信息中心( 2005 年 7 月发布的第 16 次中国互联网络发展状况统计报告,目前,国内上网用户总量已达到 ,而在“用户经常使用的网络服务 /功能”中,“搜索引擎”以 选择率排在第三位,仅次于“电子邮件”( 和“浏览新闻”( 。 同时,搜索引擎还是“用户得知新网站”的最主要的途径( 和“用户在互联网上获取信息”的最常用的方法( 。不仅在中国,放眼世界,互联网搜索业务也呈现出 增势。根据石城研究机构的预测, 2005 年,全球收费搜索服务市场的规模将达到 40 亿美元,而在未来三年内,市场规模每年将以 35%的速度增长(洪小文, 2005)。 由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户, 他们通过传统的综合 搜索引擎 ,如 度等,并不能迅速找到自己想要的信息。 据不完全统计,在农业领域现有各种网站约 1 万个, 涉及农、林、牧、渔、水利、气象、农垦、乡镇企业、及其 他 农业部门 ,网页共计 150 万篇,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息,其根本原因在于网站中的大量信息是以非结构化的形式存在,要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点之一。 “ 国家 农 业科学数据中心 ” 是由国家科技部 “ 科 学数据共享工程” 支持建设的数据中心试点之一 , 由中国农业科学院农业信息研究所主持 建设 。农业科学数据中心是以满足国家和社会对农业科学数据共享服务需求为目的,立足于农业部门,以数据源单位为主体,以数据中心为依托,通过集成、整合、引进、交换等方式汇集国内外农业科技数据资源,并进行规范化加工处理,分类存储, 在 农业领域 形成拥有 12 大类 60 个主体数据库 600 个数据库(集) 的 农业科学数据资源中心,然后通过网络向全社会提供共享服务 。 “ 农业科学数据中心 ”的用户主要通过农业科学数据中心 的 网站来定 位、查询和下载所需要的农业科学数据。 由于 国家 农业科学数据中心是通过 的数据库来提供服务的,在这庞大的数据资源中,信息检索是查询和发现数据的重要手段,如何给用户提供一个良好的 据库群检索手段是项目 小 组努力的目标,这也是本研究的 另外一个 出发点。 中国农业科学院硕士学位论文 第一章 引言 2 息检索的相关性理论 “利用搜索工具获取有用信息”业已成为互联网用户的主流选择。那么,是不是说,互联网搜索技术与应用、商业模式与用户需求已然臻于成熟了呢?答案是否定的。事实上,自上个世纪末至今,在互联网数据搜索与挖掘技术领域尚未出现那种足以测 定刷新用户体验的“革命性创新”(洪小文, 2005)。 信息检索的核心是解决信息定位问题,而信息定位准确与否与用户的实际需求相关,因此检索性能的好坏是靠检索结果与用户“本身是否相关”的体验来完成的,因此就不可能形成像其他行业那样统一的信息检索的评价标准。 目前信息检索相关性的研究主要来自两个学科,一个是以 及 为代表的计算机学界,他们的研究工作主要是围绕检索系统展开,包括系统的分析、设计、检索算法以及性能评估等,尤其重视研究表征用户信息需求的查询表达式与文档或文 档替代品的匹配算法与模型,布尔模型、向量空间模型、概率模型、神经网络等是其主要的研究成果。 另一个是来自于图书情报界,代表人物包括 及 ,他们的研究重点是用户或者检索中介在检索过程中的认知、交互以及情境等层面(孙建军等,2004)。 现在学术界把这里两支队伍分别称为系统中心( 派以及用户中心( 派,前者以检索系统的内部机制为研究重点,后者则以用户以及用户与系统的交互 为研究重点。尽管二者的区分明显,不过他们研究的目的是共同的,即都以提高检索系统的性能以及用户的满意度为己任(孙建军等, 2004)。 向系统的相关性 面向系统的相关性也称之为系统观的相关性,源于信息检索系统的理论与实践,概念上是指用户信息需求的检索语言描述与系统中文档的检索语言描述之间的匹配关系。系统观的相关性必须接受 3 个基本假设: 查询表达式中的主题词足以描述用户真实的信息需求。 赋予文档的主题词足以概括文档的主题内容。 匹配的结果恰为与用户真实的信息需求相关的文档集合。 系统观的相关性认 为,相关性是系统的内在机制,也就意味着所有检索出的文档都是和用户相关的,同时主题词在表示内容或者意义方面必须精确一致,也就是说,甲和乙输入相同的检索问题,会得到完全相同的输出信息, 目前 这种纯以主题决定相关的做法,依然是信息检索系统的主流(孙建军等, 2004)。 向用户的相关性 以用户为中心的相关性主要研究用户以及用户或者检索中介与系统之间的关系,该类型的相关性是主观的,不过根据主观程度的不同,现在学界又将其分为信息观的相关性以及情境观的相关性。 中国农业科学院硕士学位论文 第一章 引言 3 信息观的相关性是指查询请求与文档之间的概念关联性判 断,而判断则主要是基于信息问题与信息外在表现间的关系,判断的实质是判断者内在的知识储备,其基本假设是检索中介能够全权代表实际用户完成文档的相关性判断,标引者能代表用户完成文档“关于性”的判断,主题专家或者研究者在信息检索系统的测试中能够代替用户完成查询与文档间的评估等(孙建军等,2004)。 情境观的相关性描述了信息与用户信息问题情境之间的关系。情境观的相关性认为只有用户才能完成有效的相关性判断,该观点与信息观的相关性相比,在主观性方面更前进了一步(孙建军等, 2004)。 结 尽管描述相关性的术 语存在差异,研究的角度也存在显著的不同,但是学者们在相关性判断方面已经达成下列共识: 系统性,系统观的相关性尽管是非常重要的,仍然是目前信息检索系统主要的实现形式,但仅仅依赖它是显然不够的。 主观性,即依赖于人(包括用户以及非用户)的判断,并且它不是文献或信息的内在特征。 认知性,即检索结果总是依赖于人的知识以及理解。 情境性,即与个体用户的信息问题紧密相连。 多维性,即受到多因素的影响。 动态性,即随着时间的推移不断变化。 可测度性,即在某个特定的时刻是可观察的。 总而言之,相关性的评估是与 用户的经验、认知状态以及思考紧密相连的,相关性判断只能由最初的信息查询者完成。用户的信息需求情境是一个典型的动态变化的情境,获得了新的信息之后,是可以更新以及修正的。相关性评估包括多个层面的交互,这些层面不仅仅包括用户的情境以及目标、用户的知识水平以及信念、被评估的信息、信息的表达方式、环境中其他信息的可获取性、时间、在获得这些信息过程中的获益 与 消耗等。 究内容和方法 题的提出 目前最大的搜索引擎 索引的页面数量占 量 30%40%,但人们发现仍然是很难(或不可能) 检索到与他们的信息需求相关的信息,特别是通过对网络上数据库的检索。网络用户通常不满意他们所获得的结果 , 就是一个很好的例证。 中国农业科学院硕士学位论文 第一章 引言 4 图 1统 统模型 R 题的症结在于传统的检索模型性中(如图 1示)的三个基本假设中的两个环节出现了问题: 用户以关键词提交查询请求。 采用关键词匹配技术来生成结果文档集。 这两个部分方法虽然简单,但是可能会导致信息检索工作出现问题。 以关键词作为用户的查询请求,排除了用户个体的差异性,即只要 用户使用了相同的关键词作为查询请求,便可认为用户具有相同的检索意图,把用户认为是静态的,而根据用户相关性的观点,用户的需求情境是一个典型的动态变化过程,用户的检索需求是跟用户内在的知识储备、经验、认知状态以及情绪等紧密相连的。 以标引词为基础的检索通常会形成这样一种观念:文献的语义和用户信息需求的语义可以用标引词集合来表示。这就把问题过于简单化了,因为用标引词集合来代替文档的时候 会丢失很多原来的语义。 如何解决这个问题呢?本文提出要围绕用户信息需求,以用户为中心,通过“ 二次主题漂移”技术来逼近 用户检索需求 。当 然,要完全满足用户的信息需求,建立一个大而全、精而准的检索系统是一个非常难的过程,本文仅选取中文农业网页检索作为研究的对象,并把“ 二次主题漂移”技术贯穿在系统设计和实现中,企望研究结果能够对中文信息检索研究起到一定的推动作用。 要研究内容 本文的研究包括四个方面的内容。 ( 1)提出以满足用户需求为中心的“ 二次主题漂移” 检索模式实现路线图 “ 二次主题漂移” 检索模式是把全文检索与语义检索结合起来,以满足用户检索需求为中心,通过逐步逼近的方法实现信息检索的一种技术。 首先,利用全文检索技术来实现第一次 主题漂移,即从“关键词”到“文档”的漂移,把用几个关键词来表示用户信息检索需求漂移到用一篇文档来表示用户的需求。全文检索的优势在于统 索引集 文档集 1、按 文档逻辑模型 构建索引 2、检索需求转换为 查询关键词 人机交互接口 3、按匹配模型计算 返回结果 4、返回数据匹配的结果 中国农业科学院硕士学位论文 第一章 引言 5 具有较高的查全率,本文认为如果文档中含有检索关键词,则该文档一定符合了某一个查询请求,由于用户查询的情境点不同,则文档是否接近当前用户的查询请求,也理应由用户自身去判断。 然后,利用语义检索技术实现第二次主题漂移,即从“文档”到“文档”的漂移,用表示用户需求的一篇文档作为新的检索起点,利用文档相似性原理,检索出更多符合用户需求的新文档。 ( 2)基于 法的语义检索技术研究 要 实现“ 二次主题漂移” 检索模式,就要建立全文检索技术和语义检索技术,目前全文检索技术已经非常成熟,我们利用开源项目 实现,所以本文重点研究基于 法的语义检索技术。 法是潜在语义索引( 最新算法, 法目前在国外研究的比较普遍,但其实现部分主要是在 台上,在国内还处于起步阶段,因此分析 法,将这套算法移植到 台上,并根据中文的特殊性和运行平台的特殊性,对算法进行改进,把改进的算法用在潜在语义索引上,实现文挡相关性的判断,从而实现第二次主题漂移。 ( 3) 构建 基于 法的 中文农业信息检索 实验系统,验证大规模文档集下 法的可行性和“ 二次主题漂移” 技术的可行性 一种检索技术能否处理大规模文档非常重要,也是一种理论或数学模型能够走出实验室成为实用化系统的重要标志。 因此,通过构建一个实验系统,验证本文对 法的改进是否合理,其次是验证 法处理大规模文档的能力。 利用北京大学 试集作为大规模文档集的测试用例,全面验证 法。然后利用国家农业科学数据中心 10 个主题数据库中的 10 万条记录,利用 文检索的开源项目和 术封装 索引擎,利用两种不同原理的引擎,在真实数据的基础上进一步验证“ 二次主题漂移” 技术的可行性。 ( 4) 基于 文农业网页搜索系统的设计与实现 利用作者所在研究室建立的中文农业网址库,利用网页自动获取程序定期访问农业网站的网页,并采用网页内容自动分析工具和网页自动分类工具将获取的农业网页,并分别建立全文索引和 义 索引,最终实现一个专业化的 支持“二次主题漂移”检索模式 中文农业网页搜索系统 ( 系统简称: 农搜)。 究思路和方法 ( 1) 用户信息需求 是检索的出发点 信息检索( 对信息项进行表示、存储、组织和存取。对信息项的表示和组织应该为用户提供其感兴趣信息的方便存取(陈馥瑛, 1999)。遗憾的是,对用户信息需求( 行描述不是一个简单的问题。 例如,在万维网环境中考虑这样的用户信息需求:找出包含能满足以下两个条件的学院足球队有关信息的所有网页:该网球队隶属于中国的一所大学;该足球队参加中国学生体育协会举办的足球联赛。为了保证相关,检索到的网页必须包括该网球队在过去三年全国比赛中的名次及 其教练的电子邮件地址或电话号码这样的信息。 显然,利用目前的互联网搜索引擎,用户不可能采用这种对用户信息需求进行完整描述的方式检索信息。取而代之的是,用户必须首先将这些信息需求转换为搜索引擎或 统能够处理中国农业科学院硕士学位论文 第一章 引言 6 的查询语言。用户在得到了初步的检索结果之后只能采取调整关键词的办法来让检索系统搜索接近检索主题的文档 这种转化以其最普遍的形式生成一组关键词(或标引词),这些关键词能够对用户信息需求的描述进行概括。给出用户查询后, 统的 首要目标 就是检索出可能对用户有用或相关的信息,重点在信息检索 (而不是数据检索( 从文档检索的角度说,用户检索文档的目的,最终是得到能够满足于自身需求相关的文档,因此可以看出用户的信息需求与系统检索出的文档是一一对应的,也就是说虽然不可能知道每个独立的检索个体的需求是什么,但是可知系统所包含的文档一定是能够满足某一个检索用户的需求,那么也就是说,用文档作为查询请求的而不是关键词,更能趋近于用户的信息需求,可是用户在数据检索所遗留的关键词检索习惯,使得信息检索系统又不可能强迫用户更改检索习惯。 本文就从用户信息检索 需求出发,研究信息的检索技术。 ( 2) 数据检索中融入信息(内容)检索才能更好满足用户的检索需求 在 统环境下,数据检索主要是确定某一集合中的 哪 些文档包含用户查询中的关键词,而这些关键词通常不能满足用户的信息需求。事实上, 统的用户更关心检索有关某一主题的 信息 而不是检索满足给定查询的 数据 。数据检索语言的目的在于检出所有明确满足给定条件的对象,例如,检出正规表达式或关系代数式中的对象。这样,对于一个数据检索系统来说,在检出的 1000 个对象中,只要有一个是错误的,就意味着整体上的失败。然而,对于信息检 索系统来说,检出的对象可以是不准确的,并且很可能有察觉不出的错误。产生这种区别的主要原因是信息检索系统处理的通常是自然语言文本,而人们总是不能使自然文本语言很好的结构化,而且自然语言文本可能会有语义上的歧异。另一方面,数据检索系统(如关系数据库)处理的是那些已经定义好结构和语义的数据(王知津等, 2005)。 数据检索可以为数据和系统的用户提供某种方法,但无法解决检索有关某个学科或主题的信息的问题。为了有效地满足用户信息需求, 统必须以某种方式“解释”集合中信息项的内容,并且根据与用户查询的相似度来排序。 这种对文献内容的“解释”包括从文献文本中提取语法和语义信息并将这些信息用于匹配用户的信息需求。难点不仅在于如何提取这些信息,还在于如何运用它来确定相关性。因此,相关性( 概念就成为信息检索的核心。事实上, 统的主要目标就是检索出所有与用户查询相关的文献,并尽可能地避免检索出不相关的文献(王知津等, 2005)。 ( 3)采用“二次主题漂移” 检索模式 可以逐步逼近用户检索需求 本文提出一种“二次主题漂移” 检索模式 来快速趋近用户需求,需要两步走来完成 “ 关键词 ” 到 “ 文档 ” 第一次主题漂移 由于人的喜好各有不同,计算机应用方面的能力参差不齐,寄希望于用户自身提高用检索词来表达查询意图的做法是不可行的。这样只有假设用户在使用自然语言作为检索词 , 清楚 地 表达自己的检索主题,而检索系统通过自然语言处理( 手段来解决对用户检索需求的理解 。目前本体论( 自然语言的研究领域一直在做这方面的研究,但是由于中文语言历史中国农业科学院硕士学位论文 第一章 引言 7 悠久、内涵丰富,自然语句歧义、缩略倒置等诸多语义结构使得这方面的研究进展缓慢。而且这个问题即使使用人工智能等方法能够解决,计算机所推理出的用户检索需求也是落后于当前用户的 情境点,因此本文把这类问题的解决直接交给用户,首先使用全文检索这种数据检索的方式,根据用户输入的关键词 , 匹配出能代表检索主题的文档集,在文档集的基础上由用户根据自己当前的情境点 , 来选择文档作为一个新的查询请求,从用户需求的角度上来说,当用户选择了某一个文档的时候,应该说 , 这篇文档一定程度上接近了用户的检索需求,本文认为这是实现从 “ 关键词 ” 到 “文档” 的“第一次主题漂移” ,即认为 用这个“文档”可以更好地表示用户当前的检索需求 。 “ 文档 ” 到 “ 文档 ” 第二次主题漂移 在完成了“第一次主题漂移”的基础上,也就是说用 户所选择的文档在一定程度上接近了用户的检索需求,那么通过把这篇具有完整语义的文档作为新的查询请求,通过文档相似性的分析,检索出与这个文 档匹配的文档 集,应该说这个文 档集中的文档 更趋近于用户的检索需求,本文称之 为“第二次主题漂移”。反复循环“二次漂移”这个过程,就能够快速地 完成用户的查询请求。“第二次主题漂移”的核心是通过文挡逻辑视图的不断优化,使得文档的索引文件中的数学结构能够较好 地 体现文档相关性这一重要特 性,从而在对代表用户选择的检索文档进行匹配运算时能够较好 地 返回 文档来。由于文档逻辑视图便于计算机实现且数 学模型构建相对容易,目前这方面的进展很多 , 主要有布尔模型、向量模型和概率模型,这三种模型又称为经典模型。随着时间的推移,经典模型又发展出各自新的数学模型,其中潜在语义索引( 是 本文所感兴趣的一种数学模型,研究该数学模型以及解决该模型当前所面临的问题也正是本文的切入点和主要工作。 文的写作框架 首先通过研究背景的分析在绪论中提出“二次主题漂移”检索 模式 。第二章综述全文检索与语义检索技术,为后面的研究奠定技术基础。第三章提出基于 法的语义检索技术实现方法,第四章 根据 第三章介绍的 法,构建一个实验系统,验证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025建筑工程监理委托合同
- 2025股权转让合同
- 初三学生国旗下演讲稿《轻装上阵迎中考 志存高远勇拼搏》
- 运维服务管理优化汇报
- 模拟有限责任公司设立登记流程
- 脓胸的护理常规
- 2025年环境监测测验试题
- 公司财务报销费用培训
- 2025年中医执业医师考试中药学知识点总结模版
- 新质生产力日报
- 航空货运跨境电商物流新业态分析
- 水稻工厂化育秧技术规程
- MOOC 工程经济学原理-东南大学 中国大学慕课答案
- 经济博弈论(山东联盟)智慧树知到期末考试答案2024年
- 酒吧计划创业计划书
- 《中医常用护理技术基础》课件-一般护理-第二节生活起居护理
- 2024届高考英语作文复习专项:读后续写“助人为乐”类范文5篇 讲义素材
- 车站服务员服务技能汇总课件
- GNSS测量技术:GNSS组成与卫星信号
- 中小学教务主任培训
- 对校长(园长)任前集中廉政谈话提纲
评论
0/150
提交评论