已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)客户端个性化信息搜索服务研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中南民族大学硕士学位论文 i 摘 要 随着 web 信息的爆炸式增长如何快速准确地从浩瀚的信息资源中寻找到所需 信息已经成为困扰人们的一大难题传统搜索引擎技术满足了人们一定的查询需要但 由于其通用的性质仍然不能满足不同背景不同目的和不同兴趣爱好的用户个性化需 求个性化信息搜索服务就是针对这个问题提出来的 个性化信息搜索服务是指针对不同用户的不同特点提供不同的服务策略和服务内 容其实现方式可以在客户端也可以在服务器端本文主要研究的是客户端个性化信 息搜索服务 本文讨论了一般搜索引擎系统的结构和工作过程阐述了实现搜索引擎的各个关键 技术提出了下一代搜索引擎即个性化搜索引擎的定制服务的发展过程讨论了个性化 信息搜索服务定义分类及其特点以及客户端个性化搜索引擎体系架构和个性化相关 算法等 用户兴趣的获取技术可分为被动获取和主动获取两种方式本文提出的基于模板的 用户个性化搜索把两种方式结合起来其中建立初始用户兴趣描述的实现属于被动获取 方法主要是利用用户对模板的信息输入来获取用户的兴趣信息从而初步获得用户的 兴趣模型收集用户反馈信息的实现属于主动获取它不需要用户亲自输入自己感兴趣 的内容而是从用户平时的网络浏览习惯去主动发现用户的兴趣进一步优化用户兴趣 模板本文实现的基于用户隐式信息的个性化搜索也是属于主动获取方式 根据目前个性化信息搜索服务的分类特点针对存在局域网的网络本文提出了一 种三级用户兴趣结构模型即在客户端和局域网服务器端同时实现个性化处理这样可 以让用户体验更完美的个性化信息服务 另外针对目前描述用户兴趣用一元组的向量描述方法本文提出了新的用户兴趣 描述方法第一种是用森林结构来描述用户兴趣这样用户兴趣的各方面会得到更合 理的表述还有一种是根据前面提出的三级兴趣结构模型引申出的多级结构来描述用户 兴趣 最后本文在 windows 平台上使用 java 语言以及 lucene 工具包开发了一个基于 客户端个性化信息搜索服务研究 ii lucene 的全文搜索引擎实验原型系统 在此基础上实现了本文提出的几种个性化信息服 务的研究思路针对目前还没有一种搜索引擎反馈给人们按日期排序的新闻搜索结果的 状况本文设计的新闻排序搜索系统具有现实的意义最后进行了全文总结并提出了进 一步研究工作的设想 关键词搜索引擎个性化客户端客户代理l u c e n e 中南民族大学硕士学位论文 iii abstract with the explosive growth of web informationhow to quickly and accurately find the necessary information from the vast information resources has become a major challenge. though the traditional search engine technology meets the peoples needs to a certain degree, however, because of its universal nature, it still can not meet the users individuation needs of the different backgrounds, different purposes and different interests. the individuation information search service aiming at this problem has been proposed. individuation information search service for different users refers to the different characteristics of services provides different service strategies and contents. individuation information service includes the client-side form and the server-end form, this paper mainly studies the individuation information service of client-side form. this paper shows the common search engine systems structure and the working process, elaborates key technologies of realizing a search engine, proposes the developing process of realizing the individuation information servicediscusses the definition of individuation information search service, its classification and characteristics. the construction of client-side individuation search engine and individuation searching algorithm are presented. generally speaking, there are two ways to gather users interests: passive and active. the individuation search based on template proposed by this paper unified these two ways. and the realizing of establishing the initial users interests description belongs to the passive way, which mainly gathers users interests information by templates information inputs, and the original interests model is obtained. the realizing of collecting users feedback information belongs to the active way, which does not need the user to input the interested information personally, but actively discover the users interests from the users usual network browsing customs, and then the users interests model can be further optimized. the personalized search based on the users implicit expression information also belongs to the active way. according to current individuation information service classification, this paper proposes 客户端个性化信息搜索服务研究 iv a three-level users interests structural model aimed to lan. the model means the individuation process simultaneously processed both on the client-side and the sever-end, this may let the user experience the individuation information service more perfect. this paper proposes new methods of describing the users interests to improve the tuples vector description of users interests. the first kind describes the users interests with the forest structure, the various aspects of users interests will get a more reasonable description. another kind is the multistage structure which expands the three-level interests structural model discussed above. finally, this paper has developed a full text search engine experiment prototype system based on lucene by using the java language on the windows platform. based on this platform we has realized several kinds of individuation information search service proposed in this paper. a news search system sorted according to the date implemented by this paper has realistic significance, for no such sorting rule adopted by any news search system at present. in the ending part of this paper we summarized the whole text and made further research works tentative plan. keywords: search engine; individuation; client-side; client agent; lucene 中南民族大学 学位论文原创性声明 本人郑重声明 所呈交的论文是本人在导师的指导下独立进行研究所取得 的研究成果除了文中特别加以标注引用的内容外本论文不包含任何其他 个人或集体已经发表或撰写的成果作品对本文的研究做出重要贡献的个人 和集体均已在文中以明确方式标明本人完全意识到本声明的法律后果由 本人承担 作者签名 日期 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅 和借阅本人授权中南民族大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学 位论文 本学位论文属于 1保密在_年解密后适用本授权书 2不保密 请在以上相应方框内打 作者签名 日期 年 月 日 导师签名 日期 年 月 日 中南民族大学硕士学位论文 1 第 1 章 绪 论 1 . 1 背景与选题依据 1.1.1 研究背景 计算机技术和网络技术的发展与普及为人们自由获取全球范围内的信息提供了 条件但同时也导致网上信息的爆炸式增长因特网从产生到现在不过 20 多年的时间 但目前因特网上的信息量相当于人类过去 100 年产生的信息总量由于网上信息浩繁纷 杂 信息的价值正在被创造海量信息的网络所削减 在这种情况下 搜索引擎应运而生 暂时缓解了这一矛盾据中国互联网络信息中心cnnic2007 年 1 月发布的第 19 次 中国互联网络发展状况统计报告统计1截至 2006 年底 全国网页数和网页字节总数分 别为 44.7 亿个和 122,306gb据 cnnic 统计1网民获取信息最主要的途径单选 是网络 占 47.4%网民经常使用的网络服务/功能 多选 依次是 收发邮件 占 56.1% 浏览新闻占 53.5%搜索引擎占 51.5%获取信息产品服务查询工作信息查 询医疗健康服务查询政府信息查询等占 41.0%等网络的普及带来了信息交 流的便利通过网络我们可以及时了解到地球上任何一个角落所发生的新闻通过网络 我们可以认识不同国籍不同肤色不同年龄的朋友通过网络我们几乎可以获得我们所需 要的一切知识网络集工作学习生活娱乐为一体满足了不同年龄不同层次用 户的需求它作为一种传播媒体正在以越来越丰富的内涵不断改变着人们的生活以 越来越快的速度不断刷新着历史 虽然搜索引擎的出现解决了人们如何获取信息这一问题但是因为网络的无所不包 带来了一大堆的问题信息的质量良莠不齐信息内容的真假难辨信息数量的日益庞 大信息安全的岌岌可危技术的进步使得人们获取信息变得越来越容易却需要花 费大量的时间和精力从庞大芜杂的信息中挑选出符合要求的一小部分如何才能使用户 从查找过滤的工作中解脱出来呢于是个性化信息搜索服务的概念被人们提出来并渐 渐成为目前信息服务研究的热点之一 客户端个性化信息搜索服务研究 2 1.1.2 搜索引擎的分类 按照信息搜集方法和服务提供方式的不同搜索引擎系统可以分为三大类 1全文搜索引擎(full-text search engine) 全文搜索引擎2是名副其实的搜索引擎它 由一个称为蜘蛛spider的机器人程序以某种策略自动地在互联网中搜集和发现信息 由索引器为搜集到的信息建立索引由检索器根据用户的查询输入检索索引库并将查 询结果返回给用户这种搜索引擎的服务方式是面向网页的全文检索服务该类搜索引 擎的优点是信息量大更新及时毋需人工干预缺点是返回信息过多有很多无关信 息用户必须从结果中进行筛选这类搜索引擎的代表是altavistanorthern light exciteinfoseekinktomi fastlycos google国内代表为“天网” 悠游 openfind 等它们都是从互联网上提取各个网站的信息以网页文字为主在所建立的数据库 中检索与用户查询条件匹配的相关记录然后按一定的排列顺序将结果返回给用户 因此他们是真正的搜索引擎 2目录式搜索引擎(directory search engine) 以人工方式或半自动方式搜集信息由 编辑员查看信息之后人工形成信息摘要并将信息置于事先确定的分类框架中信息 大多面向网站 提供目录浏览服务和直接检索服务 该类搜索引擎因为加入了人的智能 所以信息准确导航质量高缺点是需要人工介入维护量大信息量少信息更新不 及时3这类搜索引擎的代表是yahoolooksmartopen directorygo guide 等 3元搜索引擎(meta search engine) 这类搜索引擎没有自己的数据而是将用户的查 询请求同时向多个搜索引擎递交将返回的结果进行排除重复重新排序等处理后作 为自己的结果返回给用户其服务方式为面向网页的全文检索这类搜索引擎的优点是 返回结果的信息量更大更全缺点是不能够充分使用所使用搜索引擎的功能用户需 要做更多的筛选4这类搜索引擎的代表是 webcrawlerinfomarket 等 1.1.3 国内外发展现状 这里首先介绍一些在国内外影响比较大的搜索引擎和分类目录站点由于现在的站 点一般都同时提供全文搜索和分类目录两种服务所以我们按照其自有的技术进行分类 和介绍 中南民族大学硕士学位论文 3 1. 主要的全文搜索引擎 google( 成立于 1997 年几年间迅速发展成为 世界范围内规模最大的搜索引擎google 数据库现存有 42.8 亿个 web 文件每天处理 的搜索请求已达2亿次 而且这一数字还在不断增长 google借用dmoz(/) 的分类目录提供“网页目录”查询但默认网站排列顺序并非按照字母顺序而是根据网 站 pagerank 的分值高低排列 百度 己的网络机器人和索引数据库专注于中文的搜索引擎市场除有网页搜索外百度还 有新闻mp3图片flash等搜索错别字纠正提示并在 2003 年底推出“贴吧”按 地域搜索等功能 中国搜索 在联合中国网等 30 多家知名网站的基础上在 2002 年 9 月 25 日正式组建了中国搜 索联盟 经过一年多的发展 联盟成员已达 630 多家 成为中国互联网一支重要的力量 由于发展迅速慧聪集团借上市之机将慧聪搜索更名为中国搜索全力发展其在搜索 引擎方面的业务以打造中文搜索领域的全新品牌 2. 主要分类目录的搜索引擎 雅虎中国分类目录 录现有 14 个主类目包括“商业与经济”“艺术与人文”等可以逐层进入进行检索 也可以利用关键词对“分类网站”进行搜索此外雅虎中国也可以对“所有网站”进行关 键词搜索早期雅虎的搜索结果使用 google 的数据在 2004 年 2 月正式推出自己的 全文搜索引擎后结束了与 google 的合作 新浪分类目录 18 个大类目 用户可按目录逐级向下浏览直到找到所需网站就好像用户到图书馆找书一样按照 类别大小层层查找最终找到需要的网站或内容通过和其它全文搜索引擎的合作 新浪现在也可以使用关键词对 “分类网站”或“全部网站”进行搜索 搜狐分类目录 的方法就是将每个网站首页的 url 地址提供给搜索用户并且将网站的题名和整个网 站的内容简单描述一下但是并不揭示网站中每个网页的信息内容除此之外也可以 客户端个性化信息搜索服务研究 4 使用关键词对搜狐的“分类目录”或所有网站进行搜索 网易分类目录 方式在功能齐全的分布式编辑和管理系统的支持下现有 5000 多位各界专业人士参 与可浏览分类目录的编辑工作极大地适应了互联网信息爆炸式增长的趋势在加强与 其它搜索引擎合作的基础上新版搜索引擎支持使用关键词对所有网站进行检索 目前搜索引擎领域的商业开发非常活跃各大搜索引擎公司都在投巨资研制搜索引 擎系统同时也不断地涌现出新的具有鲜明特色的搜索引擎产品搜索引擎已经成为信 息领域的产业之一在这种情况下对搜索引擎技术相关领域的学术研究得到了大学和 科研机构的重视如 stanford 大学在其数字图书馆项目中开发了 google 搜索引擎在 web 信息的高效搜索文档的相关度评价大规模索引等方面作了深入的研究取得了 很好的成果 nec 美国研究所的 steve lawrence 和 c. lee giles 1998 年和 1999 年连续两年在 自 然 和 科学 杂志上撰文对搜索引擎技术的研究进行评述 著名的信息检索会议 trec 也从 1998 年开始增加了 web track 课题以考察 web 文档与其它类型文档在检索性质 上的不同之处 并在大规模的 web 库 如 100g字节 上进行信息检索的算法性能测试 由美国 infornotics 公司主办的搜索引擎国际会议从 1996 年开始每年举行一次 对搜索引擎技术进行总结讨论和展望参加者有著名的搜索引擎公司大学和研究机 构的学者对搜索引擎技术起到了很好的推动作用另外象 ieee 主办的国际万维网会 议人机交互会议已有越来越多关于搜索引擎技术研究的文章发表 国内先后有北京大学清华大学国家智能研究中心等高校和研究单位对搜索引擎 技术开展研究并开发出了几个较好的系统如由北京大学计算机系网络研究室开发的 “天网”中英文搜索引擎(:8000/gbindex.htm),在系统规模及系统性 能方面达到了国外中型搜索引擎系统的技术水平为国内用户提供了很好的互联网搜索 服务受到了用户的好评 1.1.4 目前搜索引擎存在的问题 当前人们主要是借助搜索引擎来进行信息查找和定位 它通过自动浏览程序对 web 站点进行自动搜索对文档信息进行分类索引建立索引数据库然后再根据用户提交的 中南民族大学硕士学位论文 5 关键词来检索将匹配站点的 url 返回给用户用户再选择链接完成信息的搜索过 程5目前的搜索引擎虽然也不断完善和发展但仍存在一些亟待解决的问题主要表 现在以下几个方面 1. 重复信息多死链接多 返回给用户的信息存在大量的重复目前的搜索引擎没有很好的解决这个问题另 外在检索的结果中存在大量的死链接不能定位到检索的页面 2. 覆盖面窄检索结果质量差检索的召回率和准确率低 返回的检索结果含有大量无关和冗余信息需要用户自己去逐个鉴别和挑选费力 耗时 浪费大量的上网时间和费用 这就使有用信息匮乏 一方面网络信息过载和泛滥 另一方面用户却难以得到真正需要的信息出现了假性饥饿现象 3. 缺乏为用户提供的检索导航信息 www 是一个结构复杂的巨大的信息网络用户很容易迷失其中而无法顺利快速 地找到自己所需的目标目前虽然有专门进行网络导航的搜索引擎但是针对个人用户 的导航还远远不够有待于进一步深入研究个性化的检索导航技术 4. 为用户定制服务的能力差 用户的需求是多种多样的每个用户的需求各有不同如果允许用户定制自己的特 殊需求在用户提交的定制服务基础上自动提供所需要的信息将在最大程度上满足用户 的需求然而目前绝大多数搜索引擎不提供这样的服务 5. 提供主动服务和个性化服务能力差 为了提高用户的检索效率和效果必须分析理解用户群体或个人的检索习惯兴 趣和关注点并据此主动提供其感兴趣的信息即提供主动服务和个性化服务克服传 统的搜索引擎只能被动地提供服务的缺陷目前这方面的研究很多但是应用于实际的 还很少 传统搜索引擎缺乏个性化的局限性具体表现在 网络信息覆盖面广形式各异而传统搜索引擎对所有用户提供相同的界面和 服务并且检索的结果成千上万良莠不齐用户为找到真正感兴趣的信息往往要耗 费大量的时间和精力 人们由于年龄性别职业学历爱好等不同各自感兴趣的领域也随之不 客户端个性化信息搜索服务研究 6 同各自对词义的理解也不尽相同不同的用户对同一检索请求得到的结果常常有不同 的评价而目前传统搜索引擎不能体现用户的信息需求个性即传统搜索引擎提供的服 务是面向检索而不是面向用户的 用户在不同时期或阶段对同一检索请求所得到的是仍完全相同的检索结果 对用户不具有自适应能力 用户使用搜索引擎时带有一定的目的性但由于相关领域知识的不足和搜索引 擎的查询接口的局限性而无法明确表达自己的搜索意图 造成上述信息检索困难的实质在于传统搜索引擎对于所要检索的信息仅仅采用机 械的关键词匹配不是从用户输入关键词的语义语境上的匹配不能对关键词进行词 义分析和词义扩展缺乏知识处理能力和理解能力6也就是说搜索引擎无法处理在用 户看来是非常普遍的常识性知识更不能处理随用户不同而变化的个性化知识随地域 不同而变化的区域性知识以及随领域不同而变化的专业性知识等因此用户期盼更完 美的搜索技术的出现 作为下一代搜索引擎的个性化搜索引擎的研究及实现成为必然7 1.1.5 搜索引擎的发展趋势 搜索引擎是伴随着互联网的发展而不断发展的由于互联网已经成为人们学习工作 和生活中不可缺少的平台几乎每一个上网的人都会使用搜索引擎围绕搜索已经形成 一个重要的产业链有些媒体甚至造出了“搜索经济”这个词 有资料分别从互联网资源组织的角度用户信息体验的角度互联网资源获取与更 新策略的角度等三个方面分析了下一代搜索引擎的发展趋势8分析结果表明下一代 搜索引擎的发展趋势将是智能化的个性化的我们认为总的来说实现个性化信息 服务需要经历四个阶段的变化 首先是支持自然语言搜索第一个支持自然语言搜索的搜索引擎是 1995 年 12 月 登场亮相的 altavista它具备给予网页内容分析智能处理的能力是第一个实现高级 搜索语法的搜索引擎这个搜索引擎的推出具有划时代的意义 个性化发展第二阶段是信息的排序分类等这其中当然还包括消重处理1997 年 8 月 northernlight 公司推出的搜索引擎是第一个支持对搜索结果进行分类的搜索引 擎这时搜索引擎向个性化的方向又迈进了一大步 中南民族大学硕士学位论文 7 第三个阶段是实现数据挖掘功能简言之就是将用户搜索的与之相关的信息也反 馈给用户供用户参考1998 年 10 月google 的诞生实现了这一功能搜索引擎越来 越人性化 第四个阶段的搜索引擎应该具有人工智能推理的特点更专业化智能化可 以根据用户的需要进行排序并且搜索引擎本身具有启发式的思维可以根据用户的特 点对搜索结果进行过滤和调整可以反馈给用户他最想知道的信息这时搜索引擎将真 正迈入个性化阶段 目前关于搜索引擎的发展趋势大致有以下三种观点 第一种观点认为“垂直搜索”或者叫做“专业搜索”是未来搜索引擎的发展趋势这是 相对于那些什么都做的通用搜索引擎而言的对于通用搜索引擎无论是信息采集还 是信息的更新都是巨大的挑战将搜索引擎限定在某个领域有利于做深做精因此 这种方式从经营模式上有其价值就像图书馆也有专业的图书馆一样但是从技术 上讲并没有多大的新意 第二种观点认为下一代搜索引擎应能处理深层网页deep web所谓深层搜索是 指搜索那些放在数据库中的信息目前的搜索引擎主要处理普通的网页称为浅层网 页对于深层网页的信息难以搜索而据说这样的信息是普通网页的 500 倍显然 如何能够将搜索引擎的触角深入到数据库里去是下一代搜索引擎所关心的但是这 里的技术关键是如何获得数据库中的全部信息这种技术是信息获取技术中的一部分 并不能代表下一代搜索引擎的本质 第三种观点认为下一代搜索引擎必须是跨媒体的也就是说用户通过统一的界面 和单一的提问就能够获得以各种媒体形式存在的语义相似的结果无疑这是我们所 提到的良好的个性化信息体验中所需要的功能但是这一功能的获得也需要分解成 对数据对象的语义标注和个性化的信息展示这两个方面 1.2 论文研究的意义 在当前主流的搜索引擎和未来一代搜索引擎的设计中信息检索的个性化是下一代 搜索引擎的重要特征个性化搜索引擎不仅可以提高搜索引擎的检索效率而且能提高 搜索引擎相关参数以及实现结果的人性化个性化搜索引擎作为个性化信息服务的组成 客户端个性化信息搜索服务研究 8 部分为更好地满足人们需求首先需要建立对用户的科学描述然后才能针对不同的 用户提供个性化的服务我们需要真正考虑用户的特点动机和需求以用户为中心来 构建检索的方法技术过程与结果个性化信息检索就是基于这样的思想提出来的 另外 根据 c n n i c 发布的第 1 9 次中国互联网络发展状况统计报告统计1对个人隐 私的保护表示满意的仅占 8 . 8 % 可见人们已经越来越重视在浏览网络信息的同时对 自己隐私信息的保护鉴于以上种种原因本文提出了在客户端实现个性化搜索的研究 思路并实现了一个原型系统避免了所谓的隐私问题同时也实现了个人搜索习惯的定 制因此本文的研究具有重要的现实意义 1.3 论文研究的内容 本文共分 4 章内容安排如下 第 1 章论述了本论文的研究背景和选题依据介绍了搜索引擎的分类与国内外发展 现状以及目前搜索引擎存在的问题提出了搜索引擎的发展趋势最后说明了本论文研 究的意义及研究内容 第 2 章说明了一般搜索引擎系统的结构和工作过程阐述了实现搜索引擎的各个关 键技术并详细介绍了中文分词倒排索引等技术 第 3 章说明了搜索引擎的个性化信息服务定义分类及其特点讨论了客户端个性 化搜索引擎体系架构和个性化搜索算法提出了几种实现个性化服务和获取用户兴趣的 方式并给出一种三级用户兴趣结构模型和两种用户兴趣描述的方法 第 4 章利用 lucene 函数包实现了一个搜索引擎实验原型系统详细说明了本系统 各个功能模块的设计和实现详细介绍了本论文提出的几种个性化信息服务的处理方 法并在此实验平台上予以实现 最后在结论中对全文进行了总结并提出了进行下一步研究的工作设想 本文的创新点如下 1 . 提出下一代搜索引擎即个性化搜索引擎的定制服务的发展过程并且分别阐述 了在客户端和服务器端实现个性化信息服务的特点 2. 根据目前个性化信息服务的分类特点针对存在局域网的网络提出一种三级 用户兴趣结构模型另外针对目前描述用户兴趣用一元组向量描述方法的不足提出 中南民族大学硕士学位论文 9 两种新的用户兴趣描述方法 3 . 实现了一个客户端搜索引擎的原型系统并在此基础上实现了本文提出的几种 个性化搜索服务的研究思路提出了搜索结果可以按日期排序特别适用于新闻搜索引 擎 客户端个性化信息搜索服务研究 10 第 2 章 搜索引擎相关技术 2.1 搜索引擎概述 2.1.1 搜索引擎的结构 目前有多种商业和非商业搜索引擎虽然它们之间在某些方面存在不同程度的差 异但他们的体系结构总的来说都是大同小异的下图 2.1 是一般搜索引擎的体系结构 图9 图 2.1 搜索引擎的体系结构 如上图所示目前的搜索引擎主要由搜索器索引器检索器和用户接口四个部 分组成 1. 搜索器 搜索器的功能是在互联网中漫游发现和搜集信息它常常是一个计算机程序日 中南民族大学硕士学位论文 11 夜不停地运行它要尽可能多尽可能快地搜集各种类型的新信息同时因为互联网上 的信息更新很快所以还要定期更新已经搜集过的旧信息以避免死连接和无效连接 搜索器根据一定的网页搜集策略和规划 调度运行网页自动搜索软件 如 crawl spider pur-suitharvest 等对互联网上的网页进行快速有效的搜集并将它们存入搜索引擎 的网页数据库中 2. 索引器 索引器的功能是理解搜索器所搜索的信息 从中抽取索引项用于表示文档以及生成 文档库的索引表此外还包括去除重复网页分析超链接计算网页的重要度等功能 索引器对已经采集到的网页进行分析负责从网页库中读取网页解压并解析网页 对每一页记录词频位置字体大小和字母大小写等信息 3. 检索器 检索器的功能是根据用户的查询在索引库中快速检索出文档 进行文档与查询的相 关度评价对将要输出的结果进行排序并实现用户相关性反馈 4. 用户接口 用户接口的作用是便于输入用户查询关键词显示查询结构提供用户相关性反馈 机制 主要的目的是方便用户使用搜索引擎 高效率 多方式地从搜索引擎中得到有效 及时的信息用户接口的设计和实现使用人机交互的理论和方法以充分适应人类的思 维习惯用户接口分为简单接口和复杂接口两种类型简单接口只提供用户输入查询串 的文本框复杂接口可以让用户对查询进行限制10为了方便用户的使用设计良好的 搜索引擎应该拥有人性化的人机界面使用户可以方便的查询信息并显示查询结果目 前一些公司和机构正在考虑制定查询选项的标准 2.1.2 搜索引擎的工作过程 搜索引擎的工作过程可以简单地描述为利用搜索器定期在 internet 上发现新的网 页并把它们取出来放到本地数据库中用户查询请求可以通过查询本地数据库来得到 结果 搜索引擎的工作过程主要包括信息搜集信息整理和接受查询三部分 1. 信息搜集搜索引擎的信息搜集基本都是自动的搜索器根据网页链到其他网 客户端个性化信息搜索服务研究 12 页的超链接从少数几个网页开始链接到其他网页理论上若网页上有适当的超链 接搜索器便可以遍历绝大部分网页 2. 信息整理搜索引擎整理信息的过程称为“建立索引”搜索引擎不仅要保存搜 集起来的信息还要将它们按照一定的规则进行编排这样搜索引擎根本不用重新翻 查它所有保存的信息从而能迅速找到所要的资料想象一下如果信息是无规则地随 意堆放在搜索引擎的数据库中那么它每次找资料都得把整个资料库完全翻查一遍如 此一来再快的计算机系统也不能胜任 3. 接受查询用户向搜索引擎发出查询搜索引擎接受查询并向用户返回资料 搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询它按照每个用户的 要求检查自己的索引在极短时间内找到用户需要的资料并返回给用户目前搜索 引擎返回的结果主要是以网页链接的形式提供的通过这些链接用户便能到达包含自 己所需资料的网页11通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信 息以帮助用户判断此网页是否含有自己需要的内容 2.1.3 搜索引擎的性能指标 我们可以将 web 信息的搜索看作一个信息检索问题 即在由 w e b 网页组成的文档库 中检索出与用户查询相关的文档所以我们可以用衡量传统信息检索系统的性能参数- 召回率recall和精度precision衡量一个搜索引擎的性能 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率衡量的是检索 系统搜索引擎的查全率精度是检索出的相关文档数与检索出的文档总数的比率 衡量的是检索系统搜索引擎的查准率对于一个检索系统来讲召回率和精度不可 能两全其美召回率高时精度低精度高时召回率低对于搜索引擎系统来讲因 为没有一个搜索引擎系统能够搜集到所有的 w e b 网页所以召回率很难计算目前的搜 索引擎系统都非常关心精度 影响一个搜索引擎系统的性能有很多因素最主要的是信息检索模型包括文档和 查询的表示方法评价文档和用户查询相关性的匹配策略查询结果的排序方法和用户 进行相关度反馈的机制其次是数据源自身的问题比如是否含有大量冗余网页和重复 网页大量的冗余数据会极大地降低搜索引擎系统建立索引的效率降低搜索性能 中南民族大学硕士学位论文 13 2.2 搜索引擎的关键技术浅析 2.2.1 搜索引擎的搜索技术 搜索技术是指在互联网中发现和搜集信息的技术搜索器就是利用搜索技术实现 的它可以自动地在网络中穿梭该程序最重要的功能是使用索引策略也就是查找网 站和网页的次序如果把整个 internet 看作是一颗树的话那么搜索技术的基本工作原 理就可以认为和搜索树一样这在计算机中可以方便地使用递归算法实现12 目前搜索器搜索网页的策略分为两种13 1. 按照深度优先宽度优先或者启发式方法发现新的网页链接 2. 把互联网上的网页信息按照域名或者 ip 地址划分为几个子域然后多个搜索器 同时搜索各个子域中的网页 搜索器搜索网页的类型和范围是可以配置的它可以搜索互联网上的所有网页也 可以只搜索含有某种文件链接的网页或者新闻网站中的网页等搜索器常常采用分布 式并行计算技术以提高信息发现和更新的速度商业搜索引擎的信息发现可以达到 每天几百万网页 2.2.2 搜索引擎的索引技术 索引的目的是理解搜索器所搜索的信息从中抽取索引项用于表示文档以及生成 文档库的索引表可以用标题url或关键词等进行索引也可以是以上几项的组合 索引项有客观索引项和内容索引项两种 客观项与文档的语意内容无关 如作者名 url更新时间编码长度链接流行度等内容索引项是用来反映文档内容的如 关键词及其权重短语单字等等内容索引项可以分为单索引项和多索引项或称短 语索引项两种单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天 然的分隔符空格对于中文等连续书写的语言,必须进行词语的切分我们将在后面 讲到中文分词技术 一个搜索引擎的有效性在很大程度上取决于索引的质量而索引的质量由索引技术 和索引策略来决定但现行的索引技术随着数据量的增大其耗费的资源成指数增长 客户端个性化信息搜索服务研究 14 极大地影响到搜索数据库的容量和检索效率可以考虑用提高索引智能化的方式来提高 索引的质量按建立索引的策略来看应确定是全文关键字提取还是内容提取根据 不同的查询目标会有不同的提取目标和提取范围最终将大大影响数据提取的速度和效 果这是索引技术所要考虑的首要问题按内容提取可以采用分类技术把页面的主题 或内容分类存入到不同的数据库中在输入关键词查询时要求第 n个关键词必须是 内容类别的词这样第 n个关键词就可以使搜索引擎知道到哪个内容类别的数据库中查 找再匹配后面的关键词这样可以大大减少系统匹配的时间这项技术要求建立在相 关词库的基础上还要统计使用频度再加上一定的算法方可实现当然上述两种机制 应有机地结合才可提高整个系统的性能 2.2.3 搜索引擎的检索技术 检索技术主要是根据用户的查询对用户的关键词进行语言分析分解成多个词或 词组在索引库中依据关键词的相关性进行匹配根据与关键词的相关程度来逐渐逼近 文档然后再对相关度的高低进行依次排序关键词出现得越多排序就越在前面在 此过程中检索技术可实现某种用户相关性反馈机制关于排序机制我们也会在后文中详 细介绍 2.2.4 搜索引擎的接口技术 搜索引擎的接口对于其使用也非常重要现在的搜索引擎接口越来越人性化智能 化简单接口只提供用户输入搜索关键词的文本框;高级接口可以让用户对查询进行限 制如逻辑运算与或非相近关系相邻near域名范围如 出现位置如标题内容信息时间长度等 2.3 文本预处理 几乎在所有信息获取系统中为了提高用户的查询精度系统运行的效率以及空间 利用率都需要对文档进行先期处理这包括基本的文档处理和建立索引 不是所有的单词都能等同地表示一个文本的语义在书面语言中一些词汇与其他 中南民族大学硕士学位论文 15 词汇相比能够表达更多的意思这样就有必要对文档进行预处理以决定对哪些词汇建 立索引在对文档进行预处理的过程中还有一些其他有用的文本操作比如无用词汇 的删除词干提取技术词典的生成和文本的压缩等 文本预处理的过程可以分为如下五个步骤 (1) 文本的词法分析它主要是处理文本中的数字连接符标点符号和字符的大 小写 (2) 无用词汇的删除它主要是过滤掉那些对于信息获取过程来说区分能力低的词 汇 (3) 词干提取它主要是取出词缀前缀和后缀这样可以允许所获取的文档包含 一些查询词条的变换形式 (4) 索引词条/词干的选择在选择的时候通常按照单词的习惯用法实际上名词往 往要比形容词副词和动词包含更多的语义 (5) 构造词条的分类结构例如词典或者结构抽取利用它可以进行查询的扩展 在中文信息的获取过程中 还需要利用中文分词技术对文本进行预处理 正如所知 关键词查询的前提是将查询条件分节成若干关键词 对英文而言 一个单词就是一个词 但中文就没有这么简单主要问题是中文词与词之间没有分界符需要人为切分此外 汉语中存在大量的歧义现象对多个字分词可能有好多种结果简单的分词往往会歪曲 查询的真正含义下面我们就来谈谈搜索引擎中的中文分词技术 2.4 中文分词 2.4.1 分词 信息检索的基础是对文本的分析而对文本的分析在很大程度上是一种对语言的处 理当把内容锁定到对语言的处理上时整个处理的难度就陡然增加了在我们的生活 中要对语言文本进行正确的分析并非一件简单的事这里所指的分析其实最主要 的一件事是能够对完整的语句进行分词 分词 就是把一个完整的句子分成一个个词条(token)的过程14在建立索引的时候 写入索引并能够被用户检索的是一个个的词条所谓词条其实就是通过分析器进行分 客户端个性化信息搜索服务研究 16 词和相关处理后的文本只有通过分词才可能让信息检索系统理解用户的检索请求进 而为其搜索相关的内容 需要注意的一点是在建立索引时使用的分词工具与在分析用户的检索请求时所 使用的分词工具应当是同一个或是具有同种分词效果的比如有一段文本 abcd 在建立索引时被分成了 ab/cd这样索引中就只存储了 ab 和 cd 这样两个词条倘 若在对用户检索请求进行分析时使用了不同的分词器将 abcd 这段文本分成了 a/bcd即切成了 a 和 bcd两个词条那么检索器就无法在索引中找到与之相匹配的 词条了也就无法检索到用户的请求了 对于一个工作良好的搜索引擎来说分词是必不可少的一个核心模块分词的质量 将直接决定搜索引擎的搜索精度分词的速度也将影响搜索的速度因此一些直接面 向广域网的大型 web 搜索引擎都有自己的分词工具 2.4.2 中文分词的方式 众所周知中文是世界上最复杂的语言之一要想对中文进行完全精确的分词能 够正确表达其内在的含义几乎可以说是不可能的任务这是因为当汉字的排列组合不 同时相同汉字就会出现不同的词性和不同的词义另外还要考虑到汉字所处的上下 文语境因此想让计算机理解并正确分词中文非常困难 通常在遇到需要对中文进行分词的情况时会采取以下几种方式来分词 1. 单字分词 单字分词顾名思义就是在对中文文本进行分词时以字为单位进行切分如果 按照这种方式进行索引建立在索引中所有的词条的集合就是中文汉字库的一个子集 和gb2312 标准包括大约 7000 个汉字15而 gbk 标准中包括大约 21000 个汉字16 也就是说索引中总共的词条数量将不超过 21000 个 字索引最显著的一个特点就是索引中的词条数目可以受到控制因为无论词条的 数目如何增加常用的也就是那 7000 个 同时字索引也比较灵活因为所有的词都可以被表示成多个连续的字只要用户 检索的词或句子以相同的顺序出现在一篇文档中就认为该文档应当存在于结果集中 不存在无法查到的情况 中南民族大学硕士学位论文 17 但是它的问题也是显而易见的那就是它需要复杂的单字匹配算法以及大量的 cpu 运算另外对于每个由词条和位置列表组成的条目来说当使用字索引时通常 后面的位置列表部分会非常长因为一个字出现在多篇文档中的概率要比一个由多个字 组成的词出现在多篇文档中的概率高很多这样就使后台在查找时需要更多的计算 用于确定一个词语是否出现在一篇文档中 2. 二分法 所谓二分法就是将每相邻的两个字当作一个词语进行切分然后建立索引例如 有这样一段文本 中华人民共和国 当使用二分法进行切分时切分出来的词条应该是如下所示 中华 华人 人民 民共 共和 和国 这种切分方式看似有些弱智但是它显著减少了每个词条后位置信息的长度对 提高搜索过程的速度减少运算量有巨大帮助 3. 词典分词 通过构造一个常用词词典来对所遇到的文本进行词语的切分这种方式就叫做词典 分词毫无疑问词典分词的准确性肯定是几种中文分词方法中最高的因为词典中的 词都是经过验证并确定为语言中的一个基本语义单位的 使用词典分词法在文本中匹配单词一些常用的算法17如下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 尿路感染常见症状识别及护理方案
- 联通职业规划指南
- 抑郁症常见症状及护理疗法
- 辣妈辣妹电影介绍
- 2026 儿童适应能力现实世界拓展课件
- 哮喘发作症状解读及急救护理要点
- 求职服务收费标准
- 肋骨骨折症状分析与护理措施
- 多囊肾病特征分析及护理建议
- 2026 儿童适应能力城市化进程适应课件
- 关工委知识培训探讨课件
- 合理使用抗生素知识培训课件
- 新房验收验房清单(毛坯+精装)
- 2025年湖南高考物理试卷(原卷+答案)
- 2025 SMETA确保员工合法工作权的核查程序-SEDEX验厂专用文件(可编辑)
- 职业指导师课件材料
- 学堂在线研究生素养课-积极心理与情绪智慧期末考试答案
- 环卫工人安全培训
- 食品生产企业有害生物风险管理指南
- 工程热力学教案1(05版)
- 全国各气象台站区站号及经纬度
评论
0/150
提交评论