欢迎来到人人文库网! | 帮助中心 人人文档renrendoc.com美如初恋!
人人文库网
全部分类
  • 图纸下载>
  • 教育资料>
  • 专业文献>
  • 应用文书>
  • 行业资料>
  • 生活休闲>
  • 办公材料>
  • 毕业设计>
  • ImageVerifierCode 换一换
    首页 人人文库网 > 资源分类 > DOC文档下载  

    个性化元搜索引擎的研究与设计.doc

    • 资源ID:108085       资源大小:101.50KB        全文页数:10页
    • 资源格式: DOC        下载积分:6积分
    扫码快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 支付宝登录   QQ登录   微博登录  
    二维码
    微信扫一扫登录

    手机扫码下载

    请使用微信 或支付宝 扫码支付

    • 扫码支付后即可登录下载文档,同时代表您同意《人人文库网用户协议》

    • 扫码过程中请勿刷新、关闭本页面,否则会导致文档资源下载失败

    • 支付成功后,可再次使用当前微信或支付宝扫码免费下载本资源,无需再次付费

    账号:
    密码:
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源(1积分=1元)下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    个性化元搜索引擎的研究与设计.doc

    I目录目录.I1引言.11.1课题背景.11.2研究的目的和意义.11.3国内外现状.21.3.1搜索引擎.21.3.2元搜索引擎.21.3.3元搜索引擎的分类.21.3.4元搜索引擎的性能评价指标体系.31.3.5元搜索引擎的国内外相关研究工作.41.4主要研究内容.41.5论文结构.52相关技术.62.1引言.62.2常见元搜索引擎的原理及体系结构.62.3元搜索引擎的检索结果合成技术.62.3.1去重.72.3.2排序.72.3.3结果排序中的主要算法.72.3.4结果排序中存在的问题.72.4元搜索引擎的检索接口技术.82.4.1统一的检索界面.82.4.2查询表达式转换技术.82.4.3成员搜索引擎的调度策略.8个性化元搜索引擎的研究与设计11引言1.1课题背景随着Internet以及相关技术的发展和成熟,人们已经进入了信息量极大丰富的时代。自从1991的Internet诞生以来1,它已经发展成为拥有约上亿用户和几千万个站点、十几亿个网页的巨大分布式信息空间,而且这数字仍以每四个月以第六个月翻一番的速度迅猛增长。由InternetDomainSurvey统计,从1996年到2001年,Internet上的主机数量从两千万增长到一亿四千万。Internet作为一个信息平台在人们的生活和工作中发挥越来越重要的作用,人们越来越多地通过Internet获取信息。然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet上的信息过于庞杂,而且具有不稳定和变动快的特点,没有也不可能有一个权威机构能对这些信息进行全面的整理和归类,因此,往往用户面对五花八门、扑面而来的各种信息显得无所适从,不知道如何去获取自己需要的内容。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息己成为信息时代最根本的问题之一。网络搜索引擎在网络信息资源检索中起到了重要的作用,它可以帮助用户从数以亿计的网络信息库中找到自己所需要的信息。搜索引擎是Internet上的一种在线服务方式,是一种用于帮助用户查询网络信息的检索工具。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,然后为用户提供检索服务,从而起到了信息导航的目的。1.2研究的目的和意义因特网上的信息浩如烟海,优劣混杂,缺乏统一的组织和管理,给人们有效地查询和利用信息带来了很大的不便,搜索引擎就是为了开发和利用这些网络信息资源而产生的网络信息查询工具,它己经成为因特网中最重要的部分,是目前网络用户获取网上丰富信息资源的一个重要途径,但传统的独立搜索引擎存在着信息资源覆盖率低、检索效率较低等问题。因为任何一个独立的搜索引擎都无法穷尽所有的Web信息资源,而且对于同一个查询请求,不同的搜索引擎因其工作机制不同,得到的结果中重复率也较低。因此在很多情况下人们为了获得更高的查全率,需要同时使用具有不同数据搜索范围的搜索引擎,这就增长加了检索的不便,元搜索引擎就是在这种情况下诞生并发展起来的。现在己经出现了一大批元搜索引擎,其中以英文元搜索引擎较多,发展较好,而中文搜索引擎发展缓慢。目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。另外很多主流的搜索引擎提供的服务没有考虑每个个体用户的需求,没有考虑用户的差异。本文就是要在研究现有元搜索引擎存在的局限性的基础上,设计出一个结构较合理,功能较优越,同时能够融合很多相关领域技术,体现个性查询的元搜索引擎结构模型,为查询效率更高个性化元搜索引擎的研究与设计2的检索工具的早日实现做出贡献。1.3国内外现状1.3.1搜索引擎搜索引擎是指能够自动地对WWW资源进行分析处理,并通过查询为用户返回匹配资源的系统。它一般是Internet上的一个网站,它的主要任务是将互连网资源存储于可供查询的大型数据库中。当用户输入关键字查询时,搜索引擎依据此关键子在索引数据库中查找相关信息,若索引数据库中有这方面的信息,则将信息反馈给用户;若没有则调用搜索方法进行搜索,并在一定时间界限内向用户反馈信息。1.3.2元搜索引擎元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个调用的搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返回给用户。一般元搜索引擎技术主要有三部分构成4:查询请求机制、检索接口代理机制、检索结果处理机制。查询请求机制:实现用户的个性化检索设置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制;检索接口代理机制:实现将用户的个性化查询请求转化为可被成员搜索引擎识别的固定格式;检索结果处理机制:实现把调用的成员搜索引擎检索到的结果去重、合并、排序和按一定的格式返回给用户。1.3.3元搜索引擎的分类元搜索引擎是一种基于搜索引擎的搜索引擎,又称为多元搜索引擎或集合式搜索引擎。它可以把多个搜索引擎集合在一起,提供一个统一的检索界面,将查询表达式同时提交给多个搜索引擎,并行检索多个数据库,再对返回的结果进行去重、排序等二次加工后向用户输出搜索结果。元搜索引擎根据不同的标准可以划分为不同的类型5。根据检索机制可以划分为集中罗列式元搜索引擎和统一入口式元搜索引擎,以下对这两种类型的元搜索引擎作详细介绍。集中罗列式元搜索引擎集中罗列式元搜索引擎按照一定的形式将所有的独立搜索引擎集中呈现在页面上,并提供了一个公共的检索入口,但实际上用户一次只进入一个独立搜索引擎。这个性化元搜索引擎的研究与设计3种类型元搜索引擎的结果反馈页面多直接引用原始搜索引擎的结果页面。从表面上看,这类元搜索引擎与独立搜索引擎具有更多的相似点,它们的特点是:一次检索一个搜索引擎。检索结果直接调用原始独立搜索引擎的结果页面。只支持原始独立搜索引擎支持的检索语法统一入口式元搜索引擎统一入口式元搜索引擎为收录的独立搜索引擎建立了一个公共查询入口,用户发出检索请求后,提问表达式被分别提交给多个独立搜索引擎,最终反馈的结果是多个独立搜索引擎查询结果的融合。根据结果显示的不同,这类元搜索引擎又可以分为直接调用原始页面型、混合综合型和分散综合型。直接调用原始页面型元搜索引擎,检索结果直接来自原始搜索引擎站点的结果页面。混合综合型元搜索引擎,将各个独立搜索引擎中查找的结果进行融合,结果显示以记录为单位,记录描述包括该记录被检出的来源。分散综合型元搜索引擎,这种类型与混合综合型元搜索引擎在结果显示上有所不同,它以独立搜索引擎为单位进行结果显示,在同一个独立搜索引擎得到的结果被集中列在该搜索引擎之下。1.3.4元搜索引擎的性能评价指标体系作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如查全率、查准率、召回率、响应速度、响应时间、用户负担等。但是元搜索引擎个体差异很大,很难进行精确的评价。元搜索引擎性能评价指标体系主要包含四个部分6:独立搜索引擎的调度策略有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改。有些元搜索引擎的高级特性中让用户选择调用哪些搜索引擎。这两种策略都有不足之处,前一种将跟不上搜索引擎的发展潮流。后一种,对于不熟悉搜索引擎的用户来说可能选择不到适合自己需要的搜索引擎。一些学者提出了通过遗传算法实现独立搜索引擎的自动调度方法。这种算法如能融入到元搜索引擎系统中,必会大大提高系统的查准率。是否提供足够的检索选项包括是否提供高级检索服务,是否可以限定最长检索时间,是否可以设置每个搜索引擎返回的结果数量,是否可以设置每页显示的结果数目,是否可以设置标题大小和摘要大小等。检索选项越多,用户使用的时候就越灵活。这也是衡量一个元搜索引擎性能的一个标准。但是由于元搜索引擎的检索特性向它所调用的独立搜索引擎检索特性的转换所具有的复杂性,许多元搜索引擎不提供复杂的检索特性。对搜索结果的处理能力对独立搜索引擎返回的搜索结果的处理能力,这也是评价元搜索引擎性能的又一重要指标。它包括结果的处理和结果的显示。不同的元搜索引擎提供不同的结果显示方式。如按照时间、按照搜索引擎、按照相关度等来排序。相比之下按照相关度来显示搜索结果更合理一些。相关度评价每个搜索引擎开发商为了将最满意的结果放到越前面,不遗余力地创建出各种相

    注意事项

    本文(个性化元搜索引擎的研究与设计.doc)为本站会员(zhua****shi)主动上传,人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知人人文库网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    网站客服QQ:2881952447     

    copyright@ 2020-2024  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

    备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!