


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
web搜索引擎基于人工智能的应用班级:计算机应用班姓名:邢朝阳学号:07120547目前,Internet上的搜索引擎大致可分为3种类型:(1)基于人工建立的搜索引擎,如Yahoo。它是利用大量的人力浏览Internet页面,将其编制成HTML文件,对其进行分类,并按某种次序加以排列组合,使用户通过索引进行查阅。其优点是比较精确,缺点是编辑人员难以跟上Internet海量信息的更替步伐,建立的搜索索引覆盖面也受到限制。(2)基于搜索引擎即软件Robot自动在Internet上搜寻数据资源,并自动建立索引,如AltaVista、Lycos、Excitd等。这种方法速度快,自动生成的索引覆盖面广,但精确度差,人们往往要花很大的精力从庞杂的反馈中过滤出所需的信息。(3)元搜索引擎,如MetaCrawler。它实际上是一种本身不具备搜索引擎,而依靠其他原始引擎的索引或搜索接口来完成其搜索任务的引擎。尽管目前的搜索引擎给人们搜寻信息资源带来了很大的便利,但是从信息资源的覆盖面、检索精度、检索结果的可视化、可维护性等诸多方面看来,其效果远不能令人满意。知识发现近几年来随着数据库和人工智能发展起来的一门新兴的数据库技术,帮助人们从庞大的目标数据集合中抽取出可信的、新颖的、有效的并被人们理解的知识模式,以满足人们不同的应用需要。本文提出的web搜索引擎框架就是以知识发现为基础的,它具有如下特点:()通过综合多个搜索引擎的结果,扩大了信息资源覆盖面;()对各个搜索引擎返回的结果进行知识发现“再加工”,大大地提高了检索质量;()对用户提交的查询,通过分析影响性能的时间因素和经验因素,优化选择效益好的搜索引擎进行信息检索,从而充分利用信息资源;()不需要维护庞大的数据库,开发者可以将主要精力放在查询请求的分发和返回结果的处理上。一、系统结构基于知识发现的web搜索引擎系统框架主要由用户接口Agent、变换调度管理模块、web文档搜集模块、知识发现模块及各web搜索引擎所组成。()用户接口Agent。在搜索引擎系统中,用户接口在用户与信息资源之间起着桥梁作用。由于Internet信息资源的大容量、动态性和复杂性,传统的人机交互方式显得无能为力。基于Agent的用户接口被认为是解决人机交互问题的一个突破口,它为用户提供可视化接口,将用户的请求转化为专用语言传递给变换管理模块,并将知识发现所处理的文档展示给用户。在用户看来,用户接口Agent是一个半自主的应用程序,一方面,它了解用户的需求和爱好,能够代表用户智能地完成某个任务,并具有学习和适应能力;另一方面,它受用户的控制,用户可以观察它的活动状态,也可以临时性地暂停或恢复其活动,甚至将它永久性地撤消。()变换调度管理模块。接受来自用户接口Agent的用户查询请求,将其变换为各个搜索引擎所能识别的格式,并利用中介索引信息,对用户提交的查询,通过分析影响性能的时间因素(最佳查询时间)和经验因素(即某一个搜索引擎搜索某一类信息最佳),优化选择效益好的搜索引擎进行信息检索。此外,可根据用户提供的术语以及以往搜索成功与失败的经验,维护相应的中介索引。()Web文档搜集模块。接受来自各个搜索引擎返回的搜索结果,并按一定的规则存放在Web档库中。(4)知识发现模块。各搜索引擎返回的web文档结果集只是一种简单的合并。目前由于大多数的搜索引擎一味追求其检索的信息的数量,忽视了检索的质量,所以这种简单集成的结果是不尽人意的。知识发现模块就是一个对各搜索引擎返回的大量web文档进行分析的多步骤过程,最终向用户提供高质量的检索结果。后文将重点讨论。二、知识发现过程及关键技术的实现知识发现的一般过程整个知识发现的过程可分为个阶段:数据准备,数据挖掘,知识评估及表现。()数据准备。数据准备主要包括数据选择、数据清理和数据预处理。因为实际应用系统(各搜索引擎)收集到的数据是杂乱性、重复性和不完整性。一个完整的知识发现模块必须包含数据准备阶段,它以发现任务作为目标,以领域知识作为指导,用全新的“业务模型”来组织原来的web数据,抛弃一些与挖掘目标不相关的属性,为数据挖掘内核算法提供干净、准确、更有针对性的数据,从而减少挖掘内核的数据处理量,提高挖掘效率,提高知识发现的起点和知识的准确度。(2)数据挖掘。数据挖掘阶段是整个知识发现过程的核心部分,也是其关键技术所在。这阶段的主要任务是确定发现知识的种类,研究数据挖掘的模型和算法,发现规则知识。目前流行的模型和算法来源于多个领域,典型的如数理统计、机器学习、模式识别、神经网络、数据库技术等。由于领域对挖掘任务的约束条件千差万别,同时作为挖掘算法一部分的目标数据和领域知识本身存在着多种的、异质的表达方式,因此需要根据实际的挖掘任务和领域特点,来选择合适的挖掘模型和算法。本文选择机器学习方法,从返回的web文档分类、聚类出用户感兴趣的信息。(3)知识评估及表现。经过数据挖掘过程,产生的知识模式可以通过表格、统计图、图形、可视化模型等形式表达出来。这些知识有强、弱之分,是否具有实用价值要经过分析评价,最终得到用户所需的有用知识。三、web文档数据挖掘技术由各搜索引擎返回的是一组HTML格式的web文档集。与关系数据库中的结构化数据相比,这种web文档具有有限的结构,或者根本就没有结构,缺乏数据的组织规律性。因此,首先要将这些文档转化为一种类似关系数据库中记录的较规则、且能反映文档内容特征的中间表示形式,一般采用文档特征向量表示法。然后便可以利用文档分类和文档聚类等机器学习方法,来提取面向用户查询目的的知识模式,存储在用户特征模式库中。、web文档表示文档表示是指以一定的规则和描述来表示文档或文档集,是文档挖掘的基础。近年来常用的文档表示方法是TFIDF向量表示法。它是一种文档的词集(bag-of-words)表示法,所有的词从文档中抽取出来,而不考虑词间的顺序和文本的结构,从而构成一个二维数据表。其中列集为特征集,每一列是一个特征;行集为所有的文档集合,每一行为一个文档的特征集合。需要指出的是,对于中文文档来说,应先进行汉语分词处理后再进行上述的构造工作。这样构造的二维表表示的是web文档集合的词条的统计信息,最终就可进行分类和聚类挖掘。、web文档分类文档分类是指根据文档的内容或属性,将大量的文档归到一个或多个主题类别的过程。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查询更为容易。、文档聚类文档聚类的目标就是将文档聚集成类,使得类与类之间的相似度尽量小,而类内的相似度尽量大。文档聚类是一种有导师机器学习方法。现存的聚类算法一般分为分割和分层两种。分割聚类法通过优化一个评价函数,把文档集分割为k个部分。分层聚类法是由不同层次的分割聚类组成,层次之间的分割具有嵌套关系。四、结束语随着Internet迅猛发展,网上的信息急剧膨胀,要在这样一个浩如烟海的信息空间里查找所需的信息,人们觉得力不从心,往往花费了很多时间和精力却收获甚少。各种搜索引擎的出现,是解决上述问题的主要途径。但是目前的搜索引擎检索出的信息量庞大,常常混杂相当数量用户不感兴趣的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年乡村手工艺合作社法务岗位面试要点及模拟题解析
- 2025年中国电力建设集团招聘考试题库
- 2025年农村金融专业招聘考试模拟题集萃
- 抹灰工人安全培训内容课件
- 2025年临床医疗管理信息系统项目发展计划
- 2025年医用气体系统项目发展计划
- 福建省福州市2025-2026学年高三第一次质量检测数学试卷(含答案)
- 抗焦虑抑郁药物分类课件
- 2025年1月吕梁市贺昌中学第一学期高一期末学业水平测试必修一人教版2019
- 2024-2025学年广西柳州市三江侗族自治县人教版三年级下册期末考试数学试卷(含答案)
- 2025年中国物流集团国际物流事业部招聘面试经验及模拟题集
- 乡镇安全培训课件
- 2025四川省公安厅招聘辅警(448人)笔试参考题库附答案解析
- 中望CAD机械版使用手册
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 2024年9月28日安徽省地市级遴选笔试真题及解析
- 五运六气方剂
- 精益生产之自働化培训课件
- 施工现场岗位安全风险告知卡
- 腰椎穿刺术3PPT优秀课件
- 广州市小升初语文分析PPT学习教案
评论
0/150
提交评论