




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
此文档收集于网络,如有侵权请联系网站删除搜索技术在人工智能领域的实际应用摘要:介绍了搜索引擎的分类、工作原理,并具体分析了搜索引擎的体系结构,包括信息的搜集系统、索引系统以及查询接口。基于现在人工智能技术的迅速发展,对于在搜索引擎中运用的人工智能技术进行了研究,且着重分析了搜索引擎重要模块: Robot的智能化、智能代理技术以及查询接口的智能化,有力地描述了搜索引擎发展的智能化方向与方法,对智能型搜索引擎所面临的挑战以及未来发展进行了展望。关键字:人工智能;搜索技术;应用;The practical application of search technology in artificial intelligence field Liao Yongqi(institution of Mechanical Engineering and shanghai institution of technology and shanghai)Abstracts:The classification and operating principles of the search engine are introduced in this paper,and its systematic structure is analyzed concretely, including the systems of collection and index andthe input of inquiries. The application ofArtificial Intelligence(AI) technology to search engine isstudied, especially the intelligentization of the importantmodules of the search engine such asRobot,agents, and the input of inquires, and the direction and means of the intelligentization are described.The future development of the intelligent search engine and the challenges are also discussed.Key Words: Artificial intelligence; search technology; application;0 引言随着Internet的发展,网络已经是信息发布和传输的重要方式,Web已经发展成为拥有几亿页面的分布式信息空间,而且仍以每120240d翻一倍的速度增加。虽然Internet上蕴藏着巨大的信息资源,但是要从这个信息海洋中准确快速地找到并获得自己所需的信息,往往比较困难。为了解决这个问题,人们开发了各种检索工具,以期望能提供这种信息服务。随着各种技术的日渐成熟,网络搜索引擎开始迅速发展起来。网络搜索引擎是以一定的策略在互联网中搜集和发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用。1搜索引擎技术1. 1搜索引擎的分类1. 1. 1目录式搜索引擎目录式搜索引擎的特点是以人工方式或半自动方式搜集信息,编辑人员在访问了某个Web站点后形成信息摘要,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。目录式搜索引擎的优点是信息准确、导航质量高。以Yahoo为主要代表。这类搜索引擎的缺点也是显而易见的,由于人工的介入,使得费用增加,而且维护量大、信息量少、信息更新不及时。1. 1. 2基于Robot的搜索引擎这类搜索引擎的特点是由一个称为Robot(也叫做Spider、Web Crawler或Web Wanderer)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引系统为搜集到的信息建立索引,由查询接口根据用户的查询输入检索索引库,并将查询结果返回给用户。它的一个重要特征是,搜索引擎要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中。基于Robot的搜索引擎的优点是信息量大、更新及时、毋需人工干预。现在的许多搜索引擎都属于此类,例如Google, AltaVista等。它的缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。1. 1. 3Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(Multiple Search Engine),它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把搜索引擎返回的结果进行重复排除、重新排序等处理后再返回给用户。在目前所存在的搜索引擎中,没有一个搜索引擎能够覆盖所有的WWW资源,大部分的搜索引擎都只能涉及到整个资源的一小部分,并且各类搜索引擎的信息来源差异较大,因此集成多个搜索引擎而产生的Meta搜索引擎具有比传统引擎覆盖面大,搜索效果更好且具有可扩展性等优点。它的缺点是有一定的局限性,不能够充分使用所使用搜索引擎的功能。1. 2搜索引擎的工作原理与主要技术搜索引擎的工作原理是:由一个Robot尽可能多地收集WWW上的网页,按照每个网页的文本内容建立单词到网页的反向索引,用户在查询感兴趣的主题时,输入该主题的关键字作为查询条件,搜索引擎利用事先建立好的网页库和单词索引,检索出符合条件的网页返回给用户。搜索引擎一般由3个部分组成,如图1所示。客 户WWW站点索引数据库查询接口收索Robot图1搜索引擎组成示意图1. 2. 1信息搜集系统信息搜集系统是通过Robot来自动完成的, Robot在Internet中漫游,尽可能多、尽可能快地搜集各种类型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,为了保证搜索引擎上的信息的完整性和时效性,就要求Robot具有理想的搜索策略和很高的搜索效率。目前主要有2种搜集信息的策略:(1)从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo! )。(2)将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。1. 2. 2索引系统Robot搜集信息后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。一个搜索引擎的有效性在很大程度上取决于索引的质量。1. 2. 3查询接口当用户提出查询要求时,搜索引擎根据用户的查询在索引数据库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。查询接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。2人工智能技术的应用研究Internet迅速的发展,使得网上的信息呈现指数级增长, Internet的问题已经从“提供信息”转到“如何从浩如烟海的信息中提取对自己有用的信息资源”。现有的搜索引擎存在着返回的无用信息太多、搜索效率低下、信息组织混乱等缺陷。起源于20世纪50年代的人工智能(AI)技术,可以在Internet中导引用户,不仅在用户进行搜索、浏览时给予直接的支持,而且能够提供具有独立搜索功能的智能体的幕后支持。因此人工智能已经在Internet中扮演越来越重要的角色。2. 1Robot的智能化2. 1. 1人工智能技术基于Robot的搜索引擎中已经使用了大量人工智能的技术。Robot的核心目的是获取Internet上的信息资源,它是利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。一般步骤如下:(1) Robot从起始URL列表中取出URL并从网上读取其内容。(2)从每一个文档中提取某些信息并放入索引数据库中。(3)从文档中提取指向其它文档的URL,并加入到URL列表中。(4)重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间)。(5)给索引数据库加上查询接口,向网上用户发布。其算法一般采用人工智能的搜索策略中的深度优先和广度优先2种基本的策略。广度优先策略可以跟踪当前页面中的每一个URL,所以能覆盖尽可能多的网页。而深度优先策略则能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。两种算法都是通过对网页的内容的分析判断与用户查询是否符合来检索出用户需要的网页,缺乏对检索后的网页进行进一步分析的能力,而且一次遍历往往需要花费很长的时间,检索到的信息存在大量的冗余和噪音。因此,为了提高搜索效率,运用启发式搜索策略来进行对网页的搜集,即Robot通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。2. 1. 2启发式搜索算法常用有2种启发式搜索算法:(1)加权的启发式搜索算法:用加权的启发式搜索算法控制信息资源的搜集,系统根据用户配置的领域导向词和资源服务器所在的地域信息,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问。(2)用相关度及用户兴趣作为评价函数的启发式搜索算法,对于系统中维护的一个超链队列,根据评价函数值,按照由小到大的顺序将超链队排序,然后选择具有最小评价函数值的超链作为下一个要扩展的结点。2. 2智能代理技术智能代理又称智能体,是人工智能研究的新成果,近几年的发展非常迅速。它使用自动获得的领域模型、用户知识进行信息搜集、索引、过滤,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理的特点是具有不断学习、适应信息和适应用户兴趣动态变化的能力,从而能够提供个性化的服务。2. 2. 1智能代理的优势(1)智能性。具有丰富的知识和一定的推理能力,能分析用户的需求和揣测用户的意图,以便能完成较复杂的任务,而且它可以从经验中不断学习,以提高自己处理问题的能力。(2)代理性。顾名思义智能代理是用户的某种代理,它可以代替用户完成一些任务,并主动将结果反馈给用户。(3)主动性。它能根据用户的需求和环境的变化,主动向用户报告并提供服务。(4)协作性。它能通过各种通信协议和其他智能代理进行信息交流,并可以相互协调共同完成复杂的任务。2. 2. 2客户端智能代理和服务器端智能代理(1)客户端智能代理技术以智能搜索代理技术为主,结合搜索引擎“面向主题”的检索模式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进行沟通,交换信息,从而使更多的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。(2)服务器端智能代理引入用户反馈机制来完善检索机制,提高检索命中率,同时也可以提供面向个人的特殊检索服务。这种方式是记录该用户的查询踪迹,从而在用户再次登录时结合以往的用户检索记录来配合提供相关的检索服务。并且可以通过对用户的反馈意见进行跟踪,获取用户对结果的评价,以便提高检索质量。2. 3查询接口的智能化2. 3. 1基于关键词匹配搜索技术当用户提出查询请求时,用户最关心的是搜索结果是否能够满足自己的需要。目前采取的一种常见的策略是将用户的查询请求分解成若干关键词,根据这些关键词计算Web文档跟用户请求的匹配程度,从而挑出若干匹配的文档。匹配程度的衡量准则很多:一种是根据关键词在文档中出现的频率确定它对用户请求的匹配程度;一种是计算关键词出现次数和页面总词数之比。但是基于关键词匹配的搜索技术有较大的局限性。它不能区分同形异义,也不能联想到关键词的同义词。2. 3. 2自然语言查询为了提高搜索引擎对用户查询请求的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,应用自然语言理解技术进行自然语言智能答询。它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而具有信息服务的智能化、人性化特征。它允许用户采用自然语言进行信息的检索,为用户提供更方便、更确切的搜索服务。与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:(1)由于自然语言查询具有智能分词功能,因此使得查询变得更为简单、易于操作。(2)采用知识(概念)检索技术,明确和缩小了搜索范围,减少了对无用信息的搜索。(3)由于有综合知识库为背景,使得信息检索与导航服务更具有智能性。利用自然语言理解技术进行智能搜索主要分为语义理解、知识管理和知识检索。其中,知识库是其基础和核心。在语义理解的过程中,智能分词技术是重要的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是提高语义分析的质量和速度的重要前提。知识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出的问题给出准确度最高、相关度最强的检索结果。3结束语Internet已经发展为当今世界上最大的信息库和全球范围内传播信息的主要渠道,拥有大量结构复杂且分散的信息资源。将人工智能技术应用于搜索引擎提高Internet资源利用率,正日益得到广泛的重视和研究。本文简单探讨和研究了搜索引擎的工作原理,研究了人工智能在搜索引擎中应用方法,但是,由于人工智能技术发展还远远不够成熟,网络信息组织无序性、信息媒体多样化,要建立真正的基于自然语言理解的智能答询系统,理解自然语言及所代表的实际含义,根据问题找出用户实际想要的答案,还有很多的理论和应用难题。Internet 网络技术的快速发展 ,使网络已经成为了人们日常生活不可或缺的一部分 ,它作为信息发布、传播的主要方式 ,Web 拥有几亿页面的分布式信息空间 ,目前仍然以 130200d 翻一番的速度增加。Internet 信息广泛 ,涵盖量很大 ,要从中迅速找出自己需要的信息 ,有一定难度。因此 ,人们研究开发了多种检索工具 ,以便自可以快速方便的找出自己想要的内容。随着科学技术的不断发展与成熟 ,网络搜索引擎得到了快速发展 ,它是以一定的策略在互联网中搜集、发现、提取、处理信息的过程 ,通过为用户提供检索服务 ,发挥其信息导航的作用。Unit 3businessman n. 商
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医药销售人员法规与职业道德培训
- 市政排水沟施工详细方案
- 地理信息系统制度建设
- 新手销售人员客户管理培训手册
- 心理康复报告与评估标准的制定及实施研究
- 六年级下册语文同步写作训练
- 宴会预订规程
- 农村客运车辆使用规程
- 小学语文写作兴趣激发方案
- 慢性高血压患者护理方案
- 2025至2030中国克罗恩病药物行业项目调研及市场前景预测评估报告
- 知识分享大讲堂活动方案
- 制药企业GMP生产质量管理培训资料
- 4.1.2+无理数指数幂及其运算性质课件-2025-2026学年高一上学期数学人教A版必修第一册
- 阅读与思考(选学)为什么要证明课件
- HPLC高效液相色谱解读课件
- 中医诊断学望诊
- DN1000顶管施工方案
- 《外科学》第七节 直肠癌
- DB32∕T 2975-2016 水运工程建设管理用表
- T∕FSI 084-2022 双酚AF
评论
0/150
提交评论