[硕士论文精品]internet智能比较购物的研究与实现_第1页
[硕士论文精品]internet智能比较购物的研究与实现_第2页
[硕士论文精品]internet智能比较购物的研究与实现_第3页
[硕士论文精品]internet智能比较购物的研究与实现_第4页
[硕士论文精品]internet智能比较购物的研究与实现_第5页
已阅读5页,还剩57页未读 继续免费阅读

[硕士论文精品]internet智能比较购物的研究与实现.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

INTERNET智能比较购物的研究与实现P906771INTEMET智能比较购物的研究与实现摘要信息化浪潮改变着世界经济面貌和人们的生活方式。网上购物的消费模式已被越来越多的人所接受。与此同时,互联网信息爆炸性增长,消费者很难快速准确地获取自己所需的信息。如何在WEB分布式环境中找到有价值的信息,提供智能化、个性化的服务已经成为一个重要的研究课题。比较购物是商务智能的一种表现,是智能信息代理的应用之一。购物代理可以主动搜索在线商店,收集互联网上异构的商品信息统一集成存储,并提供商品信息的比较,为消费者提供购买决策支持。购物代理实现的关键是如何获取有用的信息,这就涉及信息搜索和信息抽取两方面技术。其中,信息搜索负责收集有关页面信息;信息抽取则对收集的页面作进一步处理,获得比较购物所需的商品信息。本文系统地回顾了WEB信息搜索和信息抽取的研究现状,总结了目前存在的问题及发展趋势,并提出了一种面向主题的搜索引擎及WEB信息抽取的实现方法。面向主题的搜索引擎旨在收集主题网页。由于SPIDER搜索到的页面相当广泛,其中包含很多不符合主题的信息页面,因此需要对搜索的网页进行过滤,只采集其中的主题页面。本文提出了一种COSECONTENTORIENTEDSEARCHENGINE搜索方法,该方法综合网页的文本IN把MET智能比较购物的研究与实现内容和结构特点作为页面提取的特征,并对其进行改进以提高系统的运行效率。信息抽取以采集的主题页面文档作为输入,从中抽取出相关的商品信息。通常,WEB信息抽取由包装器W印PER来完成。由于WEB上大多数信息资源嵌入在HTML网页中,且各网站信息显示格式不同,构建通用、灵活的包装器比较困难。本文提出了一种DDEDOMBASEDDATAEXTRACTION信息抽取方法,该方法针对WEB页面的结构特点而设计,实现的包装器具有较强的空间适应性和时间适应性。对于搜索引擎提供的页面文档,系统根据页面特征选取合适的包装器来抽取信息。最后展望了这一课题的后续工作。关键词比较购物,专业搜索引擎,向量空间模型,信息抽取,半结构化信息,包装器恕竺篁堂墼堕塑塑堕壅兰塞塑RESEARC王ANDLMPLEMEN榭IONOF粼TELLIG嚣NTCOMPARISONSHOPPINGONNNTERNETABSTRACT1MEWAVEOFINFOATIONTECHNOLOGYISCHANGINGMEWAYPEOPLELIVINGMOREANDMOREPEOPLEACC印TSBOPPJNGONINTERNETONTHEOTHERWAY;THEEXPLOSIONOFI毽FO船雏ION蕊文ESI西甄C珏拜F醣PELETO黔攮珏SE蠡LHOWLEDGE蠢W摄E黼SELVES至耋SANIMPORTANTPROJECTT0FINDOUTAWAYINWHICHUSEFULIN南RMATIONANDSMARTINDIVIDUALSERVICECANBEEASIIYPROVIDCDINSUCHDIST曲UTEDCIRCUMSTANCEASWEBEO翔P瓤S鳓黯印PINGISBE囊A珏I建ST黥CEOFB珏SINESSKLEL珏GENCEAND鞠EAPPLIC撕ONOFINTELLIGENTIILFORMATIONAGCNTSITSEARCHES0NLINESTORESAUTOMATICALLY,C。ILECTSPMDUCTSINFONATIONANDINTE酽ATESTHEMFORCOMPARISO如FINALLYPROVIDESPEOPLEW法P珏惑ASED剜SI潍熊鞠ON。秘E氧拶。FC。MPA蠢S骚OPPI矬鬈SEAP鼬妇GUSOMLINFOHNA“ON,INWHICHINFONLLATIONSEARCHANDINFORTNATIONEX仃ACTIONAREINCLUDEDINFBNILATIONSEARCHISDESIGN耐FORCOLLECTINGWEBPAGES,WHILEINFOMATIONEX拉ACL至。珏F。FC。LL。CT涵GHSELI珏FO瑚撼。羟I娃W醯P鑫G。曲YPCE曦弼趣AD。帮STEPTHISPAPERSYSTEINATICAILYPRESEMSTHECU糟ENTRESE村CHIN1EBINFOMLATIONSEAFEHANDI珏B黼AIO牲EX鼢菇ON,AND矗鑫LSO建NALYSES氇EPLDBLEFNSANDT歉E拓C珏DSI珏TLLISDOMAINATLAST,THISPAPER8IVESTLLEDETAILSOFINLPLEMENTINGATOPICBASEDSEARCHENGINEANDTHEIN硒MLATIONEXT鞭CTIONTHETOPIEBAS稚SEA蕊。琏GLNE螽MS毫OCOL耙CTTOPIEPAGES。FORSPID髓SEAFCHWEBWIDELYANDSOMEI玎ELEVANTPAGESARECONTAINED,SOITISNECESSA“T0FILTERWEBINTEMET智能比较购物的研究与实现PAGESAFTERCOLLECTEDBYSPIDERCOMBININGWIMPAGECONTENTANDPAGESTRUCTILREASPAGEFEATURES,THISPAPERIN拓ODUCESAWAYTOCOLLECTTOPICWEBPAGES,WHICHISNAMEDCOSECONTENTORIENTEDSEARCHENGINE,ANDALSOGIVESANIMPMVEDMODELWITHBETTEREMCIENCYTHETOPICWEBPAGESCOLLECTEDBYTDPICBASEDSEARCHENGINEAREPAGESOURCESFORWEBINFONNATIONEXTRACTIONINFONLLATIONEXTMCTIONISUSUALLYDONEBYWRAPPELBECAUSEMOSTDATASOURCESAREEMBEDDEDINHTMLWEBPAGESANDTHEFORMATSOFSITESAREDIFKRENT仃OMEACHOTHER,ITSDIMCULTTOCONSTMCTASMARTGENERALWRAPPELTHISPAPERBRINGSUPANHLFO衄ATIONEXTRACTIONMETHODNAMEDDDEDOM_BASEDDATAEXTRACTION,WHICHISDESIGNEDSTMIGHTFORTHEFEATURESOFWEBPAGES,ASARCSULTTHEWRAPPERISBOMWITHASTRONGADAPTABILITY0NBOTHEXTENSITYANDTIMELINESSFINALLY,ITGIVES也EPROSPECTOFTHERESEARCHKEYWORDSCOMPARISONSHOPPING,TOPICBASEDSEARCHENGINE,VSM,INFONNATIONEX仃ACTION,SEMISTLLLCTUREINFO咖ATION,WRAPPER淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMET智能比较购物的研究与实现第一章引言第一节本文研究背景及意义互联网从产生之初的军事领域的运用,发展为学术交流的平台,到现在演变成大众传播的舞台,当前JE是一个互联网爆炸式增长的时代。互联网成了一个巨大的信息源,为人们提供各种信息和服务。面对如此浩瀚的互联网信息资源,如何有效寻找自己需要的信息已成为一个必须解决的问题。与此同时,随着互联网信息资源的持续增长,互联网信息闲置与浪费现象也愈发严重。虽然有各种基于各种主题的专业信息服务网站存在,但由于用户不知道这些专业网站或者因为浏览多个这样的专业网站太费精力而放弃,因此并非所有的用户都可以享受到这些信息服务。这就造成了一种尴尬的情况,一方面用户迫切需要信息资料,而另一方面提供有关资料的信息服务网站却少有人问津。在网上购物领域,随着电子商务网站的服务商数量和产品数量的迅速增加,广大消费者面临着更多的困惑在如此众多的商品中如何才能找到适合自己需要的网站和物品哪儿的商品更便宜在众多的网站平台中,如何寻找值得信赖的网站,如何获得最好的价值、最好的服务等等问题都让用户感到茫然。随着W朗的发展,人们对信息获取的要求越来越高。如何提供智能化的服务,帮助人们从互联网的海量数据中获得更高质量的服务已成为信息检索领域的研究热点,也是提高电子商务和电子政务的服务和运行水平的关键之一“。针对目前存在的信息服务的“大数据量小信息量”问题,比较购物可以帮助用户掌握信息主动权,是“主动服务”的电子商务,对用户制定商品购买决策有较大的参考价值。它把人工智能、机器学习、数据挖掘等技术有机融合在一起,有利于提高信息服务的智能化和个性化程度,促进网络应用和电子商务的发展。因此,本文研究具有很强的理论意义和实际意义。第二节国内外研究现状因比较购物涉及的是电子商务领域,且其实现的关键技术是信息搜索技术和淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMEF智能比较购物的研究与实现信息抽取技术。因此本节将从电子商务、搜索引擎、WEB信息抽取及比较购物四个方面来探讨目前国内外研究的状况。一、电子商务现代商业理论表明,商业交易的背后存在着一条从制造商、批发商、转运商到最终用户的“供应链”。通过这条供应链流通的,既有物流又有信息流和资金流。传统商业过程只包含物流,其致命弱点是信息反馈不及时,决策很大程度。卜依赖主观经验。随着商品、资金、信息的流通越来越快,传统的经营方式无所适从,逐渐陷入尴尬的境地。电子商务活动是信息流、资金流及物流一体化的过程。与传统的商务活动方式相比,电子商务具有交易虚拟化、交易成本低、交易效率高、交易透明化等特点。现代电子商务将物流、信息流和资金流予以整合,通过现代化网络技术改造传统的信息流程,并以网络信息流引导物流和资金流,达到快速地完成交易、有效地实现降低成本和提高效益的目的。随着网络环境的发展,电子商务这一昔日还只是媒体热炒、曲高和寡的概念,正走入越来越多人的生活,呈现出无限光明的前景。中国电子商务的发展已经从虚拟世界走向实物世界,走向了理性务实的发展阶段。电子商务的兴起极大地改变了商务模式。目前,我国电子商务已进入商业化操作阶段,网上商店、商城、拍卖店和网上订票及各种电子商务咨讯的交易站点不断涌现,并从发达地区向沿海和内地各大城市扩展。根据研究机构调查显示5,有八成以上的网民选择了电子商务这一贸易模式在选择电子商务的网民中,七成以上的消费者主要是通过电子商务的贸易模式进行网上购物。由此看来,电子商务的概念已经深入人心。可以预见,随着互联网市场的强劲成长以及多元化的网络平台为电子商务提供的巨大动力,电子商务的发展将会前途无限。二、专业搜索引擎专业搜索引擎也称为垂直搜索引擎、主题搜索引擎,是以某一学科、某一行业或某一种载体为对象的检索工具。因为主要针对特定的主题领域,规模通常比较小。但由于对某一领域的信息相对集中,因此具有“小而精”的特点,查询淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMET智能比较购物的研究与实现结果更加可靠、更加稳定。在查询特定领域的信息时,使用专业搜索引擎不但可以提高检索速度,快速、准确的查找网络上的专门信息,还可以加大检索深度和力度。通用搜索引擎实质是大众资源,用于为每个人提供信息;而专业搜索引擎搜集的网络资源则更加集约化,通常能针对信息需求的更好结果。互联网发展的趋势表明,通用搜索引擎的专业化已成为一个实际的需要,它能为互联网用户提供了更有效的、更准确的的服务。在针对某些类型的资源检索,专业资源在满足信息需求方面可以做的更好,使用专业检索工具会产生更高质量的结果。目前,专业搜索引擎模式正处于一个蓬勃发展的时期”】。人们对各种专业资源的需求促使各种各样的专业搜索引擎层出不穷,并形成了一定的特色。这些专业搜索工具涉及各种领域。著名的传统搜索引擎INFOSEEK放弃综合门户网站模式,集中向娱乐领域方向发展,提供纵深型娱乐信息搜索服务。NEC公司推出的网上免费科学论文搜索引擎CITESEER。音乐搜索引擎SINGINGFISH_COM宣称它已完成最大的MP3和多媒体流的索引。广告搜索引擎ADFLIP收集40年代到90年代的旧广告。国内也有塞迪网推出的中文IT垂直搜索引擎“IT罗盘”,图行天下G02MAP提供的中国城市地图服务等。三、W印信息抽取随着电子技术与电子商务的发展与应用,WEB半结构化信息抽取技术越来越受到人们关注。将数据从网页中抽取出来通常由包装器WRAPPER完成。包装器就是指能够将基于HTML的网页内容数据转换为按照某种结构化描述的数据集合的软件程序【4“。编写包装器的方法经历了手工编写、半自动生成和现在正在研究的全自动生成三个阶段。在手工编写阶段,由专门的具有一定知识的专业人员首先对网页分析,然后写出包装器。手工编写的方式对专业人员的要求非常高,而且是一个非常困难的工作。由于数据抽取问题的复杂性,完全自动地进行信息抽取是非常困难的,但人们依然对之感兴趣并提出了两个基本全自动的方法【26J551。研究界目前所提出的抽取方法多数是半自动化的,采取机器学习32】【40F49【53】,数据挖掘【30】和概念建模361等方式,来获取处理所需的信息。目前已经提出的方法基本上淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城IN【CRILET智能比较购物的研究与实现有两种思路一种是将WEB文档看作字符流,用正则表达式,表示型语法,或文本代数技术等来处理;另一种思路是考虑文档结构,利用文档的语法结构来处理,如DOM模型。这两种方法的处理能力各有优势。国内迄今为止的研究基本上是处于包装器的半自动化生成阶段,尚未见到自动识别网页并产生包装器抽取数据的方法的有关资料研究。国内较为典型的系统和算法有1中国人民大学数据与知识研究所提出的基于预定义模式的包装器心,由用户定义模型并给出模式与HTML网页的映射关系,系统推导出规则并生成包装器。2中科院软件所提出的基于DOM的信息提取”。该算法以文档对象模型为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动化地生成提取规则,然后根据提取规则生成JA、,A类,将该类作为WEB数据源包装器组成的重要构件。3河北大学提出的基于样本实例的WEB信息抽取18。用户首先选定样本页面和预先定义模式,然后对样本页面和其中的样本记录进行标记学习形成规则包含抽取规则和关联规则,并将规则放入知识库中,最后利用知识库对其它同类页面自动抽取信息,存放在对象关系数据库中。4中国科技大学提出的基于多种知识的网页信息抽取方法【191。该方法将HTML网页信息用多层模式来加以描述,并描述了一个完整抽取知识它由四种不同类型知识所构成。利用各层模式之间相互联系的特点,动态获取各层中与HTML页面内容具体描述格式密切相关的信息识别模式知识;再利用抽取知识完成相应各个HTML网页的具体信息抽取工作。这些算法有一定的局限性。首先,需要有较多的人工干预。由于需要较多的先验知识,并且不同的系统使用的描述语言不同,从而要求进行干预的人员不仅需要对网页的结构分析和生成等方面较为熟悉,还要对系统使用的描述语言较为了解,因此对人员的要求比较严格;其次,根据特定情况产生的包装器只能适用于特定情况,当网页结构发生变化时,需要重新进行人工干预和标识,很难较好地适应变化。淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INT锄ET智能比较购物的研究与实现四、比较购物随着网上电子商务网站数目和销售商品的增多,广大网络用户面临着更多的选择。用户往往需要在多个网站之间进行比较以获取最满意的商品信息。显然,人工进行操作将费时费力。比较购物正是基于这种需求产生的。比较购物是一种采取信息获取技术开发的购物代理软件SHOPBOT。这种软件通过收集众多的网上商家的信息,对各种商品的价格、性能、配送方式以及服务等进行比较,向用户提供不同在线销售商的商品信息。因此是一个省时省力又省钱的购物途径,得到了大多数电子商务用户的好评。一比较购物系统分类根据比较信息源的获取方式,比较购物可以分为实时型和数据库导向型【。实时型为在线模式,是一种实时搜索,即当用户发出请求时购物代理马上到各网站查找相关的信息。这种方式获得的信息比较及时、准确,但是很难保证查询的速度。数据库导向型则为离线模式,购物代理事先收集相关的商品信息,并将这些数据存储在商品数据库中,定期或触发式到网络收集数据进行更新。这种搜索方式实质是在检索数据库,从中查找符合用户查询条件的记录。因此检索速度比较快,但由于需要事先收集数据,容易出现信息滞后。此外,根据实现模式又可分为网站模式和基于客户端的代理模式。网站模式中,用户通过浏览器访问比较购物网站,购物代理处理并响应查询请求,是一种BS模式。而基于客户端的代理模式则是一种CS结构,用户只有安装客户端软件才能进行商品查询,软件的更新升级需要重新下载安装,且不支持跨平台,具有较大的局限性。因此,大多数的比较购物系统采取网站模式。二比较购物网站近年来,国外已有多个比较购物系统成功投入商业应用。国外较有名的比较购物网站有JUNGLEECOM、JANGOCOM、MYSIMONCOM、BIZRATECOM、SHOPPINGCOM等。其中,JUNGLEE、JANGO在线方式抽取信息,但两者学习的方式不同。前者主要采用机器学习方法,后者则采取虚拟数据库技术。MYSIMON采取数据库导向型方式,把数据库作为系统的信息源。著名的搜索引擎GOOGLE也加入网上购物领域,开发了自己的购物搜索引擎舶OGLE。淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMET智能比较购物的研究与实现国内,虽然有多个电子商务网站提出了比较购物的概念,但参与比较的网站是作为比较购物网站的合作伙伴收录。所谓的“比较购物”只是对被收录的站点的商品信息进行比较,并不是去搜索互联网中所有相关的站点,因此不能算是真正的比较购物网站。目前围内较新的比较购物系统为丫丫购物搜索,丫丫购物搜索引擎使用数据库导向型搜索,采集5000家国内知名B2C网站的商品和服务信息,除了可以查询、比较之外,还具有导购功能。最近国内又出现一个新的比较购物网站亦得网,该网站通过与SHOPPINGCOM签订合作协议【58,利用SHOPPINGCOM的购物搜索引擎帮助国内消费者购买国际产品。第三节研究内容随着互联网信息的不断增长,如何主动地为互联网用互提供高质量的信息服务已经成为互联网应用中一个重要研究课题。本文以比较购物智能代理系统为切入点,对面向主题的信息搜索与信息获取技术进行了深入的研究,实现自动地从WEB文档中发现和提取信息。并以获取的信息作为比较购物的信息源实现一套智能比较购物系统。一搜索引擎由于因特网上网页数目众多,如何从这些网页中采集页面是本文研究的一个重点。本文设计的搜索引擎只对研究领域进行信息搜索,其工作目的是收集与主题相关的信息页面,从而为WEB信息抽耿提供更好的页面信息源。实现的难点是如何采集主题页面。除了要求提高主题页面采集的准确性,还需考虑系统的运行效率。二怔B信息抽取WEB信息抽取对专业搜索引擎收集的网页作进一步的加工和处理,实现信息的自动抽取。目前,WEB上站点常常处于动态流动常态。针对网上数据多变的动态性,WEB信息抽取的重点是如何构建实用高效的、具有自动性和可适应性的包装器WRAPPER,以及设计合理的数据模型以方便数据的拾取、保存和再现。实现过程需要将人工智能、数据挖掘等技术有机结合进来。淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城LNL戤智藐较麴秘转研究与实瑶第四节创新点L、对VSM模型进行改逡提取页面特镊,提高了主题页面采集的准确率。2、根据页埘的表现特征构建适合的包装器。这种针对页面结构设计的包装器,具有鞍强弱信息识剐秘信息按驳功能,谴德贾嚣信息撼取更具健壮性和灵活性。3、对页面采取缩小处理单元粒度的方式,快速定位信息的主体区域块,提毫了信慰识别兹准确谯。第五节论文奄节安排本文共努六牵。论文的第一牵首先介绍与本文研究工作相关的基本背景;然后简要介绍目前国内外对该领域的研究现状;接着对本文的研究内容作概要性总结,提出创新点;蕞磊分绍论文内容豹缓缀框架。论文的第二章介绍搜索引擎技术和WEB信息抽取技术。对两种披术的特点、研究概况、存在的主要问题殿发展趋势进行了探讨。论文静第三章分绍了薹予餐髓代理豹魄较赡秘系统斡疆黎,包瑟系统结梅、系统流程及实现的要点。沦文的第四露详细介绍专业搜索引擎的具体实现。首先对专业搜索引擎作一麓擎毂述,荛瑟葵工作藤瑾逡行穗述;然鬣分鳐了实凌靛关键帮分,毽括丽更蘸搜索和主题页丽的采集,并对该方法进行改进提出了一豢改进的方案;最后对这一工作进行小结。论文的第五鬻详细奔绍WEB售惠掬敬瓣其体实袋。蓄先对相关豹概念、实现方法的基本原理及其工作的框架进行阐述;接着重点介绍了具体实现方法;最后对该工幸乍进行小结。论文静第六帮对本文所骰鹣辑究工俸徽出总结,荠对箕送行后续鼹肇。淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTE丌,CT智能比较购物的研究与实现一、搜索引擎分类第二章相关技术研究第一节搜索引擎研究用户利用互联网可以快速、方便地接触到各种信息,但是普通浏览的方式很难在信息的海洋里找到真正需要的信息。因此遣切需要高效的信息检索技术和检索工具。因特网上有许多检索工具,为查询信息提供了诸多途径。目前发展最为迅速、最受人们欢迎的信息检索工具是WWW上的检索工具。WWW上的检索工具主要分为三类目录式搜索引擎、机器人搜索引擎和元搜索引擎。由于实现的思想、方式、技术各有不同,从而各具特色1、目录式搜索引擎DIRECTORYSEARCHENGINE目录式搜索引擎就是门户网站,又被称为专题指南,或列表查询引擎。实际上是人工建立的、按主题等级排列的网站和网页链接的集合。目录式搜索引擎利用超文本的能力,允许用户逐级地从一个宽泛的主题类别进入一个专指的子类别。目录式搜索引擎的优点表现在目录主题提供的语境和结构能够使创建者准确地对网站进行分类,提高了主题指南返回结果的相关性;而且网站目录对链接作出的详细、客观的注释或评注也增强了浏览功能。但信息的收集、编辑、注解等方面将花费大量的人力和时问。由于目录是人工维护,某些主题的收录范围不够全面,因此检索的信息数量有限,目其更新、维护的速度或周期要受到制约,目录的时效性不强,可能会产生一些“死链接”。另外,如果用户不熟悉目录的分类体系或对分类标准理解与系统人员不一致,也会影响检索。目录式搜索引擎主要适用于以下两种类型的信息查找1用户进行笼统的主题浏览和检索。允许用户从等级目录中任意选择检索范围,对这些不同深度的主体类目进行浏览或检索。2当用户尚未形成精确的检索概念时,采用主题指南作为检索起点比较有效。较为典型的目录式搜索引擎有YAH00F、LOOKSMAN、INFOMINE,国内的搜狐、淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTCRNCT智能比较购物的研究与实现新浪、网易等。2、机器人搜索引擎ROBOTSEARCHENGINE这类搜索引擎重要特征是通过ROBOT自动搜索因特网,收集网页信息。所谓ROBOT是一个网页自动搜索程序。该程序启动后,会根据所给的网络地址自动对目的网页进行浏览,并将网页内容存储在搜索引擎的数据库中。同时,它还会根据网页的链接进一步提取其它网页或转移到其它站点上,直到没有满足要求的新网页或网站为止。机器人搜索引擎提供对关键词、主题词或自然语言的查询。当用户在查询搜索框巾输入检索词或检索表达式后,搜索引擎将会根据特定的检索算法在数掘库中找出相关记录,并按相关性顺序排列显示给用户。由于WEB的动态性,机器人搜索引擎会定期重复爬行指定WEB空间的网页,达到搜索信息的时效性【45】。ROBOT自动寻找网络资源并编制索引摘要,减少了人工作业。机器人搜索引擎优点明显表现为信息搜集速度快,信息采集及时、范围广,资源收录多、全,结果更新及时。但这也导致其不足之处收录的资源良莠不齐,查询结果准确度低,用户很难通过检索真正获得所需结果。这类搜索引擎的主要代表有GO091E、ALTAVISTA、HOTBOT、EXCITE、INFOSEEK、LYCOS,国内的有百度、北大天网等。3、元搜索引擎METASEARCHENGINE元搜索引擎是为弥补搜索引擎的不足而出现的网上辅助检索工具,是建立在已有搜索引擎服务之上的一种搜索引擎。它将多个搜索引擎集成在一起,为用户提供统一的检索服务。元搜索引擎自身并不处理检索要求,而是将用户的检索请求同时分发到各个成员引擎,依靠各成员引擎建立的索引,从中快速获得结果。元搜索引擎能够分散处理负载【L”,增加检索的范围,使返回的结果信息量更大、更全,同时具有较好的扩展性。它的缺点是不能充分使用搜索引擎的功能,用户需要做更多的筛选。由于只能将很少的高级检索命令送到指定的成员引擎,因此通常是以检准率为代价来提高搜索结果的潜在相关性【】”。而且,未经授权使用他人的搜索引擎存在一定的法律和经济问题。国外丌发的元搜索引擎不少,如PROFUSION、METACRAWLER、MAMMA、SAVVYSEARCH、“SIMO、DOGPILE、IXQUICK等元搜索引擎的功能已R臻完善。相对而言,中文元搜索引擎的研究比较薄弱,实际营运成果不多,目前具有代表性淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTENLET智能比较购物的研究与实现的元搜索引擎有外纬搜索引擎和搜星搜索引擎。二、研究概况一西文搜索引擎现状研究根据著名互联网市场研究公司GLOBAL】LEACH对排名前十种语言的网页统计表明【591英语网页占6840,日语网页占59,德语网页占580,中文网页占390,法语网页占3OO。可见,在全球的网络信息资源中,西文资源己成为网络信息资源的主流语种。搜索引擎市场仍然为西文搜索引擎所控制。现在大多数西文搜索引擎都同时提供目录浏览检索和词语检索功能。下面来介绍一下西文搜索引擎的相关技术和特点。1、页面采集技术各种搜索引擎根据自身定位,使用适合的页面采集技术。目录型搜索引擎主要采用人工方式采集网页,检索型搜索引擎一般采用机器人方式采集页面。目前,大多数搜索引擎采用机器人和人工结合方式进行网页采集工作。2、信息标引技术目录型搜索引擎通过网页标题、页面内容的简单描述和URL链接等向用户提供信息内容。如MOO在用户提交网页时设定URL、标题、注释等来描述网页,从而使得用户方便阅读和检索,而且在网页采集的过程中已完成网页的信息标引;GALAXY也为每个网页提供足够的信息项。检索型搜索引擎则根据分词技术,对采集到的信息资源的每个词都进行标引,从而形成详细、全面的网络资源全文索引数据库。用户通过这些词进行索引数据库的全文检索。此外,多数检索型搜索引擎还提供对特定类型资源的检索。3、用户检索技术现有西文搜索引擎使用各种检索功能,包括布尔检索、截词检索、短语检索、区分大小写检索功能等。一些高级检索功能,如加权检索、模糊检索、自然语言检索、概念检索等在某些搜索引擎中也有了实际应用。大多数搜索引擎提供各种常规和高级搜索功能。4、相关度算法相关度是用户查询与搜索结果之间相似度的一种度量旧。搜索引擎的主要区淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEM酰智能比较购物的研究与实现别在于相关度的计算方法。常见的算法是考虑关键词在页面中的位置和频率,即所谓的“位置频率”法。近年来,出现了一些计算相关度的新方法。这些方法的出现大大提高了搜索的精度。EXCITE、GOODE等充分挖掘超文本本身的结构特点,基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,考虑页面之间的链接关系对页面相关度的影响。HOTBOT和LOYCOS则考虑用户的点击行为对页面相关度的影响。GO和IILL【OTOMI考虑了META的标记对页面相关性的作用。一些混合结构搜索引擎和目录共存的搜索引擎基于这种思想一个站点足够好爿能被放到目录中,应该有机会比那些未列入目录的站点的网页更靠前。把那些目录中已存在的站点的网页靠前排列。总的来说,西文搜索引擎技术已经比较成熟,开发的各种实用产品已被广泛使用。但也存在一些缺点,除了在自然语言接口、相关排序、结果优化等方面需要继续完善外,搜索引擎缺乏标准和有效的评估方法。例如,面对INTEMEI上的海量信息,搜索引擎只能提供其中部分站点的信息搜索;相同的检索条件在不同的搜索引擎上可能得到互不相同的结果;各种搜索引擎同质化现象严重。二中文搜索引擎现状研究随着网络中文信息资源的日益丰富,中文搜索引擎也开始快速发展。中文搜索引擎技术借鉴西文搜索引擎的成熟技术发展而来,并结合中文信息的自身特点逐步形成了一些特色。其中影响较大、实用性强的中文搜索引擎主要有百度、搜狐、北极星、北大天网等,国外著名检索工具的中文版如GOOGLE、YAHOO、A1TAVISA等。与此同时,情报信息界专家、学者也异常活跃,积极参与中文引擎的理论研究与实践中来,并取得了许多研究成果,包括中文自动分词技术、中文信息过滤技术、中文自动摘要技术等。与西文搜索引擎相比,目前中文搜索引擎总体质量与西文搜索引擎还有较大差距。两者之间最主要的差异表现在数据的覆盖面上。此外,中文搜索引擎的检索功能比较单一,检索结果的可控性较差。目前,国内比较有特色的中文搜索引擎通常具备以下功能同时提供目录导航和页面全文搜索;提供简繁体的自动跟踪转换功能,使用户在一种汉字环境中可以浏览简淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMCT智能比较购物的研究与实现体和繁体页面提供中文按词的全文检索,提高查准率三、存在的主要问题经过十多年的发展、改进、完善,搜索引擎大大提高了人们对互联网信息查询的效率。人们已越来越依赖于搜索引擎,总是期望通过搜索引擎去准确、快速、完整地获取信息。随着WEB环境的变化、信息受用者的文化背景、兴趣爱好等各方面的差异,人们对信息需求的内容、表现形式越来越出现多样化、个性化的特点。特别是对特定领域的信息获取,用通用搜索引擎去检索往往类似于大海捞针,难以满足用户的特殊需要。现有的搜索引擎基本上是通过对WEB页面的全文建立索引来描述页而,无法全面描述页面的所有特征。用户通常只能使用关键词来表达查询要求,但关键词无法清楚描述用户的真正需求。基于关键词匹配技术的搜索引擎通常返回数目相当庞大的结果,包含的信息资源类型多样、质量良莠不齐,大量重复或者对用户无用的信息混杂在其中。因此,通用搜索引擎精度一般较低。此外,一些通用搜索引擎的更新速度慢,往往存在过期或失效的页面。四、发展趋势对于目前搜索引擎存在的各种缺陷及面I艋解决的诸多难题,都是未来很长一段时间内搜索引擎的发展方向。总的看来,其未来发展的趋势将主要体现在以下几个方面一各种搜索引擎不断融合各种搜索引擎技术并不是一个并行发展的过程,而是个不断融合、不断自我完善的过程【那。随着各类搜索引擎的各种优势不断地被综合利用,不足之处不断地被完善,将会在无形中逐渐走向某一模式,而该模式恰好就很好地解决了各种问题并满足了人们的需求,实现最终的融合。二分布并行构架在搜索引擎构架上,需要采用大规模分布式并行体系结构提高系统规模和性能。搜索引擎的实现可以采用集中式体系结构和分布式体系结构。但当系统规模淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMET智能比较购物的研究与实现到达一定程度时,必须采用分布式方法以提高系统性能。搜索引擎的各个组成部分都可以进行分布以提高速度和性能。三内容专用化由于社会分工加大,各类信息剧增,不同使用者对信息检索方面往往有自己的专业要求。因此,搜索引擎的专业化也成必然。目前的通用搜索引擎在专业信息检索方面质量很低,返回过多不相关的信息。而专业搜索引擎恰能解决专业信息的检索问题,开始成为搜索引擎发展的一个新趋势。四查询智能化各大搜索引擎目前主要的发展方向和趋势仍然是提高信息查询结果的精度,提高检索的有效性。针对该问题,已有多种研究方案提出,这些方法主要使用数据挖掘、机器学习、知识发现、人工智能等【20】2325】。但目前检索相关性分析研究没有针对专业搜索引擎。相对普通的信息检索系统,专业搜索引擎各种专业词汇不断出现和更新,仅仅依靠普通的词典分词是不合适的,必须发展有效的词汇识别和标引方法【7】。五搜索本土化对于搜索引擎来说,本土化也是一个关键的问题,尤其是语言和内容的本地化。目前许多著名的搜索引擎都以英语为基础,这对于全球不同国家的用户来说显然是不合适的。各国的文化传统、思维方式和生活习惯不同,在对内容搜索的要求就会存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。近年来,IHOO,GOO西E,LYCOS等公司不断推出各国、各地区的本地搜索网站,搜索的本地化己经是势不可挡。第二节W印信息抽取研究面对浩瀚的互联网信息资源,仅仅依靠关键字检索查询的通用搜索引擎,已经远远不能满足互联网用户的信息需求。即使是专业搜索引擎,返回的也只是一些有关特定领域的大段摘要,用户需要从中筛选才可获取真正符合自己需求的信息。另一方面,各网站内部提供的搜索引擎也不能真正满足用户的需求。当用户需要信息时,系统将根据用户请求从数据库中查询相关数据。但它们只是对自己网站的数据库进行检索。事实上,用户需要的信息往往超出了网站所能提供的。淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城NTEMET智能比较购物的研究与实现为了获得自己所需的信息,用户只好去其他类似的网站搜索。显然,这种人工操作的方式并不可取。因此需要一种能把相关信息从网页中抽取出来的工具。不论使用哪种检索工具,对用户而言,其返回的结果或者是粗糙的,或者是无法获取。而这些粗糙的结果往往具有很大的相关性。这是因为,同一主题的信息通常分散存放在不同的网站上。由于各网站的布局风格不同,这些信息表现的形式也会不相同。但在内容上,它们都显示同一主题,彼此之间还是相关的。因此若能将这些信息收集起来并用结构化形式存储,将是十分有益的。WEB信息抽取正是为了解决这个问题而提出。一、信息抽取一信息抽取和信息检索信息抽取的目标是把文本里包含的信息进行结构化处理。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。信息抽取与信息检索的区别在于信息检索的翻的是根据用户的查询请求从文档库中找出相关的文档,用户必须从找到的文档中翻阅自己所要的信息。这就类似于一个收集器,收集大量有用的原材料。而信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析,类似于一个加工器,对信息搜索系统收集的原材料进行加工、提炼。简单的说,信息检索从文档库中检索相关的文档,而信息抽取是从文档中取出相关信息点。这两种技术因此是互补的。信息抽取与信息检索不单在目的上不同,而且使用的技术路线也不同。多数信息抽取的研究是从以规则为基础的计算语言学和自然语言处理技术发源的,而信息检索则更多地受到信息理论、概率理论和统计学的影响。WEB信息的大量增加导致信息抽耿的研究得到高度重视。比较购物代理就是信息抽取的一个典型应用。二评价指标信息抽取从根本上说是一个映射过程,评估信息抽取系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确淘宝网购物HTTP/WWW521TAOBAOCOM/淘宝网购物商城INTEMET智能比较购物的研究与实现程度的参照物是通过专家思考判断后对信息的抽取结果这里假设人工信息抽取完全正确并且排除个人思维差异的因素,与人工信息抽取结果越相近,抽取的准确程度就越高。这里隐含了评估信息抽取技术的两个指标查准率PRECISION和查全率RECALL。查准率是所有抽取的信息中与人工信息抽取结果吻合的信息所占的比率。其数学公式表示如下查槲呻刎蓊焉鲁鬟查全率是人工信息抽取结果应有的信息中抽取系统吻合的信息所占的比率其数学公式表示如下查全率一MFF塑罨筹查准率和查全率反映了信息抽取质量的两个不同方面。从抽取的要求来说,希望查准率和查全率同时达到100,这是最为理想的效果,但事实上很难做到。两者取值在0和L之间,通常存在反比的关系,即查准率增大会导致查全率减小,反之亦然。评价一个系统时,应同时考虑查全率和查准率,但同时要比较两个数值毕竟不能做到一目了然。许多人提出合并两个值的办法。1,其中包括F值评价方法,2卜PR公式23其中P是查准率,R是查全率B是一个预设值,决定对P侧重还是对R侧重,通常没定为L,表示P、R同等重要。这样用F一一个数值就可很看出系统的好坏。三信息抽取分类WEB上存在三种类型的页面,即无结构页面、半结构页面及结构化页面。三种不同类型的页面的信息抽取方法各有特点,目前尚未出现可以使用I司一种信息抽取方法处理三类页面的信息抽取系统。根据页面类型的不同,信息抽取系统可以分为三类,它们分别为1从自由格式的文本FREETEXT中抽取出所需要的信息内容;2从半结构化SEMISLRUCTURED的文本中抽取出所需要的INTERNET智能比较购物的研究与实现信息内容;3从结构化STRUCTURED的文本中抽取出所需要的信息内容。其中第一种信息抽取【作最为困难,而第三种信息抽取任务最为简单。本文钊对WEB页面进行信息抽取。由于电子商务涉及的W阻网页绝大多数是一种半结构的文本信息,因此本文的研究属于第二类信息抽取。研究的重点是如何准确有效地从WEB页面这种半结构化文本中抽取出所需的信息内容。四包装器WRAPPER本文第章已经提到过包装器的概念。包装器主要的任务是信息识别和结构映射。在数据库环境下,包装器负责把数据和查询请求从一种模式转换成另外一种模式。在因特网环境下,包装器的目的是把网页信息用结构化的形式储存起来,以方便进一步的处理。因特网包装器可接受针对特定信息源的查询请求,并从该信息源中找出相关的网页,然后把需要的信息提取出来返回给用户。它由一系列的抽取规则以及应用这些规则的计算机程序代码组成。通常,一个包装器只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列的包装器程序库。建造针对网页的包装器主要有两个好处一是提高了从某一特定信息源获取相关信息的能力,二是能把不同信息源的信息整合到数据库中,用通用查询语言即可查找信息。包装器很大程度上决定了一个信息抽取系统的工作质量。二、W印信息抽取技术人们从二十世纪八十年代INTEMCT诞生后就开始对WEB信息抽取技术进行研究。按其工作原理可分为以下几类方法一基于归纳学习的信息抽取技术基于归纳学习的信息抽取技术对若干待抽耿网页实例进行学习,逐步分析出待抽取信息在网页中的结构特征,指导今后的实现信息抽取【4“。该技术由华盛顿大学的NKMSHMERICK提出。这种技术的信息查全率与查准率高,并且容易扩充,是信息抽取中常用的一种方法。但是这种技术需要用户提供大量的实例,而且当待抽取网页书写不规范或者待抽取信息的结构不唯一时难以抽取出正确的信息。因此,NKUSHMERICK【48】等人在归纳学习过程中增加了上下文规则,而DFREITA叠【”1等人通过给学习实例反复赋予不同权值来提高对不规则信INT肌ET智能比较购物的研究与实现息的信息抽取查准率。为了减轻用户负担,IMUSLEA【40】等人在归纳学习过程中加入了启发式规则。实验表明,这些方法具有较高的查全率和查准率。由于归纳学习方法的特殊要求,基于归纳学习的信息抽取技术需要用户提供大量的学习实例,给用户增加了负担;而且对用户实例的学习也影响了信息抽取速度。二基于网页结构分析的信息抽取技术该技术利用电子商务网站商品信息结构类似、并具有RRML语言半结构化的特点,对待抽取的网页进行结构分析,并使用启发式规则找出可以有效划分信息边界的分割标记,再根据分割标记抽取出在网页中重复出现的信息。这种技术具有抽取速度快、查全率与查准率高的优点,也是信息抽取中常用的一种方法。基于网页结构分析的信息抽取技术由DWEMBLE一341等人于1999年提出,采用了领域描述等5条启发式规则进行标记分割。然而这种技术需要用户提供待拙取信息所属领域的描述,并且用户描述的正确性对信息抽取质量影响很大。针对该问题,台湾的CHCHA|15L等人用PAT树代替普通树结构存储网页标记信息以提高信息抽取质量,从而获得接近90的信息查全率;而DBUTTL一”1等人利用相同类型信息通常具有相同标志结构的特征,对领域描述规则进行了替换,实验表明替换后的信息查全率为93C,扣98,而标记分割算法的正确率同样可达100。但是,基于网页结构分析的信息抽取技术采用的启发式规则仅适用于结构规范的网站,因此难以扩充。三基于自定义查询语言的信息抽取技术该技术同样利用电子商务网站商品信息结构类似和HTML语言半结构化的特点对网页结构进行分析,并将用户提供的自定义查询语言作为信息抽取时的启发式规则进行信息抽取。这种技术将白定义查询语言作为启发式规则实现信息抽取,与单纯分析网页结构的技术相比,具有容易扩充的优点。由ASAGUHUETL27】等人研制的信息抽取器制造工具W4F是该技术的代表之一,它可以迅速生成针对不同内容、不同结构的信息抽取器,可扩充性强。为了减轻用户分析网页的困难,MBAUER【43】等人在系统中加入了动态提示信息,并使用用户示范方法来弥补系统对网页结构分析的不足。然而,这种技术需要用户书写查询语言,对用户的个人能力要求较高,也增加了用户负担。INTERNET智能比较购物的研究与实现四基于模式匹配的信息抽取技术该技术根据大量学习实例,归纳学习出待抽取信息的语法结构模式,并根据这些模式从待抽取网页中抽取出相匹配的信息,尤其适用于复杂结构信息的抽取。MCALIFF删等人于1997年开发了一个信息抽取系统RAPIER,将基于模式匹配的信息抽取技术应用于半结构化的网页信息抽取,实验表明该系统可以在90个实例进行学习的前提下,实现86的信息查准率和60的信息查全率。然而这种技术的查准率较低,学习过程中的语法分析也降低了系统的工作效率。为了提高信息抽取的查准率,SSODERLAND【5L】等人在归纳学习中加入了对领域规则的学习,南京大学的黄豫清【8等人提出由用户指定信息抽取信息结构的方法。随后,SSODERLALLD【521又通过确定语段分割符来避免学习过程中的语法语义分析。但是,基于模式匹配的信息抽取技术只能实现单一领域的信息抽取,信息查全率低,并且需要用户提供大量学习实例,用户负担较重。五基于隐式马尔科夫模型的信息抽取技术该技术将待抽取信息的每一个属性作为马尔科夫模型中的一个状态,利用隐式马尔科夫模型进行信息抽取。这种技术适用于结构化信息的抽取并且信息查准率较高。基于隐式马尔科夫模型的信息抽取技术由AMCCALL啪【281等人于1999年提出,实验证明该技术的信息抽取查准率911,但是状态模型结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论