(计算机系统结构专业论文)比较购物代理的研究与实现.pdf_第1页
(计算机系统结构专业论文)比较购物代理的研究与实现.pdf_第2页
(计算机系统结构专业论文)比较购物代理的研究与实现.pdf_第3页
(计算机系统结构专业论文)比较购物代理的研究与实现.pdf_第4页
(计算机系统结构专业论文)比较购物代理的研究与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机系统结构专业论文)比较购物代理的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海变通大学硕士毕业论文 比较购物代理的研究与实现 摘要 ( 近年来随着计算机技术、信息技术和通讯技术的飞速发展,特别是九十 年代w w w 的发展,全球电子商务得到了迅速发展。调查显示网上用户和各 种提供网上交易的网站在近几年得到了迅速发展。与传统商店相比,在线 商店在节省用户时间和减少用户货物运输上有着很大的优势,但是由于在 线商店的数目众多,用户需要花费大量时间在网上去寻找一个提供合理价 格商品的商店。 基于w e b 的购物代理可以帮助用户在各个网上商店比较价格,但是现 有的代智能化很弱。这些代理软件一般是根据各个网站特有的页面部件, 使用手工编码实现的,而一旦网站的内容发生变化就需要根据网站的新结 构、新商品的类型修改程序以适应新的变化。目前w e b 上的绝大多数网页 是用无语义的h t m l 语言表示的,而这些网页对人来说很容易理解,但软 件代理却不能理解这些无意义的代码。这使得建立一个完全智能化的,能 够对网页布局、内容变化的条件下自动适应变化而无须修改代码的比较购 k 。 物代理是非常困难的。可 本文提出了种机器学习的算法,利用这种算法,比较购物代理可以 分析网页的部件模式,自动抽取领域相关的商品信息系统。基于机器学习 算法的网上书店比较系统的原型能访问不同的网上书店、查询并实时的返 回比较结果,价格的比较结果以一种固定的格式返回给客户浏览器。 上海交通大学硕士毕业论文 本文还讨论了比较购物代理所涉及的关键技术,即在w e b 环境下的半 结构化信息的抽取技术。 本文也讨论了在动态网页中分析、抽取商品相关信息遇到的困难,这 主要是由于半结构化的网络环境和不同商家的不同商品的描述格式造成 的。 最后,论文介绍了一种能够简化分析任务和增强分析精确度的基于 x m l ( e x t e n s i b l em a r k - u pl a n g u a g e ) 的解决方案,利用x m l 的语义信息可 以使比较购物代理更加准确、高效和易于使用。 关键词:智能代理,信息抽取,电子商务,比较购物 i i 上海交通大学硕士毕业论文 r e s e a r c ha n di m p l e m e n t a t i o no f c o m p a r i s o ns h o p p i n ga g e n t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f c o m p u t e r , i n f o r m a t i o na n d c o m m u n i c a t i o n s t e c h n o l o g y i nr e c e n t y e a r s p a r t i c u l a r l yw i t h t h ea d v e n to f t h ew o r l dw i d ew e b i nt h ee a r l y1 9 9 0 s t h es c o p ea n ds c a l eo fe l e c t r o n i cs h o p p i n gh a sb e g u nt o g r o wa ta ne x p l o s i v er a t e v a r i o u sr e c e n ts t u d i e sh a v es h o w n t h a tt h en u m b e r s o fb o t hw e b s h o p p e r sa n d w e b s i t e sd e d i c a t e dt os h o p p i n ga r eg r o w i n ga ta r a p i d p a c e o n l i n es h o p p i n g h a sm a n y a d v a n t a g e so v e rt r a d i t i o n a ls h o p p i n g ,n o t a b l y i ns a v i n gc u s t o m e r s p r e c i o u st i m ea n d e l i m i n a t i n gt h eh a s s l eo ft r a v e l i n gf i o m o n e s h o p p i n gm a l lt oa n o t h e r y e t ,w i t ht h ec o n t i n u a li n c r e a s ei nt h en u m b e r o fo n l i n es t o r e s ,c u s t o m e r ss t i l lf i n di td i f f i c u l tt of m dt h eb e s tp r i c ef o ra s p e c i f i e dp r o d u c tb yc o m p a r i n gt h eo f f e r so f v a r i o u so n l i n es t o r e s c u r r e n t l y , s u c hc o m p a r i s o n r e q u i r e st h e m t ov i s i te a c h s h o p p i n g w e b s i t eo n e b y o n e t h ec r e a t i o no faw e b s h o p p i n ga g e n t w o u l d g r e a t l y i n c r e a s et h e c o n v e n i e n c eo fo n l i n e s h o p p i n gb ya l l o w i n gc o n s u m e r st or a p i d l yc o m p a r e p r i c e sf r o mm u l t i p l es h o p p i n gw e b s i t e s h o w e v e r , e x i s t i n gs h o p p i n ga g e n t sa r e n o t i n t e l l i g e n t i nar e a l w a y e x i s t i n gc o m p a r i s o ns h o p p i n ga g e n t s f o l l o w p r e d e t e r m i n e da n dp r o g r a m m e dp r o c e d u r e s ,w h i c h a r es p e c i f i ct ot h ed e t a i l so f p a r t i c u l a rw e bs i t e s m o s ti m p o r t a n t l y , t h ea r r i v a lo fn e ws u p p l i e r sr e q u i r e s p r o g r a m m e r i n t e r v e n t i o nb o t ht od i s c o v e rt h a tt h es i t e se x i s ta n dt os p e c i f ya n d w r i t et h ec o d es p e c i f i ct oq u e r y i n gt h es i t e s m o s tw e b p a g e sc o n t a i n i n gp r i c i n g i n f o r m a t i o na r e p r e s e n t e d i n l o o s e l y s t r u c t u r e dh t m ll a n g u a g ew i t hn o a g e n t u n d e r s t a n d a b l es e m a n t i c s , w h i c hc r e a t e s d i f f i c u l t y i n b u i l d i n gf u l l y i n t e l l i g e n ts h o p p i n ga g e n t s t h a tc a n s h o p a t m u l t i p l es h o p s w i t hn o p r i o r k n o w l e d g e a b o u tt h es i t e t h i st h e s i sp r o p o s e sa m a c h i n e - l e a r n i n ga l g o r i t h m t oa u t o m a t et h ep r o d u c t m 上海交通大学硕士毕业论文 r e l e v a n ti n f o r m a t i o ne x t r a c t i o n p r o c e s s f o ra p r o d u c td o m a i n i n d e p e n d e n t c o m p a r i s o ns h o p p i n gs y s t e m i n t h i st h e s i s ,t h ei m p l e m e n t a t i o no fap r o t o t y p e o fab o o kc o m p a r i s o n s h o p p i n gs y s t e m b a s e d o nt h ea b o v em e n t i o n e d a l g o r i t h m h a sb e e n d e s c r i b e di nd e t a i l t h i ss y s t e mi s c a p a b l eo fv i s i t i n g d o z e n so fo n l i n eb o o k s t o r e sa n d ,i na c c o r d a n c ew i t ht h eu s e r sq u e r y , r e t r i e v e b o o k ,p r i c i n ga n dm e r c h a n ti n f o r m a t i o ni nr e a l t i m e a n dp r e s e n tt h e mi na c o n s o l i d a t e da n dc o m p a c tf o r m a t t h i sp a p e ra l s od i s c u s s e st h eu n d e r l y i n gk e y t e c h n o l o g i e st h ec o m p a r i s o n s h o p p i n g s y s t e m i sb a s e d u p o n ,“s e m i s t r u c t u r e d i n f o r m a t i o ne x t r a c t i o n t e c h n i q u ei nt h ew e b e n v i r o n m e n t ” t h i sp a p e ra l s od i s c u s s e st h ed i f f i c u l t i e se n c o u n t e r e di nt h ep r o c e s so f p a r s i n g a n d e x t r a c t i n g t h e p r o d u c t r e l e v a n ti n f o r m a t i o n e f f i c i e n t l y f r o m d y n a m i c w e bd o c u m e n t s t h e s ed i f f i c u l t i e s p r i m a r i l y s t e mf r o mt h e s e m i s t r u c t u r e dw e be n v i r o n m e n ta n dd i f f e r e n tp r o d u c t d e s c r i p t i o nf o r m a t su s e d b yv a r i o u so n l i n es h o p p i n gw e b s i t e s f i n a l l y , t h i st h e s i s i n t r o d u c e sh o wt h e s e m a n t i cm a r k u po fw e bp a g e su s i n gx m l ( e x t e n s i b l em a r k u pl a n g u a g e ) s i m p l i f i e st h ep a r s i n ga n de x t r a c t i n gt a s k ,t h u sm a k i n gc o m p a r i s o ns h o p p i n g a g e n t s m u c hm o r e f l e x i b l e ,m o r eo p e n e n d e da n d e a s i e rt oi m p l e m e n t k e y w o r d s : i n t e l l i g e n ta g e n t ,i n f o r m a t i o ne x t r a c t i o n ,e c o m m e r c e , c o m p a r i s o ns h o p p i n g 上海交通大学硕士毕业论文 第一章绪论 随着计算机网络技术、通讯技术和信息技术的飞速发展,尤其是w w w 的诞生和迅 速普及,i n t e r n e t 正改变着我们生活的方方面面。商务领域在充分利用i n t e r n e t 技术 这一方面远远领先于任何一个领域。从企业来说能以更低的成本进入国际市场的竞争, 从消费者来说有了更多的选择机会。 传统的购物方式一人们需要选择许多商店,对商品的价格,质量等作比较,从中选 出满意的商品。这种购物方式,对顾客来说既耗体力又费时间而且能否找到物美价廉的 商品尚属未知。一随着消费类电子商务网站( 如a m a z o n c o m ,8 8 4 8 n e t ) 的飞速增加, 越来越多的消费者在网上购物,他们不必在拥挤的商业区一家家商店里挑选自己所需的 商品,而只需坐在家里在i n t e r n e t 上搜索、查看、挑选以完成购物过程。网上购物可 以使消费者在网络上直接面对所有的相关商家,使得他们能够较方便的地进行比较和挑 选,可以节省时间,在一定程度上提高购买效率。 在购物网站的数量不断增加的情况下,各个网上商店提供的商品种类和价格都不 同,而且由于进货渠道和经营策略的关系,相同商品的价格也存在较大的差异。对于要 购买大额商品的用户,仅局限在一家网上商店是不能让人满意的。而在网上从一个商店 到另一个商店不停的浏览搜索亦是件费时费力的事,况且用户不一定知道所需要购买 商品的网址,既使知道仍需不断的记忆不同商店的价格也是很麻烦的事情,所以很难做 出购买决定。在顾客的购物选择日益增多的情况下,消费者如何以最优惠的价格购买到 所需要的商品是他们最关心的问题。为满足顾客的这种要求,目前出现一种新型的网上 购物方式,“比较购物( c o m p a r i s o ns h o p p i n g ) ”。消费者只需访问特定的比较购物的网 站就可以查到需要购买的商品的价格和其他相关信息以及商品提供的在线商店,从而大 大提高了在线购物的范围和效率。 比较购物把传统的信息检索技术运用于w e b ,并把信息检索拓展到了信息抽取和机 器学习等多个知识领域,并和代理技术紧密的结合在一起。 1 1 信息检索( i n f o r m a t i o nr e t r i e v a l :i r ) 信息检索是一门古老的学科,主要研究如何表示、存储、组织和获取信息( t h e r e p r e s e n t a t i o n ,s t o r a g e ,o r g a n i z a t i o no f ,a n da c c e s st oi n f o r m a t i o r li t e m s ) 。 然而,在i n t e r n e t 出现之前,它是一门比较狭窄的学科,隶属于图书情报学领域【1 , 2 】。 从本世纪九十年代中期起,i n t e r n e t ,尤其是w o r l dw i d ew e b 的出现给人类获得 信息、发布信息的模式带来了革命性的变化,并进而为信息检索学科提供了前所未有的 机遇,也提出了前所未有的挑战。 上海交通大学硕士毕业论文 如今,以w e b 为主的i n t e r n e t 己经成为名副其实的人类知识文化大仓库。人们用 史无前例的方式,最大限度地共享知识和信息: 人们无需了解各种技术的细节,比如硬件平台、软件系统、通信协议等等; 人们用标准的浏览器用户界面来访问w e b 上的信息; 人们可以几乎不受任何限制地创建自己的w e b 站点或者网页,发布自己的信息 供全世界的人访问、共享。 总之,w e b 成为一个独立的信息发布、访问渠道,也构成了一个独立的信息访问的 虚拟空间( c y b e rs p a c e ) 。 如何在这样一个虚拟的信息空间内寻找所需的特定信息,成为近年来的一个研究热 点。随之而来,w e b 时代的信息搜索学科从传统的图书情报学扩展为一项综合性的研究 性课题,它涉及情报学、计算机科学、统计学、认知学、人工智能等多学科领域,主要 研究信息,尤其是数字化、网络化形式的信息如何更有效的表达、存储、组织、访问和 检索等。 1 1 1 w e b 环境与传统信息检索环境的区别 传统的i r 环境是集中式,处理对象是相对静态的、小规模的、同质( h o m o g e n e o u s ) 的情报资源,由此构建的信息检索系统也基本上针对小规模的、静态同质的数据源。然 而,w e b 上的数据具有如下一些新的特征,使得w e b 显著的区别于传统的i r 环境: w e b 数据的量极大,而且更新非常快。w e b 数据的这种海量性和动态性是w e b 最鲜明的特征,也正是针对小规模的、静态的、同质的数据源的传统i r 技术难 以在w 曲上发挥效果的主要原因之一。 w e b 页面的非结构性。从数据库学科的角度看,w e b 页面是一种半结构化的数 据格式。相对应的,广泛使用的关系型数据库是严格结构化的数据,数据库有 其预先定义的结构( s c h e m a ) 规定各个字段的数据类型、长度等等,因此数据 库查询语言可以非常精确的按照字段在数据库中查询所需的信息。然而,w e b 页面只有大致的结构( h e a d 、b o d y ) ,大量的正文数据是完全杂乱无章、没有 明显结构的文本或者多媒体信息。因此,难以像构造s q l 语言那样,构造合适 的w 曲查询模型和查询语言。 w e b 页面的超媒体特性。可以嵌入图形、声音等各种文件格式,构成丰富的超 文本信息。由于这方面涉及多媒体信息检索( m u l t i m e d i ai n f o r m a t i o nr e t r i e v a l ) 如图像检索( i m a g er e t r i e v a l ) 学科,本文主要关注文本检索( t e x tr e t r i e v a l ) 技术,故不详细讨论。 一般的信息搜索工具,搜索引擎,比如a 1 t a v i s t a 、l y e o s 、y a h o o ,g o o g l e 等的 出现一定的程度上满足了人们的信息查询要求。一般的搜索引擎都有自己收集的文档索 引数据库,根据用户的关键字,查询自己的索引数据库并将结果返回给用户。每个搜索 上海交通大学硕士毕业论文 引擎的有自己的内容和一个特定的用户接口,需要特定的搜索规则并显示搜索结果。 通用的搜索引擎可以满足一般的信息查询要求,但是只能检索静态页面,没有办法 检索动态页面。随着电子商务的飞速发展,各个方面的商务信息不断增多的情况下,从 不同质的分布式网络( i n t e r n e t ) 中如何提供给用户一个统一的、集成式的信息代理技 术是信息检索技术需要解决的一个关键问题。为满足消费者的购物要求出现了 a u c t i o n b o 【3 】,b a r g a i nf i n d e r1 4 ,j a n g o 【5 】,等商品信息搜索工具。这些搜索工 具采用了代理技术并运用了信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 技术。 1 2 信息抽取( i n f o r m a t i o ne x t r a c t i o n :i e ) i e 指从非结构化的文本中抽取和组织数据的过程。为了产生结构化信息,i e 系统 注重结构化、半结构化和纯文本数据的处理,并把它们转换为结构化的数据表。根据搜 索领域的不同,i e 使用不同的处理方法。对半结构化数据往往使用文档中的结构数据, 如h t m l 标签来迸行抽取。h t i d l 文档由文本和各种标签组成,不包含语法文本。一个典 型的w e b 信息抽取系统以w e b 源文件作为输入,根据页面布局采用不同的规则进行文本 数据的抽取【6 ,7 ,8 ,9 】。这样的软件往往也成为w e b “w r a p p e r ”。w r a p p e r 的功能就是 从半结构化数据抽取出特定的文本。目前大部分的w r a p p e r s 是手工编程实现的,也就 是说信息抽取规则是事先根据源文本的格式和布局而预先设定的。当要抽取的领域增 多,或者数据源增多,w r a p p e r 必须要更改代码以适应新的抽取环境。这样的程序很难 维护而且工作量巨大。有些w r a p p e r 利用机器学习技术,可以根据源文本的不同自动的 适应环境的变化并运用不同的抽取规则【1 0 ,1 1 】。 为评估i e 的抽取效果,一般使用准确率( p r e c i s i o n ) ,它定义了抽取的精确度; 而查全率( r e c a 1 ) 定义了查找的覆盖率。下式中,是所有抽取结果的数目,是 全部结果的数目,p 是准确率,r 是查全率: p :旦 8 月:竺 , p 和r 的值在 0 ,1 】之间。性能指标f 同时考虑了p 和r : ,:堡坐 5 i p + r 占决定了斤对p 的重要性,当万= l 时,r 和p 同等重要。 i e 系统对于动态w e b 页面的处理非常重要,这些页面无法通过搜索引擎的获得而 圭堂奎望查兰堡主兰些丝苎一 是从数据库中动态生成的。比较购物代理时i e 的个典型应用。基于w e b 的信息抽取 是一个新的研究领域,有着很大的发展空间。 1 3 比较购物概况和产生 从消费者的角度看,比较购物是种使消费者能够找到自己需要的商品和提供最优 惠价格的在线商店的服务。比较购物的核心,就是更加尊重消费者的选择,切以消费 者的利益为中心。不管国外还是国内,随着消费类电子商务网站的爆炸性的增加,如何 找到自己要购买的最便宜商品显然是消费者关心的问题。比较购物就这样产生了。 比较购物是基于代理技术的,所以也称为购物代理,有人也称为o n l i n es h o p p i n g a g e n t ,s h o p p i n ga s s i s t a n z 等。很多消费者使用这些代理的最终目的是找到网上商品 的报价,所以也称为比价购物代理。无论如何命名,从技术的角度说他们是i n t e r n e t 上 的软件代理,在不同的在线商店进行检索。下面的图说明它是如何工作的。 0 n l i n ev e n d o r s 图1 1 购物代理的基本工作原理 f i g1 1t h ew a ys h o p p i n g a g e n t w o r k s 购物代理是i n t e r n e t 上的软件代理,他自动的从若干个在线商店商品收集和比较 商品有关的信息。客户在比较购物代理提供的图形用户界面( g u i ) 提交所想知道的商 品的查询关键字,比较购物代理根据客户的查询通过互联网实时查询大众多在线商店, 从各个网上商店检索特定商品的价格信息所在的文档,然后分析这些文档,抽取价格和 商品有关地其他属性信息,从不同的商家抽取的这些信息收集和整理后,用表格的形式 把这些信息返回给客户【1 2 ,1 3 。客户根据这些信息可以做出购买决定,可以选价格合 理的在线商店进行具体交易。购物代理只提供价格比较服务,并不负责商品的交易和支 付 比较购物代理即可以运行在服务端( s e r v e r - b a s e ds h o p b o t ) ,也可以运行在客户端 上海交通大学硕士毕业论文 ( c iie n t b a s e ds h o p b o t ) 。后者的这种工作方式与元搜索引擎( m e t as e a r c he n g i n e ) 很 相似。国外的比较购物网站是在这几年逐渐发展起来的,其比较购物的基本模式有以下 两种: 网站模式,客户不直接访问网上商店,而只要在比较购物网站中填入欲购的商 品的名称,指定价格范围和其他一些具体商品有关的参数。然后提交给比较 购物网站,比较购物网站自动访问若干( 甚至上百家) 网上商店,将商品价 格比较的结果生成h t 虬( h y p e rt e x tm a r k u pl a n g u a g e ) 文件返回给客户 的浏览器。客户如果找到在网页中找到最低的价格,则通过连接进入到相应 的购物网站进行交易。这种网站目前的购物代理中最多。我们下面介绍最有 名的这个模式的购物网站。如图卜2 。 o n l i n es t o r e s 图卜2 网站模式的比较购物系统 基于客户端的购物代理( c i l e n t b a s e ds h o p b o t ) ,使用客户端软件并行搜索 各购物网站,对比较结果处理后可以进行如价格排序操作。购买者通过商品 数据中的超链接进入购物网站进行实际的购物活动。这类购物代理有 s h o p p i n ge x p l o r e r 【1 4 1 。 1 4 国内外比较购物网站的介绍 国外国内的大多数的比较购物系统都是网站模式的。根据商品搜索的范围来说,一 上海交通大学硕士毕业论文 般来说现有的比较购物网站分两种,通用比较购物和面向商品的比较购物。通用比较购 物可以搜索各种各样的商品的,比如电脑硬件,电脑软件,办公用品,家用电器,医疗 保健,音乐c d ,电影v c d 书等等。面向商品的比较购物是针对一种商品的购物。显然 有人会问,通用比较购物好还是面向商品的比较购物好昵? 一般来说比较购物代理越具 体,搜索结果越精确。通用比较购物代理的搜索目标不具体,但它覆盖的零售店多、范 围大。w w w m y s i m o n 。c o m 、w w w d e a l t i m e t o m 、w w w p r i c e f r e s h c o m 和 w w w p r i e e s c a n c o m 是在国外比较知名的通用比较购物网站还有很多面向商品的购物 代理,如w w w c o m p u t e r s 。c o m 是为计算机方面的购物代理,w w w ,e v e n b e t t e r c o m 是面 向书籍、电影和音乐c d 的购物代理。以下是几个国内外比较有影响的比较购物代理网 站。 1 4 1 m y s i m o n 购物代理( w w w m y s i m o n c o m ) m y s i m o n 公司【1 5 】是声称它是最大的家比较购物网站,大约有2 0 0 0 网上商家, 一共有1 6 个商品目录,有数以万计的商品,如计算机、书、音乐、电子商品、流行时 尚、花、运动商品、玩具等。m y s i m o n 的购物服务是基于专利保护的智能化代理技术。 这种技术使用了最先进的搜索引擎,可以实时比较大量商品的价格。 m y s i m o n 公司的专利虚拟学习代理v l a ( v i r t u a ll e a r n i n ga g e n t ) 技术可以用于 生成大量能模仿人类行为的智能代理,并可以训练从网上商店抽取所需的信息。 m y s i m o n 公司在并行搜索及人工智能方面都有很多的专利。他的完全自动信息搜索 系统用于购物方面非常理想。通过使用高度智能化的代理和先进的并行搜索技术,该购 物系统能快速、自动的完成商品信息的搜索和比较。 1 4 2 j u n g l e e 购物代理( ! 堂型:j 婪旦g ! 曼曼:垒垒盟) j u n g l e e 公司j t m g l e e 【】6 】购物代理使用“虚拟数据库”( v d b ,v j n u a ld a m b a s e t e c h n o l o g y ) 技术把十几个商业站点聚集起来,并按商品进行分类,最后合并成一个专 门的购物指南。a m a z o n c o n 的网站上已经集成了该公司比较购物的强大功能。 该购物代理利用包装器( w r a p p e r ) 来从站点抽取数据,包装器可以调用抽取器、 数据转换器和数据合法性检查器,其中抽取器负责从非结构化的数据中抽取属性,数 据转换器和数据合法性检查器则用来确定数据的完整性。对于每个站点要创建一个包 装器,而对于一组有类似信息的站点则只需创建一个抽取器。抽取器由抽取规则和词 典组成,以便对非结构化的数据进行复杂的语言处理。一旦数据被收集过来并进行转 换后,为了对查询做出反应,就可以把数据用一种组合形式表示出来。 1 4 3 拉拉手比较购物( w 删1 a i a s h o u c o m ) 拉拉手【1 7 是作为中国最大的电子商务网站之一,该网站在国内率先推出了比较 上海交通大学硕士毕业论文 购物电子商务模式。拉拉手把各种互联网信息按照不同规则处理成各个种类的数据集, 每个数据集拥有相似的特征、描述、功能,这种具识别性的唯品质,就是基因特征。 然后,再把各类具有不同基因特征的数据集重新排列、组合成新的信息群,以符合使用 者的处理原则和习惯。通过人工智能和专家系统技术,特定排列组合的基因之间还具有 记忆和学习的功能。 目前,”拉拉手”已经覆盖国内2 0 0 多家电子商务网站,包括m y 8 8 4 8 网上商城 ( w w w 8 8 4 8 c o m ) ,新浪商城( w w w s i n a t o m c n ) ,一号店( w w w 1 h a o c o m ) 等,它的商品 检索范围包括大到通讯器材、家用电器,小到玩具、礼品的多层次商品类型。 1 s 购物代理的核心技术 比较购物代理的关键技术包括两个方面:多代理并行搜索技术和w e b 页面相关信息 抽取技术。它们具体含义如下: 并行搜索技术( p a r a l l e ls e a r c ht e c h n o l o g y ) 网络传输是比较购物的主要瓶颈,其中影响比较购物性能的最大因素是网络传输延 迟。为了提高比较购物代理的性能,在代理实现中采用了多线程( m u l t i - t h r e a d e d ) 技术, 使得代理能够在很短的时间内搜索几百个购物网站,大大的提高了购物代理的性能。在 对购物网站进行搜索中,每个代理线程负责在一个网站的搜索,详细搜索流程如图1 3 所示。根据用户商品查询请求,首先每个购物子代理分别与购物网站建立连接;其次发 出商品查询请求( 即填写商品信息查询表) ,网站返回查询结果页面;最后代理从返回 页面中抽取出与商品相关的关键信息。 w e b 页萄相关信惠袖取技术 目前i m e r n e t 上提供了大量有用的信息,如黄页、产品目录、股票信息、天气预报 和航班信息等。然而这些有用的信息资源通常是嵌入在h t m l 网页中,为了获取这些 有用的信息,就必须排除网页中那些不相关的数据,如h t m l 标签和广告等,从网页 中抽取相关有用的信息。然而从网页中抽取相关信息非常困难,现有信息集成系统 f i n f o r m m i o ni n t e g r a t i o ns y s t e m s ) 大都采用定制w r a p p e r 技术来完成信息抽取任务。 由于不同购物网站的商品描述格式各不同,为了抽取商品相关信息,要求每个子代 理( 代理线程) 所关联的网站商品描述格式必须预先知道。对于不同购物网站返回的商 品信息搜索结果,购物代理般分别采用不同的适配器( n f o r m a t i o na d a p t e r ,通常称 为w r a p p e r ) 【1 8 】来抽取商品关键信息。w e b 文档的半结构化的特征决定了不能用传 统的无结构化文本分析领域的n l p 技术,也不能采用有固定格式的结构化文本处理技 术。w e b 上大量的数据是由多个属性列表组成的。为了从半结构化页面中抽取数据,需 要分析页面的布局,利用h t m l 各种分隔符和标签来辅助信息的抽取工作。w e b 文档 上海交通大学硕士毕业论文 内容的组织和超链接结构在信息抽取中起着很重要的作用,因为w e b 数据库查询结果 往往由一组包含超链接的页面组成,为了保证查全率,必须对这些超链接进行跟踪。 w r a p p e r 由一组针对一个信息源的抽取规则和使用这些规则的代码组成。为了实现 多个信息源抽取数据,需要一组w r a p p e r 。w r a p p e r 的生成可以手工、半自动或者全自 动的生成。虽然目前的w r a p p e r 大多数是手工编码的,但这种方法需要很高的维护代价, 因为一旦数据源发生改变必须重写w r a p p e r 。为了实现可扩展性,近来产生了自动 w r a p p e r 生成技术,它使用了机器学习方法来自动产生抽取规则并能自动适应数据源的 变化。本文第三章将详细描述这一方法。 卜 伍 p d d v d - 一 p d dp r o d u c td o m a i l 3d e s c r i p t v dv e n d o rd e s c r i p t f i g1 3p r o d u c t i n d e p e n d a n ts h o p p i n ga g e n t ,p a r a l l e la n dm u l t i a g e n ta c r h i t e c t u r e 实际上我们只有充分利用购物网站为消费者提供的导航信息,特别是大多网站都提 供了搜索商品信息的w e b 表单( f r o n t e n dw e bf o r m ) 与此同时,在购物网站尽量保持 相同的风格( u n i f o r mf o r m a t t i n gc o n v e n t i o n ) 的前提下才能实现购物代理。 - 1 6 比较购物现存问题及本文的研究内容 比较购物代理已经在很大程度上帮助人们在w e b 上找到所需的商品的价格信息,但 当前的比较购物代理存在着下几个方面的不足之外: 买卖双方之阗需求的不同 为了使自己区别于其他的竞争者,商家经常给他们的商品增加很多的附加值,如: 上海交通大学硕士毕业论文 延长保证期,快捷的送货方式,额外的礼品以及分期付款等。由此,商家在商品本身价 格的基础上会有一些加价。所以这些商家并不欢迎仅仅以商品价格作为评价商品的标 准,他们的网站不允许比较购物代理访问他们的商品信息。另外一方面,商家的导航规 则,尤其是可检索的表单使消费者容易找到它们所要找的商品信息,它最大程度的满足 用户而并不是购物代理,软件自动的不断地查询商家的数据库会导致服务器的性能下 降。 商品接述格式没有目一个标准 商品描述格式随购物网站不同而不同,商品的属性集、页面中它们表示的格式都不 一样。由于这些原因,功能完善的通用型w r a p p e r s 的实现非常困难,只能设计为某一 购物网站定制的代理。另一方面,对同一个购物网站来说,改变了页面风格后或搜速结 果页面后,必须重新改写购物代理程序。这种方法效率低而且很难维护。 半结构化数据 h t m l 是w e b 中最常用的页面描述语言。到目前位置大都数的网站都是用h t m l 语言写的。h t m l 最大的不足在于它着重于表现格式而不是信息内容上。h t m l 页面 中包含的各种信息都是以格式出现的,所有信息( 包括关键的数据) 与其他文本一起混 在页面中。h t m l 的t a g s ( 标记) 只说明它们之间的数据怎么显示而不说明它们之间的 数据是什么,语义不清楚。由于这些半结构化特征,导致实现智能化的代理很困难。 如何解决这些问题昵? 如果没有商家和购物代理开发方之间的协作,比较购物代理是很难,甚至是不可能 实现的。现在购物网站提供给消费者的在页面中导航的能力以及不同商品的层次组织, 还提供了在线的商品查找功能。这种查找功能以后的发展趋势就是成为w e bs e r v i c e ( 见 第三章) 。购物网站提供的在线商品目录,使得比较购物代理可以利用更简单的方法从 购物网站检索商品描述信息。 x m l 技术的应甬 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是新一代的互联网语言,它不是一个标记语言而 是元标记语言( m e t am a r k - u pl a n g u a g e ) ,它把信息的内容和它们的表现分离开。通过 自己定义的标题( t a g s ) ,页面制作者可以定义各种数据的实际意义。x m l 文档的逻辑 结构清楚,它是从现在的半结构化的( s e m i s t r u c t u r e d ) 语法级的w e b 到结构化的语 义级( s e m a n t i cw e b ) 很重要的手段。如果购物网站普遍采用x m l 作为信息发布的工 具,那么对于比较购物来说搜索代理程序的设计就会变的容易并且准确率大大提高。 w r a p p e r 自动的生或( i n d u c t i v ew r a p p e rg e n e r a t i o n ) 因为手工生成w r a p p e r 代码仅适合于在线商店数目很少的情形,因为一旦商店和 上海交通大学硕士毕业论文 商品数量增多,要分别对每种商品编写特定的代码工作量非常大而且难以维护。目前人 们采用了一些自动生成代码的方式,可以针对不同的网页自动适应文档内容和格式的变 化,不需要人为参与。这种方法需要采用机器学习领域内的相关知识和技术。 本人设计并实现了一个网上比较购书系统的原型,该系统可以有效的比较各网上书 店书籍的价格。此外,本文还提出了一个w r a p p e r 自动生成算法并研究了基于x m l 的 网上内容管理与集成的相关内容。 1 7 章节安排 本文指出了电子商务中购物代理的重要性,深入研究国际上购物代理技术的现状, 分析了当前购物代理的主要架构,设计并实现自己的一个比较购书系统的原型。对比现 有购物代理技术,本文在关键技术方面等方面提出了自己的观点,提出下一代的比较购 物代理的模型。本文主要内容组织如下: 第一章“绪论”从传统信息检索理论入手阐述了w e b 环境种的信息检索问题,已 经网络信息检索中代理技术的应用。此外还介绍了购物代理技术的工作原理,当前购物 代理的几种常用模式,指出了目前的购物代理的缺陷。最后指出了针对这些不足提出的 解决方案。 第二章“比较购书系统的设计和实现”详细介绍了本人设计和实现的一个比较购 书系统。 第三章“基于机器学习的购物代理与未来技术展望”提出了半结构化数据环境中 上海交通大学硕士毕业论文 商品数量增多,要分别对每种商品编写特定的代码工作量非常大而且难以维护。目前人 们采用了一些自动生成代码的方式,可以针对不同的网页自动适应文档内容和格式的变 化,不需要人为参与。这种方法需要采用机器学习领域内的相关知识和技术。 本人设计并实现了一个网上比较购书系统的原型,该系统可以有效的比较各网上书 店书籍的价格。此外,本文还提出了一个w r a p p e r 自动生成算法并研究了基于x m l 的 网上内容管理与集成的相关内容。 1 7 章节安排 本文指出了电子商务中购物代理的重要性,深入研究国际上购物代理技术的现状, 分析了当前购物代理的主要架构,设计并实现自己的一个比较购书系统的原型。对比现 有购物代理技术,本文在关键技术方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论