(系统工程专业论文)电子商务中专业领域货源信息检索系统的设计与实现.pdf_第1页
(系统工程专业论文)电子商务中专业领域货源信息检索系统的设计与实现.pdf_第2页
(系统工程专业论文)电子商务中专业领域货源信息检索系统的设计与实现.pdf_第3页
(系统工程专业论文)电子商务中专业领域货源信息检索系统的设计与实现.pdf_第4页
(系统工程专业论文)电子商务中专业领域货源信息检索系统的设计与实现.pdf_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

。j,j|,1习 ,k 卜 l - p at h e s i si ns y s t e me n g i n e e r i n g d e s i g na n di m p l e m e n t a t i o no fd o m a i n - s p e c i f i c b u s i n e s si n f o r m a t i o nr e t r i e v a ls y s t e mi n e l e c t r o n i cc o m m e r c e b yx i ar u i j u n s u p e r v i s o r :p r o f e s s o rw a n gd i n g w e i a s s o c i a t ep r o f e s s o rw a n gq i n g n o r t h e a s t e r nu n i v e r s i t y j u l y2 0 0 9 纛、伫工 l,一1、 t i , _ 、 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均魏论文中作了明确的说明并表示谢 二c 巴 思。 学位论文作者签名:趸嗨後、 日 期: 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年一年口一年半口两年口 、 旁 锈稠 像k f 名 期 签 日 师 字 导 签 笈 卿 颀刀 签9 椭哆 懈 功 文 期 沦 日 位 字 学 签 j - 一f 东北大学硕士学位论文 摘要 电子商务中专业领域货源信息检索系统的设计与实现 摘要 随着计算机网络技术和互联网的发展,电子商务在企业经营业务中的应用越来越普 遍,在商业贸易中使用电子商务已成为企业竞争战略的首选。随着电子商务在企业网应 用中的不断深入,企业需要大量的原材料、供应商、客户和产品等方面的货源信息,并 利用这些信息为企业决策提供依据。电子商务环境中的企业必须超越以往相对狭隘的经 营环境,有效地搜集、利用货源信息。因此,货源信息已成为各个企业获得强大竞争力 的必要条件。 本文以“上海巴士集团物流系统优化一期工程项目为研究背景,在深入分析电子 商务货源信息检索问题和阅读大量相关文献的基础上,首先提出基于扩展信任度网络的 货源信息检索模型,然后重点设计并实现了电子商务中的专业领域货源信息检索系统。 主要内容如下: ( 1 ) 针对货源信息检索过程中的查全率、查准率低的问题,设计了基于扩展信任度 网络的货源信息检索模型。考虑货源信息的特征和标引词之间的相互关系对检索结果的 影响,该模型采用四层节点的信任度网络模型,应用相似性叙词表扩展用户查询和描述 标引词之间的关系。通过计算节点间的条件概率得到查询与文献之间的相似度,并依此 对文献排序,提取出了企业所需的货源信息。实验表明,该模型在检索货源信息时能取 得良好的效果。 ( 2 ) 通过对电子商务环境下常用货源信息检索方法的分析,设计了能够在i n t e r n e t 网络中自动搜集货源信息,并且能够直接从数据库中提取出企业所需货源信息的软件。 采用元搜索引擎结构,扩大了搜索范围;应用信息检索、w e b 挖掘和智能体的相关技术 对货源信息进行分析和过滤,提高了专业领域货源信息检索的质量。 ( 3 ) 为验证系统设计效果,开发了一个面向汽车配件领域的货源信息检索试验系统, 集成了g o o g l e 、百度和搜狗三大著名通用搜索引擎。系统运行效果证明了系统设计的可 行性和有效性。 关键词:电子商务;货源信息检索;信任度网络;w e b 挖掘;搜索引擎 i i - , _ - 东北大学硕士学位论文a b s t r a c t d e s i g na n di m p l e m e n t a t i o no fd o m a i n - - s p e c i f i c b u s i n e s si n f o r m a t i o nr e t r i e v a ls y s t e mi n 1 1 弋 e l e c t r o n l cc o m m e r c e a bs t r a c t w i t ht h e p r o s p e r i t y o fc o m p u t e rn e t w o r k i n g t e c h n o l o g ya n di n t e r n e t ,e l e c t r o n i c c o m m e r c e ( e c ) b e c o m e sm o r ea n dm o r ep o p u l a ri nm a n ye n t e r p r i s e sa r o u n dt h ew o r d ,a n di t h a sb e c o m et h ef i r s tc h o i c ef o rc o m p e t i t i v es t r a t e g yo f e n t e r p r i s e si nb u s i n e s st r a d e w i t ht h e i n t e n s i v ee ca p p l i c a t i o n si ne n t e r p r i s e s ,e n t e r p r i s e sn e e dm o r ea n dm o r eb u s i n e s si n f o r m a t i o n a b o u tr a wm a t e r i a l s ,s u p p l i e r s ,c u s t o m e r sa n dp r o d u c t st os u p p o r tt h e d e c i s i o n m a k i n go n p u r c h a s e t h ee n t e r p r i s e ss h o u l dg ob e y o n dt h er e l a t i v e l yn a r r o wb u s i n e s se n v i r o n m e n ti nt h e p a s t ,t oc o l l e c ta n du s eb u s i n e s si n f o r m a t i o ne f f e c t i v e l y s o ,b u s i n e s si n f o r m a t i o nh a sb e e n n e c e s s a r yf o re n t e r p r i s e st os u c c e e di nc o m p e t i t i o n s t a k i n gt h ep r o j e c to f t h ef i r s tp e r i o do fl o g i s t i c ss y s t e mo p t i m i z a t i o ni ns h a n g h a ib u s g r o u p ”a sr e s e a r c hb a c k g r o u n d ,b a s e do ni n - d e p t ha n a l y s i so fb u s i n e s si n f o r m a t i o np r o b l e m i ne ca n dr e a d i n gl o t so fr e l a t e dl i t e r a t u r e ,t h i sp a p e rp r o p o s e dab u s i n e s si n f o r m a t i o n r e t r i e v a lm o d e lb a s e do ne x t e n d e db e l i e fn e t w o r kf i r s t l y , t h e nf o c u s e do nd e s i g n i n ga n d i m p l e m e n t i n gad o m a i n - s p e c i f i cb u s i n e s si n f o r m a t i o nr e t r i e v a ls y s t e mi ne ce n v i r o n m e n t t h em a j o rc o n t e n t sa r ea sf o l l o w s : ( 1 ) w i t l lr e g a r dt ot h ep r o b l e mo fl o wr e c a l la n dp r e c i s i o ni nb u s i n e s si n f o r m a t i o n r e t r i e v a l ,a ne x t e n d e db e l i e fn e t w o r kb a s e db u s i n e s si r e f o r m a t i o nr e t r i e v a lm o d e lh a sb e e n p r o p o s e d c o n s i d e r i n gt h ef e a t u r e so fb u s i n e s si n f o r m a t i o na n de f f e c to fr e l a t i o n s h i pa m o n g i n d e xw o r d st or e t r i e v a lp e r f o r m a n c e ,t h i sm o d e le x t e n d st h eb e l i e fn e t w o r kw i t hf o u rl a y e r s o fn o d e s ,a n da p p l i e s s i m i l a r i t yt h e s a u r u st oe x p a n dt h eu s e rq u e r ya n dd e s c r i b et h e r e l a t i o n s h i pa m o n gi n d e xw o r d s t h es i m i l a r i t i e sb e t w e e nd o c u m e n t sa n dq u e r yc a nb e e v a l u a t e db yc a l c u l a t i n gt h ec o n d i t i o n a l p r o b a b i l i t i e sa m o n gt h en o d e s t h ee x p e r i m e n t r e s u l t ss h o wt h a t t h e p r o p o s e dm o d e lh a sag o o dp e r f o r m a n c ef o rc o l l e c t i n gb u s i n e s s i n f o r m a t i o n ( 2 ) b a s e do na n a l y s i so ft h ec o m m o nm e t h o d so fb u s i n e s si n f o r m a t i o nr e t r i e v a li ne c e n v i r o n m e n t ,as o f t w a r es y s t e mh a sb e e nd e s i g n e d ,w h i c hc a na u t o m a t i c a l l yc o l l e c tb u s i n e s s i n f o r m a t i o ni ni n t e m e ta n de x t r a c tb u s i n e s si n f o r m a t i o nr e q u i r e db ye n t e r p r i s ef r o md a t a b a s e d i r e c t l y t h i ss y s t e ma d o p t sm e t a s e a r c he n g i n et oe x p a n ds e a r c hs c a l e ,a n da p p l i e s i n f o r m a t i o nr e t r i e v a l ,w e bm i n i n ga n da g e n tt e c h n o l o g yt oa n a l y z ea n df i l t e rt h eb u s i n e s s i n f o r m a t i o n ,i no r d e rt oi m p r o v et h es e a r c hq u a l i t yo fb u s i n e s si n f o r m a t i o n i i i ( 3 ) i no r d e rt ov e r i f yt h ed e s i g ne f f e c t ,ab u s i n e s si n f o r m a t i o nr e t r i e v a ls y s t e mh a sb e e n d e v e l o p e dw i t hr e s p e c tt ot h ed o m a i no fa u t op a r t sa n di n t e g r a t e dw i t ht h r e ef a m o u sg s e : g o o g l e ,b a i d ua n ds o g o u t h eo p e r a t i o ne f f e c tv e r i f i e st h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h e s y s t e md e s i g n k e y w o r d s :e l e c t r o n i cc o m m e r c e ;b u s i n e s si n f o r m a t i o n r e t r i e v a l ;b e l i e fn e t w o r k ;w e b m i n i n g ;s e a r c he n g i n e i v 东北大学硕士学位论文 目录 目录 声明i 中文摘要i i a b s t r a c t i i i 目 录v 第1 章绪论。1 1 1 研究背景及意义1 1 1 1 项目背景介绍一1 1 1 2 课题研究的意义2 1 2 本文的主要工作6 1 3 本文的结构安排6 第2 章货源信息检索的相关研究综述9 2 1 信息检索技术9 2 1 1 信息检索简介。9 2 1 2 信息检索基本模型1 0 2 1 3 基于贝叶斯网络的信息检索模型1 5 2 1 4 检索性能评价17 2 2w e b 挖掘技术1 9 2 2 1w e b 挖掘简介19 2 2 2w e b 挖掘在电子商务中的应用2 0 2 3 搜索引擎2 l v 东北大学硕士学位论文 目录 2 3 1 通用搜索引擎2 1 2 3 2 专业领域搜索引擎2 3 2 3 3 元搜索引擎2 4 2 4l u c e n e 简介2 5 2 4 1l u c e n e 的系统结构2 5 2 4 2l u c e n e 的索引结构2 6 2 4 3l u c e n e 与数据库的比较2 7 2 5 本章小结2 8 第3 章基于扩展信任度网络的货源信息检索模型2 9 , 东北大学硕士学位论文目录 4 3 1 元搜索及系统检索模块4 7 4 3 2 用户搜索模块4 8 4 3 3 用户交互模块4 8 4 3 4 系统管理模块4 8 4 4 系统的数据流4 5 4 5 系统的数据结构设计4 8 4 6 本章小结4 8 第5 章专业领域货源信息检索系统的实现4 8 5 1 关键技术实现4 8 5 1 1 搜索引擎代理的实现。4 8 5 1 2 货源信息索引的建立和优化4 8 5 2 系统运行效果6 4 5 3 系统性能分析6 8 5 4 本章小结6 9 第6 章结束语7 l 6 1 工作总结7 l 6 2 研究展望。7 2 参考文献7 3 致谢。7 7 攻读硕士期间发表的论文及参与的项目7 9 v i i , 东北大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 研究背景及意义 1 1 1 项目背景介绍 在电子商务环境下,大型集团企业采用网络化的集中采购模式具有重要的经济意 义。首先,集中采购将有限的、分散的采购人力、采购资源集合起来,形成一个合力, 共同应对市场,充分利用“大市场”资源吸引更多的供应商参与所采购物资的竞价,通过 询价、比价、谈判,发现价格,取得优惠的待遇,降低采购成本,同时获得一批宝贵的 供应商资源;其次,网络采购具有价格透明、效率高、竞争性强的优势,同时也可以节 省部分采购成本,减少传统采购环节中常见的资金流失。因此,网络化的集中采购必将 成为电子商务环境下的大型企业集团采购模式的首选。 上海巴士实业集团是创立于1 9 9 2 年的全国首家城市公共交通公司。为了降低营运 成本和车辆维护的成本,自2 0 0 2 年起,集团将原来各巴士公司分散进行的采购业务集 中起来,实现了集团范围内的网络化集中采购,建立了基于电子商务模式的车辆物资采 购网公司一a p e p 网站。 目前,公司采用的集中采购方式是一种典型的“代购模式 ,其基本特点为: ( 1 ) 物资需求、数量、品牌、供应商等经常由用户指定,采购公司不能根据市场的 变化来选择采购时间、品牌和供应商,从而不能最大限度地降低成本; ( 2 ) 由供应商直接给用户送货,由财务部付款,采购公司只能起到信息发送和沟通 的作用,限制其更多功能的发挥; ( 3 ) 采购公司的收益仅仅来源于供应商返还货款的若干百分点,这种方式容易引起 用户对价格的猜疑,使采购公司和用户的关系不和谐。 鉴于“代购模式 的以上问题,巴士集团正准备将现行采购模式转变为“采购外包 模式和“购销模式 。这种新模式的特点为: ( 1 ) 各巴士公司将其采购业务整体外包给采购网公司; ( 2 ) 采购网公司整合需求,建立物资仓库,根据市场情况自主采购; ( 3 ) 采购网公司可以根据采购成本、采购费用和市场价格自主定价。 这种新的模式将大大有利于采购网公司的发展,更加符合市场经济的模式,同时也 对采购管理系统提出更多的功能需求。因此,在2 0 0 4 年,针对车辆物资采购网公司业 务的迫切需要,提出了“上海巴士集团公司需求驱动的汽车配件物流管理系统的设计方 案 。开发的第一期工程是以“定价模块 和“数据挖掘模块”为核心的设计【1 1 。其中“定 东北大学硕士学位论文 第1 章绪论 价模块 主要实现的功能如图1 1 所示。 塑巫 图1 1 定价模块功能框架图 f i g1 1f u n c t i o nf r a m e w o r ko fp r i c i n gm o d u l e 从图1 1 中可以看出,“货源信息检索”是“定价模块”的首要工作,可以为公司采 购、产品定价和数据挖掘等决策提供强大的信息支持。本文研究的电子商务中专业领域 货源信息检索系统就是针对“上海巴士集团物流系统优化一期工程”中的货源信息检索 问题而设计的。 1 1 2 课题研究的意义 1 1 2 1 电子商务的发展 近年来,互联网和电子商务得到了的飞速的发展。根据中国互联网络信息中心 ( c n n c i ) 在2 0 0 9 年1 月公布的中国互联网发展状况统计报告【2 1 ,截止到2 0 0 8 年底, 我国网民超过了2 9 8 亿人,网站超过2 8 7 8 万个,其中c n 下网站数以7 7 0 的比率占 绝对优势。互联网的各种应用大致可以分为:网络媒体、互联网信息检索、网络通讯、 网络社区、网络娱乐、电子商务、网络金融等,其中搜索引擎成为网民在互联网中获取 所需信息的基础应用,目前搜索引擎的使用率为6 8 o ,在互联网应用中位列第四,2 0 0 8 年全年搜索引擎用户增长了5 1 0 0 万人,年增长率达到3 3 6 。而电子商务也成为与网 民生活密切相关的重要网络应用,网络购物市场的增长趋势明显,目前的网络购物用户 人数已经达到7 4 0 0 万人,年增长率达到6 0 。 电子商务( e l e c t r o n i cc o m m e r c e ,e c ) ,从总体上来看是指对整个商业活动实现电子 化。从狭义上讲是指在互联网( i n t e m e t ) 、企业内部网( i n t r a n e t ) 和增值网( v a n ,v a l u ea d d e d n e t w o r k ) 上以电子交易方式进行商品交易活动和相关服务活动,是传统商业活动各环节 的电子化、网络化。从广义上讲是指应用计算机与网络技术与现代信息化通信技术,按 照一定标准,利用电子化工具来实现包括电子交易在内的商业交换和行政作业的商务活 2 东北大学硕士学位论文第1 章绪论 动的全过程【3 5 1 ,如图1 2 所示。 图1 2 电子商务含义图 f i g1 2c o n c e p to fe l e c t r o n i cc o m m e r c e 典型的电子商务系统包括网络系统、电子商务用户、网上商场、认证中心、网上银 行和物流配送中心六个部分嗍,如图1 3 所示。 物沉配送中心 图1 3 电子商务系统示意图 f i g1 3s c h e m a t i cd r a w i n go fe l e c t r o n i cc o m m e r c es y s t e m ( 1 ) 网络系统:网络系统即因特网( i n t e m e t ) 、内联网( i n t r a n e t ) 、和外联网( e x t r a n e t ) 。 i n t e m e t 是电子商务的基础,是商业、业务信息传送的载体,i n t r a n e t 是企业内部商务活 动的场所,e x t r a n e t 是企业与企业以及企业与个人进行商务活动的纽带。 ( 2 ) 电子商务用户:电子商务用户可分为个人用户和企业用户。个人用户使用浏览 器、电视机顶盒、个人数字代理、可视电话等接入i n t e m e t ,获取信息、购买商品。企 业用户数建立内联网、外联网和企业管理信息统,对人、财、物、产、供、销等进行科 学管理。 ( 3 ) 网上商场:企业用w e b 网站发布产品信息、接受订单,即建立网上商场。如需 要在网上进行销售等商务活动,还要借助电子报关、电子报税、电子支付系统与海关、 3 东北大学硕士学位论文第1 章绪论 税务局、银行进行有关商务、业务处理。 ( 4 ) 认证中心:它是受法律承认的机构,主要负责发放和管理数字证书,使网上交 易的各方面相互确认身份。 ( 5 ) 网上银行:它是在i n t e r n e t 上实现传统银行的业务,为用户提供2 4 小时实时服 务。 ( 6 ) 物流配送中心:负责接收商家的发送要求,组织运送无法从网上直接得到的商 品,跟踪商品流向,将商品送到消费者手中。 电子商务是传统企业经营业务在互联网环境下电子化的结果。电子商务的发展对企 业传统的生产经营理念产生了巨大的冲击,同时使企业所处的经营环境与传统的经营模 式相比发生了巨大的变化,主要表现在: ( 1 ) 经营范围改变:传统经营模式下时通常会受到企业所在地域的限制,要跨地区、 跨国界经营,需审慎选择目标产品和市场,仔细研究制定经营战略,投入大量人力、物 力,冒着各种经营风险。在电子商务模式下,不论企业在何处经营,都可通过网络这个 无形市场在全球进行销售和经营,通过互联网,企业可以有效地将其产品或服务推向全 世界。 ( 2 ) 营销模式改变:在电子商务模式下,借助i n t e m e t 的无形市场环境,企业与消 费者直接连结起来,使传统营销的4 p ( 产品、价格、地点、促销) ,即以推销产品为中心 的模式,转变到以现代营销的4 c ( 客户、成本、便利、沟通) ,即以消费者为中心的模 式,直接面对消费者,建立客户数据库,让消费者按自己的意愿定货,参与商品设计, 实现双向沟通,促进企业开发新产品和提供新型服务的能力。 ( 3 ) 竞争模式改变:在电子商务模式下,中小企业赢得了与大企业相抗衡的可能性, 通过互联网络的信息资源共享,不受自身规模绝对限制,及时了解全行业的竞争动态, 从而进行正确的企业战略调整和战术决策,扩大竞争范围,进入更广阔的市场。 互联网和电子商务的迅速发展给企业既带来了机遇,同时也带来了挑战,为了适应 电子商务这种大范围、高强度的竞争环境,企业要充分利用市场全球化、信息化等有利 条件,通过收集高质量、充足的货源信息,合理分析市场状况,为企业经营决策提供有 效的信息支持。 1 1 2 2 货源信息检索问题 货源信息( b u s i n e s si n f o r m a t i o n ) ,从狭义上讲是指与企业交易商品价格相关的信息; 从广义上讲还包括购买产品的客户、原材料的供应商、经销商、企业竞争对手以及其它 相关信息i7 9 1 。 在传统经营模式下,交易商品相关的货源信息只能为企业的采购和销售提供信息支 持的作用。在电子商务模式下,市场竞争越来越激烈,企业需要越来越多的与原材料、 一4 东北大学硕士学位论文 第1 章绪论 产品、供应商和客户等相关的货源信息货源信息,为电子商务中的采购、销售、生产、 计划、市场等提供有效的决策依据,以便为企业制定最佳的市场战略。电子商务环境中 的企业能否通过i n t e m e t 准确、及时、全面地检索到所需的货源信息,关系到企业电子 商务运作的成败。因此,货源信息已成为各个企业获得强大竞争力的必要条件,企业必 须超越以往相对狭隘的经营环境,有效地收集和利用货源信息1 1 0 】。 在电子商务环境下,企业用户最常用的货源信息检索主要有四种方法f 1 】: ( 1 ) 利用通用搜索引擎( g e n e r a l p u r p o s es e a r c he n g i n e ,g s e ) 进行检索( 例如: “g o o g l e 、“百度”、雅虎等) :虽然货源信息的覆盖面很广,同时也包含了大量的无关 信息,用关键词查询时,容易造成查准率低:此类搜索引擎对所有用户提供相同的界面 和检索策略,不能体现用户的个性化需求;由于通用搜索引擎的的数据库过于庞大,不 能保证信息的及时更新,容易产生“错”链接和“死 链接。 ( 2 ) 登陆到大型商务门户网站进行检索( 例如:“a m a z o n 、“阿里巴巴 、“太平洋门 户”等) 。虽然这些网站包含了大量的产品信息,但并不是每一家企业都将产品信息发 布到这些网站上,所以相对于整个i n t e m e t 网络的货源信息来说,这些网站包含的信息 量是非常有限的,不能完全满足企业的货源信息检索要求。 ( 3 ) 利用专业化的搜索引擎进行检索。这些搜索引擎有的是综合性的搜索引擎下设 立的专业类目( 例如“y a h o o ”就有专门商务财经入口) ,有的则由专业的商务信息资源 网站提供( 例如由“道琼斯”提供的财经信息检索入口) 。虽然这类搜索引擎的检索效 果比较好,但是检索结果有限,都依赖于网站自身的数据库,也不能找到完全满足企业 需求领域的货源信息。 ( 4 ) 登录到企业自身的网站进行检索。这种检索方式虽然能准确查到该企业产品的 种类、价格等信息,但是检索范围比较狭窄。只适用于检索目标相对明确的、对特定企 业进行的货源信息检索,并不适用于大规模全面的货源信息检索。 通过以上对电子商务发展、货源信息检索问题的分析可知,在电子商务环境下,从 i n t e m e t 网络资源中检索企业所需货源信息。实际上属于一种特定领域的网络资源的检 索问题。这里的特定领域是指企业的货源信息所涵盖的范围( 例如:汽车厂商关注的与 汽车相关的信息) 。而实现这一特定领域检索最简单、有效的方法就是采用元搜索引擎 结构,集成多个通用搜索引擎,结合信息检索、w e b 挖掘以及人工智能技术,开发一个 能满足企业对这一特定领域货源信息需求的检索系统,嵌入到企业的管理信息系统中, 通过持续自动地在i n t e r n e t 网络中搜集货源信息,建立庞大的货源信息数据库,使企业 用户能够随时方便地在本地数据库中找到所需货源信息。 5 东北大学硕士学位论文第1 章绪论 1 2 本文的主要工作 文献 1 】同样以“上海巴士集团物流系统优化一期工程 项目为背景,针对其中的货 源信息检索问题,提出了以元搜索引擎为基础的货源信息检索系统框架,对网络信息检 索的相关研究进行了详细综述,重点研究电子商务中的货源信息检索模型和算法,针对 不同的问题提出三个货源信息检索模型,最后提出了基于元搜索引擎的货源信息检索系 统的总体设计方案。本文是在该文献的基础上作的进一步研究,研究的重点是电子商务 中专业领域货源信息检索系统的设计与实现。主要工作包括以下四个内容: ( 1 ) 在阅读大量相关文献的基础上,对货源信息检索问题作了相关的研究综述,包 括信息检索的相关概念、信息检索模型、w e b 挖掘的相关概念、w e b 挖掘在电子商务中 应用、搜索引擎的相关概念以及全文检索工具包l u c e n e 简介。 ( 2 ) 针对货源信息检索过程中的查全率、查准率低的问题,设计了基于扩展信任度 网络的货源信息检索模型。考虑货源信息的特征和标引词之间的相互关系对检索结果的 影响,该模型采用四层节点的信任度网络模型,应用相似性叙词表扩展用户查询和描述 标引词之间的关系。通过计算节点间的条件概率得到查询与文献之间的相似度,并依此 对文献排序,提取出了企业所需的货源信息。实验表明,该模型在检索货源信息时能取 得良好的效果。 ( 3 ) 通过对电子商务环境下常用货源信息检索方法的分析,设计了能够在i n t e r n e t 网络中自动搜集货源信息,并且能够直接从数据库中提取出企业所需货源信息的软件。 采用元搜索引擎结构,扩大了搜索范围;应用信息检索、w e b 挖掘和智能体的相关技术 对货源信息进行分析和过滤,提高了专业领域货源信息搜索的质量。 ( 4 ) 为验证系统设计效果,采用j a v a 语言,应用j d k l 6 版本的j a v a 虚拟机和e c l i p s e 3 2 的开发平台,开发了一个面向汽车配件领域的货源信息检索试验系统,集成了 g o o g l e 、百度和搜狗三大著名通用搜索引擎。系统运行效果证明了系统设计的可行性和 有效性。 1 3 本文的结构安排 全文共分为六章,具体安排如下: 第一章分析课题研究的背景和意义。 第二章对货源信息检索问题作相关的研究综述,包括信息检索相关概念及常用技 术、w e b 挖掘相关概念及其在电子商务中的应用、搜索引擎的相关概念和l u c e n e 简介。 第三章针对货源检索过程中查全率、查准率低的问题,设计一种基于扩展信任度网 络的货源信息检索模型。 6 东北大学硕士学位论文 第1 章绪论 第四章设计一种能够在i n t e m e t 网络中自动搜集货源信息,并且能够直接从数据库 中提取出企业所需货源信息的软件。 第五章开发一个面向汽车配件领域的货源信息检索试验系统,通过运行效果验证第 四章设计的系统的可行性和有效性。 第六章对本文的主要工作和采用的相关技术进行总结,并提出几个值得继续进行研 究的方向。 7 东北大学硕士学位论文 第1 章绪论 东北大学硕士学位论文 第2 章货源信息检索的相关研究综述 第2 章货源信息检索的相关研究综述 2 1 信息检索技术 2 1 1 信息检索简介 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是指将信息按一定的方式组织和存储起来, 并根据用户的需要找出有关信息的过程,所以它的全称又叫做“信息的存储与检索 ( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) 。i r 包含信息的存储、组织、表现、查询、存取等 多个方面,其核心为信息的索引和检索【1 1 1 。信息检索的基本原理如图2 1 所示,为了进 行有效的匹配与选择,必须对信息和用户查询需求进行标引( i n d e x i n g ) ,即对信息和用 户查询需求进行计算机化表示。 芎冀势天天_ 兰! 叫手| 一 信息检索的一般过程如图2 2 所示,用户提交查询请求,系统为用户的查询生成查 询表达式。在后台,通过索引器对文献建立索引,并生成文献表达式。然后按照一定的 检索模型进行匹配、选择,按特定的条件对结果进行排序,生成检索结果。通过相关反 馈机制,调整查询表达式和检索模型的相关参数,从而使检索结果更加符合用户的需求。 信息检索的研究内容包括检索语言、检索模型、检索系统、数据库、检索策略与方 法、自动标引与分类、用户研究等。信息检索的运行过程包括信息采集、标引、组织、 存储、处理、匹配、输出、传送等。检索信息的类型包括文献、数据、事实、知识、声 音、图形等 1 , 1 2 j 。本文主要应用的是w e b 上文本信息检索的技术。 9 东北大学硕士学位论文第2 章货源信息检索的相关研究综述 图2 2 信恳检索的一股过程 f i g2 2p r o c e s so fi n f o r m a t i o nr e t r i e v a l 2 1 2 信息检索基本模型 2 1 2 1 集合模型 集合模型是基于集合理论的模型,其典型的模型有:布尔模型、扩展布尔模型及模 糊集合模型。而最常见的是布尔模型,所以常把布尔模型当成是集合模型的代表【1 ,1 3 1 。 ( 1 ) 布尔模型( b o o l e a nm o d e l ) 1 4 1 布尔模型是基于集合理论和布尔代数的一种简单的检索模型。用布尔表达式表示用 户查询,通过对文献与查询的逻辑比较来检索文献。 布尔模型假定标引词在文献中要么出现,要么不出现,因此,标引词权值向量都是 二值的,即, o ,1 ) 。查询g 本质上是由连接词n o t 、a n d 、o r 链接起来的多个标引词 所组成的布尔表达式,它可以表示为多个合取向量的析取范式( d i s j u n c t i v en o r m a l f o r m ,d n f ) 。如果用q d f 表示查询q 的析取范式,孙表示惭的任意合取分量,则文 献巧与查询q 的相似度s 砌( d ,g ) 可以表示为: 啡g ) - p 釉i ( g c c 叫彬麓 烈呦国j ( 2 ) 。 lo其他 s i m ( d j ,g ) = l 表示文献d ,与查询g 相关,否则文献与查询不相关。 布尔模型虽然形式和结构简单,容易理解和实现,但是文献要么相关,要么不 相关,没有级别的变化,结果文献不能按照用户定义的重要性进行排序,很难提高 东北大学硕士学位论文 第2 章货源信息检索的相关研究综述 检索性能。鉴于布尔模型的这些不足,人们提出用语词加权和部分匹配的功能扩展 经典布尔模型,将向量模型和布尔模型融为一体,克服了传统布尔模型的一些缺陷, 这就是所谓的s a l t o n 模型,即扩展布尔模型。 ( 2 ) 扩展布尔模型( e x t e n d e db o o l e a nm o d e l ) 【1 5 】 扩展布尔模型是基于布尔逻辑基本假设的一个改进。假定文献集合中的文献d 仅用 两个标引词墨和七2 表示,爿f r 给k i 和k 2 赋予一定的权值,分别为和w 2 ,权值的取值 范围为 0 ,1 ,权值越接近1 ,说明该词越能反映文本的内容,反之,反映文本的内容的 程度差一些。标引词加权通常采用著名的i f i d f 加权方案: :j f = ( 2 2 ) m a x f xl l ,f 式中表示标引词毛在文献d ,中出现的标准化频率,域表示标引词t 的逆文献频 率。用二维图来表示查询和文献,如图2 3 所示,对于析取查询= 岛v 乞,( o ,0 ) 点是 无效的点,点( 嵋,w 2 ,) 到点( o ,0 ) 的距离可以用来度量文献弓与查询g 。,的相似度,对于 合取查询g 训= 墨 岛,( 1 ,1 ) 点是最理想的点,点( m ,w 2 ) 到点( 1 ,1 ) 的距离可以用来度 量文献巧与查询g 删的相似度。即: 析取合取 图2 3 扩展布尔逻辑的矢量表示 f i g 2 3v e c t o re x p r e s so f e x t e n d e db o o l e a nm o d e l s i m ( q o ,哆) = s i m ( q 。a ,t ) = 1 一 ( 1 ,0 ) ( 2 3 ) ( 2 4 ) ( 3 ) 模糊集合模型【1 6 1 模糊集合模型是对集合模型的最新研究重点,其出发点是用“隶属函数”的概念来 东北大学硕士学位论文第2 章货源信息检索的相关研究综述 描述差异的中间过渡,并通过隶属函数对经典集合论加以推广。模糊集合理论处理的是 边界不明确的集合的表示,其中心思想是把集合中的元素和隶属函数结合在一起。隶属 函数的取值在【0 ,l 】上,o 表示元素不隶属于该集合,1 表示完全隶属于该集合,值在o 和1 之间表示元素为该集合的边际元素。 在典型的集合模型中加入模糊集合的应用就可很好的解决原来布尔模型的二值判 定标准的问题,在布尔模型中文献要么相关、要么不相关,并没有一个相关级别的概念。 而模糊集合模型就在检索的时候加入隶属函数的概念,由此提高检索的效率。但是,模 糊集合模型主要讨论的是模糊理论中使用的文献,在信息检索系统中并不常用,检索实 验考虑的是小集合,使模糊模型很难与其它理论模型进行比较。 2 1 2 2 代数模型 代数模型是检索系统中所有数学模型中相对来说较有想像力和创造性的一种模型, 较能很好地揭示文献之间的关系,但是它也是使用最复杂、要求最高的模型。典型的代 数模型有:向量空间模型、广义的向量空问模型及潜语义空间模型【l l 引。 ( 1 ) 向量空间模型( v e c t o rs p a c em o d e l ) 1 7 ,1 8 】 向量空间模型标引词视作多维信息空间中的坐标,文献和用户查询都用这个空间中 的矢量来表示,矢量的第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论