




已阅读5页,还剩50页未读, 继续免费阅读
(管理科学与工程专业论文)电子商务公共服务平台下的web挖掘系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 电子商务是运辟| 信息技术手段进行的社会经济活动,能有效降低经营成本、 提高生产效率和优化资源配置,代表着未来经济运行和贸易发展方向。据电子商 务业内人士分析,未来互联网的十年将是电子商务时代,电子商务将驱动经济发 展。目前,电子商务已成为全球经济的重要增长点之一,但我国电子商务的建设 相对缓慢。 本文首先讨论了电子商务公共服务平台的内涵及其在我国电子商务发展中 的重要性,分析了其发展趋势。经过研究,本文指出,在目前我国这种市场环境 与制度建设相对滞后和企业信息化程度不高的情况下,电子商务公共服务平台已 成为目前我国发展电子商务的突破口。 本文进一步研究得出如何提升电子商务公共服务平台为会员企业提供的服 务质量是加快发展电子商务的重要问题,基于这一思想,为满足现实存在的客观 需求,在导师的指导下,本文在分析了w e b 挖掘的特点、过程及其应用的基础上, 设计了一个针对性的电子商务公共服务平台下的w e b 挖掘系统,详细分析了系统 的关键技术,并介绍了本文作者在应用w e b 挖掘技术方面的实践,最后提出了 w e b 挖掘系统评价指标体系。 关键字:w e b 挖掘系统电子商务公共服务平台指标体系 a b s t r a c t e l e c t r o n i cc o m m e r c ei sas o c i a le c o n o m i ca c t i v i t yt h a tu s e st h ei n f o r m a t i o n t e c h n o l o g y , i tc a nr e d u c et h eo p e r a t i n gc o s t ,r a i s ep r o d u c t i o ne f f i c i e n c ya n do p t i m i z e r e s o u r c ed i s t r i b u t i o n e f f e c t i v e l y , r e p r e s e n t t h e d e v e l o p i n g d i r e c t i o no f f u t u r e e c o n o m i c a lo p e r a t i o na n dt r a d e a c c o r d m gt ot h ea n a l y z eo fe l e c t r o n i cc o m m e r c e i n s i d e r s ,f u t u r et e ny e a r so fi n t e r a c tw i l l b e e l e c t r o n i cc o m m e r c ee r a ,e l e c t r o n i c c o m m e r c ew i l ld r i v ee c o n o m i cd e v e l o p m e n t a tp r e s e n t ,e l e c t r o n i cc o m m e r c eh a s a l r e a d yb e c o m eo n eo ft h ei m p o r t a n tp o i n t so fg r o w t ho fg l o b a le c o n o m y , b u tt h e c o n s t r u c t i o no fe l e c t r o n i cc o m m e r c eo fo u rc o u n t r yi sr e l a t i v e l ys l o w a sas t a r t i n g p o i n t ,t h i sp a p e rd i s c u s s e st h em e a n i n go ft h ep u b l i cs e r v i c e p l a t f o r mo f e l e c t r o n i cc o l n m e n c 圮a n di t si m p o r t a n c ei no u rc o u n t r y se l e c t r o n i c c o m m e r c ed e v e l o p m e n t ,a n a l y z e si t sd e v e l o p m e n tt r e n d t h m u g hs t u d y i n g ,t h i sp a p e r p o i n t so u tt h a t ,u n d e rt h es i t u a t i o no fo u rc o u n t r y sm a r k e te n v i r o n m e n ta n d i n s t i t u t i o n a ll a gb e h i n d r e l a t i v e l ya n dn o th i g ho fe n t e r p r i s e s i n f o r m a t i o n - b a s e d d e g r e e ,p u b l i cs e r v i c ep l a t f o r mo f e l e c t r o n i cc o m m e n c eh a sb e c o m et h eb r e a c ho f o u rc o u n t r y se l e c t r o n i cc o m m e r c ed e v e l o pa tp r e s e n t t h r o u g hf u r t h e rs t u d i e s ,t h i sp a p e rc o m e st oar e s u l tt h a th o wt op r o m o t et h e s e r v i c eq u a l i t yo ft h ep u b l i cs e r v i c ep l a t f o r mo fe l e c t r o n i cc o m m e n c eo f f e rt ot h e m e m b e r se n t e r p r i s ei sa ni m p o r t a n tp r o b l e mo fa c c e l e r a t i n gt h ed e v e l o p m e n to f e l e c t r o n i cc o m m e r c e ,b a s e do nt h i si d e a ,i no r d e rt om e e tt h eo b j e c t i v ed e m a n dt h a t r e a l l ye x i s t s ,u n d e rt h eg u i d a n c eo ft u t o r , t h i sp a p e rd e s i g n saw e bm i n i n gs y s t e m u n d e rt h ep u b l i cs e r v i c ep l a t f o r mo fe l e c t r o n i cc o m m e n c eo nt h eb a s i so fa n a l y z i n g c h a r a c t e r i s t i c ,c o u r s ea n du s i n go fw e bm i n i n g a n da n a l y z e st h ek e yt e c h n o l o g yo f t h es y s t e mi nd e t a i l m o r e o v e r , t h i sp a p e rp r e s e n tt h ea u t h o r sp r a c t i c ei na p p l y i n g w e bm i n i n gt e c h n o l o g y , a n dp r o p o s e s a p p r a i s e m e n ti n d e xs y s t e mo fw e bm i n i n g s y s t e mj nt h ee n d k e yw o r d s : w e bm i n i n gs y s t e m e l e c t r o n i cc o m m e r c e p u b l i cs e r v i c e p l a t f o r m i n d e xs y s t e m 学位论文的主要创新点 一、针对我国电子商务的发展现状,将数据挖掘技术应用到提高电子商务公 共服务平台的服务质量上来,设计了电子商务公共服务平台下的w e b 挖掘系统, 并提出了系统的评价指标体系,为电子商务公共服务平台和我困电子商务的发展 提供了一种新的思路和方法。 二、研究了电子商务公共服务平台下的w e b 挖掘系统中点击流预处理及利用 x m l 解决电子商务异构数据源集成的问题。 第一章绪论 1 1 电子商务发展现状 第一章绪论 电子商务的发展是一个复杂的社会系统工程,它涉及到信息基础结构建设 ( 如网络技术应用、互联网及企业内部信息系统建设等) ,以及商业信用、网上支 付、认证、标准、物流配送、税收、相关法律制定与修改等环境与制度建设。 我国电子商务的发展相对缓慢,与发达国家之间还存在差距,其主要受到两个层 面因素的制约,其一是信息技术的推广应用和企业内部信息化基础和水平:国家 综合信息能力与信息化水平低,企业整体信息化程度不高,信息技术研发、生产 与应用水平低;其二是市场环境与制度建设,我国市场环境与制度建设相对滞后。 据电子商务业内人士分析,未来互联网的十年将是电子商务时代,电子商 务将驱动经济发展“。目前,电子商务已成为全球经济的重要增长点之一。 中国未来经济竞争力的提高,很大程度要依靠通过电子商务来降低交易成 本,通过电子商务来提升专业服务水平“。但目前我国电子商务中的主体一传 统企业在电子商务上还明显不足,意识不高,人才不够,动机不强。 为此,在目前我国这种市场环境与制度建设相对滞后和企业信息化程度不 高的情况下,我国电子商务以什么样的模式寻找突破口,成为目前我国经济发展 中的一个重大课题。 1 2 电子商务公共服务平台 1 2 1 平台的内涵 b 2 b 电子商务的建设已经历了四个阶段: 最早是e d i 网络,它基于点对点的连接,不能够提供社区化交流和市场透 明度。e d i 的标准非常复杂,其建立和维护需要高昂的费用,使得大多数中小企 业都无力承担。 第二阶段称为基本电子商务系统,企业自建电子商务网站来发布信息,少 数可以有交易功能。用户上企业的网站便局限在这个企业,选择面窄,不易比较, 灵活性差。 第一章绪论 第三阶段是电子商务社区,通过第三方将各交易伙伴聚集到一个公共社区, 增加了市场的透明性。社区的买方和卖方如果供给和需求相互匹配,就有可能产 生交易。 在第三阶段基础上,增加交易之前、期间和之后的其它商业过程的支持即 是合作型商务阶段。合作型商务更全面地反映了供求之间复杂的工作流,超越了 纯粹的交易。 b 2 b 电子商务第三和第四发展阶段都需要电子商务平台的支持,这个电子商 务平台既可以由买方企业建,也可以由卖方企业建,还可以由独立于买方和卖方 的第三方企业建。这并不一定是政府机构,而是指依照国家法律、法规领取营业 执照,以营利为目的,能够为许多企业提供一个统一的公共服务平台的运营商。 电子商务公共服务平台一般采用会员制,以收取会员费、交易费及其它增值服务 费形式营利”1 。应该说这是一种新的模式,特别是在我国非常分散、信息化基 础不高的企业中非常适用。 由第三方建设的电子商务平台有以下特点: 公共性;面向社会,如区域性、全国性、全球性、行业性的电子商务公共 服务平台。 服务性:为会员企业提供各类服务,如:各类市场调研报告、发布采购需 求信息、支付认证服务等,提供专业化第三方服务,实现资源共享。 平台性:为会员企业开展网上贸易提供交易平台基础设旖。 基于以上分析,这种由第三方建设的电子商务平台实际上是一个电子商务 公共服务平台。电子商务公共服务平台运营商属于网上中介型企业,根据提供服 务的层次不同,可以将其区分为简单信息服务提供型和全方位服务提供型。前者 一般主要是提供买卖双方的信息,通过中介服务,买卖双方可以在全球范围内选 择成交对象,选定交易对象后并不直接在网上交易,而是另外接触和签订合同。 这种方式中介无法全面深入参与交易,提供的只是简单的信息服务,如阿罩巴巴 平台( h t t p :w w w a li b a b a c o m ) 。后者是指在网上不但提供信息服务,而且还 提供全面配合交易的服务,如网上结算和配送服务等,这类站点要求中介机构对 贸易特别熟悉,特别是国际贸易业务更要非常熟悉,如专门针对中国商品出口的 公共服务平台“相约中国”( h t t p :忡w m e e t c h i n a c o m ) 。 从宏观上分析,卖方企业自建电子商务平台的主要目的是希望顾客更多选 择自己的产品和服务;买方企业自建电子商务平台的主要目的是使自己以更低的 价格快速获得自己需要的商品和服务:显然,不管是由买方还是由卖方搭建电子 商务平台,其交易的公平和公正性很难保证,平台的利用率也受到限制;由第三 方建设的电子商务公共服务平台是为多个买方和多个卖方提供信息和交易等服 2 第一章绪论 务的电子场所。其特性包括:保持中立立场以得到参与者的信任、集成买方需求 信息和卖方供应信息、撮合买卖双方、支持交易以便利市场操作。买卖双方仓业 与电子商务公共服务平台集成,能够很好地利用公共服务平台的规模效益;因此 选用公共服务平台是买卖双方企业应用电子商务的种好的选择,如图卜1 所 示。 图卜l 平台示意图 f i g 1 1p l a t f o r ms k e t c hm a p 电子商务公共服务平台是以客户为中心的开放式中立商务平台,是一种有 盈利潜力的电子商务模式,其以创新的方式提供传统的功能,用增值功能的形式 服务于买卖双方企业,这个解决方案对买方和卖方都有益处: 第一,使交易方不需要直接连接对方网络或昂贵的增值网络,只需要访问 公共服务平台界面,而不是多个被交易方界面,节省了大量的费用。 第二,大量卖方通过公共服务平台发布信息,可以吸引更多的买方访问平 台,从而增加卖方的商业机会。 第三,电子商务公共服务平台可以使买方搜寻需要的产品和服务,买方不 限于和特定的卖方交易。这使卖方不只在价格上,还要在质量、交货时间、定制 化等方面竞争,从而使买方获益。 第四,中小企业与单独的买方或卖方般没有大的交易量,因此相比买方 系统或卖方系统,这样的市场解决方案对于中小企业更实用,为中小企业应用电 子商务提供了有力的支持。 第五,我国目前信用制度不完善,单靠银行也难以解决这一问题,那么公 共服务平台充当中介很大程度上就能起着一种分担和减少信用风险的作用,尤其 3 第一章绪论 由行业内有良好信用和广泛业务基础的传统中介结构、信息服务机构充当此角色 更为有效。这样一来,才有可能吸引一些企业进行电子商务的不断尝试,才 能用实例改变更多企业的观望态度,真不推动b 2 b 电子商务在中华大地生根发芽 直至开花。 第六,b 2 b 电子商务的实现要求所有供应链解决方案的参加者必须采用统一 的数掘标准川,从而实现信息的流畅和无缝传输,丽我国企业信息化建设普遍 落后,程度差距较大,且很多企业并不急于自身基础的建设和完善,一些大企业 也难以实现供应链各环节标准的统一,即使靠高投入解决了这一问题,但 j = j 于各 环节步伐不一,运行和维护的效率不高。而第三方构建的公共服务平台既为 有条件的企业提供相关服务,又可为没有行动的企业以参观、评价的例子,使各 企业感到使用起来经济合算又满足需要,有了动力再自觉调整内部组纵,没有建 设内部网的也有了积极性,并且有了各方共同看齐的平台,建设和调整起来的系 统就会更容易实现畅通链接和标准化。 总之,电子商务公共服务平台能促进各类资源良性互动,可为会员企业开 展电子商务提供各类信息和服务支撑。 1 2 2 平台的应用 在电子商务平台建设上,很多企业都建立了自己的企业网站,但更多地还 只是体现在宣传效应上,实际访问量不如公共平台( 中国制造网、阿里巴巴等公 共服务平台,实时在线访问量是十分巨大的,仅阿里巴巴就有2 1 0 万的最高用户 在线访问峰值) 。 所以很多企业还是选择公共服务平台的专业力量来展示产品、洽谈贸易。 根据阿里巴巴描述,到目前为止它有超过7 2 0 万的企业客户。据了解,目前世界 5 0 0 强企业中已经有超过2 0 0 家在阿里巴巴这一平台设点长期采购。比如电子电 工行业的通用电气、施耐德电气和西门予( 中国) ,超市百货行业的百安居、家乐 福、沃尔玛和宜家,化工行业的拜耳涂料、杜邦中国和联合利华,家用电器行业 的l g 电子、富士通、三星和伊莱克斯等。约有1 2 万家中国供应商通过阿旱巴 巴寻找海外买家,截至2 0 0 4 年,这些中国企业仅通过阿里巴巴平台进出口贸易 的总额就已超过1 0 0 亿美元”。国内许多大中型企业也逐渐瞄上阿里巴巴这块 宝地,北京的联想电子、大唐电信、中国石化、宝钢等国内大中型企业也正逐渐 成为阿里巴巴的“中国供应商会员”。还有一些企业无力引进i t 管理系统,也 把希望寄托在了公共服务平台上。 另外,国外发达国家、发展较快的发展中国家和国内重要城市及大部分省 会城市都已建立了电子商务公共服务平台,电子商务公共服务平台已成为推动经 4 第一章绪论 济建设和发展的重要手段,代表了一个国家或中心城市的综合实力和水平。国内 各重点行业和重要城市都把建设电子商务公共服务平台作为推动行业、地区电子 商务发展的重大举措,建成或正在建立多个综合性电子商务公共服务平台。 这一切都在说明公共服务平台型的电子商务企业讵在发挥极为重要的作 用,他们在促进中国的企业特别是中小型企业开展电子商务交易中起到不可替代 的作用。在目前我国这种市场环境与制度建设相对滞后和企业信息化程度不高的 情况下,电子商务公共服务平台已成为我国电子商务发展的主要突破口。 1 3 研究的目的与意义 随着信息搜集与交流量的增多,各种会员企业逐渐不再满足于平台提供的 原有服务,而是希望能够对大量、繁杂的信息在多层次、多个侧面有一个正确的 把握,对有用的信息能及时抽取出来,分析出信息问的关联,并挖掘出对会员企 业发展有价值的隐含信息,从而为会员企业做出客观的决策提供辅助支持,希望 平台能够帮助整理这些信息,找出有用信息,并根据信息分析出各个产品的发展 前景和获利能力,帮助他寻找潜在的客户,或针对现有客户采取什么样的激励措 施等等。 另外,平台提供商通常需要解决的问题是如何寻找合适的广告人群、将网 页个性化、把同时采购的货物放在同一个网页上、自动地把商品分类,找出同一 类访问者的特征并预测未来行为。针对电子商务公共服务平台w e b 页面内容、站 点拓扑结构、平台用户访问信息、平台用户注册信息及电子商务交易信息等在内 的各种数据,应用数据挖掘方法以发现有用的知识。它可以帮助电子商务公共服 务平台从w e b 中发现知识,改进站点设计和用户体验。而有些特殊用户的硬件资 源有限,他们使用掌上电脑浏览网页,如何为他们实现页面预取也是应当研究的 课题。在理解客户行为的基础上,提供个性化服务。所有这一切都涉及寻找并支 持各种不同的隐含模式。另外,更为高级的需求也在日益变得迫切,如要求平台 服务商提供商务信息分析预警、电子商务搜索等。 借助数据仓库报告系统( 一般称作在线分析处理系统) ,只能报告可直接观 察到的和简单相关的信息,不能告诉网站信息模式及怎样对其进行处理,并且它 很难深刻分析复杂信息,需要平台自己加工与处理,平台提供商和商业分析员可 以采用数据挖掘技术来解决上述问题。 因此,为满足现实的需求,进一步提高会员满意度,提高电子商务的成功 率,需要构建一个电子商务公共服务平台下的w e b 挖掘系统来帮助平台实现这些 需求,通过w e b 挖掘,提高电子商务公共服务平台的服务质量,增强竞争力。 第一章绪论 1 4 研究内容 本文研究的内容是设计一个针对性的电子商务公共服务平台下的w e b 挖掘 系统,详细分析了系统的关键技术,并介绍了本文作者在应用w e b 挖掘技术方面 的实践,最后提出了w e b 挖掘系统评价指标体系。 6 第二章w e b 挖掘相关概念综述 第二章w e b 挖掘相关概念综述 2 1w e b 挖掘的概念 2 1 1 数据挖掘 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程”。 数据挖掘所能发现的知识有如下几种l t o j :广义型知识、特征型知识、差异 型知识、关联型知识、预测型知识、偏离型知识。所有这些知识都可以在不同的 概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用 户、不同层次决策的需要。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种 商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访 问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级 的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的 潜在联系,从而促进信息的传递。 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工 智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广 泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下: 1 分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如: 银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分 新申请贷款的客户,以采取相应的贷款方案。 2 聚类:将一个对象的集合分割成几个类,每个类内的对象之间是相似的, 但与其他类的对象是不相似的。例如:将申请人分为高度风险申请者,中度风险 申请者,低度风险申请者。 3 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的 这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以 通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如: 今天银行调整利率,明天股市的变化。 7 第一:章w e b 挖掘相芙概念综述 4 预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未 来经济发展的判断。 5 偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原 因。例如:在银行的1 0 0 万笔交易中有5 0 0 例的欺诈行为,银行为了稳健经营, 就要发现这5 0 0 例的内在因素,减小以后经营的风险。 数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询, 提升到从数据中挖掘知识,提供决策支持”“。在这种需求牵引下,汇聚了不同 领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并 行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形 成新的技术热点。 数据挖掘可粗略地理解为三部曲:数据准备( d a t ap r e p a r a t i o n ) 、数据挖 掘,以及结果的解释评估( i n t e r p r e t a t i o na n de v a l u a t i o e ) 。 根据数据挖掘的任务分,有如下几种:分类或预测模型数据挖掘、数掘总 结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常 和趋势发现等等。 根据数据挖掘的对象分,有如下若干种数据源:关系数据库、面向对象数 据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产 ( 1 e g a c y ) 数据库,以及w e b 数据源。l l j 。 根据数据挖掘的方法分,可粗分为:统计方法、机器学习方法、神经网络 方法和数据库方法l 1 2 j 。统计方法中,可细分为:回归分析( 多元回归、自回归 等) 、判别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 系统聚 类、动态聚类等) 、探索性分析( 主元分析法、相关分析法等) 、以及模糊集、粗 糙集、支持向量机等。机器学习中,可细分为:归纳学习方法( 决策树、规则归 纳等) 、基于范例的推理c b r 、遗传算法、贝叶斯网络等。神经网络方法,可细 分为:前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争学 习等) 等。数据库方法主要是基于可视化的多维数据分析或o l a p 方法,另外还 有面向属性的归纳方法。 2 1 2w e b 挖掘 数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于w e b 的 应用。w e b 上信息量无比丰富,如何从非结构化数据信息中有效地挖掘出有用的 信息是数据挖掘领域的一个新问题。w e b 上的数据信息不同于数据库,数据库有 规范的结构,如关系数据库的二维表结构,它有统一的格式,其中的数据为完全 结构化的数据。就处理的数据对象而言,传统的数据挖掘技术很少处理异质的非 8 第二章w e b 挖掘相关概念综述 结构化信息,w e b 挖掘技术则不然,主要是大量的、异质的w e b 信息资源,文档 结构性差,其数据多为半结构化或非结构化。由于半结构化和非结构化的信息不 能清楚地用数据模型来表示,因此在w e b 上的数据挖掘需要用到很多不同于单个 数据仓库挖掘的技术,对w e b 上的数据进行挖掘具有极大的挑战性,w e b 挖掘是 对w e b 数据进行数据挖掘,是针对w e b 页面内容、站点拓扑结构、用户访问信息、 用户注册信息及电子商务交易信息等在内的各种数据,应用数据挖掘方法以发现 有用的知识的过程。它可以帮助人们从w e b 中发现知识,改进站点设计,提 供个性化服务。w e b 挖掘分为内容挖掘、使用挖掘和结构挖掘,如图2 一l 所示。 1 w e b 内容挖掘 w e b 内容挖掘般从两个不同的观点来进行研究。从资源查找( i r ) 的观点 来看,w e b 内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户 过滤信息。而从d b 的角度讲w e b 内容挖掘的任务主要是试图对w e b 上的数据进 行集成、建模,以支持对w e b 数据的复杂查询。 w e b 挖掘 w e b 内容挖掘w e b 结构挖掘w e b 使用挖掘 文本挖 赭体 超链接页面结 用户访分析定 问模式制w e b 掘 挖掘构挖掘 挖掘站点 幽2 1 w e b 挖掘的分类 f i g 2 1t h ec l a s s i f yo f w e bm i n i n g 从资源查找( i n f o r m a t i o nr e t r i e v e ) 的观点挖掘非结构化文档: 非结构化文档主要指w e b 上的自由文本,包括小说、新闻等。在这方面的 研究相对比较多一些,大部分研究都是建立在词汇袋( b a go fw o r d s ) 或称向量 表示法( v e c t o rr e p r e s e n t a t i o n ) 的基础上,这种方法将单个的词汇看成文档 集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上 下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度, 即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、 不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰 9 第二章w e b 挖掘相关概念综述 富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采 取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性a 另 外,一个比较有意义的方法是潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g ) ,它 通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根 代替所有词汇,以此来减少维空问”“。例如:“i n f o r m i n g ”、“i n f o r m a t i o n ”、 “i n f o r m e r ”、“i n f o r m e d ”可以用他们的根“i n f o r m ”来表示,这样可以减少属 性集合的规模。 其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、 使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。 另外,与非结构化数据相比,w e b 上的半结构化文档挖掘指在加入了i t t m l 、 超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发 现文档之间的关系、提出半结构化文档中的模式和规则等,也可用资源查找 ( i n f o r m a t i o nr e t r i e v e ) 的观点挖掘半结构化文档。 从数据库( d a t a b a s e ) 的观点挖掘非结构化文档: 数据库技术应用于w e b 挖掘主要是为了解决w e b 信息的管理和查询问题。 这些问题可以分为三类:w e b 信息的建模和查询;信息抽取与集成;w e b 站点建 构和重构。 从数据库的观点进行w e b 内容挖掘主要是试图建立w e b 站点的数据模型并 加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到 w e b 文档的模式、建立w e b 数据仓库或w e b 知识库或虚拟数据库来实现。相关研 究主要是基于半结构化数据进行的。 数据库观点主要利用o e m ( o b j e c te x c h a n g em o d e l ) 模型将半结构化数据表 示成标识图“。o e m 中的每个对象都有对象标识( o l d ) 和值,值可以是原子类 型,如整型、字符串型、g j f 、h t m l 等,也可以是一个复合类型,以对象引用集 合的形式表示。由于w e b 数据量非常庞大,从应用的角度考虑,很多研究只处理 半结构化数据的一个常用子集。一些有意义的应用是建立多层数据库( i l d b ) , 每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于 在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。 由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图 形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使 用,目前已经有人针对多层数据库挖掘算法迸行研究。 2 w e b 结构挖掘 w e b 结构挖掘是从w e b 的组织结构、w e b 文档结构及其链接关系中推导知识。 w e b 内容挖掘主要针对的是内部文档,而w e b 结构挖掘主要针对的是外部文档的 1 0 第二章w e b 挖掘相关概念综述 超链接结构。一般也把w e b 内容( w e bc o n t e n tm i n i n g ,w c m ) 和w e b 结构挖掘( w e b c o n s t r u c tm i n i n g ,w c m ) 统称为w e b 内容挖掘( w c m ) ”“。根据超链接的拓扑结构, w e b 结构挖掘可以对页面进行分类,并且取得不同网站的相似信息和其他关系。 另外,w e b 结构挖掘也能发现w e b 文档自身的结构,这种结构挖掘能够有助于用 户的浏览,也有利于网页进行比较和系统化。通过提供一种指导性的方案,从而 达到更方便地访问信息的目的。x m l 本身可以使w e b 文档结构化,因此,对结 构挖掘来说,用x m l 开发的网站,将节省很多数据的预处理工作。 对w e b 进行结构挖掘,可以得到必下信息。 ( 1 ) 同一网站里不同网页链接的频率; ( 2 ) 同一网站里同一页面内部链接的频率; ( 3 ) 不同网站问链接的频率等。 通常,如果一些网页之间存在某种关系,那么这些网页可能就具有相同的 结构、类似的内容,或者位于相同的w e b 服务器,x m l 可以使之很容易地形成网 页之间的比较,找出相同和差异l 1 9 j 。w e b 结构挖掘的另一个功能是发现专业网 站中的层次关系和链接网络关系,获取信息流的流向,从而使查询更方便、更容 易。 3 w e b 使用挖掘 即w e b 使用记录挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相 关的w e b 日志记录,来发现用户访问w e b 页面的模式,通过分析日志记录中的规 律,可以识别用户的忠诚度、喜好、满意度,可以发现潜在用户,增强站点的服 务竞争力。w e b 使用记录数据除了服务器的日志记录外还包括代理服务器日志、 浏览器端日志、注册信息、用户会话信息、交易信息、c o o k i e 中的信息、用户 查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见w e b 使用记录的 数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法, w e b 使用挖掘可以分为两类,一类是将w e b 使用记录的数据转换并传递进传统的 关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将 w e b 使用记录的数据直接预处理再进行挖掘。w e b 使用挖掘中的一个有趣的问题 是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于 该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘 质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可 以直接用到w e b 使用挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进 行了努力,包括复合关联规则算法、改进的序列发现算法等。 在w e b 使用挖掘中,根据数据来源、数据类型、数据集合中的用户数量、 数据集合中的服务器数量等将w e b 使用挖掘分为五类: 第二章w e b 挖掘相关概念综述 个性挖掘:针对单个用户的使用汜录对该用户进行建模,结合该用户基本 信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众 不同的个性化服务。 系统改进:w e b 服务( 数据库、网络等) 的性能和其他服务质量是衡量用户 满意度的关键指标,w e b 使用挖掘可以通过用户的拥塞记录发现站点的性能瓶 颈,以提示站点管理者改进w e b 缓存策略、网络传输策略、流量负载平衡机制和 数据的分句策略o 。此外,可以通过分析网络的非法入侵数据找到系统弱点, 提高站点安全性,这在电子商务环境下尤为重要。 站点修改:站点的结构和内容是吸引用户的关键。w e b 使用挖掘通过挖掘用 户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如 何组织、那些页面应能够直接访问等。 智能商务:用户怎样使用w e b 站点的信息无疑是电子商务销售商关心的重 点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,w e b 使用 挖掘可以通过分析用户点击流等w e b 同志信息挖掘用户行为的动机,以帮助销售 商合理安排销售策略。 w e b 特征描述:这类研究关注通过用户对站点的访问情况,统计各个用户在 页面上的交互情况,对用户访问情况进行特征描述。 2 2w e b 挖掘的过程模型 在参照通用数据挖掘过程模型的基础上,针对w e b 特性。我们可得到w e b 挖掘过程的模型,包括8 个阶段“。 问题定义:提出问题,并将其分解成若干个子任务,确定哪些任务可以通 过数据挖掘方法解决。每个任务联系到一个特定的数掘挖掘任务。 数据选择:根据用户要求从数据源中提取与挖掘相关的数据。 领域知识抽取:本阶段产生的结果将制约后续挖掘算法的解题空间,减少 挖掘的无关结果。 方法确定:本阶段任务是根据挖掘的目标,确定最佳挖掘方法。 数据预处理:w e b 使用挖掘在预处理阶段主要工作是从w e b 访问日志中识别 出会话事务。w e b 内容挖掘在预处理阶段主要工作是解决异构数据源问题。 模式发掘:经过预处理之后,得到了规范的数据集,这时就可以用通用的 数据挖掘方法进行挖掘。 知识处理:本阶段任务就是清除那些无用的或错误的知识,并把知识表示 成容易被人所理解的形式。 1 2 第二章w e b 挖掘相关概念综述 精化阶段:本阶段内容是重新定义挖掘使用的数据,更换另一种方法,添 加新的参数。精化阶段完成之后,将重新进入数据挖掘和知谚 处理阶段。如图 2 2 所示。 摊 图2 - 2w e b 挖掘过程模型 f i g 2 - 2 f i n ep r o c e d u r em o d e lo fw e bm i n i n g 2 3w e b 挖掘在电子商务中的应用 到一个站点的所有访问者都会留下浏览的踪迹,这些信息自动存储在w e b 服务器的日志文件中。w e b 挖掘通过分析和处理w e b 服务器的日志文件来生成有 意义的信息。例如有多少人访问了该页面,他们从哪来,哪些页面最受欢迎等。 当前经济模式的变化,从传统实体的商店到i n t e r n e t 上的电子交易,同时也改 变了销售商和顾客的关系。现在网上顾客的流动性很大,他们关注的主要因素是 商品的价值,而不像以前注意品牌和地理因素。因此,电子销售商一个主要挑战 是,如何确定顾客的爱好、兴趣和价值取向,以保证在电子商务时代的竞争力。 数据挖掘是用来发现不明显的、有潜在价值的数据。w e b 上数据挖掘的潜力在于 应用存在的和最新的数据挖掘算法,分析i n t e r n e t 服务器上的日志以及顾客、 销售和产品的外部数据。 就电子商务而苦,w e b 数据挖掘有以下几个方面的益处: ( 1 ) 理解顾客行为: 通过理解访问者的动态行为来优化电子商务网站的经营模式; 电子销售商可以获知访问者的个人爱好; 得出网站上由访问者到采购者的转化率; 得出顾客的回头率( 顾客第二次采购同一品牌的概率) ; 发现顾客的采购模式和访问者的浏览模式; 发现什么样的顾客群在网站上采购什么商品; 发现电子商务网站上顾客之间的联系。 识别交易中的欺诈行为,对用户的购物模式和网络消费习惯进行分析,对 其中的一些异常数据( 例如一个客户的突然大量采购) 和一些难以解释的数据关 第二章w e b 挖掘相芙概念综述 系( 例如不同名字的公司使用相同的邮寄地址) 进行预警,可以发现很多的交易欺 诈行为tz z j 。 ( 2 ) 判断w e b 站点的效率: 发现沾点上的高采购率部分和低采购率部分; w e b 设计者不再依靠专家的定性指导来设计网站,而是根据访问者的定量信 息来修改和设计网站的结构和外观; 电子销售商可以根据不同的客户提供个性化服务。 ( 3 ) 评估电子商务模式的成功与否: 容易将用户按模式分类; 容易评测广告的投资回报率; 容易得到可靠的市场同馈信息。 ( 4 ) 商务信息的分析预警: 通过对w e b 的海量数据进行分析和挖掘,可以收集到诸如政治、经济、政 策、科技、金融、各种市场、竞争对手、供求信息、消费者等与企业经营有关的 外部环境信息和内部经营信息如行业统计报告、咨询公司的市场调查分析数据 等,集中精力分析和处理那些对企业发展有重大或潜在重大影响的因素,并根据 分析结果找出会员企业经营过程中出现的各种问题和可能引起危机的先兆,对危 机进行分析和评价,并根据评价的结果对可能发生的危机进行预警“。 ( 5 ) 电子商务搜索引擎改进; 在w e b 使用挖掘中,存在两种类型的聚类,即使用聚类( 用户聚类) 和网 页聚类。其中网页聚类,则可以找出具有相关内容的网页组,这对电子商务搜索 引擎的改进很有用。另外搜索引擎如果能了解用户具体的行为和需求,须对用户 行为和需求进行细分,进而根据用户的行为和需求,整合各种互联网应用,形成 各种专业搜索+ 专业服务的模式,这也需要挖掘用户行为模式。 本章对w e b 挖掘的相关概念作了简单的分析和回顾,我们从下一章开始展 开本文的重点,介绍电予商务公共服务平台下的w e b 挖掘系统的设计、w e b 挖掘 的应用实践与电子商务公共服务平台下的w e b 挖掘系统的评价。 1 4 第二章电子商务公共服务平台r 的w e b 挖掘系统设 第三章电子商务公共服务平台下的w e b 挖掘系统设计 面向电子商务的w e b 挖掘主要包括w e b 内容挖掘和w e b 使用挖掘。通过w e b 内容挖掘,可进行电子商务海量商务信息及贸易政策信息采集和分析:通过w e b 使用挖掘,可辅助公共服务平台理解用户行为,从而改进站点结构,调整服务策 略,提供个性化服务。 木章首先阐述了系统的设计目标与设计思想,接着给出电子商务公共服务 平台下的w e b 挖掘系统的功能模型和逻辑模型及其运行机制,它结合了内容挖掘 和使用挖掘,最后在此基础上详细分析了系统的关键技术。 3 1 系统设计目标与设计思想 随着电子商务公共服务平台的发展,平台上存在着数量巨大的供求信息, 这使得采购商会员企业面对大量的信息而应接不暇,无法做出j e 确的采购决策, 这就要求平台能够建立支持采购商会员采购决策的机制。另一方面,对于供应商 会员与平台来说,通过对产品的销售数据及采购商会员的采购模式进行分析,町 以帮助供应商会员做出j 下确的营销决策平台自身也可以及时做出平台系统规划 决策。另外,平台在个性化推荐和信息发布上也存在着现实的需求。为此,平台 的w e b 挖掘系统设计的主要目标是; 帮助采购商会员选择所需的产品,为其采购提供决策咨询。 通过对产晶的销售数据及采购商会员的采购模式进行分析,为供应商会员 企业提供正确的营销决策咨询。 通过对平台访问模式的分析,为平台自身的舰划决策提供决镱支持,如个 性化服务商务信息预警等信息增值服务,新的营利模式等。 数据挖掘服务器与数据库服务器配合,实现数据挖掘,甲台w e b 服务器与 挖掘服务器配合实现平台网页的发布和推荐。在平台的w e b 挖掘系统构建成熟时 可考虑在因特网上建立强大的数据挖掘引擎与数据挖掘服务市场,开辟新的营利 可考虑在因特网上建立强大的数据挖掘引擎与数据挖掘服务市场,开辟新的营利 点,如图3l 所示。 第二章电子商务公共服务平台下的w e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC TS 62607-6-35:2025 EN Nanomanufacturing - Key control characteristics - Part 6-35: Graphene-related products - Density: free-pouring,tapping and compressing method
- 【正版授权】 IEC 63522-21:2025 FR Electrical relays - Tests and measurements - Part 21: Thermal endurance
- 重庆日报课件
- 推断题-2023年中考化学解题模板
- 事故灾难应急救援指挥考核试题及答案
- 重大危险知识培训课件
- 重大危险源相关知识培训
- 老年人急诊安全救护课件
- 实验猜想与方案设计(附讲解)-中考化学实验探究新视角
- 完成句子-九年级英语上册期末冲刺专练(人教新目标)
- 全球热泵产业发展报告2025
- 商业地产项目数字化运营与客户体验提升策略研究报告
- 2025新疆天泽和达水务科技有限公司部分岗位社会招聘28人笔试模拟试题及答案解析
- 基于多元线性回归的国内旅游收入影响分析-以江西省为例
- 技术方案评审表-技术选型决策
- 中国旅游地理(第四版)中职PPT完整全套教学课件
- 统编本四年级上册语文课堂作业本参考答案
- DBJ50-T-389-2021 高性能混凝土应用技术标准
- 数据结构(c语言版)课件
- 智能消防应急照明与疏散指示系统方案
- 铁路路基重力式挡土墙施工方案
评论
0/150
提交评论