(控制科学与工程专业论文)面向web的商业智能中的数据挖掘技术的研究.pdf_第1页
(控制科学与工程专业论文)面向web的商业智能中的数据挖掘技术的研究.pdf_第2页
(控制科学与工程专业论文)面向web的商业智能中的数据挖掘技术的研究.pdf_第3页
(控制科学与工程专业论文)面向web的商业智能中的数据挖掘技术的研究.pdf_第4页
(控制科学与工程专业论文)面向web的商业智能中的数据挖掘技术的研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(控制科学与工程专业论文)面向web的商业智能中的数据挖掘技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着i n t e r n e t 的普及,电子商务激烈竞争,信息数据的快速膨胀,越来越 多的研究者们开始关注商业智能技术,期望能够在这种新型的技术帮助下,利 甩它诸多的优点,获得更多的客户以提高收益。电子商务模式下激烈的竞争趋 势要求对这些信息进行实时和深层的分析。如何对网络上海量的信息进行有效 组织利用,帮助其拥有者们找出真正有价值的信息和知识,以指导他们的决策 行为。这个问题促使数据挖掘技术与电子商务结合在一起,成为w e b 数据挖掘 的一个分支。它主要研究在i n t e r n e t 上,对各种数据源,利用数据挖掘技术寻 找网络上数据间各种隐含的知识模式和获取一些预测性信息。把w e b 数据挖掘 用于电子商务,可以帮助指导站点改进服务、调整结构和实施有针对性的商业 行为,以更好地满足访问者的需求。 电子商务活动中,客户关系管理是一个重要的部分。挖掘潜在客户,保持 老客户,提升客户价值是客户关系管理中主要的内容。建立与客户的良好关系 可以表现为了解用户偏好、向客户提供个性化的服务、推荐它们感兴趣的商品、 帮助他们能够便捷地找到所需商品等方面。要能够做到这些,要求站点有一个 能够分析用户偏好、行为等信息,并且自动根据这些信息向用户提供“推送” 服务的推荐系统。本文正是基于这样一个背景开展研究。 论文的主要工作可以归纳为以下几个部分: 第一,首先给出了国内外的研究现状和论文本身的意义,以及相关的理论 支持。阐述了商业智能理论的内容和关键技术;着重综述了数据挖掘理论和w e b 数据挖掘及其分类,阐明了数据挖掘的技术方法;最后讨论了模糊集理论,为 模糊聚类提供理论基础。 第二,对w e b 数据挖掘的数据源和数据预处理过程经行了研究。分析了电 子商务网站的重要的数据来源及其特点,综合挖掘的目的和技术作出选择:讨 论了数据预处理的过程;重点研究了w e b 日志数据的预处理过程的五个步骤, 数据清洗、用户识别、回话识别、路径补充、事务识别;最后讨论了预处理的 结果和衍生变量。 第三,对电子商务网站浏览者的行为进行了分析,提出了浏览者的分类和 潜在客户的定义,并提出了潜在客户的挖掘模型及其数据准备过程。研究了潜 在客户挖掘使用的聚类技术,给出了聚类技术的概念和主要方法,研究了 k - m e a n s 算法和c h a m e l e o n 算法:结合网络浏览行为的不确定性,提出了模糊 聚类算法应用于潜在客户的挖掘,并作了实例分析。 摘要 第四,研究了关联规则和在用户兴趣挖掘中的应用。给出了关联规则的定 义,研究了a p r i o r i 算法及其改进方法;综述了推荐系统,分析了网站用户兴 趣;结合电子商务网站的拓扑结构,提出多层次关联规则挖掘及其在用户兴趣 发现上应用,并作了实例分析。 关键词:商业智能w e b 挖掘w e b 日志挖掘模糊聚类多层次关联规则 a b s t r a c t a b s t r a c t w i t ht h ep o p u l a r i z a t i o no fi n t e r a c t ,t h ef u r i o u sc o m p e t i t i o no fe l e c t r o n i c c o m m e r c e ( e qa n dt h er a p i de x p l o d i n go fi n f o r m a t i o nd a b , m o r ea n dm o r e r e s e a r c h e r sh a v ep a i da t t e n t i o nt ob u s i n e s si n t e l l i g e n c e ( b 1 ) t h e yw a n tt ot a k et h e a d v a n t a g eo fb 1l og a i nm o r ec u s t o m sa n dp r o f i t 。t h ef u r i o u sc o m p e t i t i o nu n d e rt h e n e wc o m m e r c er e q u i r e st h er e a lt i m ea n dd e e pa n a l y s i so fa l lt h ei n f o r m a t i o n d a t a b u th o wt oo r g a n i z ea n dm a k eu s eo ft h e s ei n f o n n a t i o ne f f e c t i v e l ya n dh o wt o h e l pt h eo w n e ro fh u g ed a t at o f i n do u tt h ev a l u a b l ei n f o r m a t i o na n dk o w l e d g et o g u i d et h e mt om a k ed e c i s i o n ? t h i sq u e s t i o nm a k et h ec o m b i n a t i o no fd a t am i n i n g a n de ct h a ti san e wb r a n c ho fd a t am i n i n g w e bm i n i n gf o c u s e so nt h er e s e a r c hi n t h ei n t e r a c to nh o wt of i n do u ta l li m 【p l i c i tk n o w l e d g em o d e sa m o n ga l lk i n d so fd a t a i n c l u d i n gw e bl o g , u s e rr e g i s t e ri n f o r m a t i o n ,w e bp a g ee r e , a n do nh o wt og a i ns o m e p r e d i c t i v ei n f o r m a t i o n a p p l y i n gw e bd a t am i n i n gi ne cc a r lh e l pas i t et oi m p r o v e i t ss e r v i c ea n ds t r u c t u r ei no r d e rt om e e tt h er e q u i r e m e n to f v i s i t o r s c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) i sa ni m p o r t a n tp a r ti ne ca n d i n c l u d i n gt h ef i n d i n go fl a t e n tc u s t o m e r , t h er e t a i n i n go fc u s t o m e ra n di m p r o v i n g c u s t o m e r s v a l u e l e a m i n g u s e r s i n t e r e s l p r o v i d i n g i n d i v i d u a l s e r v i c e , r e c o m m e n d i n gi t e m st h a tu s e rm a yn e e d s ,a n dh e l pt h e mt ol o c a t et h e i rn e e de a s i l y a n da c c u r a t e l ye t c a l lc a nb ec o n s i d e r e da st h er e p r e s e n t a t i o no fs o u n dr e l a t i o n w i t hu s e r s s oae cs i t en e e d sar e c o n u n e n d a t i o ns y s t e mt oa c c o m p l i s ht h o s e f u n c t i o n s t h ec u r r e n tp a p e ri sj u s tb a s e do nt h ep o i n t sm e n t i o n e d a b o v ef o rf u r t h e r e x p a n s i o ni nm a n yr e l a t e df i e l d s t h em a i nc o n t r i b u t i o no ft h i sp a p e rc a nb ec o n c l u d e da sf o l l o w i n g : f i r s t l y , t h ep a p e ro u t l i n e st h ec u r r e n tr e s e a r c h s t a t u sa th o m ea n da b r o a d , i n t r o d u c e st h es i g n i f i c a n c eo ft h ep a p e ra n ds o m er e l a t i v et h e o r i e s t h eb it h e o r y a n dk e yt e c h n o l o g yi sr e v i e w e d t h ed a t am i n i n ga n dw e bd a t a m i n i n g i s e m p h a s i z e d ,i n c l u d i n gc l a s s i f i c a t i o na n dt e c h n o l o g y t h ef u z z yt h e o r yi sd i s c u s s e d a sab a s i so ff u z z yc l u s t e r i n g s e c o n d l y , t h ep a p e rs t u d yt h ed a t ar e s o u r c ea n dp r e p r o c e s s i n go fw e bm i n i n g t h ed a t ar e s o u r c ea n dc h a r a c t e ro fe cs i t e i sa n a l y s e d t h ed a t ap r e p r o c e s s i n gi s d i s c u s s e d t h ep r e - p r o c e s s i n go fw e bl o gd a t ai se 1 1 i p h a s i z e d ,i n c l u d i n gd a t a c l e a n i n g ,u s e ri d e n t i f i c a t i o n ,s e s s i o ni d e n t i f i c a t i o n ,p a t hc o m p l e t i o n ,t r a n s a c t i o n i d e n t i f i c a t i o n t h e n ,t h er e s u l to fp r e p r o c e s s i n ga n dd e r i v a t i v ev a r i a b l ei sd i s c u s s e d 1 i i a b s t r a c t t h i r d l y , t h ep a p e ra n a l y s e st h e u s e r sa c t i o no fe cs i t e ,p u tf o r w a r da c l a s s i f i c a t i o n ,d e f i n e st h el a t e n tu s e ra n dp u tf o r w a r dam i n i n gm o d e lf o rl a t e n t u s e r t h ec l u s t e r i n g t e c h n o l o g y i sr e v i e w e da n dt h ek - m e a n sa l g o r i t h ma n d c h a m e l e o na l g o r i t h ma r ed i c u e s s e d t h ef u z z yc l u s t e r i n gi sp u tf o r w a r dt om i n e t h el a t e n tu s e rt om e e tt h eu n c e r t a i n t yo fb r o w s ea c t i o n l a s t l y , t h ep a p e rr e v i e w st h e a s s o c i a t i o nr u l ea n dd i s c u s s e st h ea p r i o r i a l g o r i t h m t h er e c o m m e n ds y s t e m a n du s e r si n t e r e s ti s a n a l y s e d t h em u l t i l a y e r a s s o c i a t i o nr u l ei sp u tf o r w a r dt of i n du s e r si n t e r e s t k e yw o r d s :b u s i n e s si n t e l l i g e n c e ( b i ) ,w c bm i n i n g ,w e bl o gm i n i n g ,f u z z y c l u s t e r i n g ,m u l t i l a y e ra s s o c i a t i o nr u l e 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年月日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月 日年月 日 声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所 取得的成果,撰写成硕士学位论文! 面囱壁坠的直些蟹能虫的数握 揎塑捷苤的硒究:。除论文中已经注明引用的内容外,对论文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中 不包含任何未加明确注明的其他个人或集体已经公开发表或未公开 发表的成果。 本声明的法律责任由本人承担。 学位论文作者签名:苦长转勺 2 0 0 5 年3 月1 白 第一章绪论 1 1 研究背景与研究动机 第一章绪论 i n t e r a c t ( 互联网) 从上一世纪九十年代中期开始兴起,到今天不到十年的 时间,已经发展成为经济、教育、娱乐等社会各方面不可缺少的载体、手段或 者方式,渗透到日常生活的每一处。互联网已经成为一个分布广泛、影响巨大、 信息丰富的全球性的信息服务中心。经济学家称其为信息经济,并预测二十一 世纪为信息经济时代。各种经济活动现在都可以通过互联网来进行,电子商务 发展日新月异,已经成为经济学中一个重要的学科。 1 1 1i n t e r n e t 的发展 互联网自1 9 9 3 年问世以来,不到l o 年的时间已经遍布世界各地。i n t e r n e t 的发展也使得网络用户和w e b 服务器的数目以惊人的速度增长。越来越多的浏 览者选择通过互联网来获取信息,同时越来越多的公司采用互联网络来进行经 济活动。互联网正在迅速成为一个新的经济活动方式。 1 9 9 8 年7 月i n t e r n e t 协会( h t t p :、r 啊i s o c o r g ) 年会报告称,世界上 2 5 0 个国家中有2 4 0 个提供i n t e r n e t 上网服务: i n t e r n e t 软件协会( h t t p :w w w i s c o r g ) 的统计表明,到2 0 0 2 年1 月, w e b 主机的数量已经超过了1 亿4 千万台。 据c o m s c o r e ( h t t p :w w w c o m s c o r e c o r n ) 的最新统计报告,截至2 0 0 2 年 5 月1 4 日,全球已逾3 亿2 千万用户使用i n t e r n e t 。 根据中国互联网络信息中心( c n n i c ) 2 0 0 4 年发布的互联网络发展状况统计 报告表明,截至2 0 0 3 年底,网民数、上网计算机数分别达到了7 9 5 0 万、3 0 8 9 万;c n 下注册的域名数、网站数分别达到了3 4 万、5 9 6 万;网络国际出口带 宽总数达到2 7 2 1 6 m ;我国大陆的t p v 4 地址数达到了4 1 4 5 6 1 2 8 个。 1 1 2 电子商务的发展 i n t e r n e t 为人类创造了一个全新的信息社会的同时,也改变了这个社会的 经济运行方式,诞生了一种新型的商务模式一电子商务( e c ,e l e c t r o n i c c o m m e r c e ) 。 电子商务从广义上来说是商业行为通过网络柬完成,是电子资料交换及价 第一章绪论 值网络的延伸,传送的内容广泛、方式多样。电子商务最初起源于标准格式商 务单证的电子数据交换( e d i ) 技术和银行间的电子资金转账( e f t ) 技术的结合。 随着计算机技术、网络通信技术的发展和完善,电子商务得到了飞速发展的机 会。 电子商务技术的飞速发展,是由巨大的市场需求促进和推动。根据联合国 电子商务委员会2 0 0 3 年度报告引用经济合作与发展组织( 经合组织) 汇编的在 调查后获得的有关其成员国的2 0 0 0 2 0 0 1 年数据指出,这些国家有3 8 的用户 曾进行在线购物:2 0 0 2 年在线零售总额,美国约为4 3 4 7 亿美元( 包括旅费 在内则为7 3 0 亿美元) ;欧洲联盟约为2 8 2 9 亿美元:亚太地区1 5 0 亿美元: 拉丁美洲2 3 亿美元:非洲为4 0 0 万美元。关于企业对企业( b 2 b ) 电子商务交 易,美国官方统计资料显示,b 2 b 交易在整个电子商务中占据突出位置。2 0 0 1 年,美国的年b 2 b 在线销售额达9 ,9 5 0 亿美元,占美国电子商务交易总量的 9 3 3 。欧洲联盟的b 2 b 交易值私营部门估计数,2 0 0 2 年约为1 ,8 5 0 亿美元至 2 ,0 0 0 亿美元。在中欧和东欧,一些预计显示,2 0 0 3 年,b 2 b 电子商务交易额 将达4 0 亿美元左右。在亚太地区,此种交易额将迅速增长,由2 0 0 2 年的大约 1 ,2 0 0 亿美元增至2 0 0 3 年的大约2 ,0 0 0 亿美元,2 0 0 3 年将增至3 ,0 0 0 亿美 元左右。在拉丁美洲,2 0 0 2 年的b 2 b 在线交易额预测为6 5 亿美元,2 0 。3 年 将达1 2 5 亿美元。 在中国,电子商务的发展是在1 9 9 8 年以后开始的。1 9 9 8 年7 月,中国商品 交易市场正式宣告成立,被称为“永不闭幕的广交会”。中国商品现货交易市 场,是我国第一家现货电子交易市场。同时,涌现了一批像8 8 4 8 这样的b t o c 公 司。2 0 0 0 年,我国电子商务进入了务实发展阶段。电子商务逐渐以从传统产 业b 2 b 为主体。2 0 0 2 年1 2 月,我国电子商务网站3 8 0 4 家,比2 0 0 1 年3 3 9 1 家 增长1 2 ,能有效运行的1 5 3 3 家,比2 0 0 1 年1 3 2 6 家增长1 6 ;消费类电子商 务网站2 2 7 7 家,其中综合类网站2 8 5 家,专业类网站1 9 9 2 家,能有效运行的 7 3 7 家;b 2 b 网站1 5 2 7 家,其中综合类网站1 8 9 家,专业类网站1 3 3 8 家,能有 效运行的7 9 6 家:电子商务市场规模,电子商务交易额2 0 0 2 年1 8 0 9 亿元,比 2 0 0 1 年1 0 8 8 亿元增长6 6 2 ;b 2 c 交易额2 0 0 1 年为1 3 1 5 亿元,2 0 0 2 年2 5 亿 元,年增长率9 0 ;b 2 b 交易额2 0 0 1 年为1 0 7 5 亿元,2 0 0 2 年1 7 8 4 亿元,年增长 率6 5 9 。 随着我国政府加强电子商务法律法规、电子商务标准、规范,改善市场经 济环境、运行环境,建立社会信用体系,完善电子支付手段和物流配送体系等 各方面工作取得成效以后,电子商务将会有更大的发展。 第章绪论 1 1 3 研究动机 从上文可以看出当前互联网上信息量剧增,甚至可以称为信息泛滥,由此 也使人们感到力不从心,望“洋”兴叹。如何从浩瀚的信息海洋中,提取到有 用的信息成为了当前一个重要的课题。另一方面,互联网为人们提供越来越多 信息的同时,其结构也变得更加复杂,对于那些经验不足的用户经常会“迷失” 网络空间中,面对庞大的网络空间不知何去何从。虽然w e b 上的信息量非常大, 但是用户往往因为找不到需要的信息而发愁,面对搜索引擎返回结果中大量的 超链接或者一个完全陌生的网站,从中寻找需要的信息对一般的用户而言是比 较困难的任务。在互联网市场竞争日趋猛烈的今天,用户成为网站特别是电子 商务网站的最大财富,用户数量与架构在网站上的电子商务以及投放的广告的 收入紧密相关。随着用户网络经验的增长,网站仅靠提供大量的信息已经不能 完全吸引用户,用户需要质量更高、效果更好的服务。人们期望得到个性化的 服务,对于网站的风格以及内容都可以根据自己的兴趣进行定制的,同时,希 望网站可以根据用户的兴趣所在,为用户推荐可能感兴趣但是尚未阅读的内容, 这些就为网站的设计提出了更高的要求。 在这种市场的需求下,产生了w e b 个性化服务、推荐系统以及自适应站点 等商业智能技术,针对不同用户提供不同服务内容,如何对w e b 用户进行划分 并获取用户的兴趣成为商业智能技术的一个研究重点。 1 2 国内外的研究现状 w e b 数据挖掘研究领域正在逐步扩大,研究成果有力地促进了w e b 站点、w e b 服务必及电子商务网站的优化以及之智能网站的发展。同时,w e b 数据挖掘技 术也在不断发展成熟。目前研究的重点集中于将数据挖掘在关系数据库领域取 得的成果与w e b 数据挖掘结合,解决异构数据库环境和半结构化数据结构的查 询和集成。 国际上,关于w e b 数据挖掘的研究与应用主要有:h u m b o l d t 大学研制的 w u m “,w u m 是序列模式挖掘工具,主要目标是分析w e b 站点用户的浏览行为, 最适合于从日志文件中发现序列模式;x m l m i n e r 工具,使用粗糙集理论挖掘 从x m l 读取得格式化数据,发现有用的规则。 目前,国内w e b 数据挖掘领域仍处于对w e b 数据的预处理和应用成熟的数 据挖掘方法的研究阶段。 第一章绪论 1 3 本文的内容与安排 本文的主要内容安排如下: 第一章介绍了本文的研究背景、研究动机,分析了w e b 数据挖掘理论的研 究现状。 第二章概述了商业智能理论、数据挖掘、w e b 数据挖掘和模糊集理论。首先 介绍了商业智能理论,及其发展和关键技术;然后介绍数据挖掘的橛念、分类 和主要的技术、方法;重点介绍了w e b 数据挖掘的内容;最后是模糊集理论, 为研究模糊聚类提供理论基础。 第三章对数据预处理技术进行了研究:( 1 ) 介绍数据类型和特征;( 2 ) 分 析w e b 挖掘的数据来源及其各自的特点;( 3 ) 介绍了数据挖掘中预处理的作用 和地位,以及w e b 目志挖掘中对w e b 目志数据进行预处理的一般方法,包括数 据净化、用户识别、回话识别、路径补充、事务识别等具体步骤:( 4 ) 介绍数 据预处理过程的结果以及表示。 第四章首先提出客户行为分析,并建立一个模型;介绍了聚类技术概念以 及方法;结合w e b 用户聚类的需要,提出了模糊聚类,并分析其算法,最后通 过实例验证该算法的有效性。 第五章讨论了关联规则、a p o r i o i 算法,多层次关联规则以及在挖掘电子商 务网站用户兴趣方面的应用,并以部分结果为例,进行分析。结果表明该算法 尽量挖掘出来所有有用的、有效的模式,过滤掉不感兴趣的那些模式。 第六章总结全文,并指出了本文的进一步工作。 第- 二章相关理论基础 第二章相关理论基础 本文研究的主要内容是研究w e b 挖掘技术,劳用来实现智能商务站点。 本章将首先概述商业智能理论,然后介绍数据挖掘,w e b 挖掘技术和模糊集 理论。 2 1 商业智能 2 1 1 概述 所谓商业智能( b u s i n e s si n t e l l i g e n c e ) 就是要充分利用现有的数据资源, 在智能信息的帮助下,做出更好的商业决策,获得把握、分析发现新商机的有效 途径,换言之,商业智能就是要对现有数据进行分析、总结、处理后形成新的更 有价值的知识,以便用于决策。商业智能的目的是要提高产品质量,降低生产成 本,减少库存,提高经济效益,提高企业在国内和国际市场上的应变能力。 商业智能这一术语1 9 8 9 年由g a r t n e rg r o u p 的h o w a r dd r e s n e r 首次提出, 它描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的 制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和 分析数据,将这些数据转化为有用的信息,然后分发到企业各处。商业智能系统 从企业运作的日常数据中开发出结论性的、基于事实的和具有可实旌性的信息, 使企业能够更快更容易的做出更好的商业决策,使企业管理者和决策者以一种更 清晰的角度看待业务数据,提高企业运转效率、增加利润并建立良好的客户关系, 使企业以最短的时间发现商业机会捕捉商业机遇。同时通过提供决策分析能力, 使企业更有效地实现了财务分析、风险管理、诈骗检测、分销和后勤管理,以及 销售状况分析等。商业智能系统可以说是一个智能决策支持系统,它不是一种产 品或服务,从某种意义上商业智能是一种概念或者说是种商业理念,它是在企 业数据仓库的基础上,利用数据挖掘和信息挖掘工具获取商业信息,以辅助和支 持商业决策的全过程。通过商业智能技术,用户更充分地了解他们的产品、服务、 客户以及销售趋势。目前在国外商业智能软件与o f f i c e 办公软件、浏览器一起 已经成为企业必不可少的桌面办公软件之。商业智能在我国尚处于起步阶段。 商业智能随着客观需要而诞生,并随着信息技术的发展而前进。电子计算 机闯世不久就被应用于管理领域,但是,如何有效地管理企业运行过程中产生的 大量数据和信息一直是信息系统工作人员面临的重要问题。7 0 年代出现的并被 第二章相芙理论基础 广泛应用的关系数据库技术为解决这一问题提供了强有力的工具,当时由人工智 能的一些理论和方法在数据库上的应用而形成的决策支持系统( d s s ) 框架就是 最初的“商业智能”。从8 0 年代中期开始,随着市场竞争的加剧,信息系统的 用户已不满足于计算机日常事务的数据管理,他们更需要的是支持决策制定过程 的信息。传统信息系统所暴露出的数据“过剩”而信息贫乏的矛盾显得日趋突出, 这种需求在8 0 年代中期出现了数据仓库的萌芽,并随着各种计算机软硬件技术 的不断进步,数据仓库技术得到了迅速的发展。另一方面,人工智能学者开始正 视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,走上 了数据库知识发现( k o d ) 的道路。 正是通过对数据仓库技术、传统的d s s 技术 以及人工智能技术,特别是k d d 技术的有效集成,从而使商业智能应运而生,并 且在实际应用上产生了较大的经济效益,反过来又刺激了对商业智能的需求,使 得商业智能的研究、开发和应用的大潮席卷而来。 商业智能是目前企业界和软件开发界受到广泛关注的一个研究方向,它把先 进的信息技术应用到整个企业,不仅为其提供信息获取能力,而且通过对信息的 开发,将其转变为企业的竞争优势。因此,越来越多的企业提出对商业智能的需 求,把商业智能作为帮助企业达到经营目标的一种有效手段;另一方面,计算机 界很多著名公司已认识到商业智能巨大的发展潜力,纷纷加入从事商业智能研究 和软件开发的行列。 从国内企业和政府部门的信息化建设发展来看,从最初的各类m i s 系统到近 几年流行的e r p 、c 蹦等,用户的数据积累已达到了一定的程度,很多行业的用户 面对越来越激烈的市场竞争,他们需要对自己的数据( 用户、市场、产品) 进行 分析,挖掘出潜在的商机,降低公司的运作成本,这是商业智能被市场看好、不 断获得增长的根本原因m “删”。 2 1 2 商业智能的内容 1 ) 商务分析 针对管理系统不同的业务流程,在各个环节搜集相应的指标,如:利润率、 应收率、销售率、库存量、单品销售情况及所占营业比例、风险采购和库存评价 指标等等。通过对这些商务指标设置和告警方式的选择,就可以实现自动报警, 对这些指标进行科学的组织和分析,利用智能管理技术,形成一个能反映商家整 体情况的数学模型。通过对总指标的观察和告警的设置方便而迅速地获得整个商 家的经营状况,同时对各个部门的指标进行对比,直观地了解各个部门的实际情 况。商务指标分析不仅能帮助决策者主动地发现问题,减少工作量,降低未来可 能的损失,同时还能深入到问题的内部,追踪到问题的所在,从而使企业能及时 第二章相关理论基础 地调整自己的经营策略和营销手段,优化自己的库存量、合理使用资金,提高效 率,减少风险,增加市场竞争力。 2 ) 财务分析 该部分主要对商家的财务数据中的利润、费用支出、资金占用及其他具体经 济指标进行有效分析。从而及时掌握商家在资金使用方面的实际情况。为及时调 整和降低商家成本提供数据依据。 3 ) 市场分析 提供政策研究、商品价格比较,供需分析、销售渠道分析,其它商场的市场 占有比较,以及对它们下属机构延展情况作出分析等。为拓展市场,提高企业竞 争力提供依据。 4 ) 客户分析 为了能挽留原有的客户、发展新的客户,从而增加公司的市场份额,提高利 润,应根据公司的业务数据,建立客户档案,进行客户分析,能按照客户的行业、 性别、年龄段等属性进行分类,可以根据每项分类研究的结果,把握不同层次、 不同性别、不同年龄、不同文化的人员的消费心理等,从而在经营中更具主动性 和目的性,有利于根据客户的重要性实施优惠措施,稳定重要客源等。 2 1 3 商业智能的关键技术 商业智能实质上是数据转化为信息的过程,这一过程也可称为信息供应链, 其目的是把初始的操作型数据变成决策所使用的商务信息。数据分析工具一般包 括o l a p ( 联机分析处理) 、数据挖掘工具、统计分析工具、其它人工智能工具等。 商业智能系统涉及到以下几种核心技术:数据仓库技术,联机分析,数据挖掘。 1 ) 数据仓库技术出现在2 0 世纪8 0 年代中期,数据仓库创始人之一w h i n m o n 给出的定义为:“数据仓库是一个面向主题的、集成的、稳定的、包含历 史数据的数据集合,它用于支持管理中的决策制定过程”。数据仓库系统是对数 据的处理技术的集成,数据仓库与传统数据库存储的最大区别在于数据库用于企 业日常事务处理,而数据仓库用于商务分析处理。数据仓库建立的目的在于在不 影响日常操作处理的前提下对业务信息进行分析以辅助企业决策,为决策支持系 统提供应用基础。因此数据仓库与数据库是应用于企业营运不同目的的两种数据 管理系统。数据的存储技术是数据仓库技术的核心,在数据仓库中被集成的数据 通常以星型模式,即事实表一维表结构来组织数据。事实表也称为主表,包括商 务活动的定量的或实际的数据,这种数据是可以用数字度量的,由多行和多列组 成:而维表又称为辅助表,“般比较小,是反映商业某个维的描述性数据。事实 表和维表通过关系进行连接n “。 7 第二章相关理论基础 2 ) 联机分析处理技术,主要通过多维的方式来对数据进行分析、查询和报 表处理。它不同于传统的o l t p 应用。o l t p 应用主要用来完成用户的事务处理, 如民航订票系统、银行储蓄系统等,通常要进行大量的更新操作,同时对响应时 间要求比较高。而o l a p 应用主要是对用户当前及历史数据进行分析,辅助领导 决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制 定等,主要是进行大量的查询操作,对时间的要求不太严格。在数据仓库应用中, o l a p 应用一般是数据仓库应用的前端工具,同时0 l a p 工具还可以同数据挖掘工 具、统计分析工具配合使用,增强决策分析功能。 3 ) 数据挖掘,主要用于从大量的数据中发现隐藏于其后的规律或数据间的 关系,它通常采用机器自动识别的方式,不需要更多的人工干预。采用数据挖掘 技术,可以为用户的决策分析提供智能的、自动化的辅助手段,在零售业、金融 保险业、医疗行业等多个领域都可以有很好的应用。在数据挖掘技术中常用的数 据模型有:分类模型,是根据商业数据的属性将数据分派到不同的组中。关 联模型,主要描述一组数据项目的密切度和关系。时序模型,主要用于分析数 据仓库中的某类同时间相关的数据,并发现某一时间段内数据的相关处理模型。 时序模型可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 聚类模型,当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时, 可以采用聚类模型。聚类模型是按照某种相近程度度量方法将用户数据分成互不 相同的一些分组。组中的数据相近,组之间的数据相差较大。聚类模型的核心就 是将某些明显的相近程度测量方法转换成定量测试方法。 2 2 数据挖掘 2 2 1k d d 和数据挖掘 k d d 为k n o w l e d g ed i s c o v e r yi nd a t a b a s e 的缩写,这一术语首先出现在 1 9 8 9 年在美国底特律召开的第l l 届国际人工智能联合会议的专题讨论会上, 1 9 9 1 、1 9 9 3 和1 9 9 4 年又接着继续举行k d d 专题讨论会。1 9 9 5 年在加拿大召 开了第一届知识发现和数据挖掘国际学术会议。从1 9 9 7 年开始,k d d 已经拥 有了专门的杂志 k n o w l e d g ed is a o v e r ya n dd a t am i n i n g ) 。国外在这方面 发表了众多的研究成果和论文,并且开发了一大批数据挖掘软件( 参见h t t p : w w w k d n u g g e t s c o m ) ,对数掂挖掘的研究己成为计算机领域的个热门课 题。 许多学者认为数据挖掘和k d d 是等价的概念,人工智能领域习惯称为 第二章相关理论基础 k d d ,而数据库领域习惯称呼为数据挖掘;也有学者把k d d 看作是发现知识的 完整过程,而将数据挖掘视为其中的一个基本步骤。图2 1 示意了知识发现 的主要过程,这里我们将数据挖掘作为知识发现的一个重要步骤。 图2 1 数据挖掘视为知识发现过程的一个步骤 知识发现的过程主要由以下几个步骤组成: 数据清理( 消除噪声或不一致数据) 数据集成( 多种数据源可以组合在一起) 数据选择( 从数据库中检索与分析任务相关的数据) 数据变换( 数据变换或统一成适合挖掘的形式,如通过汇总或聚集操 作) 数据挖掘( 基本步骤,使用智能方法提取数据模式) 模式评估( 根据某种兴趣度度量,识别表示知识的真正有趣的模式) 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识) 本文中,将前4 个步骤统称为数据预处理过程( d a t ap r e p r o c e s s i o n ) 。使 用u f a y y a d 。1 等对数据挖掘的定义: 定义2 一l :从数据集中识别出有效的、新颖的、潜在有用的、并且最终可 第二章相关理论基础 理解的模式的非平凡过程。 对于上面数据挖掘的定义需要说明几点: 1 上面的定义中,涉及几个需要进一步解释的概念。 过程通常指多阶段的一个过程,涉及数据准各、模式搜索、知识评价,以 及反复的修改求精;该过程要求是非平凡的( n o n t r i v i a l ) ,意思是要有一定程 度的智能性、自动性( 仅仅给出所有数据的总和不能算作是一个发现过程) 。有 效性( v a l i d ) 是指发现的模式对于新的数据仍保持有一定的可信度。新颖性 ( n o v e l ) 要求发现的模式应该是新的,从前未知的。潜在有用性( p o t e n t i a l l y u s e f u l ) 是指发现的知识将来有实际效用,如:用于决策支持系统里可提高经 济效益。最终可理解性( u l t i m a t e l yu n d e r s t a n d a b l e ) 要求发现的模式能被用 户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终 可理解性综合在一起可称之为兴趣性( i n t e r e s t i n g n e s s ) “1 。 2 数据挖掘质量的好坏受两个因素的影响。 一是所采用的数据挖掘算法的有效性,二是用于挖掘的数据的质量和数量 ( 数据量的大小) 。如果选择了错误的数据或不适当的属性,或对数据进行了错 误的转换,则有可能得到不正确的挖掘结果,即所谓的g a r b a g ei ng a r b a g eo u t 。 所以,数据预处理对于数据挖掘来讲也是非常重要,同时,数据预处理也是数 据挖掘中的一个重要研究课题。 3 整个挖掘过程是一个不断重复的过程。 假如用户在挖掘过程中发现选择的属性或数据有偏差,或者使用的挖掘技 术产生不了预期的结果,这时就需要根据反馈结果,不断重复先前的过程,甚 至从头重新开始,最终得到令人满意的挖掘结果。 4 可视化在数据挖掘的各个阶段都扮演着重要的作用。 在数据准备阶段,用户可能要使用散点图、直方图等可视化统计技术来显 示有关数据,以便对数据有一个初步的理解,从而为更好地选取数据打下基础。 在挖掘阶段,用户有可能要使用与领域问题有关的可视化工具,来选择挖掘算 法或者调整挖掘算法的参数。在结果表示阶段,则可能又要用到其它的可视化 技术,以利于用户对挖掘结果的理解。 2 2 2 数据挖掘系统的分类 由】:数据挖掘源于多个学科,是一个交叉学科领域,因此数据挖掘研究 第二章相关理论基础 产生了大量的不同类型的数据挖掘系统。从不同的视角看,数据挖掘系统有各 种分类,主要有以下几方面: l 根据挖掘的知识类型分类。 这种分类方法将数据挖掘系统分为:关联规则( a s s o c i a t i o n ) 、分类 ( c l a s s i f i c a t i o n ) 、特征化( c h a r a c t e r i z a t i o n ) 、聚类分析( c l u s t e r i n g ) 、 演变分析( e v o l u t i o n ) 、孤立点分析( o u t l i e r ) 、偏差( d e v i a t i o n ) 分析等。 2 根据挖掘知识的抽象层次分类。 将数据挖掘系统算法分为原始层( p r i m i t i v el e v e l ) 的数据挖掘、高抽象 层( h i g hl e v e l ) 的数据挖掘、多层次( m u l t i p l el e v e l ) 的数据挖掘。 3 根据挖掘的数据库类型分类。 基于数据库的分类有:关系型( r e l a t i o n a l ) 、事务型( t r a n s a c t i o n a l ) 、 面向对象型( o b j e c t o r i e n t e d ) 、空间型( s p a t i a l ) 、时间型( t e m p o r a l ) 、文 本型( t e x t u a l ) 、多媒体( m u l t i - m e d i a ) 、异质( h e t e r o g e n e o u s ) 数据库、遗 留型( l e g a c y ) 和硼w 数据挖掘系统等。 4 根据采用的技术分类。 最常用的数据挖掘技术有: ( 1 ) 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) :它从结构上模仿生物 神经网络,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、 特征挖掘等多种数据挖掘任务。 ( 2 ) 决策树( d e c i s i o nt r e e ) :用树形结构来表示决策集合,这些决策集 合通过对数据集的分类产生规则。典型的决策方法有分类回归树( c a r t ) ,一般 用于分类规则的挖掘。 ( 3 ) 遗传算法( g e n e t i ca l g o r i t h m ) :基于生物进化的概念设计一系列的 过程来达到优化的目的。这些过程有基因组合、交叉、变异和自然选择。为了 应用遗传算法,需要把数据挖掘任务表达为一种搜索问题而发挥遗传算法的优 化搜索能力。 ( 4 ) 最近邻技术( n e a r e s tn e i g h b o r ) :通过k 个最与之相近的历史记录 的组合柬辨别新的记录,有时也称这种技术为卜最近邻方法。这种技术可以用 作聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论