(管理科学与工程专业论文)数据仓库和数据挖掘在邮政速递中的应用研究.pdf_第1页
(管理科学与工程专业论文)数据仓库和数据挖掘在邮政速递中的应用研究.pdf_第2页
(管理科学与工程专业论文)数据仓库和数据挖掘在邮政速递中的应用研究.pdf_第3页
(管理科学与工程专业论文)数据仓库和数据挖掘在邮政速递中的应用研究.pdf_第4页
(管理科学与工程专业论文)数据仓库和数据挖掘在邮政速递中的应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(管理科学与工程专业论文)数据仓库和数据挖掘在邮政速递中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库和数据挖掘在邮政速递中的 应用研究 研究生:饶瑞敏导师:陈伟达韩勇东南大学 摘要 随着邮政体制改革的深化和国外速递公司的全面进入,我国速递行业的竞争也日益激烈。与其 他行业相比,邮政速递拥有丰富的业务以及客户数据。能否挖掘这些数据的内容和隐含在其中的知 识,对于更好地提高竞争力,为客户提供更好的服务,因此,研究数据挖掘技术在我国邮政速递业 中的应用具有重要的价值。 本文用数据仓库与数据挖掘技术来构建邮政速递决策支持系统。论文首先介绍数据仓库与数据 挖掘需要的核心理论,包括数据仓库,数据抽取、转换、装载,联机分析处理,数据挖掘以及它们 四者相互之间的关联;接着本文针对邮政速递具体的业务需求,构建了邮政速递决策支持系统,并 对系统的框架和功能进行详细的分析和设计;然后针对邮政速递决策支持系统,构建数据仓库。包 括对各个异构数据源进行e t l 预处理,得到完整、一致的数据以多维数据的形式存放在数据仓库中。 最后结合邮政速递行业的具体业务,对数据仓库的数据进行o l a p 分析和数据挖掘,以报表、图表和 图形方式,进行决策支持。并运用s l i q 决策树算法和a p r i o r i 关联规则算法探讨数据挖掘技术在大客 户分类、交叉销售等方向中的应用。 关键词:数据仓库;数据挖掘;邮政速递:决策支持系统 a p p l i c a t i o no f d a t aw a r e h o u s ea n d d a t am i n i n gt e c h n o l o g yi np o s t a l e x p r e s ss e r v i c e g r a d u a t e :r a or u i m i n s u p e r v i s o r :c h c nw e i d a ,h a ny o n g s o u t h e a s tu n i v e r s i t y a b s t r a c t w i t ht h ef u r t h e rd e v e l o p m e n to fo u rc o u n t r y sp o s t a ls e r v i c es y s t e m ,t h ee n t r a n c eo ft h ew t o o r g a n i z a t i o n ,a n dt h ec o m p r e h e n s i v ee n t r a n c eo ff o r e i g ne x p r e s ss e r v i c ec o m p a n i e s ,t h ec o m p e t i t i o no ft h e c o u r i e ri n d u s t r yi sb e c o m i n gf i e r c e r c o m p a r e dw i t ho t h e ri n d u s t r i e s ,t h ec o u r i e ri n d u s t r yh a sa c c u m u l a t e d al a r g eq u a n t i t yo fb u s i n e s sd a t aa n dc u s t o m e r s d a t a t h o s ec o r p o r a t i o n sw h oa r ea b l et oe x t r a c tt h e i n f o r m a t i o nb e h i n dt h em a s s i v ed a t aw i l la l s ob ea b l et oo b t a i nh i g h e rc o m p e t i t i v e n e s s m e a n w h i l et h e y c a l lp r o v i d eb e t t e rs e r v i c et ot h e i rc l i e n t s ,t h u sg e ta na d v a n t a g e o u sp o s i t i o ni nt h ec o m p e t i t i o n t h e d o m e s t i cr e s e a r c ho fr e l e v a n ta s p e c th a sj u s ts t a r t e ds i n c er e c e n ty e a r s ,w h i c hh a sa l r e a d yf a l l e nb e h i n d f r o mt h ef o r e i g nl e v e l t h e r e f o r e ,i ti si m p o r t a n tt os t u d yt h ea p p l i c a t i o no fd a t am i n i n gt e c h n i q u ei nt h e f i e l do fo u rc o u n t r y sc o u r i e ri n d u s t r y d a t am i n i n gt e c h n o l o g yi si m p l e m e n t e di nt h ep o s t a le x p r e s sd e c i s i o ns u p p o r ts y s t e mi nt h i sp a p e r f i r s t ,t h ec o r et h e o r i e sr e q u i r e di nt h ei m p l e m e n t a t i o no ft h es y s t e ma r ep r e s e n t e d ,w h i c hi n c l u d ed a t a w a r e h o u s e ,o l a pa n dd a t am i n i n g s e c o n d ,b r i n g sf o r w a r dt h ef r a m e w o r ka n dt h ef u n c t i o nr e q u i r e m e n t s o ft h ep o s t a le x p r e s sd e c i s i o ns u p p o r ts y s t e m t h i r d ,d e s i g nt h ed a t aw a r e h o u s e ,w h i c hi st h eh a r d c o r eo f t h es y s t e m ,i n c l u d i n gt h ep r o c e s so fe t l a n dg i v em a i n t e n a n c ea d v i c e l a s t ,d i s c u s st h ea p p l i c a t i o no ft h e d e c i s i o nt r e ea l g o r i t h ms l i qa n dt h ea s s o c i a t i o nr u l e sa l g o r i t h ma p r i o r ia c c o r d i n gt ot h ee x p r e s sm a i l s e r v i c eb u s i n e s so fs h e n z h e np o s t a lb u r e a u k e yw o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,e x p r e s sm a i ls e r v i c e ,d e c i s i o ns u p p o r ts y s t e m l i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东南人学或其它教育机构的学位或证书而使用过的材料。与我一同上作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:蟠坠杜日期:塑! 生兰l 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电子信息形式刊登) 授权东南大 学研究生院办理。 繇蛐燧弋毕 第一章绪论 1 1 研究背景 第一章绪论 随着世界经济的快速发展和现代科学技术的进步,物流产业作为国民经济的重要组成部分,正 在全球范围内迅速发展。科技的进步及全球化进程的加剧,经济社会对现代物流业提出了更高的要 求,于是从传统的货物运输服务中逐渐产生了新的分支即速递服务或称快递服务( c o u r i e rs e r v i c eo r e x p r e s ss e r v i c e ) 。国际速递业务是2 0 世纪6 0 年代随着国际经济贸易的发展兴起的一种快捷、可靠的 个性化运输方式。 在当今世界,速递服务作为一种先进的运输服务方式越来越受到社会各阶层客户的普遍欢迎, 并得到蓬勃发展。早在1 9 9 3 年,全球十大运输企业排名中,第二及第九位均为主要从事速递服务的 公司,这一事实足以证明速递业在运输业中不可低估的地位。近几十年的发展,速递业在发达国家 的地位更加稳固。在发展中国家,速递业也随着社会、经济的发展而得到壮大。 中国的速递市场竞争也1 卜常激烈。目前有三方势力在争夺中国速递市场国际快递巨头、中 国邮政和民营快递公司。国内的快递企业主要有e m s 为首的国有快递企业和以“顺丰”、“宅急送”为 代表的民营企业,国际快递公司主要以d h l ( 敦豪) 、f e d e x ( 联邦快递) 、u p s ( 联合包裹) 和t l 盯 ( 天地快运) 这四家国际快递巨头为代表。每一方都有着自己的细分市场:中国邮政主要以异地快 递为主,外资快递主要经营国际快递,而民营快递主要是同城业务,但是这一泾渭分明的领域划分 今后将越来越不明显。中国国内的速递企业要想在中国速递彳亍业中站稳脚跟向前发展,必须扩人业 务范围,占据国际快递业务中较人的市场份额,发展巩同自己的实力,增强竞争力。 长期的中国邮政政企合一,使邮政系统缺乏市场竞争经验,长期亏损;而另一方面市场逐渐开 放之后,逐渐成长起来的民营和外资邮政业务服务企业也将给中国邮政带来激烈的竞争。 与此同时,邮政速递业务具有建立数据仓库的数据源基础。邮政企业随着邮电分营以来,逐步 加人了信息化的建设速度,特别是近儿年来,加人了对速递业务的投入,实现了电子化、微机化、 网络化处理。并且在各个不同的业务处理系统中,己经积累了人量的信息。这些信息在满足了业务 处理的要求以后,多数被闲置一边,被孤立的存放在不同的数据库中,成为“信息孤岛”。如何能从 这些孤立的信息中进一步发现有价值的信息,从而为邮政速递业务的发展提供有力的支持,是目前 国内邮政迫切需要解决的一项的任务。 另外,邮政企业也逐步认识到邮政人客户是创造邮政收入的主要来源,是邮政企业赖以生存和 持续发展的基础。冈此,大客户管理也日益受到重视,并陆续成立了大客户服务、市场营销等管理 东南人学硕i j 学位论文 机构。广东邮政也在2 0 0 4 年开始在全国试行大客户营销体系的建设,并于2 0 0 5 年在储汇、速递、 函件等各专业中全面推广。但在开展大客户营销上作的过程中,仍存在着诸多的问题: ( 1 ) 客户信息基础管理薄弱。邮政多年积累的客户资源极为庞人丰富,但呈自然状态零星分布 于各个业务系统,且客户信息标准各异、残缺不全,有效增值信息几乎没有。作为重要决策依据的 大客户经营信息,经营层、决策层只掌握极少的一部分。同时一些大客户信息掌握在基层营收单位、 甚至是揽收员个人手里,企业的客户资源缺乏制度性保障,存在流失风险。 ( 2 ) 客户管理不规范,内部无序竞争激烈。为完成生产任务指标,一些单位不惜违规降低资费、 跨界揽收,不仅造成业务收入流失,也给正常营销上作带来较大的困扰,同时损害了与客户的氏期 合作关系。 ( 3 ) 市场反应机制有待健全,营销上作效率不高。目前开展的营销t 作多各自为战,未能发挥 邮政网络、技术上的整体优势,并通过营销组合在竞争中取得主动,总体竞争能力较弱。营销员开 展工作盲目性、随意性较强,效率不高。一些单位要多抓火客户,只能扩充人手,但仍然不能显著 提高营销成效。 为了解决上述问题,达到以客户为中心进行经营的目的,需要用技术手段建立一定的管理机制, 完善企业与客户的沟通渠道,了解客户需求,改善服务,提高客户对企业的满意度和忠诚度,以争 取更多的客户和更人的市场占有率。而建立邮政速递决策支持系统正是有效途径。从整合现有信息 资源起步,对速递信息实施数据挖掘,进而为邮政企业的生产经营活动带来深远影响。 ( 1 ) 有助于推动数据挖掘技术在整个速递业乃至物流业中的应用 由于邮政速递在整个速递业乃至物流业中最具代表性,其战略发展动向也一直受业界的密切关 注。因此,数据挖掘在邮政速递中的应用推广,将有助丁其他速递、物流公司的借鉴,有助于在整 个速递至物流业中的应用。 ( 2 ) 有助下推动数据挖掘技术在整个邮政企业中的应用 中国邮政企业作为百年老店,经营业务种类繁多,传统的业务有函件、包裹、汇票、发行、机 要、储蓄、邮品等,近年来发展的新业务有e m s 特快、商函j “告、电子信函、混合邮件、电子邮购、 代收代缴、邮政信息服务、物流酉己送等等。其客户遍布全国各地,几乎每一个人、每一家公司都是 邮政的客户。而邮政业务虽广,但门根到底,邮政的业务都是同绕着实物的传递所进行的,而速递 业务就最具代表性。冈此,数据挖掘在邮政速递中的应用,将直接推动数据挖掘在整个邮政企业的 中的虑片j 。 ( 3 ) 有助于邮政企业了解自身经营状况 决策者只有全面了解自身的经营状况,邮政的各项经营才能高效、安全。数据仓库和数据挖掘 技术为邮政企业及时、准确、全面地掌握自己的资产数据及其分布、客户的信用等情况,提供了必 2 第一章绪论 要的服务手段和有力的技术支持。 ( 4 ) 有助于邮政进行市场细分,开发新产品、拓展新市场,获得“深度效益” 邮政只有将客户细分到相应的市场,才能抓住真正给邮政创造利润的客户群体,进而针对创利 群体,开发新产品,拓展新市场,获得“深度效益”,而非通过提供千篇一律的服务和产品来获得“规 模效益”。 ( 5 ) 有助于邮政企业经营管理和决策支持 邮政企业经营管理方案的确定和未来战略决策的产生,都是以对现实的分析和对未来的预测为 基础的,都是要以准确的数字为依据的。借助数据仓库和数据挖掘技术能进行不同邮政产品的盈利 性分析和风险性分析,使邮政企业能够综合运行不同平台上的业务数据,并结合外部信息,提出经 营策略。 ( 6 ) 有助予邮政企业的风险防范 数据仓库的建立和数据挖掘的开展能帮助邮政企业随时调用与自己有业务往来的客户的历史和 现实业务数据。并能据此推断出客户的信用情况,为邮政减少内部经营风险创造了条件。与此同时, 数据挖掘还可以结合社会外部环境的相关经济数据,帮助邮政掌握竞争对手的经营状况和国际经济 发展趋势,减少外部经营风险。 作者参与了深圳市邮政信息局的邮政速递决策支持系统的开发工作,在研究分析了邮政速递目 前的业务模式的基础上,对邮政速递现阶段的数据仓库的规划、功能目标、数据挖掘应采用的开发 模式提出新的见解。 1 2 国内外研究现状 1 2 1 研究动态 1 9 8 9 年8 月在美国底特律召开的第1 届国际联合人工智能学术会议( l i c a i - 8 9 ) 上,g r e g o r y p i a t e t s k y s h a p i r o 组织了“数据库中的知识发现”( k d d :k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 专题讨 论会,该讨论会的重点是强调发现( d i s c o v e r y ) 的方法以及发现的知识( k n o w l e d g e ) 两个方面, 这是基丁数据挖掘概念的首次国际学术会议。 随后在1 9 9 1 、1 9 9 3 和1 9 9 4 年都举行了k d d 专题讨论会,来自各个领域的研究人员和应川开发者 集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。随着参与科研和开发人员 的不断增加,国际k d d 组委会f 1 9 9 5 年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召 开了第一届k d d 国际学术会议。在这次会议上“数据挖掘( d a t am i n i n g )”概念第一次由u s a m a f a y y a d 提出。其会议名称全称为“a c ms i g k d d ( s p e c i a li n t e r e s t e dg r o u po nk n o w l e d g ed i s c o v e r y i n 3 东南人学硕十学位论文 d a t a b a s e s ) i n t e r n a t i o n a lc o n f e r e n c eo l lk n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ”。参加人数由几十人发 展到上千人,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以 及多种学科之间的相互渗透。 除了美国人工智能协会主办的k d d 年会外,还有许多的数据挖掘年会,包括p a k d d 、e c m l p k d d 、s i a m d a t am i n i n g 等。p a k d d ( p a c i f i c - a s i ac o n f e r e n c eo nk n o w l e d g ed i s c o v e r ya n dd a t a m i n i n g ) 是亚太平洋地区数据挖掘年会,从1 9 9 7 年开始,每年召开一次,至今已召开了1 2 届,其中1 9 9 9 年的p a k d d 在我国北京召开。e c m lp k d d ( t h ee u r o p e a nc o n f e r e n c eo nm a c h i n el e a r n i n ga n d p r i n c i p l 懿a n dp r a c t i c eo fk n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 是欧洲数据挖掘会议,它是由两个会议 组成,e c m l 和p k d d 。2 0 0 0 年起,两个会议合并为一个会议。s i a m - d a t am i n i n g ( s o c i e t yf o ri n d u s t r i a l a n d a p p l i e dm a t h e m a t i c s ) 是s i a m 组织召开的数据挖掘讨论会,2 0 0 1 年4 月召开第l 届讨论会,专注 于科学数据的数据挖掘。 国外已有许多专门的工作组,从事数据挖掘领域的研究。比较著名的有r a b e s h a g r a w a l 领导下的 i b m a l m a d e nr e s e a r c hc e n t e r 的数据挖掘t 作组;j i a w e ih a n 带领下的s f u 工作组;s t a n f o r d 人学的 u l l m a n 领导的关联规则研究小组;m i n n e s o t a 人学的k u m a r 领导的并行数据挖掘研究小组;新- 西兰怀 卡托入学i a nh w i t t e n 教授领导下的w e k a _ e 作组等。他们提出了许多好的数据挖掘算法,并实现了数 据挖掘t 具,为该领域的发展奠定了一定的基础。其中i a n h w i t t e n 教授在2 0 0 4 年荣获了国际信息处 理研究协会( i f i p ) 颁发的n a m u r 奖项,这是一个两年一度、用于奖励那些在信息和通信技术的社会 应用方面做出杰出贡献及具有国际影响的荣誉奖项。2 0 0 5 年8 月,在第1 1 届a c ms i g k d d 国际学术 会议上,w e k a _ e 作组荣获了数据挖掘和知识探索的最高服务奖,w e k a 被誉为数据挖掘和机器学习历 史上的里程碑。 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了k d d 专题 或专刊。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊领先在1 9 9 3 年出版了l d 技术专刊,所发表的5 篇论文代表了当时k d d 研究的最新成果和动态,较全面地论述了k d d 系统方法论、发现结果的评价、 k d d 系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题, k d d 系统与其它传统的机器学习、专家系统、人t 神经网络、数理统计分析系统的联系和区别,以 及相应的基本对策。目前较有影响的学术期刊是( ( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ) ) ,1 9 9 7 年3 月创刊,l 扫u s a m af a y y a d 主办,k l u w e r s t t 版社出版。 与国外相比,国内对数据的研究稍晚,但最近儿年有较人的发展。1 9 9 3 年国家自然科学基金首 次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及 应用研究,例如,复巨大学施伯乐教授领导开发了数据挖掘上具集a m i n e r ;北京火学智能科学系 的唐世渭利杨冬青教授领导开发了基了二空间数据挖掘的客户分析系统模- 辑 j c a s d m 。此外,清华人学 4 第一章绪论 周立柱教授领导的数据挖掘研究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研 究小组,中国科技大学蔡庆生教授领导的针对关联规则的研究小组,复旦大学朱扬勇教授领导的数 据挖掘t 作组等,都取得了许多重要的研究成果。在数据挖掘算法研究方面,中科院计算所史忠值 研究员、清华大学石纯一、陆玉昌教授、武汉人学李德仁院士、北京科技人学杨炳儒教授、复旦大 学周傲英教授等都取得了许多重要的研究成果。国内统计学界,中国人民大学统计学院开辟了“统 计学与数据挖掘”研究专栏,于2 0 0 1 年春季成立了数据挖掘研究中心。该中心是中国人民大学统计 学院下的二级非赢利性学术组织。它是国内较早开展数据挖掘应用和理论探索的团队,也是在经济 学科下较早研究数据挖掘应用的组织。厦门大学朱建平教授也有许多研究成果,其专著数据挖掘 的统计方法与实践于2 0 0 5 年1 2 月由中国统计出版社出版。台湾辅仁大学谢邦吕教授是我国目前统 计领域从事数据挖掘研究最为活跃的一位学者,他与中国人民人学数据挖掘研究中心合作出了很多 研究成果,与朱建平等教授也有合作,而且还常被各大学邀请举行数据挖掘专题讲座。在此值得一 提的是,2 0 0 2 年度的国家社会科学基金在统计学类中首次对该领域的研究予以支持。国内比较重要 的会议有全国数据库学术会议( n d b c ,n a t i o n a ld a t a b a s ea c a d e m i cc o n f e r e n c e ) 。重要的杂志有计 算机学报、软件学报和计算机研究与发展等。 1 2 2 文献综述 数据挖掘是一个较新的、非常活跃的研究领域,而且数据挖掘研究又跨越了多个学科,所以相 关的研究文献非常多,本文仅就与本文研究密切相关的几个方面作相应的文献综述。 1 关于数据挖掘的应用 数据挖掘应用性研究跨越了许多领域,国外在国家安全、军事、生物医学、商业等各个领域既 有许多理论上的研究成果,也有不少应用上的实际成果。而国内研究由于起步较晚,虽然目前理论 方面的研究成果也比较多,但实际投入应用的还比较少。 在国外,数据挖掘的应用有:加州理工学院喷气推进实验室与天文科学家合作开发的s k i c a t 系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功 应用之一f i 】;生物学研究中用数据挖掘技术对d n a 进行分析【2 j ;利j j 数据挖掘技术识别顾客的购买 行为模式,对客户进行分析【3 l ;对银行或商业上经常发生的诈骗行为进行预测【4 】;i b m 公司开发的 a s 系统( a d v a n t e ds c o u t ) 针对n b a 的数据,帮助教练优化战术组合5 】:基y - m c m c ( m a r k o vc h a i n m o n t ec a d o1 学习的贝叶斯网络分类法给客户信用评分【6 】等。 数据挖掘技术在客户关系管理方面的应用研究是数据挖掘应用研究领域的一个热点问题。在国 内,客户关系管理( c r m ,c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 与数据挖掘相结合的概述性研究文献 很多:中国人民人学统计学系数据挖掘中心提出了建立以数据挖掘为基础的客户关系管理体系;张 s 东南人学硕上学位论文 阿兰和谢邦昌对信用卡公司客户分群、建立客户风险侦测模式、分析客户消费特征等做了应用研究 7 1 :王扶东和朱云龙等提出了基丁数据挖掘的客户关系分析评价系统8 i ;王尔平、崔宝灵和于爱民等 以电信行业为背景,介绍了将数据挖掘技术应用到客户关系管理中的流程和方法9 】【1 0 1 ;张少杰和王 连芬运用模糊聚类分析的方法根据客户对企业的贡献度进行客户的价值鉴别,使企业能够有针对性 地对不同客户实施差别策略,对企业争取营销优势提供了帮助【1 1 1 ;钱苏丽和何建敏等对支持向量机 理论进行了研究,在介绍支持向量机原理的基础上,给出了基于支持向量机理论的改进算法,并结 合实例研究给出了电信客户流失预测模型【1 2 1 ;朱世武、崔鬼和谢邦吕利用统计分析方法和数据挖掘 技术分析了移动电话号码与移动电话型号对客户流失的影响,对分析结果进行了解释,并给出一些 营销建议【13 1 ,等等。 此外,王晓红和高洪深进行了数据挖掘技术在大型超市中的应用研究1 1 4 】;石勇和杨海珍等将知 识管理与数据挖掘和提升国家竞争力结合起来,探讨提升国家竞争力的策略1 1 5 】;张存禄和黄培清把 基于描述式数据挖掘方法用于违约供应商的特征识别,将这些特征作为供应商选择和风险预控的参 考依据1 6 1 ;杨虎和李强讨论了如何将金融市场中时间序列模型简化为相应的线性模型,继而用传统 的线性模型方法去检验异常值的存在,并且判断该异常值是加性异常值还是创新异常值( 创新异常 值的挖掘对于金融风险的研究不仅具有理论上的意义,而且具有很强的现实意义) ,进行了算法的实 证分析1 刀;贾知青和庄菁5 f 绑q t s d m ( t i m es e r i e sd a t am i n i n g ) 方法,然后x :j r i c h a r dj p o v i n e l l 提出 的时态模式数据挖掘优化方法进行了修正,通过具体实例说明t s d m 方法如何在金融领域建模和预 测分析,最后提出t s d m 方法需改进的地方及其发展方向【1 8 l ,等等。 2 关于数据挖掘系统 数据挖掘技术所表现出的广阔应用前景及其所蕴含的巨大的商业价值,吸引了国内外众多研究 人员和商业机构从事数据挖掘系统的理论研究和原型开发。r o b e r tg r o s s m a n 根据系统的复杂性、数 据与算法的结合程度、数据模犁、分布程度将数据挖掘系统划分为四代h9 】。第一代数据挖掘系统支 持一个或少数儿个数据挖掘算法,这些算法设计用来支持挖掘向量数据,作为一个独立的系统在单 个机器上运行,数据一般一次性调进内存进行处理。这类工具十分难用,要求用户对具体的算法和 数据挖掘技术有相当的了解,还要负责大鼍的数据预处理i :作。典型的系统有s a l f o r ds y s t e m s 公司早 期推出的c a r t 系统等。随着新的挖掘算法的研究和开发,这一代数据挖掘系统仍然会出现。第二代 数据挖掘系统土要特点是能够与数据库以及数据仓库系统集成,与它们具有高性能的接口,具有高 的可扩展性,支持多个算法,能够挖掘一次不能放进内存的数据,而且有些系统还能够挖掘对象、 文本和连续的媒体数据。典型的系统j z n d b m i n e r ,能通过d m q l 挖掘语言进行挖掘操作2 0 1 ,还有i b m i n t e l l i g e n tm i n e r 、s p s s 的c l e m e n t i n e 和s a s 的e n t e r p r i s em i n e r 等。这一代数据挖掘系统是目前商业软 件的土流。第二代数据挖掘系统一个重要的优点是由数据挖掘系统产生的预言模型能够白动地被操 6 第一章绪论 作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能,另一个特点是支持半 结构化数据和w e b 数据,能够挖掘网络环境下的分布式和高度异质的数据,并且能够有效地与操作 型系统集成。部分第二代系统开发商开始研制相应的第三代数据挖掘系统,如i b m 在i n t e l l i g e n tm i n e r 基础上开发t i n t e l l i g e n ts c o r es e r v i c e ,就是利用数据挖掘得到的预言模型对客户行为进行打分;s p s s 的c l e m e n t i n e 以p m m l 的格式提供与预言模型系统的接口。第四代数据挖掘系统旨在挖掘嵌入式系 统、移动系统和普遍存在计算设备产生的各种类型的数据。 从应用的角度,可以将数据挖掘系统的发展归纳为三个阶段【2 1 1 。第一阶段为独立的数据挖掘系 统,其对应第一代数据挖掘系统,出现在数据挖掘技术发展甲期。一般研究人员开发出一种新型的 数据挖掘算法,就会形成一个软件。第二阶段为横向的数据挖掘工具。19 9 5 年左右,软件开发商开 始提供称之为“工具集”的数据挖掘系统。此类系统的特点是提供多种数据挖掘算法,同时也包括 数据的转换与可视化,它是通用的算法的集合,而非面向特定的应用,所以称为横向的数据挖掘工 具。数据挖掘系统的第二、三、四代系统都属于横向的数据挖掘工具。第三阶段为纵向的数据挖掘 解决方案。从1 9 9 9 年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案,即针对 特定的应用提供完整的数据挖掘方案。这些方案提供商有k d i ( 主要用于零售业) 、o p t i o n s & c h o i c e ( 主要用于保险业) 、h n c ( 欺诈行为侦测) 和u n i c am o d e l ( 主在用于市场营销) 等。 国内在数据挖掘系统研究方面较有代表性的为复旦人学朱扬勇教授领导下的数据挖掘研究组, 他们依托上海复旦德fj 软件有限公司用5 年时间开发研制了d m i n e r 智能分析平台。d m i n e r 以数据 挖掘为核心技术,提供了关联规则,序列模式,频繁序列、决策树分类、神经元网络、线性同归、 l o g i s t i c 同归、k m e a n s 聚类、模糊聚类、异常检测等多种数据挖掘算法,并提供了相应的数据挖掘 模型可视化方法,用户可以查看模型可视化结果,并能用预测模型对数据进行预测评分2 2 1 。 此外,国内还有不少学者从事数据挖掘系统理论方面的研究。张宗新和沈正阳利用数据挖掘多 种模型进行了证券市场的内幕操纵行为甄别研究2 3 】;赵聚雪和徐龙飞在论述数据仓库和数据挖掘的 基本概念和关键技术的基础上,介绍了数据挖掘在智能化学习系统中的应用。在同时考虑智能化学 习需要和数据挖掘需要的前提下,提出了一个基于数据挖掘的二层智能化学习系统( d m b i l s ,d m b a s e di n t e l l i g e n tl e a r n i n gs y s t e m ) 应用模型【2 4 1 ,等等。 1 3 本文的研究内容及结构 本文在对邮政业务和邮政综合计算机网深入调研和分析的基础上,结合邮政速递业务,对“数 据仓库和数据挖掘在邮政速递中的应用”课题进行了分析和研究,探讨现阶段数据挖掘在邮政速递 中应用的最佳解决方案。 7 东南人学硕十学位论文 本文共分六章,内容安排如下: 第一章绪论。介绍本文的研究背景、理论研究现状以及课题任务。邮政是一个信息量相当庞大 的行业,所以对这些信息资源进行整合与分析是必然的趋势。 第二章核心技术相关理论的综述。包括数据仓库,数据抽取、转换、装载和联机分析处理;数 据挖掘的定义,常用的技术与方法以及与数据仓库的结合应用;并对决策树和关联规则这两个数据 挖掘方法分支进行详细介绍。 第三章邮政速递决策支持系统的分析与设计。包括系统的需求分析,框架与功能,以及系统的 联机分析处理功能分析。 第四章邮政速递数据仓库的模型设计。包括建立数据仓库的要求;邮政速递数据仓库建模;e t l 设计以及数据仓库的管理与维护。 第五章数据挖掘算法在邮政速递业务中的应用。对决策树算法s l i q 和关联规则算法a p r i o r i 进行分析,以及将算法具体应用到邮政速递决策支持系统中。 第六章结论与展望。对本文- t 作进行全面总结,给出本文所取得的成果,指出存在的不足和改 进方向。 8 第二章核心技术相关理论 第二章核心技术相关理论 在信息时代,信息是一个国家、一个企业的宝贵的资源。拥有丰富的信息,是一个国家强大、 一个企业兴旺的根本要求。面对着日益激烈的竞争,国家大力支持信息技术的发展,企业不断引入 信息系统。计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介 质的大量供应。这些技术也大大推动了数据库技术和信息产业的发展。而同时,数据库领域义出现 了新的危机,每一个企业都很轻松的存储人量的数据,但这些数据是彼此独立的,对数据作的最多 的操作是增删改,这些数据不能得到充分的利用。人们认识到,对数据简单的存储和操作只是手段, 而企业真正的目的在于将这些数据统一起来,在部门甚至企业内部完整化、一致化。然后对这些统 一的数据用各种统计分析方法进行进一步的处理,得到有益于企业的信息或者知识。这些知识可以 为企业的业务决策和战略发展服务。数据仓库技术、联机分析处理技术和数据挖掘技术便是在这种 背景下应运而生。相关的名词还有数据库中知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 、数 据分析以及决策支持。这些术语背后都有着成熟的数学理论支撑。 数据仓库技术、联机分析处理技术和数据挖掘技术构成了实现邮政速递决策支持系统的技术体 系。本章将分别概述这些关键技术。 2 1 数据仓库 2 1 1 数据仓库定义 按照数据仓库之父w i l l i a mh i n m o n 的说法,“数据仓库是一个面向主题的、集成的、时变的和 非易失的数据集合,支持管理部门的决策过程2 5 1 。”这个简短而义全面的定义指出了数据仓库的土要 特征,并将其和其他数据存储系统相区别。 ( 1 ) 面向主题的。在每一个行业都有其特定的数据库系统以支持其特定的业务,其设计的目的 是方便操作人员进行信息的记录,数据仓库的建立是为了便于高层人员的决策,而主题正好是这样 一个抽象的概念,它要求在较高层次上将企业信息系统中的数据进行综合、分类并加以分析利片j 。 决策首先要站在一个较高的位置来对某个事物作一个整体的认识后进行分析判断,从而形成止确的 决策,面向主题性是数据仓库中数据组织的基本原则。 ( 2 ) 集成的。数据仓库中的数据具有多源性,而来自不同的数据库、文件和数据段的数据一般 会带来数据格式,编码,单位量度等的不一致,且经常会出现数据值的不一致和重复,冈而需要对 进入数据仓库的数据进行预处理,以保证数据仓库内数据质鼍的一致性、完整性和止确性,从而为 0 东南大学硕十学位论文 企业能做出科学的决策提供基本保证。 ( 3 ) 时变的。数据仓库中的数据是供分析和决策所用的,这就决定了它除了包含当前数据之外, 还必须包含历史数据。数据就像给过去和现在拍的快照一样被存储下来,数据仓库中的每一个数据 结构都包含了时间要素,其中的数据也是和时间变化有关的:可以对过去进行分析;与当前的信息 相关;可以对未来进行预测。尽管数据仓库中的数据并不像业务数据库那样要反映业务处理的实时 状况,但是数据也不能长期不变,否则不能正确做出决策。存储在数据仓库中的数据要随时间的变 化而定期更新,包括将那些变化的数据追加到数据仓库中去;删除超过数据仓库的存储期限或对分 析无用的数据;此外,数据仓库数据的时变性还表现在概括数据的变化上。数据仓库中包含有大量 的综合数据,这些综合数据中很多数据都与时间有关,这些数据要随时间的变化不断地进行重新综 合。 ( 4 ) 非易失的。数据仓库中的数据从异种操作平台和外部数据源中抽取,经过清洗转换后存入 数据仓库中,主要供企业决策分析之用,所涉及的数据操作主要是数据读取和查询,因此,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,不像业务系统中数据库中的数据那样,要经 常进行修改、添加和删除,除非这些数据已在数据仓库中存储了很长时间并且已无参考和分析的价 值,这与前面所提到的数据的时变性,这是两个不同的特性,数据的非易失性针对的是对具体数据 的操作,用户不能随意篡改其具体的数据值。数据的1 f 易失性可以使不同的用户在不同时间查询分 析相同问题时得到一致的结果。数据仓库总是物理地分别存放数据;这些数据源丁- 操作环境下的应 用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数 据访问操作:数据的初始化装入和数据访问。 概言之,数据仓库是语义上一直的数据存储,它充当决策支持数据模型的物理实现,并存放企 业战略决策所需要的信息。数据仓库也常常看作一种体系结构,通过将异构数据源中的数据集成在 一起而构造,支持结构化和或专门的查询、分析报告和决策制定。 2 1 2 数据抽取、转换、装载 数据抽取、转换、装载,9 1 e t l ( e x t r a c t t r a n s f o r m l o a d ) ,是实现商业智能之前的数据采集步 骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。 e t l 负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进 行清洗、转换、集成,最后加载剑数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 e t l 是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对丁关系数据库,数据 仓库技术没有严格的数学理论基础,它更面向实际t 程应用。所以从:i 二程应用的角度米考虑,按照 物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分 1 0 第二章核心技术相关理论 的工作直接关系数据仓库中数据的质量,从而影响剑联机分析处理和数据挖掘的结果的质量。 数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源 和脱机的数据存储介质导入到数据仓库中;在技术上,e t l 主要涉及到关联、转换、增量、调度和 监控等几个方面;数据仓库系统中的数据不要求与联机事务处理系统中数据实时同步,所以e t l 可 以定时进行。但多个e t l 的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。 ( 1 ) 数据获取:数据获取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义 后,规划需要的数据源及数据定义,并进一步通过这些数据源获取希望的数据。 确定如何获取或查询源数据并非易事,因为它往往存储在多个地方,可能是一个关系数据库系 统( r d b m s ,r e l a t i o n a ld a t a b a s em a n a g e m e n ts y s t e m ) 文件、一个文本文件、一个e x c e l 文件或其 他类型文件。例如:在移动的经营分析系统中,数据抽取的数据源是b o s s 系统、o a 系统等,而 为了保证生产系统稳定地运行,e t l 所抽取的数据就变成了对数据文件的处理。 ( 2 ) 数据转换:数据转换主要是针对数据仓库建立的模犁,通过一系列的转换来实现将数据从 业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换, 并且支持调试环境,清楚地监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环 节,它包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等。但这些工作可以在不同 的过程中处理视具体情况而定,比如,可以在数据获取时转换,也可以在数据加载时转换。 ( 3 ) 数据存储:数据存储主要是将经过转换的数据加载到数据仓库里面,即入库。操作者可以 通过数据文件直接装载或直连数据库的方式来进行数据装载,充分地体现其高效性。 专业e t l 厂商和产品包括a s c e n t i a l 公司的d a t a s t a g e x e 、s a g e n t 公司的s o l u t i o n 和i n f o r m a t i e a 公司的产品,整体方案提供商和产品则包括o r a c l e 公司的w a r e h o u s e b u i l d e r 和i b m 公司的w a r e h o u s e m a n a g e r 。 2 1 3 数据仓库与数据抽取、转换、装载的关系 数据仓库的建立是一个复杂的系统- t :程,整个系统的成败与其每一环= 常性能和效率息息相关。 在构成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论