




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘在邮政网运分析系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文 数据挖掘在邮政网运分析系统的应用 摘要 随着信息技术的发展,邮政企业积累了大量的历史数据,但由于缺乏有力的分 析工具,使得重要的决策常常不是基于对数据库中丰富的原始数据的科学分析,而 是基于决策者的管理经验,因此建立决策支持系统,提高决策者高效数据分析能力 的研究就十分重要。如何将数据挖掘技术应用在邮政网运系统领域是本文研究的重 点问题。 本文在对数据挖掘技术、数据挖掘分类、数据挖掘流程和数据挖掘工具进行研 究的基础上,重点讨论了邮政网运系统实施数据挖掘项目的应用,以及实施数据挖 掘项目应注意的问题。 最后,结合实际工作介绍了一种数据挖掘模型在南通邮政网运系统的具体应 用。这个模型在分析网运系统数据库的基础上,用星型架构的方式建模,构造出一 个数据仓库的逻辑模型;然后从企业业务数据库中提取数据,经过数据审查、数据 清理、数据转换和数据规约等处理,把“有价值的、干净 的数据加载到数据仓库 中,完成数据仓库的构建。再利用数据挖掘工具对数据进行分析,并设计出w e b 界面展示结果,完成了具有系统管理、数据采集、负载分析、成本分析、数据处理 等五大功能模块的南通邮政网运分析系统。 关键词:数据挖掘,邮政,数据仓库 a b s t r a c t硕士论文 a b s t r a c t w i t ht h er a p i dp r o g r e s so f i n f o r m a t i o nt e c h n o l o g y ,al a r g ea m o u n to f h i s t o r i c a ld a t ah a s b e e na c c u m u l a t e di np o s t i r o n i c a l l y ,i m p o r t a n td e c i s i o n sa r eo f t e nm a d eo nt h e m a n a g e r i a le x p e r i e n c e so fd e c i s i o nm a k e r si n s t e a do ft h es c i e n t i f i ca n a l y s i so fa b u n d a n t i n i t i a ld a t as o u r c e h e n c e ,h o wt ob u i l dd e c i s i o ns u p p o r ts y s t e m s ,w h i c hc a l lp r o v i d e e x c e l l e n td a t aa n a l y s i sf u n c t i o n ,h a sb e c o m em o r ea n dm o r ei m p o r t a n t t h u st h i sp a p e r w illi l l u s t r a t et h er e s e a r c ho na p p l i c a t i o no fd a t am i n i n gt e c h n i q u e si nt h ef i e l do f p o s t a l n e tt r a n s p o r t a t i o ns y s t e m t h i sp a p e rm a k e si n t r o d u c ea b o u td a t am i n i n ga tf i r s t i tm a i n l yp r o b e si n t ot h ec o n c e p t o fd a t am i n i n gt e c h n o l o g y ,t h ek n o w l e d g ec l a s s i f i c a t i o n so fd a t am i n i n ga n dt h ed a t a m i n i n gt o o l se t c s e c o n d l y ,t h i sp a p e rd i s c u s st h a th o w t op u ti n t oe f f e c td a t am i n i n g p r o j e c t ,a n da n a l y s e st h ea p p l i c a t i o nf o r m so fd a t am i n i n gt e c h n o l o g y t h i sp a p e rt a l k s a b o u tt h eq u e s t i o n st h a td a t am i n i n gp r o j e c tp u ti n t oe f f e c t f i n a l l y , t h ea p p l i c a t i o no fad a t am i n i n gm o d e li nn a n t o n gp o s t a ln e tt r a n s p o r t a t i o n s y s t e mi si n t r o d u c e d b a s e do nt h ea n a l y s i so nn e tt r a n s p o r t a t i o ns y s t e md a t a b a s e ,t h i s m o d e lb u i l d sm o d e l st h r o u g hs t a rs c h e m at os t r u c t u r eal o g i cm o d e lo fw a r e h o u s e ;t h e n , i tw i l lw i t h d r a wd a t af r o me n t e r p r i s eb u s i n e s sd a t a b a s e ,a n dp u tt h ed a t at h r o u g ht h e p r o c e s s e so fd a t ae x a m i n a t i o n , d a t as c r u b b i n g ,d a t ac o n v e r s i o na n dd a t ap r o t o c o l , a f t e r w h i c ht h ev a l u a b l ea n dc l e a nd a t aw i l lb el o a d e di n t ot h ed a t a b a s et oc o m p l e t et h e s t r u c t u r i n go fw a r e h o u s e d a t am i n i n gt o o l sa r ea d o p t e dt oa n a l y z et h ed a t a , w i t ht h e r e s u l t sb e i n gd i s p l a y e db yw e bp a g et oc o m p l e t et h ep o s t a ln e tt r a n s p o r t a t i o na n a l y s i s s y s t e mi nn a n t o n g ,w h i c hc o n s i s t so ff i v em a j o rf u n c t i o nb l o c k ss u c ha ss y s t e m m a n a g e m e n t ,d a t aa c q u i s i t i o n , l o a da n a l y s i s ,c o s ta n a l y s i s ,d a t ap r o c e s s i n ga n ds o0 1 1 k e yw o r d :d a t am i n i n g ;p o s t ;d a t aw a r e h o u s e 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除- r j j 口以标注和致谢的部分外,不包含其他人已经发表或 公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均己在论文 中作了明确的说明。 研究生签名: 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密 论文,按保密的有关规定和程序处理。 研究生签名: 砷q 刖8 日 硕士论文数据挖掘在邮政网运分析系统的应用 1 绪论 1 1 论文研究背景、意义和现状 目前,针对商业、工业、信息检索和金融等各种应用所产生的巨大数据集而进 行的算法开发,已成为数据挖掘研究的主要动力。在商业中使用数据挖掘,可以在 当今全球化市场竞争中获取明显的优势。例如:零售业使用数据挖掘技术来分析顾 客的购买模式,邮购商利用这种技术来选择和定位市场,电信业用其尽快出台网络 报警分析和预测,信用卡业这用其检测欺诈行为。 现在,随着邮政信息化程度不断提高,在邮政内部处理环节产生了大量的业务 数据,这些数据是由于随机的邮政业务不断发展而不断的积累。这些数据只是中间 处理环节的流水的积累,很难直接为邮政全网的优化、成本的分析、费用的结算和 相关的决策提供真正有价值的信息,进而获得效益【l 】。因此邮政中间处理环节较多, 每个环节都要做好相关的记录,以便能对邮件做好全程全网的跟踪和服务,这样就 会面临的一个问题:邮政企业积累的数据量就会非常大,如果不对数据进行优化和 处理,这些数据就不能真正的发挥作用1 2 1 。因此,从大量的数据中经过深层分析, 获得有利于提高邮件处理速度、提高企业核心竞争力的相关信息,就像从矿石中淘 金一样比较困难。数据挖掘技术的出现给我们提供了一个可行的解决之道。我们可 以通过数据挖掘对企业既定业务目标和大量的企业数据进行探索和分析,揭示隐藏 的、未知的或验证已知的规律,并进一步将其模型化。随着计算机计算能力的发展 和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越 来越大的作用。 邮政中间处理环节是一个涉及多种因素的综合性复杂系统,下面分析影响邮政 中间处理环节的主要因素。 1 邮路结构 邮路结构是实现邮件异地转移的基础设施。它是在交通运输网络的基础上,按 照一定的要求,挑选出来的适合于邮政运输的道路集合。在不同的地域,邮路等级 有着很大的差别。相对来说,东南部交通运输网络发达,邮路等级较高,而西部地 1 绪论硕士论文 区则相对落后,邮路状况不甚理想。另外,由于自然灾害造成的邮路断路也时有发 生。 邮政运输网路可分为全国干线网、省内网和区内网。干线网主要针对全国一级 邮区中心局与其他各级邮区中心局之间的邮件运输网络,省内网则主要面对省内 二、三级邮区中心局间的邮件运输,区内网是指在各县市邮政局与三级邮区中心局 之间的运输网络。 2 运输工具 运输工具是实现邮件异地转移的载体,是以一定的邮路结构为基础的。邮政运 输主要依赖于委办,特别是干线运输,需要依托航空和铁路部门提供的运能支持, 车辆开行时刻、停靠站点。虽然经过一定时间的积累,自办邮路有了很大的发展, 但主要还是通过汽车邮路来完成部分省内邮件的运输。另外,邮件运输还涉及到少 量的轮船运输。 3 邮件处理中心 邮件处理中心是对各邮政营业网点收寄的邮件,进行汇总后,按照邮件种类和 流向进行合理的分类和打包,再按照邮件的流向分别转载入不同方向的运输工具。 此过程中存在两种处理方式:一是对网点和其他处理中心发来的总包( 已经按流向 封好的邮件) ,直接进行转发下一个处理中心或网点;二是对网点和其他处理中心 发来的总包,进行开拆处理( 按照邮件的种类和流向进行分类处理) 后,再发往其 他处理中心和网点。 4 邮件种类和流量流向 就运输环节而言,我国将邮件按时限要求大致划分为快件和普件,针对不同的 邮件类别实施相应的运输计划。快件主要强调传递时限短,普件着重考虑邮件运输 成本的降低。对于不同的邮件种类,其运输评价指标不一样。另外,邮件流量流向 区域性差别大,邮件总量与流量流向随机变化,季节性强,变化幅度大。 5 时限 时限是衡量邮政通信质量的重要指标。由于实物邮件的异地转移是邮政通信的 基本内容,邮政运输中的每一个环节都有严格的处理时限标准,而且端到端有一个 总的时限标准。通常,邮政运输在整个邮政通信作业过程中所占的时限比例较大, 因此花在邮政运输中的时间是邮政运输路由规划时需要着重考虑的一个评价因素。 2 硕士论文数据挖掘在邮政网运分析系统的应用 影响时限标准实观的主要因素是运输时间和转运时间。 随着邮政信息化的不断发展,电子化支局系统、速递综合信息系统、网运信息系 统以及两网互通工程的建设先后完成,邮政已经实现了收寄、运输、处理、运输、 投递的闭环处理的实物流与信息流合二为一。目前,全国已实现一级干线邮路运费 的结算,我省已实现二级干线邮路运费的结算,但在区内实物网费用的分析管理方 面几乎是一片空白,现在区内实物网资源使用方面尚未建立科学的分析体系,主要 通过成本t 作量推算的办法实行实物网相关费用的分摊,分析、管理过程缺少数据 基础和科学的管理办法。首先,各实物网资源使用单位网路成本意识较淡薄,对实 物网的高效运行十分不利;其次,缺少从成本角度对实物网运行效率进行分析的手 段,不利于实物网邮路的持续优化。 数据挖掘技术可以从大量邮政网运数据来识别邮件行走路线、并通过对这些数 据的分析,对邮件整体运输成本,邮件的处理时限进行分析,发现客户喜好的交易 模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,对邮件运输和中 间处理环节进行优化和改进。 1 2 本文的工作及组织结构 本文对数据挖掘技术做了详细介绍,探讨了数据挖掘技术的概念以及数据挖掘 常用技术、数据挖掘发现知识的分类、数据挖掘流程和数据挖掘工具等。对邮政运 输领域业务特点及目前区内邮政实物网信息网资源应用现状做了分析。其次重点讨 论了邮政运输领域和邮件处理中心实施数据挖掘项目的具体应用,分析了数据挖掘 技术在邮政实物流的应用形式,实施步骤及邮政企业实施数据挖掘时应该注意的问 题。在研究过程中,本着以定性分析为主、文字论证与图表说明相搭配、普遍调查 与案例分析相结合的原则,运用运筹学、计算机软件、信息论等多学科,多角度地 综合探讨邮政实物网实施数据挖掘的策略,力求达到研究的科学性与实用性的统 一。 在明确研究目的的前提下,通过查阅相关的国内外文献,对研究课题有一个基 本的理念认识。在此基础上,进行实地考察,搜集相关信息。对文献查找和实地搜 集的资料结果进行综合整理。通过数据挖掘分析邮政企业巨量数据处理方法,提出 邮政业实施数据挖掘的策略,为我国邮政业发展提供参考。 1 绪论硕士论文 本文分五章,组织大致如下: 第一章,绪论。简述本文的研究的项目背景,明确本文的研究意义和内容。 第二章,数据挖掘的关键技术。详细介绍了数据挖掘技术、数据挖掘的常用方 法和功能,探讨了数据挖掘的流程和常用工具,以及数据挖掘的研究热点,在理论 上为数据挖掘的具体应用打下了一定基础。 第三章,数据挖掘在邮政网运分析系统的应用。首先研究数据挖掘在邮政实物 网中的应用形式,然后确定了邮政实物网实施数据挖掘的步骤,最后提出邮政邮政 实物流信息实施数据挖掘项目应注意的相关问题。 第四章,基于数据挖掘在邮政网运分析系统中的设计与研究。分析计邮政实物 网,设计数据仓库结构,实现维度数据库,并利用关联算法等算法进行数据挖掘。 最后设计邮政网运分析系统,对系统总体进行了设计和模块化,再对各模块进行详 细的设计,最后用工具实现。 第五章,总结和展望。对己做的工作进行总结,并对将来的进一步工作及改进 进行了分析。 4 硕士论文数据挖掘在邮政网运分析系统的应用 2 数据挖掘的关键技术 近年来,数据挖掘技术引起了信息产业界的极大关注。主要原因是人们利用信 息技术生产和搜集数据的能力大幅度提高,数千万个数据库被用于物流管理、政府 办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新 的挑战被提了出来:如何将这些数据转换成有用的信息和知识,提高信息利用率呢? 要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战 略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,数据挖掘 和知识发现( o m k d ) 技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命 力。麻省理工学院的科技评论杂志提出未来5 年对人类产生重大影响的1 0 大 新兴技术,“数据挖掘 位居第三。2 0 0 3 年7 月,i d c 发布了有关信息存取工具市 场的报告。2 0 0 4 年,数据挖掘市场大概约为7 0 亿美元,估计在下个5 年内市场的 年增长率为3 2 ,其中亚太地区为2 6 。2 0 0 7 年,该市场规模已经发展到1 5 0 亿 美元。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,数据挖掘将 在中国形成一个新型的产业p j 。 2 1 数据挖掘介绍 2 1 1 数据挖掘产生的背景 计算机硬件稳定性的不断提高和令人吃惊的发展导致了功能强大的计算机、数 据收集设备和存储介质的大量供应。数据库和信息产业的发展,使得大量数据和信 息存储用于事务管理、信息检索和数据分析。数据的丰富带来对数据分析工具的需 求,大量的数据被描述为“数据丰富,但信息贫乏 。快速增长的海量数据收集、 存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能 力。结果,收集在大型数据库中的数据变成了“数据坟墓 难得再访问的数据 档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者 的直觉1 4 】。因为决策者缺乏从海量数据中提取价值信息的工具。此外,考虑当前的 专家系统技术,通常这种系统依赖用户或领域专家人工地将知识输入知识库。不幸 的是,这一过程常常有偏差和错误,并且耗时、费用高。数据挖掘工具进行数据分 析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大 贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知 识“金块 。 2 数据挖掘的关键技术硕士论文 2 1 2 数据挖掘概述 对数据挖掘( d a t am i i l i n g ) 有许多不同的定义【5 】【6 1 ,但他们几乎都使用日益增强的 计算技术和高级统计分析技术来揭示大型数据库中的可用关系。 g a r t n e rg r o u p 的定义:数据挖掘是通过仔细分析大量数据来揭示有意义的新的 关系、模式和趋势的过程。它使用模式认知技术、统计技术和数学技术。 a a m oz o m e s 的定义:数据挖掘是一个从大型数据库中提取以前不知道的可操 作性信息的知识挖掘过程【_ 丌。 数据挖掘是- - f - i 交叉学科,它把人们对数据的应用从低层次的简单查询,提升 到从数据中挖掘知识,提供决策支持。如图2 1 1 所示。 图2 1 1 数据挖掘与其他学科的关系 数据挖掘与传统的数据分析( 如查询、报表、联机分析) 的本质区别是数据挖掘 是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具先 前未知、有效和可实用三个特征【8 j 。 数据挖掘其实是一类深层次的数据分析方法。数据分析本身己经有很多年的历 史,只不过在过去数据收集和分析的目的是用于科学研究,另外,对于当时计算能 力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各 行业业务自动化的实现,包括邮政领域在内的各个领域都产生了大量的业务数据, 这些数据不再是为了分析的目的而收集的,而是由于使业务更加具有竞争力而产 生。分析这些数据也不再是单纯为了研究的需要,更主要是为企业决策提供真正有 价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常 大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有 利于企业运作、提高竞争力的信息,数据挖掘也因此而得名1 9 1 。 从邮政实物流角度来看数据挖掘是一种新的网运信息处理技术,其主要特点是 对邮政网运信息数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理, 从中提取辅助邮政实物网决策的关键性数据。 6 硕士论文数据挖掘在邮政网运分析系统的应用 2 1 3 数据挖掘与o l a p 、a i 、统计学的关系 数据挖掘和o l a p 都是数据分析工具,但却是两种完全不同的工具,他们处理 的问题不同,基于的技术也大相径庭【1 们。o l a p 1 0 】【l l 】是验证式的工具,告诉用户下 一步会怎么样( w h a tn e x t ) ,如果采取这样的措施又会怎么样( w h a ti f ) 。o l a p 分析过 程是一个演绎推理的过程,用户首先建立一个假设,然后用o l a p 工具浏览数据来 验证假设。如果一个分析涉及到的变量达到几十或上百个,那么用o l a p 手动分析 验证这些假设将是一件非常困难的事情【l l 】【1 2 1 。 数据挖掘与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的模型的正 确性,而是在数据库中自己寻找模型。数据挖掘过程是一个归纳的过程。如果一个 分析师打算用数据挖掘工具分析移动电话用户的欠费风险,数据挖掘工具可能会帮 助分析师发现一些从来没有想过的影响因素。 数据挖掘比o l a p 更自动化、更深入,分析结果更难被理解。数据挖掘和o l a p 具有一定的互补性,在利用数据挖掘工具挖掘出来的结论采取行动之前,你也许要 用o l a p 验证一下如果采取这样的行动会给企业带来什么样的影响。 将o l a p 和数据挖掘技术结合起来形成了一个新的体系:联机分析挖掘 ( o l a m ,o n l i n ea n a l y t i c a lm i n i n g ) 。在o l a p 中挖掘多层、多维的关联规则是一 个很有效果的过程,可以挖掘到一些新的规则。 从数据挖掘在国际上的发展来看,数据挖掘的研究重点已从提出概念和发现方 法,转向系统应用和方法创新上,研究注重多种发现策略和技术的集成,以及多种 学科之间的相互渗透,数据挖掘技术迫切需要系统、科学的理论体系作为其发展的 有力支撑。 人工智能和统计学这两门学科都致力于模式发现和预测,数据挖掘利用了人工 智能和统计分析的数学基础【l3 。数据挖掘不是为了替代传统的统计分析技术,它是 统计分析方法学的延伸和扩展。数据挖掘利用统计和人工智能的技术,把这些高深 复杂的技术封装起来,使用户不用掌握这些技术也能完成同样的功能,从而更加专 注于自己所要解决的问题。数据挖掘实际是统计和人工智能理论同现代的软件技术 和计算机科学技术的一次综合。 虽然统计学和数据挖掘有同样的目标一发现数据中的结构,但不能认为数据挖 掘是统计学的分支【1 4 】。因为,数据挖掘更多的是应用其它领域的思想、工具和方法, 尤其是数据库技术和机器学习等计算机学科分支。同时,由于统计学的数学背景和 追求精确的方法,在采用一个方法之前先要进行充分的证明,而不是类似计算机科 学和机器学习那样注重于经验。 神经元网络、遗传算法和机器学习等知识发现技术,在足够多的数据和计算能 7 2 数据挖掘的关键技术 硕士论文 力下,可以自动完成许多有价值的计算。关于数据挖掘和知识发现的关系,有很多 人认为数据挖掘是知识发现过程的一个步骤,一些人则把数据挖掘和知识发现等同 起来。 2 2 数据挖掘常用技术 根据w j f r a w l e y 和g p s h a p r i o 等人的定义,数据挖掘是指从大型数据库的 数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信 息。原始数据可以是结构化的,如关系型数据库中的数据也可以是半结构化的,如 文本、图形、图像数据甚至是分布在网络上的异构型数据【1 5 】。根据数据挖掘的应用 类型不同,大致可分为以下几类模型: ( 1 ) 分类模型。其主要功能是根据数据的属性将数据分派到不同的组中,通过 分析分组中数据的各种属性,找出数据的属性模型。 ( 2 ) 关联模型。主要是描述了一组数据项目的密切度或关系,通过挖掘数据派 生关联规则,了解被分析者的行为。 在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念 由a g r a w a l ,i m i e l n s k i ,s w a m i 提出,是数据挖掘中一种简单但很实用的规则。关联规 则模式属于描述型模式,发现关联规则的算法属于无监督学习的算法。 关联规则本身是一种很重要的知识,是d m 研究的主要内容,它能表示数据之 间的相互关系,对统计和决策工作有重大意义。关联规则挖掘算法一般都是基于交 易数据库的,也有一些研究将其推广到一般数据库。关联规则的主要应用包括商场 的顾客购物分析,网络故障分析等。 目前关联规则的算法很多,但所有的采掘算法不论它是采用什么数据结构,其 复杂度、效率如何,它们都可以分为如下几个步骤: a 预处理与采掘任务有关的数据。根据具体问题的要求对数据库进行相应的操 作,从而构成规格化的总包数据库。 b 针对总包数据库,求出所有满足最小支持度的项集,即大项集。由于一般情况 下我们所面临的数据库都比较大,所以此步是算法的核心。 c 生成满足最小置信度的规财,形成规则集。 d 解释并输出。 因为第2 步是采掘关联规则问题的重点与难点,所以目前大部分研究集中在此 硕士论文数据挖掘在邮政网运分析系统的应用 步骤上。 ( 3 ) 顺序模型。主要用于分析数据仓库中的某类与时间相关的数据,并发现某 一时间段内数据的相关处理模型。它是一种在关联模型中增加了时间属性的特定的 关联模型。 ( 4 ) 聚簇模型。主要用于当要分析的数据缺乏描述信息或无法组织成任何分类 模式时,按照某种相近程度度量方法将用户数据分成互不相同的一些分组。进而, 通过采用聚簇模型,根据部分数据发现规律,找出对全体数据的描述。 针对上述应用类型,数据挖掘领域提出了多种实现方式与算法,这里介绍几种 常见的典型的实现方法: ( 1 ) 神经网络 神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简称a n n ) 是模拟人脑结构的数据模型。 神经网络仿照生理神经网络结构的非线形预测模型,从一组输入数据中进行学习, 根据这一新的认知调整模型参数,以发现数据中的模式【1 6 】。 神经网络为解决复杂度大的问题提供了一种相对来说比较有效的简单方法,可 以很容易的解决具有上百个参数的问题。它的应用非常广泛,主要用于市场细分, 信用卡欺骗,信贷风险预测和特征发现等。神经网络可用于聚类,典型的方法是将 神经网络用于无监督学习模式来产生簇。通过产生样板来强制系统对数据进行压 缩,或用算法引导系统使簇和簇相互竞争以获得包含各自记录。这使得簇与簇之间 的交迭尽可能小。神经网络用于奇异分析,当一条记录与其他记录有很大差异时, 无法通过聚类将他们归为一类,使其便于观察。神经网络也可以用于特征抽取。 ( 2 ) 决策树 决策树是一种典型的分类算法,可以得到类似在什么条件下会得到什么结果的 规则。比如,建立运输网络决策树模型,进行细分;找出最有可能对总的运输成本 最低的方案。沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题, 对每个节点上问题的不同条件得到不同的分支子树,最后到达叶子节点。生成决策 树的过程是不断把数据进行切分的过程。常用的决策树算法有i d 3 ,c 4 5 和c a r t 等。 决策树的优点是生成容易理解的规则,如果建立一个包含几百个属性的决策 树,虽然看起来很复杂,但每一条从根结点到叶子节点的路径所描述的含义还是可 以理解的。再者,决策树算法的计算量相对来说不是很大,并且擅长处理非数值型 数据。 使用决策树算法也要注意其局限性。决策树对连续性的字段比较难预测;对有 时间顺序的数据需要很多预处理。决策树的明确性可能会误导使用者,因为每个节 点对应分割的定义都是明确不含糊的,但在实际应用中会有问题,比如为什么认为 9 2 数据挖掘的关键技术 硕士论文 3 0 岁的用户通信话费欺诈风险高于3 1 岁的用户【l 刀? ( 3 ) 遗传算法 遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计 方法的优化技术。遗传算法有三个子算法组成【1 3 】: 繁殖( 选择) 是从一个旧种群( 父代) 选出生命力强的个体,产生新种群( 后代) 的 过程。 交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换,形成新个体。 变异( 突变) 对某些个体的某些基因进行变异( ( 1 变o ,0 变1 ) 。 这种遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干 代的遗传,将得到满足要求的后代( 问题的解) 。遗传算法已在优化计算和分类机器 学习方法方面发挥了显著的作用。 由于遗传算法利用了生物进化和遗传的思想,所以它有着许多与传统方法不同 的特征。首先,它的处理对象是问题参数的编码集,而不是参数本身。这样用传统 方法很难解决的问题,遗传算法都能解决,因为它不受限制条件( 如函数的连续性、 导数存在、单极值等) 的约束;其次,遗传算法在搜索空间中同时在很多点进行求解, 这样就减少了收敛于局部最小的可能同时也增加了处理的并行性:此外,遗传算法也 易于同别的技术结合使用,容易介入到已有的模型中,具有可扩展性。 ( 4 ) 近邻算法 近邻算法将数据集合中每一个相邻记录进行归类的方法,是最容易使用和理解 的技术之一。近邻算法是以人们思维方式相似的方式检测最近的匹配样本。在自动 化方面近邻算法也处理得十分好,因为这种算法对脏数据和丢失的数据处理十分健 壮。 近邻算法可以简单的如下描述: 相互之间“接近”的对象也会有相似的预测值。这样,如果你知道了其中一个 对象的预测值,也就可以用它来预测它最近的邻居对象。 ( 5 ) 规则归纳 规则归纳就是通过统计方法归纳、提取有价值的i f t h e n 规则。规则归纳技 术在数据挖掘中被广泛应用。神经网络经常为人所指责的一点是它只能给出学习模 型的黑盒表示,而基于规则的数据挖掘技术则可以给出模型的生成规则描述。例如: “i f ( a g e i n p u t n t z b s j s m y d a t e c t l e c h o ”南通总包控制文件生成成功” 2 文件传输的脚本( 省中心导出的数据下发到南通数据库服务器) 如下: m y d a t e = d a t e + y m d h :m :s ” d e s t h o s t = 1 0 1 3 4 1 5 5 1 6 6 l o g i n _ n a m e = n t f t p p a s s - - - n t f l p m o d e = b i n 撑判断目的服务器网络是否通 c h e c k _ d e s rh o s t = 、p i n g - c11 0 1 3 4 1 5 5 1 6 6ig r e p ”e r r o r s 3 7 4 基于数据挖掘的邮政网运分析系统中的设计与实现 硕士论文 i f 【- n ”$ c h e c k d e s t h o s t ”】 t h e n e c h o ”1 0 1 3 4 1 5 5 1 6 6网络不通 【$ m y d a t e ” e x i t 丘 e c h o ”网络良好开始传输文件 $ m y d a t e ” c h m o d - r7 7 7 f t p - i - n $ d e s t h o s t ! u s e r n t 邱n t 邱 b i n c d w y f x m p u t 1 s t m p u t c t l q u i t ! m v 1 s t ,b a k m y e t l b a k e x i t 0 f i e x i t 0 ( 3 ) 数据导入日的数据库的脚本如下: # 控制文件脚本,文件名为n t i n p u t c t l l o a dd a t a 一1 、控制文件标识 i n f i l e n t z b s j 2 0 0 8 0 9 1 7 1 s t 一2 、要输入的数据文件名为 a p p e n di n t ot a b l et _ z x j d r x x一3 、向总包数据表中追加记录 f i e l d st e r m i n a t e d b y , t r a i l i n gn u l l c o l s 鼬3 工b r q ,s 33 ) l d m ,s j t 西。跚j 四t m ,s j 3j c z d m 。s j _ tx j z d m 跚j j j z l b h ,s 】j 上b z l ,s 】j 上b d s ,s 3 j s l b z ) # 在数据库服务器上导入数据命令 s q l l d rw y f x w y f xl o g = l o g n t z b s j 2 0 0 8 0 917 1 0 9 b a d = l o g n t z b s j 2 0 0 8 0 9 17 1 0 9 c o n t r o l = n t i n p u t e t l ( 4 ) 查看日志是否有报错信息。 v i l o g n t z b s j 2 0 0 8 0 9 17 1 0 9 弧 硕士论文 数据挖掘在邮政网运分析系统的应用 在实际工作中,这种o r a c l e 的数据转换方式,比m i c r o s o f td t s 工具转换效 率提高1 0 倍以上,通常5 0 万条数据只要2 分钟左右,而且导入数据的准确率非常 高。 4 4 2 数据质量评估和数据清理 要想得到好的模型必须用好的数据。不仅要保证数据值的正确性和一致性,还 要保证这些值是按同样的方法记录的同一件事情。数据不准确的情况有很多情况, 针对不同情况采用不同的处理方法。 在整个数据挖掘系统设计的初始阶段面临的一个重要问题是数据的清洗和从 新建模。 原始数据要进行检查,检查是否正确。此外表中还有可能存在噪声、缺失值等, 它们的存在将对数据挖掘产生较大的影响。而且,由于一些冗余数据的存在也会大大 降低挖掘的有效性。因此,数据预处理成为进行数据挖掘必不可少的一环。 概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据 验证四大步骤。 ( 1 ) 数据审查 该步骤检查数据的数量( 记录数) 是否满足分析的最低要求,字段值的内容是否 与调查要求一致,是否全面;还包括利用描述性统计分析,检查各个字段的字段类 型、字段格式、字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值 或空值个数等。 ( 2 ) 数据清理 数据清理过程目的是填补缺失值、识别孤立点、消除噪声并处理不一致数据。 针对正确录入数据库的原始数据不完整的,可以采用填充缺失值、纠正错误数据的 数据清理方法。 填补缺失值 针对于记录中属性值为空的情况,我们采取根据该属性含义,定义一个缺省值, 然后用它去替换较少的空缺项的方法。对于不能确定其缺省值的数据项,用一个全 局常量去替换它。 缺省值:原始数据中的一些属性是可以根据其含义定义缺省值的。如邮路 种类代码为空,可以定义其缺省值为l 。 全局变量:对于不能确定其缺省值的属性,如邮路种类代码等,可以采用 一个全局变量去替换它。有的算法如数据挖掘算法c 4 5 可以接受值“? 为模糊值,所以可用“? 作为其缺省值。 3 9 4 基于数据挖掘的邮政网运分析系统中的设计与实现 硕士论文 纠正错误值 原始数据中有的属性值是有一定限定范围的,不在此范围的数据均视为错误数 据。如果直接将这些数据作为输入,会大大影响数据挖掘的结果。因此,要对这一 部分数据做预处理。假设其中一个属性的有效值的范围是【a ,b 】,原始数据中读出 的一个此属性的值为a ,可用如下方法纠正该数据值,使值落入有效范围内: i f ( a = = ? ) t h e n r e t u r n ; i f ( a b ) t h e n s e ta2 b ; ( 3 ) 数据变换 数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造 成数据不可比;对一些统计指标进行综合评价时,如果统计指标的性质、计量单位 不同,也容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,需 要在分析前对数据进行变换。数据变换是将数据转换成适合于进一步挖掘的形式。 数据规范化是一种数据变换方法,它通过将属性数据按比例缩放,使之落入一个小 的特定区间内,主要包括最小最大规范化、零均值规范化和小数定标规范化。例 如在原始数据中,总包重量是系统直接产生的。为了防止具有较大初始值域的总包 重量属性与具有较小初始值域的一些属性相比,权重过大,我们采用零均值方法对 总包数量进行规范化处理,即基于总包重量的均值和标准差进行规范化。计算公式 如下: v t = v - a( 4 4 ) 一 l 4 4j 6 a 其中:a 表示总包数量属性,么和oa 分别为属性a 的均值和标准差。a 的值v 将被规范化为v 。 ( 4 ) 数据归约 对大规模数据库内容进行复杂的数据分析和挖掘通常需要耗费大量的时间,甚 至可能导致挖掘结果的偏差。因此我们考虑采用数据归约技术,可以得到数据集的 压缩表示,它比源数据集小得多,但仍然保持原数据的完整性,这样在归约的数据 集上挖掘将更有效,并能产生相同或几乎相同的分析结果。 数据归约的策略如下: 数据立方体聚集:聚集操作用于数据立方体结构中的数据。 属性子集选择:可以检测并删除不相关、弱相关或冗余的属性或维。 维度归约:使用编码机制减小数据集的规模。 数值归约:用替代的、较小的数据表示替换或估计数据,如参数模型( 只需 要存放模型参数,而不是实际数据) 或非参数方法,如聚类、抽样和使用直方图。 4 0 硕士论文 数据挖掘在邮政网运分析系统的应用 离散化和概念分层产生:属性的原始数据值用区间值或较高层的概念替换。 数据离散化是一种数据归约形式,对于概念分层的自动产生是有用的。离散化和概 念分层产生是数据挖掘强有力的工具,允许挖掘多个抽象层的数据。 例如本文采用聚类分析的方法分析总包重量,同时为满足以后分类数据挖掘的 要求且不失普遍性,我们借用模糊集理论,首先用k - m e a n s 聚类方法从所有经规 范化处理过的总包数量数据中找到3 个模糊区域的中心点,然后用三角隶属函数将 每一个总包重量值转为模糊集。 在分析总包数量时,我们用“s ( 轻) 、“m ( 重) 、“l ( 多) 3 个模糊区域来表 示总包重量水平。由于总包重量数据或多或少存在“噪声 和孤立点,因此我们选 择对此不敏感的k m e a n s 方法,将总包数量分成3 类。 上述四个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现 的问题( 如数据记录个数、最大值、最小值、缺失值或空值个数等) ,接着对发现的 问题进行处理,即数据清理,再就是提高数据的可比性,对数据进行一些变换,使 数据形式上满足分析的需要,最后则是进一步检测数据内容是否满足分析需要,诊 断数据的真实性及数据之间的协调性等,确保优质的数据进入分析阶段。 实际工作中遇到的问题多种多样,以上仅介绍了一些基本方法,有些情况下还 要考虑采用几种方法综合使用以提高数据质量。 另外,在数据处理的过程中可以发现如果前期数据质量较高的话,后期的数据 挖掘工作将十分省力。尤其是非交易数据,这些数据不像交易数据那样采用严格的 设计,且收集工作也不是很严密,导致了很多缺失与错误信息。 因此通常建议,如果邮政企业要统计很详细信息为将来决策,最好能仔细调查 这些信息有效性,有效提高数据准确性与真实性。 4 5 网运分析系统的设计与开发 本文在4 2 ,4 3 ,4 4 节讨论了在利用数据挖掘工具前对数据库进行的前期工作 ( 建立数据挖掘库、转换必要的数据、注意事项) ,接下来我们就用软件做具体的 数据挖掘工作。本文使用p l s q ld e v e l o p e r m 】对建立的数据挖掘库做一些试探性的 分析,并利用p h p 设计出可视化分析结果界面。使用本方法的好处是能进行可视化 数据挖掘。 4 5 1p l s q ld e v e l o p e r 简介 p l s q ld e v e l o p e r 是一个集成开发环境,专门面向o r a c l e 数据库存储程 序单元的开发。如今,有越来越多的商业逻辑和应用逻辑转向了o r a c l es e r v e r , 4 l 4 基于数据挖掘的邮政网运分析系统中的设计与实现 硕士论文 因此,p l s q l 编程也成了整个开发过程的一个重要组成部分。p l s q l d e v e l o p e r 侧重于易用性、代码品质和生产力,充分发挥o r a c l e 应用程序开发 过程中的主要优势。 p l s q ld e v e l o p e r 主要模块有: ( 1 ) p l s q l 编辑器,该编辑器具有语法加强、s q l 和p l s q l 帮助、对 象描述、代码助手、编译器提示、p l s q l 完善、代码内容、代码分级、浏览 器按钮、超链接导航、宏库等许多智能特性,能够满足要求性最高的用户需求。 当您需要某个信息时,它将自动出现,至多单击即可将信息调出。 ( 2 ) 集成调试器( 要求o r a c l e7 3 4 或更高) ,该调试器提供所需要的全 部特性:跳入( s t e pi n ) 、跳过( s t e po v e r ) 、跳出( s t e po u t ) 、异常时停 止运行、断点、观察和设置变量、观察全部堆栈等。基本能够调试任何程序单 元( 包括触发器和o r a c l e 8 对象类型) ,无需作出任何修改。 ( 3 ) p l s q l 完善器,该完善器允许您通过用户定义的规则对s q l 和 p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电设备安装施工事故应急预案
- 隧道防震加固技术方案
- 水痘课件试讲
- 知识点3.3从人文层面感知色彩设计构成设计色彩68课件
- 装饰施工图设计新氧科技办公楼北京艾迪尔85课件
- 二零二五年度海沧区人民政府与厦门市水利局共建水利基础设施项目合同
- 2025版房地产商房地产营销推广策划合同
- 二零二五年度仓储物抵押反担保协议
- 二零二五年度玩具代加工业务合作协议
- 2025版大型企业培训中心场地租赁及讲师住宿服务合同
- 医院科室主任年度目标责任书模板
- 2025年成考考试题目解析及答案
- 2025年足球裁判三级试题及答案
- 2025年特种设备检验检测项目合作计划书
- 安全生产投入费用明细
- 2025年司机三力考试题库及答案
- 2025年甘肃省高考历史试卷真题(含答案解析)
- 奔驰GL350GL450GL550中文版说明书
- 智能微电网应用技术课件
- 光谷华科附小数学试卷
- 学校公文写作培训
评论
0/150
提交评论