




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)基于税务系统的数据挖掘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 税务机关是关系国计民生的一个重要的管理机构,它与企业的发展息息相 关,每一个企业发生的业务都会在税务系统数据库中留下记录。因此税务系统数 据库中积累了大量的企业数据,而这些数据都记录了企业的经营情况,收益情况, 纳税情况等等,若能正确地挖掘与分析隐含这些数据中的知识,就能更好地向企 业提供服务或支持,能够更好地决策当前政策。因此,数据挖掘在我国税收中的 研究有重要的应用价值。 然而,当前税务系统中的现状是,系统繁多,数据孤立,想要全面分析某个 企业或某类企业是很困难的,动态监控企业发展也是不现实的,造成当前税务系 统中一个个的信息孤岛。 鉴于此,本文就重点研究了我国的税务系统如何开展及运用数据挖掘技术来 提高其分析决策能力。本文没有对的数据挖掘理论及建模方法等作过多的阐述, 也没有对数据仓库建设方面做过细的探讨,而是将重点放在数据挖掘模型的选 择与设计上,希望本研究能为加强与提高数据挖掘技术在我国税务系统中的应用 起到一点推动作用。 关键词税务:预警分析:数据挖掘: o l a m 山东大学硕士学位论文 a b s t r a c t t a xa u t h o r i t i e si st h ep e o p l e sl i v e l i h o o d , t h em a n a g e m e n to fa ni m p o r t a n t i n s t i t u t i o n ,a n di ti sc l o s e l ym i m e dt ot h ed e v e l o p m e n to fe n t e r p r i s e s ,e v e r ye n t e r p r i s e i nt h eb u s i n e s st a xs y s t e mw i l lb el e f ti nt h ed a t a b a s er e c o r d s ot h et a xs y s t e mi nt h e d a t a b a s eh a v ea c c u m u l a t e dl a r g ea m o u n t so fc o r p o r a t ed a t a , a n dt h e s ed a t aa r e r e c o r d e di nt h e e n t e r p r i s em a n a g e m e n t , e a r n i n g s ,t a xs i t u a t i o n s ,i fc o r r e c t l y e x c a v a t i o na n da n a l y s i so ft h e s ed a t ai m p l i e dt h ek n o w l e d g e ,w ew i l lb ea b l et ob e t t e r p r o v i d es e r v i c e so rs u p p o r tt ob ea b l et ob e t t e rd e c i s i o n - m a k i n gc u r r e n tp o l i c i e s t h e r e f o r e ,d a t am i n i n gi nc h i n a st a xr e v e n u ei nt h es t u d yh a si m p o r t a n tv a l u e h o w e v e r , t h ec u r r e n tt a xs y s t e mi nt h ec u r r e n ts i t u a t i o ni st h a tm a n ys y s t e m s , d a t ai s o l a t i o n ,w a n tac o m p r e h e n s i v ea n a l y s i so fab u s i n e s so rc e r t a i nt y p e so f b u s i n e s si ti sv e r yd i f f i c u l t , d y n a m i cm o n i t o r i n go fe n t e r p r i s ed e v e l o p m e n ti s u n r e a l i s t i c ,r e s u l t i n gi nt h ec u r r e n t t a xs y s t e mi no n em e s s a g ei s l a n d i nv i e wo ft h i s ,t h i sp a p e rf o c u s e so nt h ec o u n t r y st a xs y s t e ma n dh o wt ou s ed a t a m i n i n gt e c h n i q u e st oe n h a n c ei t sa n a l y t i c a ld e c i s i o n - m a k i n gs k i l l s t h i sp a p e rd o e s n o td a t am i n i n gt h e o r ya n dm o d e l i n gm e t h o d sf o re x c e s s i v ee l a b o r a t i o no ft h ed a t a w a r e h o u s eh a sn o td o n eb u i l d i n go nt h ef i n e ,b u tt of o c u so nd a t am i n i n gm o d e la n d t h ec h o i c eo fd e s i g n ,h o p et h a tt h i ss t u d yc a nt os t r e n g t h e na n di m p r o v i n gd a t am i n i n g t e c h n o l o g yi nc h i n a st a x a t i o ns y s t e mo fp l a yt h a tr o l e k e yw o r d s :t a x :e a r l yw a r n i n ga n a l y s i s ,d a t am i n i n g ;o l a m 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: 虱金纽 日期:丝堕! 红歹 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:压虱宝丛l 导师签名: 山东大学硕士学位论文 1 1 课题提出的背景 第1 章绪论 在西方国家,税收信息化已经成为其发展水平的一个重要标志,税务信息 化水平代表着一个国家的税收管理水平,直至影响其财政、国民经济发展水平。 自2 0 世纪9 0 年代初政府启动匡家信息化进程以来,政府部门的电子政务作为行 业信息化建设的重点,成为了支撑国家信息化的重要组成部分。电子政务的组成 主体是“十二金”工程。作为国家财政收入主渠道的税务行业,是我国政府机关 中最早实现信息化的系统之一。从国家税务总局提出“以纳税申报为基础、以计 算机网络为依托”到征管法、十六大把税务信息化提到国家政策、法律高度,税 务信息化已经成为了任何一级税务部门向前发展的必由之路,所以,我们必须从 战略高度重视信息化建设,使之尽快成为我们事业发展的支撑力量。 就税务部门而言,经过十几年的信息化之路,取得了较大成果,绝大部分 工作实现了信息网络化,也形成了征管和信息的相互依赖关系。信息化已经渗透 到了税收工作的各个环节,形成了多元化的管理系统。 最重要的一个管理系统是“中国税收征管信息系统c t a i s ( c h i n at a x a t i o n a d m i n i s t r a t i o ni n f o r m a t i o ns y s t e m ) ,它是集操作、管理和决策为一体,以 全国四级税收广域网络及大型数据库为平台的统一规范的大型应用软件,其一期 工程( 以下简称c t a i sv 1 0 ) 完成了市局级和基层业务:在国家税务总局c t a i s 项目管理组的组织协调下,c t a i s 在总体设计阶段和开发阶段统筹考虑了与总局 现有各单项软件的衔接;考虑到些地方的税务机关已先期购置不同平台数据库 的实际,c t a i s 软件充分考虑了不同数据库平台间的可移植性,待软件进入平稳 应用阶段后将把c t a i s 移植到o r a c l e 等数据库平台;考虑到不同税务机关规模 及网络通信条件的差异性,c t a i s 软件能够支持完全集中、完全分布、集中+ 分 布、部分集中+ 分布等各种数据分布模式。随着近几年中国经济稳定、快速的增 长,以及税务信息化的飞速发展,原来的c t a i s 系统已经不能完全满足现在税收 征管的要求,基于此神州数码对原c t a i s i x 版本进行了技术改进和升级,推出 了税收核心征管c t a i s 系统的优化版,即中国税收综合征管软件整合版( c t a i s 山东大学硕士学位论文 2 o ) ,从而使系统功能、服务等得到了全方位的提升。c t a i s2 0 致力于为国家 提供一个先进的、完善的、能够在全国范围内实际使用的税收征管信息系统。系 统功能包括操作和管理两个层次,覆盖总局、省局、市局,并包含部分地税业务。 c a t a i s2 0 是在原有c t a i s 基础上,基于三( n ) 层体系进行技术升级的一个优 化版本,主要功能包括:决策支持:查询统计、数据分析、两权监督、计算机选 案、税收宏观预测等;税收征管:申报征收、登记认定、发票管理、税务稽查、 纳税评估、违章管理、税务会计、税收计划和一般执行等:行政管理:人力资源、 财务、财产、办公自动化、监查和后勤等;外部信息交换:支持多种申报方式; 系统架构采用j 2 e e 的分布式体系。数据结构:c t a i s2 0 采用面向主题的数据设 计思路进行规划和设计,与集成框架配合支持统一的数据环境。 其次是金税工程,它是由一个网络,四个软件系统组成。即覆盖全国国税 系统的,区县局、地市局、省局到总局的四级广域网络;四个软件系统分别为: 防伪税控开票系统、防伪税控认证系统、计算机稽核系统、发票协查系统。其中: 增值税防伪税控开票子系统是运用数字密码和电子信息存储技术,通过强化增值 税专用发票的防伪功能,监控企业的销售收入,解决销项发票信息真实性问题的 计算机管理系统。这一系统将推行到所有增值税一般纳税人,也就是说,将来所 有的增值税一般纳税人必须通过这一系统开票增值税发票。税务征收机关利用 防伪税控认证子系统,对增值税一般纳税人申请抵扣的增值税发票抵扣联进行解 密还原认证。经认证无误的,才能作为纳税人合法的抵扣凭证。凡是不能通过认 证子系统的发票一律不能抵扣。为了保证发票信息准确性,销项发票信息由防伪 税控开票子系统自动生成,并由企业向税务机关进行电子申报;进项发票数据 通过税务机关认证子系统自动生成。进项销项发票信息采集完毕后,通过计算机 网络将抵扣联和存根联进行比对目前稽核的方法采取三级交叉稽核,即本地市 发票就地交叉稽核,跨地市发票上传省级税务机关交叉稽核,跨省发票上传总局 进行交叉稽核今后将在税收规模较大、发票流量较多的区县增设稽核系统,实 现四级稽核的管理模式。发票协查子系统是对有疑问的和已证实虚开的增值税发 票案件协查信息,认证子系统和稽核子系统发现有问题的发票,以及协查结果信 息,通过税务系统计算机网络逐级传递,总局通过这一系统对协查工作实现组织、 监控和管理。 2 山东大学硕士学位论文 1 2 税务系统信息化建设中遇到的问题 税务系统的信息化,是在落后的管理体制下开始的,十几年来大投入却始终 见不到与之相匹配的大效果,其原因是多方面的,如网络与数据在不同的部门间 相互孤立,基层人员操作水平过低等多方面原因造成的。 其一,前期的信息化建设大多缺乏统筹规划,造成了各种不同应用系统的盲 目开发。由于大多数应用系统缺乏标准化的数据接口定义,不同的应用系统之间 必然会成为彼此隔离的信息孤岛,因此如何彻底消除信息孤岛,有效整合网络、 系统以及满足现在和未来应用的信息数据已成为当前税务系统信息化建设的重 中之重,基层税务干部迫切要求对现有的各操作系统进行整合,过多的软件导致 了过多的口令、密码,系统平台林立、信息烟雾、维护复杂、应变困难,操作重 复、复杂,而且就几十个软件系统本身而言,其安全性也很令人置疑,基层税管 员、会计对各新软件的出台持怀疑、厌烦态度。 其二,随着税收信息化的发展,基层税收业务已基本实现信息化网络化处理, 税务信息化的根本目的是引发管理创新。税务管理体制在不断变化,管理理念、 管理结构、管理资源、管理方式以及人员对管理的认知都在与时俱进。从发展的 观点看,税务信息化必须解决税务机关封闭式管理向开放式管理、单一行政管理 向公共服务管理转型等问题,这就必然要求实现管理变革与信息系统建设的有效 互动,从根本上解决技术创新引发管理创新的问题。但目前,就大环境而言, 我们实现大范围、全社会的数据采集和共享是不可能的。 其三,信息化程度越高,对人才的需求也越高,计算机网络技术发展日新月 异,网上申报、开票、查询、稽查、公文、邮件、外网、各类应用软件层出不穷, 导致有些基层征收局甚至没有一个能熟练的应用计算机操作。 面对信息化的新形势和新问题,结合税务系统网络和业务应用的新特点,国 家税务总局正在做好信息化建设规划,争取建成一个功能覆盖各级税务机关行政 管理、税收业务、决策支持、外部信息应用等所有职能的功能齐全、信息共享、 监控严密的税务管理信息系统。税收信息化的飞速发展迫切需要缩短这一时间, 加快实现进度。统一应用平台,建设共用网络,实现数据共享,激发数据潜能。 3 山东大学硕士学位论文 1 3 论文研究的主要内容 本人主要探讨了如何利用数据挖掘技有效地将税务系统中各个软件的数据 进行整合,挖掘税务系统各软件的有用数据,消除信息孤岛,并高效地将所有数 据展现到一个平台上,从而给管理人员一个统一而直观的信息视图。 1 4 本文的组织结构 本文首先介绍了数据挖掘技术和基于数据挖掘技术的税务分析系统设计与 实现。然后综述了数据挖掘在税务系统中的模型设计。 第2 章数据挖掘理论回顾与综述 2 1 数据挖掘技术的由来 现在我们已经生活在一个网络化的时代,通信、计算机和网络技术正改变 着整个人类和社会。 网络之后的下一个技术热点是什么? 让我们来看一些身边 俯拾即是的现象:纽约时报由6 0 年代的1 0 一- - 2 0 版扩张至现在的1 0 0 2 0 0 版;北京青年报也已是1 6 4 0 版。现在人均日阅读时间通常为3 0 4 5 分 钟,只能浏览一份2 4 版的报纸。在商业上,随着数据库技术的迅速发展以及数 据库管理系统的广泛应用,人们积累的数据越来越多,以g b 计。这就是所谓的 “数据爆炸但知识贫乏”的现象。 大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过 量,难以消化:第二是信息真假难以辨识:第三是信息安全难以保证:第四是信 息形式不一致,难以统一处理。 人们开始考虑: “如何才能不被信息淹没,而是从中及时发现有用的知识、 提高信息利用率? ”面对这一挑战,数据挖掘( d a t am i n i n g ) 技术应运而生, 并显示出强大的生命力。 从商业数据到商业信息的进化过程中, 每一步前进都是建立在上一步的基 础上的。从用户的角度来看,每一阶段的数据库技术都可以快速地回答商业上的 很多问题了。 4 山东大学硕士学位论文 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智 能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛 的数据集成,使得数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。 2 1 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,l 【d d ) ,就是从大量数据中获取有效的、新颖的、潜在有用的、最 终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或 “挖掘”知识。 并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查 找个别的记录,或通过因特网的搜索引擎查找特定的w e b 页面,则是信息检索 ( i n f o r m a t i o nr e t r i e v a l ) 领域的任务。虽然这些任务是重要的,可能涉及使 用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明 显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术 也已用来增强信息检索系统的能力。 企业里的数据量非常大,而其中真正有价值的信息却很少,因此从大量的数 据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘 金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既 定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的、未知的或验证已 知的规律性,并进一步将其模型化。 在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与 多维分析、统计分析方法相结合,进行联机分析处理( o l a p ) ,从而得出可供决策 参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。 o l a p 的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策 支持的需要而言两者是相辅相成的。o l a p 可以看作一种广义的数据挖掘方法, 它旨在简化和支持联机分析, 而数据挖掘的目的是使这一过程尽可能自动化。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务 数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、 遗留数据库、异质数据库、文本型、i n t e r n e t 信息库以及新兴的数据仓库( d a t a 山东大学硕士学位论文 w a r e h o u s e ) 等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分 类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提 升到从数据中挖掘知识,提供决策支持。 2 1 2 数据挖掘的研究历史和现状 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际 联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研 讨会已经召开了1 4 次,规模由原来的专题讨论会发展到国际学术大会,研究重 点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种 学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开的第三届p a i ( d d 会议收到 1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在 1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网络和信息工程等其他领域的 国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人 口的程度。 此外,在i n t e r n e t 上还有不少k d d 电子出版物,其中以半月刊k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威( h t t p :册k d n u g g e t s c o m s u b s c r i b e h t m l ) 。 在网上还有许多自由论坛,如d me m a i lc l u b 等。至于d m k d 书籍,可以在任意 一家计算机书店找到十多本。目前,世界上比较有影响的典型数据挖掘系统有: s a s 公司的e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的 s e t m i n e r 、s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s t r e s e a r c h 公司的s e e 5 、还有c o v e r s t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r y w o r k b e n c h 、d b m i n e r 、q u e s t 等。读者可以访问h t t p :w w w d a t a m i n i n g l a b c o m 网站,该网站提供了许多数据挖掘系统和工具的性能测试报告。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自 然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院 校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院 计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程 研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开 6 山东大学硕士学位论文 展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大 学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改 造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据 的知识发现以及w e b 数据挖掘。 2 1 3 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析0 l a p ) 的本质 区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所 得到的信息应具有先前未知,有效和可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那 些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息 越是出乎意料,就可能越有价值在商业应用中最典型的例子就是一家连锁店通 过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 数据挖掘和o l a p 到底有何不同? 这是一个必须理清的问题。他们是完全不 同的工具,基于的技术也大相径庭。 o l a p 是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中 都有什么( w h a th a p p e n e d ) ,o l a p 则更进一步告诉你下一步会怎么样( w h a t n e x t ) 、和如果我采取这样的措施又会怎么样( w h a ti f ) 。用户首先建立 一个假设,然后用o l a p 检索数据库来验证这个假设是否正确。比如,一个o l a p 分析师想找到什么原因导致了电话欺诈,他可能先做一个初始的假定,认为低收 入的人信用度也低,然后用o l a p 来验证他这个假设。如果这个假设没有被证实, 他可能去察看那些高话费的账户,如果还不行,他也许要把收入和高话费一起 考虑,一直进行下去,直到找到他想要的结果或放弃。也就是说,o l a p 分析者 是建立一系列的假设,然后通过o l a p 来证实或推翻这些假设来最终得到自己的 结论。o l a p 分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达 到几十或上百个,那么再用o l a p 手动分析验证这些假设将是一件非常困难和痛 苦的事情。 数据挖掘与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的模式 ( 模型) 的正确性,而是在数据库中自己寻找模型。它在本质上是一个归纳的过 7 山东大学硕士学位论文 程。比如,一个用数据挖掘工具的分析员想找到引起电话欺诈的风险因素。数据 挖掘工具可能帮他找到高话费和低收入是引起这个问题的因素,甚至还可能发 现一些分析者从来没有想过或试过的其他因素,比如年龄。 数据挖掘和o l a p 具有一定的互补性。在利用数据挖掘出来的结论采取行动 之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么 o l a p 工具能回答你的这些问题。 而且在知识发现的早期阶段,o l a p 工具还有其他一些用途。可以帮你探索 数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变 量。这都能帮你更好的理解你的数据,加快知识发现的过程。 2 1 4 数据挖掘的特点 数据挖掘技术具有以下特点: 1 ) 处理的数据规模十分庞大,达到g b 、t b 数量级,甚至更大。 2 )查询般是决策制定者( 用户) 提出的即时随机查询,往往不能形成精 确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 3 )在一些应用( 如商业投资等) 中,由于数据变化迅速,因此要求数据挖 掘能快速做出相应反应以随时提供决策支持。 4 )数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用 于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术 可能会发现大量的规则。 5 ) 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的 规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。 2 1 5 数据挖掘模型和算法 大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表 过的成熟算法,所不同的只是算法的实现和对性能的优化。当然也有一些公司采 用的是自己研发的未公开的算法,效果也不错。 下面将要介绍的模型和算法都是数据挖掘中最常见的和应用最广泛的,在 计算机科学、统计数学、和人工智能领域的科学家们已经在研究和改进这些算法 8 山东大学硕士学位论文 方面作了大量的工作。几乎所有的数据挖掘技术都可称为是数据驱动的,而不是 用户驱动的,也就是说用户在使用这些算法时,只要给出数据,不用告诉算法程 序怎么做和期待得到什么结果,一切都是算法自身从给定的数据中自己找出来。 应注意的是大部分算法都不是专为解决某个问题而特制的,算法之间也并 不互相排斥。不能说一个问题一定要采用某种算法,别的就不行。一般来说并不 存在所谓的最好的算法,在最终决定选取那种模型或算法之前,可能各种模型都 试一下,然后再选取一个较好的。 1 神经网络( n e u r a ln e t w o r k s ) 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了 一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参 数的问题。神经网络常用于两类问题:分类和回归。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层( 见图 2 】) 。 图2 一l 神经元网络 输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可 有多个。在输入层和输出层之间是隐含层( 对神经网络使用者来说不可见) , 隐含层的层数和每层节点的个数决定了神经网络的复杂度。 除了输入层的节点,神经网络的每个节点都与很多它前面的节点( 称为此节 点的输入节点) 连接在一起,每个连接对应一个权重w x y ,此节点的值就是通过 它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们 把这个函数称为活动函数或挤压函数。如图中的节点4 输出到节点6 的值可通 过如下计算得到: w 1 4 节点1 的值+ w 2 4 节点2 的值 神经网络的每个节点都可表示成预测变量( 节点1 ,2 ) 的值或值的组合( 节 9 山东大学硕士学位论文 点3 - 6 )。注意节点6 的值已经不再是节点1 、2 的线性组合,因为数据在隐 含层中传递时使用了活动函数。实际上如果没有活动函数的话,神经元网络就等 价于一个线性回归函数,如果此活动函数是某种特定的非线性函数,那神经网络 又等价于逻辑回归。 调整节点间连接的权重就是在建立( 也称训练) 神经网络时要做的工作。最 早的也是最基本的权重调整方法是错误回馈法,现在较新的有变化坡度法、类牛 顿法、l e v e n b e r g - m a r q u a r d t 法、和遗传算法等。无论采用那种训练方法,都需 要有一些参数来控制训练的过程,如防止训练过度和控制训练的速度。 图2 - 2 带权重的神经元网络 决定神经网络拓扑结构( 或体系结构) 的是隐含层及其所含节点的个数,以 及节点之间的连接方式。要从头开始设计一个神经网络,必须要决定隐含层和节 点的数目,活动函数的形式,以及对权重做哪些限制等。 由于神经网络隐含层中的可变参数太多,如果训练时间足够长的话,神经网 络很可能把训练集的所有细节信息都“记”下来,而不是建立一个忽略细节只具 有规律性的模型,我们称这种情况为训练过度。显然这种“模型”对训练集 会有很高的准确率,而一旦离开训练集应用到其他数据,很可能准确度急剧下降。 为了防止这种训练过度的情况,我们必须知道在什么时候要停止训练。在有些软 件实现中会在训练的同时用一个测试集来计算神经网络在此测试集上的正确率, 一旦这个正确率不再升高甚至开始下降时,那么就认为现在神经网络已经达到 做好的状态了可以停止训练。图2 - 3 中的曲线可以帮我们理解为什么利用测试 集能防止训练过度的出现。 1 0 山东大学硕士学位论文 图2 - 3 神经网络在训练周期增加时准确度变化情况 在图中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加 不断降低,而测试集的错误率在达到一个谷底后反而开始上升,我们认为这个开 始上升的时刻就是应该停止训练的时刻。 2 决策树( d e c i s i o nt r e e s ) 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比 如,在贷款申请中,要对申请的风险大小做出判断,图3 7 是为了解决这个问 题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、 分支和叶子。 收入 y 4 0 0 0 0 工作时同 5 年高负债 墨墨 低风险高腿高风陵低风险 图2 4 一棵简单的决策树 决策树中最上面的节点称为根节点,是整个决策树的开始。本例中根节点是 “收入 ¥4 0 ,0 0 0 ”,对此问题的不同回答产生了“是”和“否”两个分支。决 策树的每个节点子节点的个数与决策树在用的算法有关。如c a r t 算法得到的决 策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的 树称为多叉树。 山东大学硕士学位论文 每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决 策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题 的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策 树进行分类的过程,利用几个变量( 每个变量对应一个问题) 来判断所属的类别 ( 最后每个叶子会对应一个类别) 。 假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝 哪些贷款,那么他就可以用贷款申请表来运行这棵决策树,用决策树来判断风险 的大小。 “年收入 ¥4 0 ,0 0 0 ”和“高负债”的用户被认为是“高风险”,同 时“收入 5 年”的申请,则被认为“低风险 而建议 贷款给他她。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可 以用来作预测( 就像上面的银行官员用他来预测贷款风险)。常用的算法有 c h a i d 、c a r t 、 u e s t 和c 5 0 。 建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次 切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差 异最大。 各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。对具 体衡量方式算法的讨论超出了本文的范围,在此我们只需要把切分看成是把一 组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同。这个切分 的过程也可称为数据的“纯化”。看我们的例子,包含两个类别一低风险和高 风险。 如果经过一次切分后得到的分组,每个分组中的数据都属于同一个类别,显 然达到这样效果的切分方法就是我们所追求的。 2 1 6 数据挖掘的流程 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有 效的,可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘环境可示意如下图: 1 2 山东大学硕士学位论文 图2 - 5 数据挖掘环境 数据仓库并不是数据挖掘的先决条件, 因为有很多数据挖掘可直接从操作 数据源中挖掘信息。 下图描述了数据挖掘的基本过程和主要步骤 图2 - 6 数据挖掘基本过程 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖 掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。图2 6 中各个步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈。数据 挖掘的过程并不是自动的,许多工作需要人工完成。 数据挖掘是一个多步骤的处理过程,过程中各步骤的大体内容如下: 1 确定业务对象 了解相关领域的有关情况,熟悉背景知识,弄清用户要求。清晰地定义出业 务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预 测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性, 是不会成功的。 2 数据准备 山东大学硕士学位论文 1 ) 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并根据 要求从数据库中提取相关的数据,选择出适用于数据挖掘应用的数据。 2 ) 数据的预处理:研究数据的质量,为进一步的分析做准备。主要对前一 阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音 数据进行处理,对丢失的数据进行填补。并确定将要进行的挖掘操作的类型。 3 ) 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算 法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外, 其余一切工作都能自动地完成。 4 结果分析 解释并评估结果。将发现的知识以用户能理解的方式呈现,如某种规则,其 使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。再根据实 际情况对知识发现过程中的具体处理阶段进行优化,直到满足用户要求。 2 2 数据仓库( d a l aw a r e h o u s e ) 2 2 1 什么是数据仓库 数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集 成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。 数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和 历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是 为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技 术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提 供决策支持。 1 4 山东大学硕士学位论文 2 2 2 数据仓库拥有的四个特点 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系 统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一 个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题 通常与多个操作型信息系统相关。 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关, 数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散 的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除 源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信 息。 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及 时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要 是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就 是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期 的加载、刷新。 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据, 而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开 始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业 的发展历程和未来趋势做出定量分析和预测。 2 2 3 数据仓库的组成 数据仓库数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数 据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快 速的检索技术。 数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整 理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具 1 5 山东大学硕士学位论文 的关键,应能生成c o b o l 程序、m s 作业控制语言( j c l ) 、u n i x 脚本、和s o l 语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据 段:转换到统一的数据名称和定义;计算统计和衍生数据:给缺值数据赋给缺省 值:把不同的数据定义方式统一。 元数据 元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不 同分为两类,技术元数据和商业元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库 是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构 的定义:数据清理和数据更新时用的规则;源数据到目的数据的映射:用户访问 权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题 的描述,包含的数据、查询、报表: 元数据为访问数据仓库提供了一个信息目录( i n f o r m a t i o n d i r e c t o r y ) , 这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访 问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更 新数据,用户通过他来了解和访问数据。 访问工具 为用户访问数据仓库提供手段。有数据查询和报表工具:应用开发工具;管 理信息系统( e i s ) 工具;在线分析( 0 l a p ) 工具:数据挖掘工具。 数据集市( d a t a m a r t s ) 为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据, 也可称为部门数据或主题数据( s u b j e c t a r e a ) 。在数据仓库的实施过程中往往 可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓 1 6 山东大学硕士学位论文 库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容, 这样再以后实施数据仓库时才不会造成大麻烦。 数据仓库管理:安全和特权管理;跟踪数据的更新:数据质量检查:管理 和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分 发数据;备份和恢复:存储管理。 信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点 或用户。基于w e b 的信息发布系统是对付多用户访问的最有效方法。 2 2 4 设计数据仓库的九个步骤 1 ) 选择合适的主题( 所要解决问题的领域) 2 ) 明确定义f a c t 表 3 ) 确定和确认维 4 ) c h o o s i n g t h e f a c t s 5 ) 计算并存储f a c t 表中的衍生数据段 6 ) r o u n d i n g o u t t h e d i m e n s i o n t a b l e s 7 ) c h o o s i n g t h e d u r a t i o n o f t h e d a t a b a s e 8 ) t h e n e e d t o t r a c k s l o w l y c h a n g i n g d i m e n s i o n s 9 ) 确定查询优先级和查询模式。 技术上 硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2 - 3 倍。 通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一 起:而p c 服务器或u n i x 服务器更加灵活,容易操作和提供动态生成查询请求进 1 7 山东大学硕士学位论文 行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的i 0 吞吐? 对多 c p u 的支持能力如何? 数据仓库d b m s :他的存储大数据量的能力、查询的性能、和对并行处理 的支持如何。 网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需 不需要对网络结构进行改进。 2 2 5 建立数据仓库的步骤 1 ) 收集和分析业务需求 2 ) 建立数据模型和数据仓库的物理设计 3 ) 定义数据源 4 ) 选择数据仓库技术和平台 5 ) 从操作型数据库中抽取、净化、和转换数据到数据仓库 6 ) 选择访问和报表工具 7 ) 选择数据库连接软件 8 ) 选择数据分析和数据展示软件 9 ) 更新数据仓库 数据抽取、清理、转换、和移植 1 ) 数据转换工具要能从各种不同的数据源中读取数据。 2 ) 支持平面文件、索引文件、和l e g a c y d b m s 。 3 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行行政面试题目及答案
- 专业标准考试题目及答案
- 银行消防知识试题及答案
- 金属专业试题及答案
- 航空机械专业试题及答案
- 规划专业试题及答案
- 湖北省孝感市2025-2026学年高二上学期9月起点考试化学试卷(含答案)
- 河北省唐山市2025-2026学年高三上学期开学生物试题(原卷版)
- 专业消杀试题及答案
- 化学专业试题及答案
- 普外科进修汇报课件
- 《普通话宣传周》中小学推广普通话主题班会模板
- 2025年中国电信集团招聘考试试题及答案全收录
- 浙江省G12名校协作体2025学年第一学期9月高三上学期开学联考数学试卷
- (9月3日)铭记历史珍爱和平-纪念中国人民抗日战争暨世界反法西斯战争胜利80周年爱国主义主题教育班会课件
- 2025广东汕尾市海丰县纪委监委招聘政府聘员6人笔试模拟试题及答案解析
- 5.1 文明有礼(教学课件) 统编版道德与法治 八年级上册
- 2025年事业单位工勤技能-河北-河北汽车驾驶与维修员二级(技师)历年参考题库含答案解析(5套)
- 2025年心理健康教育及辅导理论知识考试试卷及答案
- 非财务人员财务基础知识培训
- 2025年新版《煤矿安全规程》
评论
0/150
提交评论