(计算机应用技术专业论文)数据挖掘技术在高校财务分析中应用研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在高校财务分析中应用研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在高校财务分析中应用研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在高校财务分析中应用研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在高校财务分析中应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨。f i 程大学硕十学位论文 i i 摘要 目前,随着我国高等教育的快速发展和改革的不断深入、高校的理财环 境和财务管理的职能的逐步转变,对高校财务分析工作提出了更高的要求。 然而,我国现行高校的财务分析,无论在理论研究还是在实践方面,都存在 者一定的局限性。虽然计算机技术和网络技术已普遍应用于高校的财务管理 中,但仅限于财务核算,而对财务分析较少涉及。大量丰富的财务数据的主 要用途仍是提供简单的查询和统计报表,对这些数据所隐藏的深层次的信息 没有充分地利用。这时若采用数据挖掘的方法和以往的财务分析方法相结合, 往往能收到更好的效果。 本文主要针对的问题是高校财务管理中学生缴费风险分析,通过对数据 挖掘技术的研究,结合高校财务管理系统的特点,将数据挖掘理论和方法应 用到高校财务分析中,并得到了良好的效果。 本文的主要研究内容包括:针对财务管理的特点,引入风险权重因子对 i d 3 算法进行改进,使i d 3 决策树算法能更好地依据财务数据各要素的风险 权重进行分类;将递增式学习与决策树构造算法相结合,使得决策树构造算 法能处理递增的数据;针对当前高校学生欠费这一实际问题,结合数据仓库、 数据挖掘等相关技术,设计了高校学生欠费预警系统方案,以便能动态、准 确地监测当自订缴费状况,预测高风险欠费学生,从而为高校领导层管理决策 提供更加科学的依据。 关键词:数据挖掘;预警;财务分析;i d 3 算法;风险权重; 哈尔滨门犟大学硕十学位论文 a b s t r a c t c u r r e n t l y ,w i t ht h er a p i dd e v e l o p m e n to fc o l l e g e sa n du n i v e r s i t i e se d u c a t i o n a n dt h e d e e p e n i n go fr e f o r m s ,t h eg r a d u a lc h a n g eo ff i n a n c i a lm a n a g e m e n t e n v i r o n m e n ti ni n s t i t u t i o n so fh i g h e re d u c a t i o na n df i n a n c i a lm a n a g e m e n t s f u n c t i o n s ,h i g h e rr e q u i r e m e n t sh a v eb e e np u tf o r w a r df o rt h ef i n a n c i a la n a l y s i so f c o l l e g e s a n du n i v e r s i t i e s h o w e v e r ,i nf i n a n c i a l a n a l y s i s o f c o l l e g e s a n d u n i v e r s i t i e s ,b o t hi nt h e o r ya n di np r a c t i c es t u d i e s ,t h e r ea r es o m el i m i t a t i o n s a l t h o u g hc o m p u t e rt e c h n o l o g ya n dn e t w o r kt e c h n o l o g yh a sb e e nw i d e l yu s e di n t h ef i n a n c i a lm a n a g e m e n to fc o l l e g e sa n du n i v e r s i t i e s ,t h i si sl i m i t e dt ot h e f i n a n c i a la c c o u n t i n ga n df i n a n c i a la n a l y s i si sl e s si n v o l v e d al a r g en u m b e ro f f i n a n c i a ld a t a sm a i np u r p o s ei st op r o v i d es i m p l eq u e r i e sa n ds t a t i s t i c a lr e p o r t s t h ei n d e p t hi n f o r m a t i o nh i d d e ni nt h ed a t ah a sn o tb e e nf u l l yu s e d a tt h i st i m e t h ec o m b i n a t i o no fd a t am i n i n gm e t h o d sa n df i n a n c i a l a n a l y s i sm e t h o d sc a n r e c e i v eb e t t e rr e s u l t s i nt h i st h e s i s ,t h em a i np r o b l e mi st h er i s ka n a l y s i so f s t u d e n t s p a y m e n ti n t h ec o l l e g e sa n du n i v e r s i t i e sf i n a n c i a lm a n a g e m e n t t h r o u g ht h er e s e a r c ho fd a t a m i n i n gt e c h n o l o g y ,w i t ht h ei n t e g r a t i o no ft h e c h a r a c t e r i s t i c so ff i n a n c i a l m a n a g e m e n ts y s t e mo fc o l l e g e sa n du n i v e r s i t i e s ,t h eu s eo fd a t am i n i n gt h e o r y a n dm e t h o d si nf i n a n c i a la n a l y s i so fc o l l e g e sa n du n i v e r s i t i e si sp u tf o r w a r d ,a n d g o o dr e s u l t sa r er e c e i v e d t h em a i nc o n t e n t so ft h es t u d yi n c l u d e s :f o r t h ef i n a n c i a lm a n a g e m e n t f e a t u r e s ,t h ei n t r o d u c t i o no fr i s k w e i g h tt oi m p r o v et h ei d 3a l g o r i t h mt oe n a b l e t h ei d 3d e c i s i o nt r e e a l g o r i t h mt oc l a s s i f yb e t t e rb a s e do nt h er i s k w e i g h to f v a r i o u se l e m e n t so ff i n a n c i a ld a t a ;t h ec o m b i n a t i o no ft h ei n c r e a s e dl e a r n i n ga n d 哈尔滨门掣人学硕十学何论文 d e c i s i o n m a k i n gt r e es t r u c t u r ea l g o r i t h mt oe n a b l ed e c i s i o nt r e ea l g o r i t h mt o h a n d l et h ei n c r e a s e dd a t a ;f o rc u r r e n t c o l l e g es t u d e n t s o w e ,t h i sp r a c t i c a l p r o b l e m s ,c o m b i n e dw i t hd a t aw a r e h o u s i n g ,d a t am i n i n ga n do t h e rr e l a t e d t e c h n o l o g y , t h ed e s i g no fa s e to fa ne a r l yw a r n i n gs y s t e mp r o g r a mf o rc o l l e g e s t u d e n t s o w et om o n i t o rt h ec u r r e n ts t a t eo fp a y m e n td y n a m i c a l l ya n da c c u r a t e l y a n dp r e d i c th i g h r i s ko w i n gs t u d e n t st op r o v i d e t h em o r es c i e n t i f i cb a s i sf o rt h e m a n a g e m e n td e c i s i o no ft h el e a d e r s h i po fc o l l e g e sa n du n i v e r s i t i e s k e y w o r d s :d a t am i n i n g ;e a r l yw a r n i n g ;f i n a n c i a la n a l y s i s ;i d 3a l g o r i t h m ; r i s kw e i g h t ; 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献等的引用已 在文中指出,并与参考文献相对应。除文中已经注明引用的内容 外,本论文不包含任何其他个人或集体已经公开发表的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识到本声明的法律结果由本人承担。 作者。签铋修 日期: 加b 否年,d 月莎1 3 哈尔滨i j 程人学硕十学位论文 1 1 课题的研究背景 第1 章绪论 随着高等教育改革的逐步深化,特别是近几年来,高等教育作为产业推 向市场后,高校财务管理环境发生了深刻的变化,高校财务管理面临着更加 复杂的局面,社会对高校财务管理也提出了更高的要求,高校的财务工作正 逐步从核算型向分析型、管理型转变。高校各类经济决策行为将更加依赖于 财务分析得出的结果,财务部门作为学校经济信息中心的地位也将更加突 出,但现有的财务分析和管理能力已经不能很好地满足需求。 虽然计算机技术和网络技术在财务管理中的应用和不断发展,高校财务 信息化建设发展迅速,信息化规模不断扩大,高校可以很方便地收集到丰富 的财务数据,丰富的信息的确可以为高校领导层作出准确决策提供方便,但 同时也带来很多问题,比如大量信息难以全部掌握,等于信息丢失;信息过 多,导致真伪难辨,容易造成误导。随着海量信息的涌现,但缺乏挖掘数据 背后隐藏的知识的手段和工具,往往就会导致“数据爆炸但知识贫乏”,会计 信息系统的分析功能将更显薄弱,其分析功能还没有发挥出来,存储在各种 数据中的财务信息,因受到数据分析技术的限制,通常只是对这些数据进行 录入、查询、修改、统计以及简单的财务分析等功能,但是无法发现数据中 存在的潜在关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏数 据背后隐藏的知识的手段。如果已经在财务管理中已经积累了相当丰富的数 据资源而不进行系统的挖掘、提炼和分析,就会对数据资源造成巨大的浪费, 也不能实施有效的财务分析。为此,需要把数据挖掘技术应用到高校的财务 管理和财务分析工作,以便及时有效地进财务分析和财务决策,不断提升财 务管理水平,为系统科学地制定财务计划提供依据。 哈尔滨i :稃人学硕十学何论文 本文通过探讨基于数据挖掘技术的高校财务分析体系,将数据挖掘技术 应用于高校财务数据分析,增强高校财务管理和财务分析功能,将海量的财 务数据转化为有用的知识,为高校加强财务管理、优化资源配置、提高办学 效益提供财务分析方法和手段,也为高校利益相关者提供决策有用的信息, 丰富和完善高校财务管理理论。 1 2 相关国内外研究现状 1 2 1 国外研究现状 数据挖掘( d a t am i n i n g ,简称d m ) ,又称为数据库中知识发现( k n o w l e d g e d i s c o v e r yf r o md a t a b a s e ,简称k d d ) 【1 】。k d d 首次出现在1 9 8 9 年举行的第 十一届国际联合人工智能学术会议上。目前为止,有美国人工智能协会主办 的k d d 国际研讨会已经召开了1 0 次,规模由原来的专题讨论会发展到国际 学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和 技术的集成,以及多种学科之间的相互渗透。i e e e 的k n o w l e d g ea n dd a t a e n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网 络和信息工程等国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨 论。g a r t n e rg r o u p 的一次高级技术调查将数据挖掘和人工智能列为“未来三 到五年内将对工业产生深远影响的五大关键技术”之首,并将并行处理体系 和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。到目前为止, 对关系数据库和事务数据库进行数据挖掘和知识发现的研究已经取得了一定 的进展,最有影响的发现算法有:加拿大s i m o nf r a s e r 大学j h a n 教授的概 念数提升算法、i b m 公司的r a g r a w a l 的关联算法、澳大利亚的j r q u i n l a n 教授的分类算法、密西根州立大学e r i c kg o o d m a n 的遗传算法等;比较有影 响的数据挖掘系统有:s a s 公司的e n t e r p r i s em i n e r ,i b m 公司的i n t e l l i g e n t m i n e r ,s g i 公司的s e tm i n e r ,s p s s 公司的c l e m e n t i n e ,s y b a s e 公司的 哈尔滨t 秤大学硕十学付论文 w a r e h o u s es t u d i o 等。 数据挖掘的应用领域随着i t 技术的发展和市场交易量的扩大也愈来愈 广泛。目前,数据挖掘的研究领域己遍及的行业包括金融业、电信业、网络 相关行业、零售商、制造业、医疗保健及制药业等。数据挖掘所能解决的典 型问题包括:数据库营销( d a t a b a s em a r k e t i n g ) 、客户群体划分( c u s t o m e r s e g m e n t a t i o n c l a s s i f i c a t i o n ) 、背景分析( p r o f i l ea n a l y s i s ) 、交叉销售 ( c r o s s s e l l i n g ) 等市场分析行为,以及客户流失性分析( c h u ma n a l y s i s ) 、 客户信用记分( c r e d i ts c o r i n g ) 等等【2 】。 在财务管理领域,传统核算型的会计处理和财务分析方法所提供会计信 息的形式、及时性和决策有用性方面搜到人们越来越多的批评,不能满足复 杂问题分析和决策的要求。5 0 年代和6 0 年代兴起的人工智能和专家系统是 解决这个问题的有效途径,使得现代会计信息系统在实现信息化和网络化后, 向智能化迈进。美国等西方国家早在1 9 6 5 年就陆续建成完整的会计信息系 统。1 9 8 7 年美国职业会计师协会( a i c p a ) 发表了一份管理指导特别报告“人 工智能和专家系统简介 ( a ni n t r o d u c t i o nt oa r t i f i c i a li n t e l l i g e n c ea n de x p e r t s y s t e m ) ,将人工智能引入到会计和财务管理领域,自此西方财务和会计界对 人工智能技术和专家系统在会计、审计和财务分析与管理等方面进行了广泛 的探索,开发了许多实用的专家系统来解决复杂的财务分析和会计决策问题。 国外对高校财务分析的研究主要侧重于高校的绩效评价方面,在西方国 家,高校资金来源的多样性和不确定性,客观上要求高校的财务工作必须注 重“生财、聚财、理财、用财”指导,必须注重资金的经济效益,注重财务 分析。财务分析和绩效评价已成为政府制定教育政策、分配学校经费和加强 学校管理的重要手段。 哈尔滨+ f :稗人学硕十学何论文 1 2 2 国内研究现状 与国外相比,国内对数据挖掘与知识发现的研究稍晚,没有形成整体力 量。尽管数据挖掘的应用领域相当广泛,就我国当前的应用来看,尚处于萌 芽阶段,高校大规模地运用数据仓库和数据挖掘技术尚不普遍,个别高校或 部门仅零星地运用数据挖掘技术。1 9 9 3 年,国家自然科学基金首次支持对该 领域的研究。目前,国内许多科研单位和高等院校竞相开展知识发现的基础 理论及应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第 二研究所、海军装备论证中心等。其中北京系统工程研究所对模糊方法在知 识发现中的应用进行了较深入的研究,北京大学也在丌展对数据立方体代数 的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学 研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大 学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识 发现以及w e b 数据挖掘1 3 】。 目前,数据挖掘的工具已大量出现,一类是基于统计分析的软件;另一 类是应用与新技术如模糊逻辑、人工神经网络、决策树理论的工具;但这些 软件并不是包罗万象地应用于任何数据挖掘技术的软件,而是有所侧重。实 际上,数据挖掘工具与实际应用的问题紧密联系,实践中要根据实际运用去 丌发适用于实际需要的数据挖掘工具。我国数据挖掘的软件运用和开发也未 全面展开,尤其模糊逻辑、人工神经网络、决策树中对数据挖掘工具的开发 不足。因此,开拓数据挖掘工具的应用和实践是未来数据挖掘工作中亟待解 决的问题。 国内理论界对高校财务分析、评价、绩效分析的研究较多,但全面系统 地研究我国高校财务分析的论文或专著较少;实践中,财务分析工作也没有 跟上财务发展的需要,在分析过程中存在诸多问题,分析的深度和广度不够, 分析的手段和方法在信息化高度发达的今天也有待改进。 哈尔滨t 稗大学硕十学何论文 1 3 本文的主要工作 本文描述了数据挖掘理论和方法在财务分析中的实际应用。在实际应用 中,采用了财务分析方法与数据挖掘技术相结合的研究手段。通过引入风险 权重对i d 3 算法进行改进,并根据改进的i d 3 算法应用于财务分析的实际, 完成了对高校财务管理中学生欠费预警分析系统的设计工作。 为了完成整个工作,研究和设计的内容有: ( 1 ) 对财务分析和数据挖掘相关技术进行介绍; ( 2 ) 对决策树各类算法进行介绍,并对i d 3 算法存在的问题进行分析; ( 3 ) 对i d 3 算法进行改进,引入了风险权重的方法,并将改进的算法与 递增学习算法结合,得到改进算法,使其能够处理递增的数据。 ( 4 ) 以改进算法为核心建立学生欠费预警系统,对可能欠费的学生及时 地预测,从而最大限度地减少由此造成的损失。 本课题的新颖之处在于: ( 1 ) 对通过引入风险权重的方法对i d 3 算法进行改进,使决策树算法能 更好地对各类学生进行分类; ( 2 ) 将递增式学习与决策树构造算法相结合,并应用于实践,使决策树 构造算法能处理学生递增的数据; ( 3 ) 面向当前高校学生欠费这一实际问题,探讨数据挖掘的应用,完成 高校学生欠费预警系统设计,该系统能及时对各类学生进行分类,找出可能 欠费的学生,提供当前风险分析,为高校领导层提供决策依据。 1 4 论文组织结构 本文通过研究的是如何将数据挖掘技术应用于高校财务数据分析,通过 对i d 3 算法的研究和改进,将数据挖掘技术成功应用于高校财务分析中。本 文共分为五章: 哈尔滨掣人学硕十学仲论文 第1 章介绍了本文的课题来源及国内外研究的现状,给出了本文的主要 研究工作及方向。 第2 章介绍高校财务分析和数据挖掘相关技术的背景知识。 第3 章介绍决策树算法,分析i d 3 算法存在的问题,并对i d 3 算法进行 改进 第4 章详细论述了以改进算法为核心对学生欠费预警系统的设计,对欠 费的学生及时地进行分析和预测。 最后对本文进行了总结。 6 哈尔演f :稃人学硕十学何论文 第2 章高校财务分析及数据挖掘相关技术 2 1 高校财务分析 2 1 1 高校财务分析的概念 高校财务分析是指运用事业计划、会计报表及其他有关资料,对高校一 定时期内的财务状况进行系统剖析、比较和评价,得到对学校经济活动和事 业发展状况的规律性认识f 3 】。高校财务分析是高校财务管理的重要组成部分, 其指导思想就是以效益为中心,全面强化财务管理,提高当家理财的水平, 最大限度地开源节流,让有限的资金发挥最大的社会效益和经济效益,以推 进高等教育事业的发展。 2 1 2 高校财务分析的目的和意义 财务分析的最终目的在于达到有限资源的有效配置。面临我国教育改革 的逐步深入,各高校之间的竞争日益激烈,为了在竞争中取胜,解决资源的 有限性与发展需求的相对无限性的矛盾,决策者们必须客观真实地了解自身 管理、办学过程中的优势与不足,实现追求效益最大化的目标。 ( 1 ) j 下确分析高校财务运行和财务管理状况,可以促使高校全面分析财 务问题,为改善管理,提高效益提供科学依据。通过财务分析,可以了解高 校财务收支结构和收支预算的执行情况及增长速度,可以了解各项经济活动 是否适应事业发展需要;有利于及时发现问题,采取措施,调整策略,改善 管理;同时还能正确评估学校财务运行水平。 ( 2 ) 促进高校加强预算管理,保证单位收支预算的顺利实现,引导高校 财务管理走向良性循环的道路。为了保证单位预算编制的合理可行,在编制 哈尔滨l :程人学硕十学位论文 预算前,必须做好上期预算执行情况的分析,同时也要对影响f 期财务收支 的各项因素进行事前分析,使编制的预算建立在切实可行的基础上。编制预 算只是预算工作的开始,预算执行过程中总会遇到这样那样的问题,因此有 必要通过对各项财务收支活动的分析来考核预算指标的执行情况,研究影响 预算执行的主客观因素,分析原因,及时采取措施,调整偏差,保证事业预 算的顺利实现。 ( 3 ) 促使高校充分挖掘内部潜力,努力增收节支,不断提高经费支出的 社会效益和经济效益。通过财务分析,可以及时掌握高校人力、物力、财力 等资源的利用情况和效益情况:通过财务分析,为高校进一步加强和改善财 务管理,开拓市场,扩大社会服务,增加收入,降低消耗,节约支出,杜绝 浪费,不断提高资金的使用效益提供具体的措施和途径;通过财务分析,激 励高校总结经验,找出差距,分析原因,不断完善,以达到提高综合办学能 力的目的。 ( 4 ) 促进高校严格执行财务制度,遵守财经纪律,维护法律尊严,加强 和改善学校财务管理水平,建立健全高校内部控制制度。财务制度和财经纪 律是任何单位进行财务活动的依据和准绳,必须严格遵守。通过财务分析, 可以了解高校是否严格执行了财务制度和财经纪律,如现金管理规定、成本、 费用开支范围和标准、资产管理、税费缴纳等情况。及时发现单位财务活动 中的违法违纪现象,规范单位财务行为,促进财务活动的合理化和合法化, 制止违法乱纪行为的发生。保证会计信息的准确可靠,保证财产物资的安全 完整,保证高校各项活动有序高效运行。 ( 5 ) 为各方投资主体正确把握高校财务状况和发展趋势,了解宏观信息 和投资效益,进行财务评价提供依据。高等教育投资主体的多元化要求高校 提供全面的财务信息,从不同角度、不同程度、不同层次满足政府部门、投 资者、债权人、学校管理者等各方面的不同需求。 8 哈尔滨l 程人学硕十学付论文 2 1 3 高校财务分析的依据 高校财务分析所需要的资料和数据,来源于高校的财务报表体系及其他 相关采集的信息,而高校财务报表体系是高校财务分析的基础。 高校作为非营利组织,其财务报告信息提供的目标,正如财务会计准则 委员会( f a s b ) 财务会计概念第四号公告( s f a c 4 ) 的“非企业组织财务报 告目标”中规定的那样:对院校问的资源分配作合理的决策;评价院校提供 的服务及其继续提供这些服务的能力;评价院校的管理者如何履行他们的管 理职责以及他们的其他业绩。根据这些目标所提供的信息,符合对高校进行 财务分析的需要【4 1 。 高校财务报告是反映高校财务状况、收支运营情况等的书面报告,可以 为财务报告的使用者提供有用的财务信息。根据我国现行高校财务制度,高 校年度财务报告包括资产负债表( 财基0 1 表) 、收入明细表( 财基0 2 表) 、 支出明细表( 财基0 3 表) 、银行贷款情况明细统计表( 财基0 4 表) 、基本数 字表( 财基0 5 、0 6 、0 7 表) 及财务情况说明书【5 7 】。 资产负债表是反映高校在某一时点财务状况的报表,是高校会计报表的 主表,综合反映高校的资产、负债、净资产情况,按编制时间的不同分为月 报和年报两种。资产负债表提供了以下三个方面的信息:一是提供高校在某 一时点的资产总额及其构成情况,是分析高校经济实力、财务状况等的重要 资料;二是反映高校在某一时点的负债总额及其构成情况,是分析高校负债 水平、财务风险的重要依据;三是高校在某一时点的净资产规模、构成情况 及变动情况,是分析高校经济实力、财务状况、财务风险的依据。 收入明细表是反映高校一定时期的收入情况的报表,是高校会计报表的 主表,反映高校在一定时期内收入规模、收入构成、期末经费结余及其变动 情况的信息。这些信息可以用柬分析高校经济实力、经费构成、自筹经费能 力等情况。 9 哈尔滨l j 稃人学硕十学位论文 i_ 支出明细表是反映高校一定时期的经费支出情况的报表,是高校会计报表 的主表,反映高校在一定时期内的经费支出规模、经费使用方向及其构成情 况的信息。这些信息可以用来分析高校预算执行情况、总体支出水平、公用 支出及对个人和家庭补助支出的水平、构成情况,还可以分析培养成本、办 学效益、支出结构是否合理等。 银行贷款情况明细统计表提供了高校银行贷款规模、贷款期限、使用方 向等信息,是搞笑财务风险分析的依据。 基本数字表提供了高校职工和学生情况的信息,这些信息配合上述财务 报表是进行办学条件、办学成本、办学效益、支出合理性分析等的重要信息。 目前,这些报表并不能满足新形势下财务分析工作的需要,在进行预算 执行情况、成本效益及绩效情况分析时就无法从会计报表中获取原始资料: 所以,应完善我国高校目前的会计报表体系,增加如学生教育成本分析表、 各职能部门业绩评价表、各部门资源使用效益分析表、对外投资效益分析表、 年度预算表、年度预算收入支出执行情况表等报表,为高校的财务分析工作 提供更广阔的数据来源空间。 2 2 数据挖掘 2 2 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ,简称d m ) 是指从数据集合中自动抽取隐藏在 数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、 规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏 的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发 现的过程,它是- - f 涉及面很广的交叉性新兴学科,涉及到数据库、人工智 能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技 术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型 t o 哈尔滨丁张大学硕+ 学位论文 化处理,并从中提取辅助决策的关键性数据引。 2 2 2 数据挖掘的方法 数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数 据挖掘方法表现出多种多样的形式。 1 统计方法 传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝 叶斯推理、回归分析、方差分析等技术、贝叶斯推理是在知道新的信息后修 f 数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来 找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一 个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发 生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分 析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力 的工具之一。 2 关联规则 关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性 同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。它是由 r a g r a w a l 9 1 等人首先提出的,最经典的关联规则的挖掘算法是a p r i o r i ,该 算法先挖出所有的频繁项集,然后,由频繁项集产生关联规则,许多关联规 则频繁项集的挖掘算法都是由它演变而来的。关联规则在数据挖掘领域应用 很广泛适合于在大型数据集中发现数据之问的有意义关系,原因之一是它不 受只选择一个因变量的限制,关联规则在数据挖掘领域最典型的应用是购物 篮分析。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所 有关联关系,所挖掘出的关联规则量往往非常巨大,但是,并不是所有通过 关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的 哈尔滨i :群人学硕十学何论文 _i i 评价,筛选出用户真正感兴趣的,有意义的关联规则尤为重要。 3 聚类分析 聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样 本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法, 划分聚类和增量聚类1 0 】。聚类方法适合于探讨样本间的内部关系,从而对样 本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。有时进行 聚类不是为了将对象相聚在一起而是为了更容易地使某个对象从其他对象中 分离出来。聚类分析已被应用于经济分析、模式识别、图像处理等多种领域, 尤其在商业上,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征 组群。聚类分析的技术关键除了算法的选择之外,就是对样本的度量标准的 选择。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前, 一般要先对数据的聚类趋势进行检验。 4 决策树方法 决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结 点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的 每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于 该属性的一个可能值,分类实例的方法是从这棵树的根结点丌始,测试这个 结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策 树方法是要应用于数据挖掘的分类方面。 5 神经网络 神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进 行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分 析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种, 输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构, 以m p 模型和h e b b 学习规则【1 1 1 为基础,建立三大类多种神经元网络,具有 哈尔滨t 稃人学硕十学位论文 非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自 学习、自组织和自适应能力的种种优点。前馈神经元网络以感知器网络、b p 网络等为代表,可以用于分类和预测等方面;反馈式网络以h o p f i e l d 网络为 代表,用于联想记忆和优化计算;自组织网络以a r t 模型、k o h o n o n 模型为 代表,用于聚类。 6 遗传算法 遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知 的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的 后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的 适应性的提高。遗传算法由三个基本过程组成:繁殖( 选择) 是从一个旧种 群( 父代) 选出生命力强的个体,产生新种群( 后代) 的过程;交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换,形成新个体的过程; 变异( 突变) 是对某些个体的某些基因进行变异的过程。在数据挖掘中,可 以被用作评估其他算法的适合度。 7 粗糙集 粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能 力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库 中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性, 对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件 属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所 有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并 集称为精确集,否则,一个集合就是粗糙的( 不精确的) 。每个粗糙集都具 有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元 素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪 声数据内在的结构联系。 哈尔滨i 。拌人学硕十学俜论文 8 支持向量机 支持向量机( s v m ) 是在统计学习理论的基础上发展出来的一种新的机 器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力, 具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已 成为训练多层感知器、r b f 神经网络和多项式神经元网络的替代性方法【1 2 1 。 另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解, 这些特点都是包括神经元网络在内的其它算法所不能及的。支持向量机可以 应用于数据挖掘的分类、回归、对未知事物的探索等方面。 除上述方法外,还有把数据与结果转化和表达成可视化技术、云模型方 法和归纳逻辑程序等方法。 2 ,2 。3 数据挖掘的过程 数据挖掘的过程也就是知识发现的过程,可以分为三个主要的阶段:数 据准备、数据挖掘、结果的评价和表达。其中结果的评价和表达还可以细分 为:评估、解释模式模型、巩固、运用知识。数据库中的知识发现是一个多 步骤的处理过程,也是这三个阶段的反复过程,如图2 1 所示。 数据选取 数据处理 数据挖掘 结果评价和表选 二= ) 一瓣仓库卜一黥数据卜一卜 【据h 1 r 数据准备 数据挖掘结果评价和表达 图2 1 知识发现过程 哈尔滨- t 稃大学硕十学何论文 1 数据准备 k d d 的处理对象是大量的数据,这些数据一般存储在数据库系统中,长 期积累的结果。但是往往不适合直接在这些数据上面进行知识挖掘,需要做 数据准备工作,一般包括数据的选择( 选择相关的数据) 、净化( 消除噪音、 数据) 、推测( 推算缺失数据) 、转换( 离散值数据与连续值数据之间的相 互转换,数据值的分组分类,数据项之间的计算组合等) 、数据缩减( 减少 数据量) 。这些工作往往在生成数据仓库时己经准备妥当。数据准备是k d d 的第一个步骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最 终模式的有效性【13 1 。 2 数据挖掘 数据挖掘是k d d 最关键的步骤,也是技术难点所在。研究k d d 的人员 中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、 粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据k d d 的目标, 选取相应算法的参数,分析数据,得到可能型号层知识的模式模型。 3 结果评价和表达 评估、解释模式模型:数据挖掘得到的模式模型,有可能是没有实际意 义或没有使用价值的,也有可能是其不能准确反映数据的真实意义,甚至在 某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模 式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准 确性。这个步骤还包括把模式以易于理解的方式呈现给用户。 巩固知识:用户理解的、并被认为是符合实际和有价值的模式模型形成 了知识。同时还要注意对知识做一致性检查,解决与以前得到的知识相互冲 突、矛盾的堤防,使知识得到巩固。 运用知识:发现知识是为了运用,如何使知识能被运用也是k d d 的步 骤之一。运用知识有两种方法:一种是只需要看知识本身所描述的关系或结 哈尔滨t 程大学硕十学何论文 果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能 产生新的问题,而需要对知识做进一步的优化。 k d d 的过程可能需要多次的循环反复,每一个步骤一旦与预期目标不 符,都要回到前面的步骤,重新调整,重新执行。 2 3 本章小结 本章主要介绍了高校财务分析的概念、目的、意义和分析的依据,同时 介绍了数据挖掘技术的概念、方法和实施过程。财务数据是一类比较特殊的 数据,特别是当拥有大量各期财务状况时。以往的财务分析方法显得比较脆 弱,要靠人进行各项比较,进行分析,比较繁琐和片面,因为这是以往的财 务分析方法本身具有的特点所决定的。随着高校自身不断发展,财务数据量 不断增大,采样时问不断增加,数据库不断膨胀,以往的财务分析方法同益 显示出局限性,这时若采用数据挖掘的方法和以往的财务分析方法相结合, 往往能收到更好的效果。 1 6 哈尔滨t 稗大学硕十学何论文 3 1 引言 第3 章一种改进的id 3 决策树算法 决策树是一树状结构,它的每一个树结点可以是叶节点,对应着某一类, 也可以对应着一个划分,将该节点对应的样本集划分成若干个子集,每个子 集对应一个节点。对一个分类问题或规则学习问题,决策树的生成是一个从 上至下、分而治之的过程。决策树从根节点开始,对数据样本进行测试,根 据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构 成一个子节点。对每个子节点再进行划分,生成新的子节点。不断反复,直 至达到特定的终止准则。生成的决策树每个叶节点对应一个分类。对于生成 的决策树,可以从根节点开始,由上至下,提取规则:也可对数据点进行分 类或预报。对一个样本进行分类时,从树的根节点开始,根据每个节点对应 的划分将其归到相应的子节点,直至叶节点。叶节点所对应的类别就是该样 本对应的分类。 基于决策树的分类模型以其特有的优点广为人们采用。首先,决策树方 法结构简单,生成便于人们理解的规则;其次,决策树模型效率高,对训练 集数据量较大的情况较为适合;再者,决策树算法的计算量相对来说不是很 大;然后,决策树方法通常不需要受训数据外的知识,擅长处理非数值型数 据。最后,决策树方法具有较高的分类精确度,它是指在数据库的各个对象 中找出共同特性,并按照分类模型把它们进行分类。“训练集”作为分类器中 的输入,它的每一个元组的属性和数据库的元组的属性相同,并且每个元组 都有一个类标志。分类的目标是通过分析训练集中的数据,对类进行准确的 描述或者建立模型,然后用它对数据库中的其它数据分类或者上升为分类规 则。 哈尔演门翠人学硕十学何论文 3 2 决策树算法介绍 决策树算法实质是在实例学习的基础上,得到分类规则。决策树是以图 形或文本形式的规则来描述或预测数据。主要的决策树算法有:i d 3 算法、 c 4 5 算法和c 灿玎算法。 3 2 1id 3 算法 i d 3 算法是1 9 8 6 年由q u i n l a n 提出的一种基于信息熵的决策树学习算法, 他把s h a n n o n 的信息论引入到了决策树算法中,把信息熵作为选择测试属性 的标准,对训练集进行分类,并构造决策树来预测如何由测试属性对整个实 例空间进行划分。整个建立决策树的过程是从所有对象和属性丌始的,采取 自上向下的方式完成,在每个节点上都测量一次属性,并用相应的属性值对 目标对象进行分割,这个过程重复进行直到节点中的对象根据分类标准是同 质的,换句话说就是属于一个类的,在每个节点对属性进行测量采用的是最 大信息增益【1 4 】。 i d 3 算法的建树时间和任务的困难度呈线性递增关系,计算量相对小。 但存在的问题是:信息增益的计算依赖于属性取值数目较多的特征,而属性 取值较多的属性不一定最优;i d 3 是非递增学习算法;抗噪性差,训练例子 中正例和反例较难控制。 3 2 20 4 5 算法 c 4 5 算法是由q u i n l a n 自己扩充i d 3 算法提出来的,是i d 3 算法的改进, 提高了算法的效率。c 4 5 算法在i d 3 的基础上增加了对连续属性,属性值空 缺情况的处理,对树剪枝也有了较成熟的方法。与i i ) 3 不同,c 4 5 采用基于 信息增益率( i g r 一i n f 0 啪a t i o ng a i nr a t i o ) 的方法选择测试属性f 1 5 】。信息增益 1 8 哈尔滨1 :稗人学硕十学何论文 i i 率等于信息增益对分割信息量( s i s p l i ti n f o r m a t i o n ) 的比值。此外,c 4 5 还 对属性的空缺值情况进行了处理。但c 4 5 在构造树的过程中,需要对数据集 进行多次的顺序扫描和排序,因而导致算法的低效;而且c 4 5 只适合于能够 驻留在内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。 3 2 3c a r t 算法 c a r t 算法是c l a s s i f i c a t i o n a n dr e g r e s s i o nt r e e 的简称,可以处理高度倾 斜或多态的数值型数据,也可处理顺序或无序的类属性数据。c a r t 选择具 有最小g i n i 系数值的属性作为测试属性,g i n i 值越小,样本的“纯净度” 越高,划分效果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论