(应用数学专业论文)改进的时态关联规则在财政绩效分析中的应用.pdf_第1页
(应用数学专业论文)改进的时态关联规则在财政绩效分析中的应用.pdf_第2页
(应用数学专业论文)改进的时态关联规则在财政绩效分析中的应用.pdf_第3页
(应用数学专业论文)改进的时态关联规则在财政绩效分析中的应用.pdf_第4页
(应用数学专业论文)改进的时态关联规则在财政绩效分析中的应用.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(应用数学专业论文)改进的时态关联规则在财政绩效分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学硕士研究生学位论文第1 页 摘要 传统的关联规则很少考虑关联规则的时间属性。事实上,每个关联规则都有 其成立的时间区域,尤其是财政数据与时间属性的关联更加敏感。因此,在挖掘 关联规则时附加上某种时态约束会使规贝1 。更好地描述客观现实情况,这样有助 于揭示事物发展的本质规律,使得发现的知识更具有现实意义。加上某种时态约 束的规则称为时态关联规则。时态数据挖掘作为数据挖掘的一个新的课题,被应 用到了许多领域。财政绩效分析是有着固有时间属性的一种分析体系,是非常适 合时态关联规则技术应用的一个新领域。 财政绩效分析是对财政预算管理水平、财政资金投入与产出结果的比较、支 出效益与结构及财政资金与经济发展水平适度性、财政资金规模与速度等多方面 状况的综合反映分析,是地方政府财政现实能力与调控能力的具体体现。如果在 财政绩效分析过程中不考虑时间因素,就无法正确理解财政资金的收支效益,就 不能正确反映财政绩效的内在规律,就没有实际指导意义。比如,对于特定时间 区间内财政支出的突发性增加,传统的分析方法会忽视其内在的合理性,而本文 所做的工作就能够从这种异常中发现其实际存在的必然性和规律性,从而得出更 有价值的信息。根据时态关联规则挖掘的信息给出财政绩效分析简易报告,对于 下一步的财政政策导向有十分重要的意义。 针对以上问题,本文对适用于财政绩效分析领域中离散属性的带周期规律的 时态关联规则发现方法进行了改进。在研究关联规则挖掘算法的基础上,根据财 政数据的特殊时间周期性,提出改进了的a p f i o f i 挖掘周期性时态关联规则算法 m p t a r 。并将这一算法应用于财政绩效分析领域,给出财政绩效分析简易报告。 与传统分析方法相比,具有客观现实性、技术性高、信息量大、指导性强等诸多 优势。 本文所做的主要工作概括如下: 1 、对财政绩效的内容体系进行了全面的概括和分析。 2 、提出财政绩效分析数据的周期性规律,实现财政绩效数据的离散化。 3 、在对财政绩效分析固有时间属性进行分析的基础上,提出了财政绩效分析 中离散属性的周期计算方法,设计并实现了相关算法m p t a r 。 4 、将本文的研究成果应用于实践:在财政绩效分析中获得了成功有效的应用, 第1 i 页河南大学硕士研究生学位论文 并给出财政绩效分析简易报告。 关键词:数据挖掘;时态关联规则;财政绩效;a p r i o r i 算法 河南大学硕士研究生学位论文 a b s t r a c t 第l i i 页 t h et i m ea t t r i b u t eh a sb e e nl i t t l et a k e ni n t oa c c o u n ti nt r a d i t i o n a la s s o c i a t i o nr u l e s i nf a c t 。e a c ha s s o c i a t i o nr u l ei sar u l ew i t hi n t e r v a l st h a tt h er u l eh o l d s ;e s p e c i a l l yi t i s m o r es e n s i t i v et ot h er e l a t i v i t yb e t w e e nf i n a n c i a ld a t aa n dt i m ea t t r i b u t e t h e r e f o r e ,i ti s b e t t e rt od e s c r i b et h eo b j e c t i v er e a l i t yo ft h es i t u a t i o nt h r o u g hm i n i n gt e m p o r a l a s s o c i a t i o nr u l e s ,w h i c hc a l lh e l pt or e v e a lt h en a t u r eo ft h ed e v e l o p m e n to ft h el a wo f t h i n g s ,t of m dk n o w l e d g ei nam o t ep r a c t i c a ls i g n i f i c a n c e a s s o c i a t i o nr u l e sw i t ht i m e c o n s t r a i n t sc a l l st e m p o r a la s s o c i a t i o nr u l e s ,w h i c hh a sb e e na p p l i e di n t om a n yf i e l d sa s an e ws u b j e c ti nd a t am i n i n g f i n a n c i a lp e r f o r m a n c ea n a l y s i si sa na n a l y t i cs y s t e mw i t h i n h e r e n tt i m ea t t r i b u t e ,w h i c hi san e wf i e l dw i t ht h ea p p l i c a t i o no fm i n i n gt e m p o r a l a s s o c i a t i o nr u l e s f i n a n c i a lp e r f o r m a n c ea n a l y s i si sau n i t yo fa n a l y s i sa n ds y n t h e s i sf o rb u d g e t m a n a g e m e n t ,c o m p a r i s o no ff m a n c i a li n p u ta n do u t p u t ,t h ee f f i c i e n c ya n ds t r u c t u r eo f e x p e n d i t u r ea n df i n a n c i a lc a p i t a la n dam o d e r a t el e v e lo fe c o n o m i cd e v e l o p m e n t ,s c a l e a n ds p e e do ff i n a n c i a lf u n d sa n ds oo i l i ti st h es p e c i f i cp e r f o r mo fa b i l i t yt od e a lw i t h r e a l i t y a n dc o n t r o l l i n gt h ef i n a n c i a l r e a l i t y f o rl o c a l g o v e r n m e n t s 1 ff i n a n c i a l p e r f o r m a n c ea n a l y s i sd o e sn o tc o n s i d e rt h et i m ef a c t o r ,i t i si m p o s s i b l et oc o r r e c t l y u n d e r s t a n dt h ee f f e c t i v e n e s so ff i s c a lr e v e n u ea n de x p e n d i t u r eo ff u n d s ,a n dw ec a l ln o t a l s oa c c u r a t e l yr e f l e c tt h ef i n a n c i a lp e r f o r m a n c eo ft h ei n h e r e n tl a w ,t h e r ew o u l db en o p r a c t i c a ls i g n i f i c a n c e f o re x a m p l e ,as p e c i f i ct i m ei n t e r v a lf o rt h ef i n a n c i a le x p e n d i t u r e i nt h es u d d e ni n c r e a s ei nat r a d i t i o n a la n a l y s i sw o u l di g n o r et h er a t i o n a l i t yo fi t s i n h e r e n t ,a n dt h ew o r ko ft h i sa r t i c l ec a nb ef o u n df i o ms u c ha b n o r m a l i t yo ft h e i n e v i t a b i l i t yo fi t sa c t u a le x i s t e n c ea n dl a w so f , a n dt oo b t a i nm o r ev a l u a b l ei n f o r m a t i o n i tw i l lh a v ev e r yi m p o r t a n ts i g n i f i c a n c et of m a n c i a lp o l i c yf o rt h en e x ts t e pu s i n gt h e i n f o r m a t i o ns u m m a r yr e p o r to ff m a n c i a lp e r f o r m a n c ea n a l y s i sb a s e do nt e m p o r a l a s s o c i a t i o nr u l em i n i n g f o rt h ea b o v ep r o b l e m ,t h i sp a p e ri m p r o v et h em e t h o do f m i n i n gd i s c r e t ea t t r i b u t e sw i t ht e m p o r a lc y c l eo f t h et e m p o r a la s s o c i a t i o nr u l ea p p l i e st o t h ef i e l do ff i n a n c i a lp e r f o r m a n c ea n a l y s i s o nt h eb a s i so ff u r t h e rs t u d yo fo t h e r 第1 v 页 河南大学硕士研究生学位论文 一_ a s s o c i a t i o nr u l e sm i n i n ga l g o r i t h m s t h i sp a p e rh a sd e v e l o p e da p r i o r i - e x t e n d e dm m m g p e r i o d i ct e m p o r a l a s s o c i a t i o nr u l e s ( m p t a r ) a c c o r dt o t h ee s p e c i a lp e r i o d i c i t yo f f i n a n c i a ld a t a a n dt h i sa l g o r i t h mh a sb e e nu s e di nt h ef i e l do ff i n a n c i a lp e r f o r m a n c e a n a l v s i s 。a n dg i v e nt h ef i n a n c i a lp e r f o r m a n c ea n a l y s i ss u m m a r yr e p o r t c o m p a r e d w l t h t h et r a d i t i o n a lm i n i n gr u l e sm e t h o d s ,i th a sm a n yo t h e ra d v a n t a g e ss u c h a so b j e c t l v e r e a l i t y ,h i g h l yt e c h n i c a l ,al a r g eo f i n f o r m a t i o na n ds t r o n gg u i d a n c e t h em a j o rw o r ko ft h i sp a p e ri s : 1 g e n e r a l i z ea n da n a l y z er o u n d l yf i n a n c i a lp e r f o r m a n c eo f c o n t e n ts y s t e m 2 p r o p o s et h ep e r i o d i c l a wo ff i n a n c i a lp e r f o r m a n c ed a t a ,a n dd l s p e r s e t h e f i n a n c i a lp e r f o r m a n c ed a t a 3 o nt h eb a s i so ff u r t h e rs t u d yo f a t t r i b u t e ,t h i sp a p e r h a s d e v e l o p e d f i n a n c i a lp e r f o r m a n c ed a t aw i t hi n h e r e n tt i m e a p r i o r i e x t e n d e dm i n i n gp e r i o d i c t e m p o r a l a s s o c i a t i o nr u l e s ( m p t a r ) 4 1 i lt h i sp a p e r ,t h er e s u l t so fm p t a ra l g o r i t h mw i l lb eu s e di n t op r a c t i c e :1 ) o b t a i n e dt h es u c c e s s f u la n de f f e c t i v ea p p l i c a t i o ni nt h ef i n a n c i a lp e r f o r m a n c ea n a l y s i s ; 2 ) g i v e nt h ef i n a n c i a lp e r f o r m a n c ea n a l y s i ss u m m a r y r e p o r t k e y w o r d s :d a t am i n i n g ;t e m p o r a l a s s o c i a t i o nr u l e s ;f i n a n c i a lp e r f o r m a n c e ; a p r i o r i a l g o r i t h m 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学住中请。本人郑重声明:所呈交的学位论文是 本人在导师的指导下独立完成的,对所研究的课题有新的见解。据我所知,除 文中特别加以说明、标注和致谢的地方外,论文中不包括其他人已经发表或撰 写过的研究成果,也不包括其他人为获得任何教育、科研机构的学住或证书而 使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。,二i 。,:;j 。似。 么j 4 ; jj ;ij,z - - 、, 学住希; 三( 擘住蠢作者) 誉童:,垄趣2 习一 ;j 弩。愀,“i 一。一“一i :j 吨,矽一,; 缸。纂,? 一、:誉:锄d 罗年多月澎曰 岔式? 一:;+ 轷0 ;文j 二f :譬囊;? 、一琵 “缪;薹謦。,渗0 萋鬟毒瑟:; | i 参:? 身影o j 。,;j j :j j 。妾穹 囊,关于学位论文著作权使用授权书,? 笃 蠢一”= 一务易舔缸_ 旁冀o o 簪tj 形: 、曼 本人经河南大学审核批准授予顿士学位。作为学住论文的作者,本人完全 了解并同意河南农学有关保留i 徽堋擘位论盘、的要求。即河南大学有权向国家 图书馆、科研信息枫构、数据收集辛凡构和本校图书馆等提供学位论文( 纸质文 本和电子文本) 以供公众检索、奎阅一。食莓人授权河南l 大学出于宣扬、展览学校 学术发展和进行学术交流等旧? 钒麓玎以采取影印。、缩印、扫描和拷贝等复制手 段保存、汇编学住论文( 纸质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后适用本授权书) 学位获得者( 学住论文作者) 签名:蓬旌j 虱 2 0 学位论文指导教师签名: 2 0 口7 年石月 目 河南大学硕士研究生学位论文第1 页 第1 章绪论 社会的信息化浪潮冲击到各行各业,不可避免,作为社会和经济发展的基础 财政方面更是首当其冲。如何从海量的数据信息中分析提取、发现人们需要的有 价值的知识和信息成为数据库、人工智能、机器学习等领域研究的热点。k d d ( k n o w l e d g ed i s c o v e r yo fd a t a b a s e ) 就在这个背景下应运而生,并成为二十年来 人们不断研究和探索的热门课题【l 】。k d d 的两个基本任务是预测和描述,预测是 指预测未知的感兴趣的变量或发现某些实例未来的行为模式;描述指的是寻找可 以理解的描述数据的好模式。数据挖掘是当前人工智能、数据库和信息决策研究 的新领域新手段,可应用于决策支持、市场分析、经济预测及财政分析等,引起 了国内外学术界和工商界的广泛关注。其中关联规则发现又是数据挖掘一个重要 分支【2 】。本文为满足财政绩效分析的时间特殊性需求,对时态关联规则展开一系 列相关的研究和实践。 1 。1 研究的背景和意义 财政绩效分析是对财政预算管理水平、财政资金投入与产出结果的比较、支 出效益与结构及财政资金与经济发展水平适度性、财政资金规模与速度等多方面 状况的综合分析,是地方政府财政现实能力与调控能力的具体体现。显然,财政 绩效优劣一方面取决于财政部门的行为、财政收支效益的提高,另一方面,也与 地方经济发展状况密切相关。 对财政绩效进行分析有着非常重要的意义。通过财政绩效分析,对某一地区 财政资金投入和产出结果的比较,以及分析财政资金的规模和总体实力、财政预 算管理水平、财政资金支出效益以及财政资金和经济发展水平的适度等方面的综 合状况,对该地区财政绩效给出一个综合性的分析评价,对下一阶段的财政形势 做出较准确的预测,对进一步改革该地方财政体制,促进经济发展,合理划清各 级政府间的事权和财权,建立规范的政府转移支付制度,加强财政宏观调控的作 用都具有深远意义。 而研究财政绩效分析,就需要考虑财政数据的时间属性,财政绩效发展的时 间周期性,这样的时态数据反映了事物发生发展的过程,有助于揭示事物发展的 第2 页河南大学硕士研究生学位论文 本质规律,使得发现的知识更能贴近现实意义。对财政数据进行分析的过程,就 是一个数据挖掘的过程,就是一个发现关联规则的过程。 数据挖掘是上世纪9 0 年代中期兴起的一项新技术,它是知识发现过程中的关 键步骤。简言之,数据挖掘就是从数据库中抽取隐含的、具有潜在应用价值的信 息的过程。 关联规则作为数据挖掘的一种非常重要的模式,己成为数据挖掘领域的一个 重要的研究课题。关联规则挖掘能够发现存在于数据库中的项目( i t e m s ) 或属性 ( a t t r i b u t e s ) 间的有趣关系。它在市场分析、管理、生产控制、科学探索等领域 都有着重要的应用,目前又逐渐向财政、金融设计、电信等领域渗透。 时态数据能够反映事物发生发展的过程,有助于揭示事物发展的内在本质规 律。因而有必要在进行数据挖掘时考虑时间因素,使得发现的知识更能贴近实际 意义,这样就产生了带有时间属性的数据挖掘研究课题。而时态关联规则能更好 地反映数据中所隐藏的与时间有关的知识,近几年已成为k d d 的热点之一。 这样结合财政绩效分析的特殊时间性的时态关联规则的提取,不仅是理论研 究的成功,对于财政发展的真实状况,对于下一步的财政结构调整和改革,对于 下一阶段的财政收支预测,更有着重大的现实指导意义。 1 2 国内外研究现状 从数据库中发现知识( 1 d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联 合人工智能学术会议上【9 1 。到目前为止,规模由原来的专题讨论会发展到国际学术 大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集 成,以及多种学科之间的相互渗透。用时态关联规则挖掘财政时态数据就是非常 重要的应用之一。 1 2 1 时态数据挖掘国内外研究现状 时态数据是在传统的数据库基础上加上时间维,时态数据不仅表现了数据之 间的时序关系,同时也描述了不同数据之间相互转换的时间过程。时态数据的特 点决定了时态数据库中的挖掘技术及所发现的时态知识都具有其自身的特点。目 前,国内外研究资料中时态数据挖掘的研究内容还比较零散,并没有系统的理论 框架,对时态数据挖掘进行非常系统的分类很难做到。根据挖掘后得到的知识的 河南大学硕士研究生学位论文第3 页 特点,挖掘研究主要有以下几个方面: 1 、时态关联 某事件在时间上紧随另一事件发生并不一定就意味着这两者之间存在某种因 果关系,但作为一种关联关系却仍然是合法的,例如股票的涨跌模式。时态关联 定义的是事件间的继发关系,这种继发关系也包括一定意义的同时关系,例如购 买了牛奶,又购买面包。对于关联的研究己有很多,如单维的关联、多维的关联、 单层次的关联、多层次的关联、量化的关联、基于距离的关联等等。当前的时态 关联研究大多将己有的关联分析运用到时态数据中,主要研究了关联规则成立的 时间范围,文【l o 1 1 】提出了一些时间区间的合并与延展技术【l2 1 ,提出的一些时态 关联挖掘的算法,大都是基于a 研o r i 算法的变形。文献【1 3 1 4 】对相同属性的相邻 时态关联规则、相同属性的相连时态关联规则的挖掘进行了研究,发现多数股票3 天内必有上涨或下降的规则。 2 、周期性挖掘 周期性分析是指对周期模式的挖掘,即在时态数据中找出重复出现的模式。 周期模式挖掘可视为一组分片序列为持续时间的序列模式挖掘,分为全周期模式 的挖掘、部分周期模式的挖掘及循环或周期关联规则的挖掘。全周期分析的技术 如f t f ( 快速傅立叶变换) 已在信号分析和统计中得到研究,有关部分周期性模式和 循环或周期关联规则挖掘大都采用了变通的a p r o i r i 挖掘方法【1 5 ,1 6 】。 3 、趋势性挖掘 包括长期趋势变化、循环变化、季节性变化、随机变化的分析。长期趋势反 映了一般的变化方向,确定趋势常见方法是用加权移动平均方法和最小二乘法, 其时序图是在较长时间间隔上的数据变化,反映为一种趋势曲线。循环变化是指 趋势曲线在长期时间间隔内呈摆动迹象。季节性变化反映的是每年都重复出现的 事件。随机变化反映随机或者偶然事件引起的零星时序变化。趋势性分析主要针 对连续型数值,利用统计时序中的方法对数字曲线模式进行分析,以获得属性随 时间变化的趋势,从而制定出长期或短期的预测【1 7 ,1 8 1 。 4 、序列模式挖掘 序列模式挖掘是指挖掘相对时间或其它模式出现频率高的模式,目的是为了 寻找一段特定时间以外的可预测行为模式。其中涉及模式匹配及相似度问题。序 列模式的研究对象可以是符号模式,也可以是连续型数据的曲线模式,对于后者, 需对曲线的形状进行特征化,定义曲线间的相似度【1 9 - 2 0 。文献 2 1 】较早地对序列模 第4 页河南大学硕士研究生学位论文 式挖掘进行了深入的研究,主要是钊对购物篮的分析,将顾客在一段时间的购买 行为看成一序列。给出了有关序列的性质,相应的算法,跳跃式地产生最大序列。 该文的研究主要是适用于布尔型变量的挖掘。对于其它主题的序列模式挖掘,文 献 2 2 ,2 3 也进行了研究,大都是采用文献【2 1 】算法的变形。文献【2 4 对非同步多 时间序列进行了研究,对连续数值形成的曲线进行线性化分段和矢量聚类,来将 其转换成离散的多个符号序列,以提取时间序列中的基本模式,该方法只适用于 对单属性随时间波动的模式进行研究。在文献【1 9 2 0 e e 也有相应的研究。 5 、时态约束问题 在现实中,附加上某种时态约束的知识将可以得到更好的描述,也会更有价 值。面对大容量的时态数据集,用户关心的往往是某一时间区域的数据而不是整 个数据,而特定时间区域的数据又可能导致特定的数据间的关联。时态约束可以 应用到数据挖掘和知识发现中,并且可以起到过滤过时数据、聚焦用户目标以及 加速知识模式生成等作用。文献 2 5 - 2 6 给出了时态区间代数的概念,定义了时态 区间变量交与并操作,挖掘用户给定时态区间内的时态约束规则。 1 2 2 关联规则国内外研究现状 数据库中的知识发现始于8 0 年代后期,1 9 8 9 年召开了第一次关于知识发现和 数据挖掘的国际会议。1 9 9 5 年8 月,在加拿大的m o n t r e a l ,召开了首届知识发现 和数据挖掘的国际讨论会。亚太地区于1 9 9 7 年在新加坡举行了首届亚太知识发现 和数据挖掘的国际会议( p a l d 9 7 ) ;欧洲也于1 9 9 8 年召开了首届欧洲知识发 现和数据挖掘的学术会议。 知识发现和数据挖掘的研究一直作为数据库和机器学习的一个分支,处于依 附的地位。直到1 9 9 8 年6 月,a c ms i g k d d ( a s s o c i a t i o no f c o m p u t i n gm a c h i n e r y , s p e c i a li n t e r n e 、g r o u p0 1 1k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) 正式成立,标志 着知识发现和数据挖掘正式成为一个独立的学科。 关联规则作为数据挖掘的一个重要分支,其研究领域也十分活跃。关联规则 挖掘的主要任务是发现频繁项集,目前发现频繁项集的算法可分为3 种: 1 、层次算法。a p r i o r i 算法就是最典型的层次算法【4 】,该算法是最有影响的挖 掘布尔型频繁项目集的算法,现常见的关联规则挖掘的算法大多是在该算法的基 础上加以改进或扩展的,没有实质性变化。如分区、散列、抽样、动态项目计数 法、层次结构、分类和聚类等方法。然而这类算法的执行效率不尽人意。 河南大学硕士研究生学位论文第5 页 2 、通过生成最大频繁项集从而发现频繁项集的算法,例如p r i n c e r - s e a r c h 算法 等【l0 1 。然而由于其理论缺陷导致生成的关联规则丢失了部分有用的信息。 3 、基于形式概念分析( f c a ) 和概念格的关联规则提取算法。文 2 7 - 3 0 禾l j 用 概念格的性质首先生成频繁闭包项集,从而得到所有的频繁项集。 从实验结果看出,对实际的数据库,基于概念格的算法采掘效果比a p r i o r i 类 算法好;对虚拟数据库,如t 1 0 1 4 d 1 0 0 k ,t 4 0 11 0 d 1 0 0 k ,两者运行效果相差不大; 某些情况下,a p f i o f i 算法更好。这是因为,基于概念格的算法是利用将发现频繁 项目集的问题转化成为发现封闭频繁项目集的问题,因此,当数据库中封闭频繁 项目集的个数远少于频繁项目集的个数时,通过计算封闭频繁项目集来得到所有 的频繁项目集的方法将大大减少计算时间。但是,若数据库的封闭频繁项目集的 个数和频繁项目集的个数相差不大时,由于基于概念格的算法比a p r i 州类算法多 出计算闭包的部分,效率反而不高。因此,若能在对数据库采掘之前,确定封闭 频繁项目集占所有频繁项目集的比例,则能够根据数据库的具体情况采用相应的 正确的算法。 特别的,关于时态关联规则的研究最近十几年有了很大的进步。时态关联规 则的研究主要有下面几个方面: 1 、关联规则成立的时间 传统的关联规则挖掘很少考虑关联规则的时间适用性,往往是在整个时间域 上进行关联规则提取,然而每个关联规则都有其成立的某一个或某些时间区域, 如果放弃对时间的考虑,容易丢失一些有用的信息1 2 彤】。 2 、序列关联规则 类似于序列模式的研究,只关心事件发生的顺序,对于具体的发生时间并不 讨论。规则中的前件和后件分步产生,可以运用己有的序列模式研究中的方 涉【1 3 ,1 4 】 t 厶 o 3 、时态关联规则模型的建立 由于时态关联规则的挖掘是在带有时间属性的数据上进行的,因而有关时态 数据的表示也需进行研究,以便于时态关联规则模型的建立p 1 | 。 4 、关联规则的周期性 主要是研究了有关周期时间区域的划分。把长度为1 的周期划分为等间隔 的时间区域,分别计算每个时间区域中项目子集的支持度以便于计算周期关联 第6 页河南大学硕士研究生学位论文 规则【圯j 。 目前对于带周期规律的时态关联规则的研究已经取得了一些进展,但是尚存 有不足。比如,所研究的时间类型较为单一,时间周期的确定方法不甚妥当;所 研究的属性的类型不够全面等等,存在很多问题,还有很多方面没有涉及。致力 于这方面的研究的学者们,任重而道远。 1 2 3 主要存在的问题 数据挖掘的主要问题是挖掘方法、用户交互、性能和各种数据类型,其研究 和应用将面临着许多的挑战,就本文而言,在财政绩效分析应用领域,主要反映 在以下几个方面: 1 、财政绩效分析数据的离散化。包括:财政绩效分析数据的预处理;与 具体财政知识背景的结合;对噪音和不完全数据的处理。 2 、财政绩效分析的时间属性问题。包括:财政绩效分析的时间点及时间段; 财政绩效分析中的时态和关联规则的结合等。 3 、财政绩效分析的时间周期性问题。包括:财政绩效分析的时间周期性的提 出、计算以及实现。 4 、关于算法的效率问题。包括:一个好的算法一定有好的执行性和高效率。 1 3 本文主要工作及内容组织 1 3 1 主要研究工作及贡献 本文通过对目前已有的数据挖掘技术进行分析,重点研究了关联规则的提取 方法,发现目前所使用的关联规则挖掘算法有时只是简单地根据最小支持度和置 信度将关联规则集合提取出来,未能反映事物之间的完全内涵。我们在挖掘关联 规则时附加上某种时态约束会使规则能更好地描述客观现实情况,这样有助于揭 示事物发展的本质规律,以便于用户发现更有用的信息,同时也提高规则发现的 速度。通过所提取的算法在财政绩效分析中的应用和分析,说明了财政事业发展 所遵循的事物发展由低到高、由弱到强的本质规律。对所挖掘的规则进行分析, 发现了更多其他研究方法没有发现的问题,对于下一步的财政改革发展有很重大 的现实指导意义。 河南大学硕士研究生学位论文第7 页 本文的主要贡献如下: 1 、对财政绩效的内容体系进行了全面的概括和分析。 2 、提出财政绩效分析数据的周期性规律,实现财政绩效数据的离散化。 3 、在对财政绩效分析固有时间属性进行分析的基础上,提出了财政绩效分析 中离散属性的周期计算方法,设计并实现了相关算法m p t a r 。 4 、将本文的研究成果应用于实践:在财政绩效分析中获得了成功有效的应用, 并给出财政绩效分析简易报告。 1 3 2 本文的内容组织 本文的主要研究内容是改进时态关联规则提取算法,并建立时态数据库,对 数据进行预处理,应用于财政绩效分析这一实际研究领域中。 本文的组织如下: 第1 章主要结合财政绩效分析的意义和所需要的技术手段,简述数据库中的 知识发现产生的背景和意义,分析了时态数据挖掘及关联规则的国内外研究现状 和存在的问题,说明了课题研究的意义和主要贡献并给出文章的组织结构。 第2 章简述财政绩效分析相关情况,全面地概括和论述了财政绩效分析的概 念、内涵、意义及目前分析的现状和不足之处。 第3 章介绍了数据挖掘技术及关联规则挖掘方法,简要叙述了数据挖掘的任 务、相关实现技术、相关应用及发展趋势及普通关联规则挖掘技术和算法,重点 讨论了经典的关联规则a 研嘶算法,并举实例对关联规则提取思想进行说明。 第4 章结合财政绩效分析数据的时间属性和特殊周期性,提出并实现时态关 联规则的改进算法m p t a r ,这是本文的主体之一。 第5 章将时态关联规则提取算法m p t a r 成功应用于财政绩效分析系统,与实 际情况进行比较验证分析,并给出财政绩效分析简易报告,这是本文的主体应用 部分。 最后是全文的总结,并展望了在未来时间内应当完善的问题。 第8 页;- i 南大学硕士研究生学位论文 第2 章财政绩效分析概论 财政绩效是对财政预算管理水平、财政资金投入与产出结果的比较、支出效 益与结构及财政资金与经济发展水平适度性、财政资金规模与速度等多方面状况 的综合反映,是地方政府财政现实能力与调控能力的具体体现。显然,财政绩效 优劣一方面取决于财政部门的行为、财政收支效益的提高,另一方面,也与地方 经济发展状况密切相关。财政绩效分析中最重要的评价指标就是财政收入支出绩 效分析【引。 2 1 财政绩效分析的意义和范畴 对财政绩效进行分析有着非常重要的意义,最主要的就是能够指导我们下一步 的工作。而财政绩效分析的范畴中最重要的部分就是财政收入和财政支出。 2 1 1 进行财政绩效分析的意义 随着我国财政体制改革的深化,加强财政资金管理,提高财政资金综合绩效 成为我国财政管理和改革的重要目标。其中,地市级财政作为我国整个财政体系 的重要组成部分,加强地市级财政资金管理、提高地市级财政资金绩效,对稳定 国民经济、优化资源配置和调节收入分配等起不可忽视的重要作用。所以,研究 全国某一地区财政资金绩效,通过对财政资金投入和产出结果的比较,以及分析 财政资金的规模和总体实力、财政预算管理水平、财政资金支出效益以及财政资 金和经济发展水平的适度等方面的综合状况,对该地区财政绩效给出一个综合性 的分析评价,对进一步改革该地方财政体制,促进经济发展,合理划清各级政府 间的事权和财权,建立规范的政府转移支付制度,加强财政宏观调控的作用都具 有深远意义。 在进行财政分析时,要根据某个地区一定时期的财政绩效水平高低的众多因 素,按照一定的原则和要求建立经济指标数据仓库。然后对数据进行清理、转换、 加载,采用关联、分类、聚类等数据分析手段,分析经济现象,预测可能的情况, 发现知识,提供科学决策的依据,从中得到有价值的信息,最后应用到管理决策 河南大学硕士研究生学位论文第9 页 中,成为政府部门、企业的辅助工具。 2 1 2 财政绩效分析中财政收入与财政支出的范畴 财政收入分为一般预算收入和基金预算收入。一般预算收入包括( 1 ) 工商税 收。包括增值税、营业税、消费税、专项调节税、个人所得税、证券交易税、遗 产税、土地增值税、外商投资企业和外国企业所得税、城市维护建设税、车船使 用税、房产税、屠宰税、资源税、印花税等;( 2 ) 关税;( 3 ) 农牧业税和耕地占 用税;( 4 ) 企业所得税;( 5 ) 国有企业上缴利润;( 6 ) 国有企业计划亏损补贴;( 7 ) 债务收入,包括中央政府和地方政府向外国政府或国际组织借款收入、国库券收 入等;( 8 ) 基本建设贷款归还收入;( 9 ) 其它收入,包括事业收入、外事服务收 入、中外合资企业其它收入等;( 1 0 ) 预算调剂收入,包括税收返还收入、上年结 余收入、调入资金等; r a i nc o n f i d e n c e 的规则爿b 。而如何高效地 第2 6 页河南大学硕士研究生学位论文 求出频繁项目集是关联规则挖掘算法的关键,目前在关联规则发现的研究论文中, 大部分的工作都是围绕此问题展开的。 a p r i o r i 算法利用频繁项集性质的先验知识( p r i o rk n o w l e d g e ) ,通过逐层搜索 的迭代方法,即将k 项集用于探察( 抖1 ) 项集,来穷尽数据集中的所有频繁项集。 算法思想为:先找到频繁1 项集集合三i ,然后用三l 找到频繁2 一项集集合上2 , 接着用三2 找上3 ,直到找不到频繁缸项集为止,找每个厶需要一次数据库扫描。 a p r i o r i 性质:频繁项集的所有非空子集也必须是频繁的。a p r i o r i 算法将a p r i o r i 性质用于产生频繁项集,用k 1 找“的过程由连接和剪枝两步组成: 1 、连接步:为找厶,通过与自己连接产生候选七项集的集合,候选项集的集 合记作c k 。设z i 和2 是l k 1 中的项集,其中l k 1 中的元素,l 和7 2 是可连接的。,i d 表示z i 的第,项( 例如,七2 】表示,l 的倒数第三项) 。假设事务或项集中的项按字 典次序排列。则k - l 中的两个元素z l 和如可以执行连接操作l k - lxl r 1 的条件是: ( h 1 】- 6 1 1 ) ( 1 1 1 2 = 2 1 2 1 ) a ( 1 l k - 2 】1 2 k - 2 ) a ( i t k - 1 】 1 2 k - 1 1 ) 。条件( 1 l k - 1 】 6 k - 1 ) 是简单的保证不产生重复。通过连接操作可产生的结果项集是: l l 1 l l 2 l , k - 1 1 6 k 1 】,记作c k 。 2 、剪枝步:设c k 是厶的超集,即它的成员可以不是频繁的,但所有的频繁 “项集都包含在c k 中。因此可以通过扫描数据库确定c k 中的每个候选的计数,从 而确定厶。由于c k 可能很大,这样所涉及的计算量就很大。为了减少计算量,可 以使用a p o r i 性质,即如果一个缸项集的伍子集不在b i 中,则该候选不可能 是频繁的,可以直接从g 中删除。 下面举一个例子来说明该算法的思想,如图3 2 所示。 设事务数据库d 如表3 1 所示,最小支持度阈值为o 5 。 表3 - 1 事务数据库t d b t d i t e m s 1 0a c d 2 0b c e 3 0ab ce 4 0 be 河南大学硕士研究生学位论文第2 7 页 ( ab ) a c ) a 目 f bc , be ) ( ce ) 图3 - 2a pr ior i 算法执行过程的一个样例 a p r i o r l 算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁 项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较d 、的数据集中 的关联规则挖掘问题。 3 3 小结 本章先是从知识的形态和知识产生的视角阐述了数据挖掘与知识发现的联 系,总结了数据挖掘的分类和作用。然后提出了关联规则挖掘理论,关联规则是 由a g r a w a l 等人首先提出的一个重要k d d 研究课题,它反映了大量数据中项目集 之间有趣的关联或相关联系。关联规则挖掘的算法分类中最经典的当属a p r i o r i 算 法,本文的主要算法就是基于a p r i o r i 改进的。 第2 8 页河南大学硕士研究生学位论文 第4 章改进的时态关联规则挖掘算法m p t a r 针对第2 章中财政绩效分析各方法出现的问题,通过对关联规则挖掘技术的 任务和功能的分析,我认为时态关联规则是非常适于财政绩效分析体系的技术手 段。本章在研究财政绩效分析相关内涵的基础上定义时态关联规则的概念、性质 及周期性发现,并提出了时态关联规则算法m p t a r ( m i n i n gp e r i o d i ct e m p o r a l a s s o c i a t i o nr u l e s ) 。 4 1 时态关联规则 关联规则挖掘作为数据挖掘的一种重要模式,已成为数据挖掘领域的一个非 常重要的研究课题。在实践中,由于时间是现实数据库本身固有的因素,所以在 数据中常常会发现时态语义问题,时态数据的出现使得有必要在关联规则挖掘过 程中考虑时间因素,即时态的约束问题,这种关联规则,称为时态关联规则【i2 1 。 为了解决这个问题,需要在数据模型中引入数据的时间属性。 将时态关联规则挖掘算法应用于财政绩效分析领域是一种新的突破性应用, 能够解决固有时间周期性的财政绩效分析相关问题,以下将对适用于财政绩效分 析的时态关联规则算法相关问题进行详细阐述。 4 1 1 时态关联规则概念 时态关联规则挖掘就是要发现事件与时间区间之间的关联以及基于时间区间 的事件与事件之间的关系。在这里,当遍历数据库进行候选项集的筛选时,还要 考虑项集所属时间区间的延展和归并。 l 、时间区间的延展 时间区间的延展是指将其两个端点向外扩张,以期使两个时间区间能够相遇 或交叠,然后再归并为同一个时间区间。其问题在于如何延展时间区间,一种方 法是将所有时间区间的两个端点均向外延伸固定的长度;另一种方法是按一定比 例延展时间区间。延展时间区间,前一方法由于没有考虑时间区间本身的长度, 河南大学硕士研究生学位论文第2 9 页 每个时间区间一律延伸了固定的长度。于是,与原来较大的时间区间相比,原来 较小的时间区间的细节信息损失较大,这不甚合理。因此,采用后者按一定比例 延展时间区间的方法,可使细节信息损失对不同大小的时间区间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论