(管理科学与工程专业论文)基于数据挖掘的航空公司全面预算管理研究.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的航空公司全面预算管理研究.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的航空公司全面预算管理研究.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的航空公司全面预算管理研究.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的航空公司全面预算管理研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(管理科学与工程专业论文)基于数据挖掘的航空公司全面预算管理研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 我国航空公司面临的竞争日益激烈,必须运用先进的管理手段,将企业管理的各方 面精细化,才能在激烈的竞争中立于不败之地。而“全面预算管理是为数不多的几个能 把组织的所有关键问题融合于一个体系之中的管理控制方法 。我国航空公司逐渐意识 到实施全面预算管理的必要性并开始积极探索,然而实践中还存在诸多问题。 本文在深刻剖析航空公司全面预算管理特点和数据挖掘本质的基础上,理论联系实 际,以规范研究为主,规范和实证研究相结合的方法,根据我国航空公司全面预算管理 现状,提出基于数据挖掘的民航预算编制方法的改进方案,并用实例证明方案的可行性。 本文根据民航损益表,定性分析确定三个具有代表性的预测目标:民航旅客周转量、 航油价格、汇率,进行模拟预算。通过引入数据挖掘技术,根据所预算目标的特点,分 别建立三种不同数据挖掘模型( 人工神经网络模型、白回归滑动平均模型、残差自回归 模型) ,运算过程采用m a t l a b 及s a s 软件工具实现,使预算编制更科学、准确、快捷, 从而进一步提高航空公司的全面预算管理水平,有利于航空公司进行准确的判断决策和 增强应对市场风险的能力。 关键词:数据挖掘全面预算管理人工神经网络自回归滑动平均模型 残差自回归模型 a b s t r a c t d u et ot h ei n c r e a s i n g l yf i e r c ec o m p e t i t i o ni nt h ec i v i la v i a t i o ni n d u s t r y , a i r l i n e si no u rc o u n t r y m u s ti m p r o v et h e i rm a n a g e m e n tc o m p r e h e n s i v e l yb yu s eo fa d v a n c e dm a n a g e m e n tm e t h o d s m a s t e rb u d g e t i n gm a n a g e m e n t ,w h i c hi so n eo ft h ef e wm a n a g e m e n ti n s t r u m e n t st h a tc a n c o m b i n ea l lt h ek e ym a t t e r si n t oas y s t e m ,i sa t t r a c t i n ga i r l i n e sa t t e n t i o n s m a n yd o m e s t i c a i r l i n e sh a v er e c o g n i z e dt h en e c e s s i t yt oi m p l e m e n tm a s t e rb u d g e t i n gm a n a g e m e n ta n da l s o a c t i v e l yp u ti ti n t oe f f e c t h o w e v e r , t h e r ei sag r e a td e a lo fp r a c t i c a lp r o b l e m sc o n f i n i n gi t s a v a i l a n a l y s i sr e g a r d i n ga i r l i n e s m a s t e rb u d g e t i n gm a n a g e m e n tc h a r a c t e r s a n dn a t u r eo fd a t a m i n i n gp r o v i d e st h et h e o r yb a s i s b yc o m b i n i n gt h e o r yw i t hp r a c t i c e ,i td i s c u s s e st h em a j o r p r o b l e m si n c u r r e di nt h eo p e r a t i o no fm a s t e rb u d g e t i n gm a n a g e m e n ti na c c o r d a n c ew i t hi t s s t a t u sq u o ,t h e np u t sf o r w a r dn e wm e t h o d sf o rp r e p a r i n gb u d g e t sb a s e do nt h et h e o r yo fd a t a m i n i n g , a n de x e m p l i f i e st h ef e a s i b i l i t yo ft h e s em e t h o d s a sw e l l p a s s e n g e r - k i l o m e t r e s ,a v i a t i o nf u e lp r i c e s ,e x c h a n g er a t e sa r et a k e na st h r e er e p r e s e n t a t i v e f o r e c a s t i n gi n d i c a t o r sw h i c ha r ef i x e dt h r o u g ht h ei n c o m es t a t e m e n t a c c o r d i n gt ot h e s e i n d i c a t o r s s p e c i f i cc h a r a c t e r i s t i c s ,t h r e ed i f f e r e n tm a t h e m a t i c a lm o d e l s ( a r t i f i c i a ln e u t r a l n e t w o r k sm o d e l ,a u t or e g r e s s i v ei n t e g r a t e dm o v i n ga v e r a g em o d l ea n da u t o - r e g r e s s i v e m o d l e ) a r ee s t a b l i s h e dr e s p e c t i v e l yb a s e do nt h et h e o r yo fd a t am i n i n g n ep r o c e s s e so f f o r e c a s t i n ga r eo p e r a t e db ys o f t w a r et o o l so fm a t l a ba n ds a s n en e wm e t h o d sb a s e do nt h e d a t am i n i n gc a nm a k ef o r e c a s t i n gm o r es c i e n t i f i c ,a c c u r a t ea n dc o n v e n i e n t i tc a l li m p r o v e a i r l i n e s p e r f o r m a n c eo nm a s t e rb u d g e t i n gm a n a g e m e n t , a n df a c i l i t a t ea i r l i n e s t om a k e e f f e c t i v ed e c i s i o n sa n dc o u n t e r a c tm a r k e tr i s k k e y w o r d s :d a t am i n i n g , m a s t e rb u d g e t i n gm a n a g e m e n t ,a r t i f i c i a ln e u t r a ln e t w o r k s , a u t or e g r e s s i v ei n t e g r a t e dm o v i n ga v e r a g em o d l e ,a u t o r e g r e s s i v em o d l e l i 中国民航大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得中国民航大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:夸i 戤日期:z l 芝p ,乞为 中国民航大学学位论文使用授权声明 中国民航大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件 和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全 部或部分内容。论文的公布( 包括刊登) 授权中国民航大学研究生部办理。 研究生签名:j 龃导师签名: 蝉 中国民航大学硕士学位论文 第一章绪论 1 1 研究背景及选题意义 古人云:“凡事预则立,不预则废。”在这个充满不确定性的时代,企业运营所面 临的风险及复杂程度日益增加。而全面预算管理作为管理的基本工具,在企业战略实施、 经营控制、资源整合与优化配置、规避风险方面发挥越来越大的作用,制定并有效实施 全面预算管理已成为现代企业理财的一种国际惯例。在国外,全面预算管理理论进入成 熟期,9 0 以上的企业都采用了全面预算管理;国内九十年代初期,上海宝钢集团有限 公司、中国石油天然气集团公司等相继采用了全面预算管理取得了显著成效。2 0 0 0 年以 来,国家经贸委、财政部陆续颁布了相关的行为规章制度,这标志着我国也逐渐开始重 视全面预算管理,并进入规范实施阶段。 民航重组以前,众多航空公司如:东航、南航、海航、深航、厦航、上航、山航、 川航、就开始采用全面预算管理,做到“事前预算,事中控制,事后考核 ,在成本控 制、预算管理、实时效益分析、航线规划、销售决策等方面取得显著成效。2 0 0 2 年3 月,我国政府对中国民航业再次重组以后,格局发生很大变化。9 家民航直属航空公司 重组为三大航空集团,占中国航空运输市场的8 0 份额,全面预算的作用更加凸显,真正 起到了对集团战略管理的强有力支撑。通过掌握企业信息、配置企业信息、综合企业的 管理资源,把资源配置到最有效的地方;控制企业发展导向,从而把握整个集团的发展 命脉。但重组之后的航空公司也存在一些问题: 1 、母公司与子公司之间存在信息高度不对称,造成预算有虚假成分。总公司与分 公司之间的信息不对称。 2 、在预算过程中有些重要但又不能通过普通的会计方法算出来的会计项目,比如 汇率、航油价格等。一般的全面预算管理采用的都是定性分析,或仅凭经验、“拍脑袋 得出数据,这是不科学、不准确的,与实际发生情况常常相差甚远。 数据挖掘技术能够对将来的趋势和行为进行预测,从而有力的支持人们的决策。数 据挖掘的作用与全面预算管理的目标不谋而合,而数据挖掘的优势恰恰弥补了全面预算 管理在预测方面的不足,并且数据挖掘作为一种成熟的预测技术手段,已经在各领域得 到广泛应用。可以说,将数据挖掘与全面预算管理的结合不仅具备必要性,更具备可行 性。 本文将着重于定量方法在航空公司全面预算管理中的运用,对一些典型的关键预算 的数据,利用数据挖掘方法,建立模型,预算未来数值,使航空公司全面预算管理更加 科学合理,适应不断变化的经营环境,从而有利于提高航空运输经营管理的水平,增强 企业的核心竞争力。 1 2 研究现状 1 2 1 国外研究现状 全面预算管理自上个世纪2 0 年代以来,经过产生期、发展期、成熟期三个阶段。 中国民航大学硕士学位论文 目前处于第三阶段。在这一阶段中,企业预算管理趋于成熟,成为西方现代企业采用的 一种重要方法。r o b e r t s k a p l a n 和a n t h o n ya a t k i s o n 在a d v a n c c dm a n a g e m e n t a c c o u n t i n g ) ) ( 1 9 9 8 ) 中,对基于代理人学说的预算研究,对于预算道德问题进行了参与 性预算和激励制度的设计n 1 。美国学者w e i t z m a n 在1 9 9 8 前苏联激励制度基础上,提出 了“激励模型 。该模型中,经营者或下级的工资由固定工资、按预算数的一定比例提 取的资金和按预算实际完成数提取的资金或惩罚等三部分组成乜1 。r o b e r tr a c h l m 在 h a n d b o o ko fb u d g e t i n g ) ( 1 9 9 9 ) 一文中提出的作业预算是基于作业分析并对组织预期 作业的数量表达,反映了战略目标所需进行的各项工作及相应的各种财务和非财务资源 需求,同时还反映为业绩所做的各种改进乜1 。k a p l a n 和n o r t o n 在t r a n s f o r m i n g t h e b a l a n c e ds c o r e c a r df r o mp e r f o r m a n c em e a s u r e m e n tt os t r a t e g i cm a n a g e m e n t ) ) ( 2 0 0 4 ) 一 文中,在保持原有预算的基础上,通过平衡计分卡将预算与战略、非财务指标联结起来, 使预算适应新的环境,形成k a p l a n 预算模式,为发挥预算在集团公司中的整合作用提 供了新的途径口1 。在这一时期,著名的计算机技术咨询和评估集团g a r t e rg r o u pi n c 提 出的一整套企业管理系统体系标准,其实质是在m r pi i ( m a n u f a c t u r i n gr e s o u r c e s p l a n n i n g ,“制造资源计划 ) 基础上,进一步发展而成的面向供应链( s u p p l yc h a i n ) 的管理思想。这种思想引入预算管理,形成一种面向企业供应链的预算管理模式。目前, 管理理论界不断地对预算管理进行更深入的研究,国际著名的研究机构c a m - 1 正在研究 一项名为“超越预算 ( b e y o n db u d g e t i n g ) 的计划,以使企业预算管理能更加适应复杂 多变的市场环境。 有关航空公司应用预算的研究。比较有代表性的有,塔尼加( n a w a li c t a n e j a ) 认 为要使航空公司财务计划更有效,需通过:( 1 ) 分析可选择的投、融资方案之间的相互 作用;( 2 ) 预测当前决策的预期结果,首先预测未来的形势,其次研究当前与未来决策 之间的联系1 。亚历山大t 韦尔斯( a l e x a n d e r t w e l l s ) 介绍了航空公司编制短期现 金预算和长期现金预算的意义h 1 。皮特s 莫莱尔( p e t e rs m o r r e l l ) 认为航空公司财 务计划依据公司的长期目标和相应的战略被分解为市场增长预测、市场占有率以及对为 达到该占有率预计耗费的资源喳1 。他在航空公司财务一书中介绍了航空公司预算的编制 方法、控制方法,并举例说明。约翰j 施翰( j o h nj s h e e h a n ) 认为航空公司业务部 门的管理者必须了解财务过程,否则他们容易被精通财务的人控制,造成管理失败。如 果预算循环不够快速而准确,那么它作为一个预测和计量工具的价值将大打折扣1 。 1 2 2 国内研究现状 随着改革开放,全面预算管理等管理会计理论和实务也随之被引入我国。虽然预算 管理在国外己盛行几十年,理论较为成熟,实践也证明了理论的可行性。但中国企业管 理与外国企业管理有着本质的差别,完全照搬国外的预算管理模式是错误的。中国学者 在国外理论与国内具体实践的基础上进一步对中国特色的全面预算管理进行研究。研究 成果如下: 王斌、李苹莉在关于企业预算目标确定及其分解的理论分析( 2 0 0 1 ) 中得到我国 2 中国民航大学硕士学位论文 企业管理过程中日益显露的问题,主要集中体现在预算目标确定、二级责任会计体系的 建立与完善、内部转移价格在预算管理中体现作用,以及预算考评与业绩评价等方面口1 。 汤谷良在基于公司战略预算目标体系模型的构建( 2 0 0 2 ) 中发现我国全面预算管 理的实践方面存在着一系列问题:如重视预算编制,轻视预算监控:要么过分强调预算 管理的理论性,或者要么过分强调企业所处行业特征和业务流程的特殊性:要么因强调 预算指标的“刚性而捆住不断变化的经营业务,或者要么强调预算调整的“柔性”而 使预算体系变得十分随意哺1 。 王斌在论管理会计工具整合系统( 2 0 0 2 ) 中提出预算管理的难点主要来自于两方 面:一是动力问题,二是实施基础问题。对于实施基础问题,主要有两类:一类是公司战 略与预算规划脱节。对于预算而言,如没有战略导向,或者战略导向性不强就很难确定 预算目标与预算起点,也就不可能有很好的预算。反过来,如果预算管理不能对未来战 略的实施起到过程支持的作用,预算功效也就不可能明显。还有一类是基础数据不够, 没有数据作支撑难以编制出有指导意义、并能被作为标杆进行过程控制的预算嘲。 高晨在企业预算管理以战略为导向( 2 0 0 2 ) 一书中就“对我国企业的管理现 状而言,超越预算是否有普遍适用性 的问题主张用权变的观点来看待,认为组织复杂 多样,因此相应的管理控制模式和效果是随组织变量而权变的。对于多数传统中国企业 不能说“预算已经过时 ,而是改造传统预算使之与更具战略性的其他管理控制方法相 互配合,利用预算管理的全过程管理和综合性管理的框架,更好地实施对组织的管理控 制,这是提高企业管理绩效的必要举措n 阳。 于增彪等学者在关于集团公司预算管理系统的框架研究( 2 0 0 4 ) 在考察中外预算 管理文献和实务的基础上,提出中国式预算管理系统的框架,为理论和实务工作者解决 中国预算管理研究和实务中的分散性问题提供了一个共同的参照系。该框架将预算与财 务会计、战略、平衡记分卡、非财务指标、奖惩制度等因素集成为一个整体,是k a p l a n 预算模式在中国的改进和拓展n 。 关于数据挖掘在全面预算管理中的应用方面,相关资料较少。但数据挖掘在财务预 测中的应用方面有一些相关文章可以进行借鉴。如下: 2 0 0 5 年,李爱玲等人在数据挖掘在财务预测中的应用一文中,提出企业决策离 不开财务预测,传统的预测系统已远远不能满足要求本文对数据挖掘的基本原理作了 阐述,分析了数据挖掘的流程及主要功能,介绍了数据挖掘工具的特点,并在此基础上研 究了数据挖掘技术在财务预测中的一些应用u 剔。 2 0 0 6 年,曲吉林在数据挖掘在财务领域中的应用一文中,写到目前企业普遍面 临“数据爆炸、知识匮乏 的困境,如何从会计信息系统等信息资源中挖掘出潜在的知 识,为管理和决策服务,是企业迫切需要解决的问题。本文主要研究数据挖掘技术在财务 领域中的应用问题,介绍了数据挖掘的基本原理和方法,对数据挖掘在财务分析、预测、 危机预警等方面的应用进行了探讨n 引。 2 0 0 7 年,郭素蓉在浅谈数据挖掘在财务风险分析中的应用中指出,财务风险它 3 中国民航大学硕仁学位论文 能够全面反映企业的经营状况,因此企业经营者应经常对企业进行财务风险分析。但传 统的数据分析方法,如数据检索、统计分析等只能获得数据的表层信息,不能获得其内在 的、深层次的信息,管理者如何对这些数据进行分析,加强财务风险控制,对企业的发展 具有重大的意义。本文首先对企业财务风险和数据挖掘相关知识进行了阐述,其次简要 阐述数据挖掘在财务风险分析中的应用n 钔。 2 0 0 7 年,韩金红在应用数据挖掘技术提升财务分析质量中写到,数据挖掘技术 是从不确定的、不完全的、模糊的、随机的实际应用数据中,提取隐藏在其中的、事先 不知道的,但又是潜在有用的信息和知识的过程。它被应用于众多领域,其中利用数据 挖掘技术对公司财务状况分析是常见的,同时也是非常重要的方面n 引。 有关航空公司预算的研究。我国有关航空公司全面预算管理方面的研究还比较少, 大部分属于应用方面的研究。比较有代表性的:余海宗、朱永波、张健指出民航业全面 预算存在的问题及原因分析及民航业深化运用全面预算的思路n 帕。肖立新,谢双云分别 对航空公司成本预算管理实践总结了经验。孙新宪、胡建琦在分析了我国航空公司开展 全面预算管理现状的基础上,指出了其实施过程中存在的问题,并给出了相应的对策n 。 由以上国内外文献综述可以看出,全面预算管理在国外,理论己较为成熟,而且一 些新管理思想的出现,赋予全面预算管理新的内涵。国内这方面理论研究起步较晚,主 要是借鉴国外的成熟理论,在此基础上,根据我国的企业管理特色以及管理实践,加以 有针对性的改进。在全面预算管理中采用数据挖掘建立数学模型进行预测的研究极少, 只有一些文章指出在财务分析预测中将会应用数据挖掘技术的趋势。研究航空公司全面 预算管理方面文章更少,这些文章只是提出一些加强航空公司预算管理的框架性思路, 并未涉及利用数据挖掘方法进行预算的研究。 1 3 研究目标、研究内容及技术路线 1 3 1 研究目标 目前国内外关于航空公司全面预算管理的理论较为成熟。但在对某些预算指标进行 具体预测时,大多数企业较少采用复杂数学模型进行预测,而只是根据经验或者简单数 学模型进行估测,带有很强的主观性,缺乏科学依据。本文在一个典型的航空公司全面 预算管理流程中,找到三个具有代表性的预测目标:周转量、航油价格、汇率,进行模 拟预算。通过引入数据挖掘技术,建立数学模型,进行预算,使预算更准确,从而进一 步改进了航空公司的全面预算管理。 1 3 2 研究主要内容及技术路线 本文研究的主要内容如下: l 、全面预算管理理论的内容、模式、体系等。 2 、航空公司全面预算管理体系实施具体情况,分析现今全面预算管理流程中存在 的预算问题。 3 、全面预算管理中与预测相关的数据挖掘技术:神经网络、统计学中的时序分析 技术。 4 中国民航大学硕十学位论文 4 、数据挖掘技术工具m a t l a b 、s a s 的应用。 5 、数据挖掘技术在航空公司全面预算管理中的运用,包括:神经网络模型在周转量 预测中的应用,a r i m a 模型在航油价格预测中的应用,a u t o r e g r e s s i o n 模型在汇率预 测中的应用。 6 、提出关于全面预算管理中预测的一些建议。 本文的研究技术路线如下图所示: 图1 - 1 论文研究技术路线框图 5 中国民航大学硕士学位论文 第二章数据挖掘技术理论 2 1 理论概述 2 1 1 概念及功能 数据挖掘是一门交叉学科,融合数据库、人工智能、机器学习、统计学等多个领域 的理论和技术。数据库、人工智能和数理统计是数据挖掘研究的三根强大的技术支柱。 数据挖掘( d a t am i n i n g ,简称:d m ) 顾名思义就是从大量的数据中挖掘出有用的信 息,即从大量的、不完全的、有噪声的、随机的实际应用数据中发现隐含的、规律性的、 人们事先未知的,但是又潜在有用的并且最终可以理解的信息和知识的非平凡过程n 引。 数据挖掘又称数据库中知识发现( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e ,简称k d d ) , 它是从大量数据中抽取挖掘出来未知的、有价值的模式或规律等知识的复杂过程n 们。 整个知识挖掘( k d d ) 过程中是由若干挖掘步骤组成,而数据挖掘仅是其中的一个 主要步骤。整个知识挖掘的主要步骤有n 钔: 数据清洗:其作用就是清除数据噪声与挖掘主题明显无关的数据。 数据集成:其作用就是将来自多数据源中的相关数据组合到一起。 数据转换:其作用就是将数据转换为易于进行数据挖掘的存储形式。 数据挖掘:它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式 或规律知识。 模式评估:其作用就是根据一定的评估标准,从挖掘结果中筛选出有意义的模式知 识。 知识表示:其作用就是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。 尽管数据挖掘是整个知识挖掘过程中的一个重要步骤,但由于目前工业界、媒体、 数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此可以用“数据 挖掘 来表示整个知识挖掘过程,即数据挖掘就是从一个数据库、数据仓库中或其他信 息资源库的大量数据中发掘出有用的知识n 鲫。 数据挖掘的功能主要如下: 概念描述:一个概念常常是对一个包含大量数据的数据集合总体情况的概述。对含 有大量数据的数据集合进行概述性的总结,并获得简明、准确的描述,这种描述就称为 概念描述。数据挖掘可以对某类对象的内涵进行描述,并概括这类对象的有关特征n 引。 关联分析:关联就是两个或多个变量的取值之间存在某种规律性。它是数据库中存 在的一类重要的可被发现的知识,包括简单关联、时序关联和因果关联等。关联分析的 目的是找出数据库种隐藏的关联网啪1 。 分类与预测:分类就是找出一组能够描述数据集合典型特征的模型( 或函数) ,以 便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类 模型( 或函数) 可以通过分类挖掘算法从一组训练样本数据( 其类别归属已知) 中学习 获得。分类通常用于预测未知数据与实例的归属类别( 有限离散值) 。但一些情况下, 6 中国民航大学硕士学位论文 需要预测某数值属性的值( 连续数值) ,这样的分类就被称为预测n 9 1 。 聚类分析:数据库中的记录可被划分为一系列有意义的子集,这个过程被称为聚类。 它与分类和预测不同,只是分析数据对象,而不考虑已知的类标记嘲。 偏差分析:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型 预测值的偏差、量值随时间的变化等心。 演化分析:数据演化分析就是对随事件变化的数据对象的变化规律和趋势进行建模 描述。这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关 数据分析( 这其中又包括:时序数据分析、序列或周期模式匹配,以及基于相似性的数 据分析) n 钉。 本文所利用的是数据挖掘工具的演化分析功能,具体来说是进行时间相关数据分 析,对一些代表性的数据项的值进行预测。 2 1 2 基本技术 针对每一种数据挖掘功能,都有相关的数据挖掘技术来实现。数据挖掘的方法和工 具包括统计学、决策树、神经网络、模糊逻辑、线性规划等。下面针对主流数据挖掘预 测技术来进行阐述。 1 、人工神经网络 人工神经网络常用于两类问题:分类和回归。神经元的模型是参照人脑细胞的结构 建立的。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每 个节点对应一个预测变量,输出层的节点对应目标变量。在输入层和输出层之间是隐含 层,隐含层的层数和每层节点的个数决定了神经网络的复杂度。除了输入层的节点,神 经网络的每个节点都与它前面的许多节点连接在一起,每个连接对应一个权重w r ,此节 点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而 得到,把这个函数称为活动函数或挤压函数乜副。 目前世界上有4 0 多种神经网络模型,其中具有代表性的有:b p 网络、回归b p 网络、 g m d h 网络、径向基函数r b f 、感知器、c g 网络、盒中脑( b s b ) 模型、h o p f i e l d 神经网 络等。从信息传递规律来看,这些模型大体可以分为三种类型,即:前馈网络( f e e d f o r w a r d n e u r a ln e t w o r k s ) 、反馈网络( f e e d b a c kn e u r a ln e t w o r k s ) 和自组织网络( s e l f - o r g a n i z i n g n e u r a ln e t w o r k s ) 。 本文所涉及的周转量预测模型采用反向传播网络( b p 网络) 方法,属于前向型神 经网络的一种,这种结构包含了神经网络理论中最精华的部分,结构简单,可塑性强, 比较适合预测、模式识别、非线性函数的逼近。 2 、统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关系) 和 相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可采用统计学 方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计( 求大量数据中 7 中国民航大学硕士学位论文 的最大值、最小值、总和、平均值等) 、回归分析( 用回归方程来表示变量间的数量关系) 、 相关分析( 用相关系数来度量变量间的相关程度) 、差异分析( 从样本统计量的值得出差异 来确定总体参数之间是否存在差异1 ) 等。 3 、决策树 在决策树方法中,首先从实例集中构造决策树,这是一种有指导的学习方法。该方 法先根据训练集数据形成决策树。如果该树不能对所有对象给出正确的分类,那么选择 一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决 策集的树形结构。最终结果是一棵树,其叶结点是类名,中间结点是带有分支的属性, 该分支对应该属性的某一可能值n 引。 决策树是有力的分类工具,提供一个属性集合,决策树通过在属性集的基础上做出 一系列的决策来将数据分类。 4 、遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优 化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中 被加以应用。 遗传算法已在优化计算和分类机器学习方面发挥了显著作用。优化与搜索是遗传算 法首先应用的场合,它可以避免局部优化,从而保证搜索的全局收敛性。遗传算法的应 用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在 不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和b p 算法结合训练 神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早 收敛问题尚未解决。 5 、粗集方法 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需 要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是 类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管 理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接 处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制 约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件, 如加拿大r e g i n a 大学开发的k d d r :美国k a n s a s 大学开发的l e r s 等。 2 1 - 3 工具及应用 目前,国外有许多研究机构、公司和学术组织从事数据挖掘工具的研究和开发。这 些工具可以分成三类:通用的工具、综合d e c i s i o ns u p p o r ts y s t e m ( d s s ) o l a p 数据挖掘 工具和特定应用领域的工具。下面介绍一些主流数据挖掘工具乜。 1 、e n t e r p r i s em i n e r s a s ( s t a t i s t i c a l a n a l y s i ss y s t e m ) ,直译过来就是统计分析系统,它是一种专门进行 数学建模和统计分析软件。在s a s 系统中有一个企业挖掘机( e n t e r p r i s em i n e r ,s a s e m ) 8 中国民航大学硕士学位论文 是一个有图形化界面的、菜单驱动的、功能强大的企业级数据挖掘集成环境。其中集成 了数据获取工具、数据抽样工具、数据筛选工具、数据转换工具、数据挖掘工具及统计 工具,还有用于建立决策树的数据剖分工具、决策树浏览工具和数据挖掘的评价工具等。 由于s a s 系统有全球一流的数据仓库功能,因此在海量数据的时间序列分析时它具有其 他统计软件无可比拟的优势。 2 、c l e m e n t i n e s p s s 也有自己的数据挖掘产品c l e m e n t i n e ,功能包括:分类预测、聚类、关联分析、 时序分析等功能,提供神经网络、决策树与回归树、线性回归、自组织网络、主成分分 析和因子分析等多种方法,具有交互式可视化的用户界面以及开放的数据库接口等。有 强大的发布功能,可将数据挖掘模型或者整个数据挖掘流程导出至嵌入系统;能够提供 完善的数据流管理和项目管理功能,特别针对电信行业和客户关系管理定制了数据挖掘 模板供用户使用。 3 、i n t e l l i g e n tm i n e r i n t e l l i g e n tm i n e r 是由i b m 公司开发的实用挖掘工具之一。它提供了专门在数据库 上进行各种挖掘的功能,包括关联规则发现、序列模式发现、时间序列聚类、决策树分 类和增量式挖掘等等。i n t e l l i g e n tm i n e r 工具主要有以下两类:i n t e l l i g e n tm i n e rf o rd a t a ( 数 据智能挖掘机) 以及i n t e l l i g e n tm i n e rf o rt e x t ( 文本智能挖掘机) 。 4 、m i i l s e t m i n s e t 是由s g i 公司和美国斯坦福大学联合开发的多任务数据挖掘系统。它集成 了分类器、回归模式挖掘、关联规则发现和聚类等多种数据挖掘方法,支持多种关系数 据库,可以直接从o r a c l e 、s y b a s e 的表中读取数据,也可通过s q l 命令查询。 5 、d a r w i n o r a c l e 公司开发的数据挖掘工具,可以直接在数据库上进行数据挖掘,支持多类 数据源,提供神经网络、分类和回归树、遗传算法及可视化功能,模型能够作为c 、c + + 、 j a v a 代码导出,易于与其他应用程序集成。 6 、d b m i n e r d b m i n e r 由加拿大s i m o nf r a s t e r 大学韩家玮教授的研究组开发。d b m i n e r 实现了 与关系数据库的平滑集成,通过一种交互式的类s o l 语言数据挖掘查询语言d m q l 进行多任务数据挖掘。它综合面向属性的归纳、统计分析等多种数据挖掘技术,从数据 库中发现泛化规则、特性规则、关联规则等。目前d b m i n e r 具有基于客户服务器体系 结构的u n i x 和w i n d o w s 版本的系统。 7 、m a f l a b m a t l a b 6 x 是一种数值计算应用软件,可以进行数据分析,数值和符号计算,工程 科学绘图、控制系统设计、数字图像信号处理等诸多领域。m a t l a b 自带大量工具箱,基 本涵盖了所有神经网络的基本常用模型,对于不同的网络模型,又分别提供了多种算法。 网络编程人员可以直接根据自己需要去调用工具箱中有关设计和训练程序,不仅避免了 9 中国民航大学硕士学位论文 手工计算的繁杂,还提高了准度和精度,使其可以集中精力去解决其他问题,极大程度 提高了工作效率。 本模型采用两种数据挖掘工具进行分析,针对b p 网络,采取m a t l a b 进行分析;后 两种模型均为统计模型,采用s a s 软件进行分析。 从应用的角度来看,数据挖掘可被应用到多个数据密集型领域( 如表2 1 ) ,将杂乱 的数据变废为宝,分析出潜在的信息和知识,从而改观过去人们凭主观臆断的决策模式。 表2 1 数据挖掘主要应用领域胁3 应用内容描述 领域 市场通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或 营销 个体的兴趣、消费习惯、倾向和需求,进而推断出相应消费群体或个体下一步 的消费行为,基于数据挖掘技术,已经开发出商业智能( e i ) 、客户智能( c i ) 等应用性工具,广泛应用于金融、电信、零售等行业。 w e b将数据挖掘技术应用于w e b ,可以直接从万维网资源上抽取信息( 或知识) ,是 资源 对w e b 资源中蕴涵的、未知的、有潜在应用价值的模式的提取,从而加快开发 开发w e b 资源的进程。 生物 主要集中于分子生物学特别是基因工程的研究。目前,数据挖掘技术正在用于 工程 对基因图进行解释,从而发现各种蛋白质和p d - i a 的结构和功能。 工业 将数据挖掘技术用于工业制造,可以分析出产品质量与产品的各种加工条件、 制造控制参数之间的关系,从而可以加强对改进产品质量提出针对性很强的建议。 比如波音公司基于数据挖掘技术开发出来的c a s s i o p s s ,可用于诊断和预测在 制造波音飞机制造过程中可能出现的问题。 其实,在那些存在着海量数据的领域,数据挖掘技术都可以一显身手。例如风险分 析和欺诈识别、司法交通、甚至体育等领域都可以使用这一技术。 2 2 人工神经网络技术 人工神经网络( a r t i f i c i a ln e u t r a ln e t w o r ka n n ) 是在人类对其大脑神经网络认识理 解的基础上,人工构造的能够实现某种功能的神经网络。它是理论化人脑神经网络的数 学模型,是基于模仿人脑神经网络结构和功能而建立的一种信息处理系统。它实际上是 由大量简单元件相互连接而成的复杂网络,具有高度的非线性,能够进行复杂的逻辑操 作和非线性关系实现的系统心制。 人工神经网络的发展经历了大约半个世纪,从2 0 世纪4 0 年代初到8 0 年代,神经 网络的研究经历了低潮与高潮几起几落的发展过程。目前,人工神经网络的应用领域范 围及其广泛,在人工智能、控制和优化、信息的智能化处理、模式识别等方面都有重要 的应用实例。 2 2 1 技术介绍 1 、人工神经元结构模型 1 0 中国民航大学硕士学位论文 人工神经网络是参照生物神经网络发展起来的。人脑神经系统的基本单元是神经细 胞,即生物神经元。神经细胞与人体其他细胞的关键区别在于,细胞具有产生、处理和 传递信号的能力。同样,神经网络的基本单元是人工神经元。人工神经元仿照生物神经 元的传递信息的过程,相当于一个多输入单输出的非线性阀值器件。如图2 - 1 。定义 p 暑【p 。,p :,n r 表示其他神经元的轴突输出,亦即该神经元的输入向量: 王【q ,鸭,】表示其他神经元与该神经元尺个突触地连接强度,亦即权值向量,其每 个元素的值可正可负,分别表示为兴奋性突触和抑制性突触;0 为神经元的阀值,如果 置 罗w i p i 神经元输入向量的加权和 箭 大于0 ,则该神经元被激活,所以输入向量的加权和 也称为激活值;厂表示神经元的输入输出关系函数,亦即传输函数。因为激活值越大, 表示神经元的膜电位总和越大,该神经元兴奋所发放的脉冲数越多,所以传输函数一般 为单调增函数。但它又是一个有限值函数,因为神经元发放的脉冲数是有限的。这样, 神经元的输出可以表示为瞄1 : ,。r a 暑厂( :呦一力 舒 ( 2 1 ) 从以上分析可以看出,人工神经元反映了生物神经元的基本功能。 p l p 2 : p l 图2 - 1 人工神经元模型 a 2 、神经网络的结构 只有上亿个生物神经元连接成生物神经网络,才能完成对外部感知信息进行的处 理、记忆、学习等。同样,单个人工神经网络往往不能完成对输入信号的处理,它要按 一定的规则连接成网络,并让网络中每个神经元的权值和阀值按一定规则变化,才能实 现所设计神经网络的功能要求。人工神经网络的连接形式和其拓扑结构多种多样,但总 的来说有两种形式,即分层型和互联型神经网络。 分层型神经网络的拓扑结构如图2 2 所示,它又分为简单前馈网络、反馈型前馈网 络和内层互连前馈网络瞻5 1 。 中国民航大学硕j :学位论文 ( a ) 一般前馈网络( b ) 反馈型前馈网络 图2 - 2 分层型神经网络的拓扑结构 分层型神经网络将所有神经元按功能分为若干层,一般有输入层、中间层和输出层, 各层顺序连接。 一般前馈网络,各神经元接受前一层的输入,并输出给下一层,没有反馈。结点分 为两类,输入单元和计算单元,每一计算单元可以有任意个输入,但只有一个输出( 它 可以耦合到任意多个其他节点作为输入) 。通常前馈网络可以分为不同层,第i 层输入 只与第i - 1 层输出相连。 反馈型前馈网络,其所有结点都是计算单元,同时也可接受输入,并向外界输出, 其中每个节点都可以接受输入,并向外界输出,其中每个连接弧都可以是双向的。 互联性神经网络中任意两个神经元都可以相互连接,构成全互联神经网络;如果不 是全部的神经元都彼此互相连接,则构成局部互联神经网络。 3 、神经网络学习方法 和生物在大自然中具有适应性一样,神经网络也需要学习,也n q i j i l 练,指的是通过 神经网络所在环境的刺激作用调节神经网络的参数( 阀值和权值) ,使神经网络以一种 新的方式对外部环境做出反应的一个过程。能够从环境中学习和在学习中提高自身性能 是人工神经网络的最有意义的性质。根据学习过程的组织方式不同,学习方式分为两类, 有监督学习和无监督学习网。 对于有监督学习,网络训练往往要基于一定数量的训练样本。训练样本通常由输入 矢量和目标矢量组成。在学习和训练过程中,网络根据实际输出与期望输出的比较,进 行连接权值和阀值的调节。通常将期望输出成为教师信号,它是评价学习的标准。最典 型的监督学习算法是b p ( b a c kp r o p a g a t i o n ) 算法,即误差反向传播算法。 对于无监督学习,则无教师提供给网络,网络能根据其特有的结构和学习规则,进 行连接权值和阀值的调整、测试,网络学习评价标准隐含于其内部。比如聚类或某种统 计上的分布特征等。 4 、神经网络的特点 有大量神经元相互连接组成的人工神经网络,具有下列一些基本特征: ( 1 ) 并行分布处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论