(计算机应用技术专业论文)基于回归数据挖掘预测系统的分析与研究.pdf_第1页
(计算机应用技术专业论文)基于回归数据挖掘预测系统的分析与研究.pdf_第2页
(计算机应用技术专业论文)基于回归数据挖掘预测系统的分析与研究.pdf_第3页
(计算机应用技术专业论文)基于回归数据挖掘预测系统的分析与研究.pdf_第4页
(计算机应用技术专业论文)基于回归数据挖掘预测系统的分析与研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 本文的主要研究目的就是为了解决在数据挖掘中如何有效利用已有数据记 录自动推导出对给定数据的推广描述,从而能对未来数据进行预测。回归、决策 树和神经网络都可片j 于预测。利决策树和神经网络方法刁i 同的足,回归的输出是 连续数值,而决策树和神经网络方法的输出则是离散的类别值。本文主要讨论回 归分析方法在数据挖掘预测系统中的应用。 回归分析是数据挖掘预测系统中的重要方法之一,回归分析可分为线性同归 及非线性回归。并且在回归分析中,对系数估计的优化准则通常是基于传统的最 小二乘法实现回归预测。本文应用两种新的方法:一种为基于神经网络的回归分 析法;另一种为基于遗传算法的回归分析法。 本文详细介绍了四种回归分析的优化算法:最小二乘法、基于前馈神经网络 模型模糊感知器回归分析法、基于b p 算法神经网络的回归分析法、基于遗传算 法的回归分析法。还总结了预测系统中回归分析各种实现方法,并对其进行了比 较。 最后,本文把几种常用的回归分析的算法应用于实际数据挖掘预测系统中, 通过对实际数据的分析进一步说明回归分析在数据挖掘中的作用极为重要,对各 种数据分析都可以起到很好的预测效果。 关键词:数据挖掘预测系统回归分析最小二乘法神经i 叫络模糊感 知器遗传算法 a b s t r a c t m a i nr e s e a r c ho ft h i sp a p e ri st os o lv et h ep r o b l e mt h a th o wt os e t t l e t h ee x i s t e dd a t a r e c o r de f f e c t i r e l yt od e r i v ea u t o m a t i c a l l yt h es p r e a d i n g d e s c r i b eo ft h ed e f i n i t ed a t a ,t h u sw h i c hc a np r e d i c tt h ed a t ai n t h e f u t u r e r e g r e s s i o n d e c i s j o n t r e e ,n e u r a ln e t w o r kc a nb e u s e di n d r e d i c t i n g t h ed i f f e r e n e eb e t w e e nt h em e t h o do fd e c i s i o nt r e ea n dn e u r a l n e t w o r ki st h a tt h eo u t p u to fr e g r e s s i o ni sc o n t i n u o u sn u m b e rv a l u e ,b u t t h e o u t p u t o fd e c i s i o nt r e ea n dn e u r a ln e t w o r ka r et h ed i s p e r s e d c l a s s i f i c a t i o nv a l u e w ew i l ld is c u s sm a i n l yt h a tt h em e t h o do fr e g r e s s i o n a n a l y s i si sa p p l i e di nt h ed a t am i n i n gp r e d i c t i n gs y s t e m r e g r e s s i o na n a l y s i sjso n eo ft h ei m p o r t a n tm e t h o d si nt h ed a t am i n i n g p r e d i c t i n gs y s t e m ,a n di t c a nb ed i v i d e di n t ol i n e a rr e g r e s s i o na n d n o n 一1i n e a rr e g r e s s i o n a n dt h eo p t i m i z a t i o nc r i t e r i o no fe s t i m a t i o nf o r t h ee s t i m a t e dp a r a m e t e ri su s u a l l ym e t h o d o fl e a s ts q u a r e sd u r i n gt h e r e g r e s s i o na n a l y s i s t h i sp a p e ri n t r o d u c e df o u rk i n d so fo p t i m i z a t i o n a l g o r i t h mo fr e g r e s s i o na n a l y s i s :m e t h o do fl e a s ts q u a r e s ,n e u r a ln e t w o r k f u z z vd c r c e d t r o nm e t h o d n e u r a ln e t w o r kb pa l g o r i t h m sa n o t h e rk i n d i s g e n e t i ca l g o r i t h m sb a s e dr e g r e s s i o na n a l y s i s r e g r e s s i o na n a l y s i s a l s o s u m m a r iz e dv a r i o u sk i n d so fi m p l e m e n t a t i o nm e t h o d si n t h ep r e d i c t i n g s y s t e m ,a n dh a v ec o m p a r e dt h e m f i n a l l y ,t h i sp a p e rh a sa p p l i e ds o m ek i n d so fc o m l n o a l yu s e dr e g r e s s i o n a n a l v s i sa l g o r i t h m si nt h er e a ld a t am i n i n gp r e d _ ic t i n gs y s t e m i te x p l a i n f a t h e r l yr e g r e ss i o na n a l y s i sa l g o r i t h mi se x t r e m e l yi m p o r t a n ti n d a t a m i n i n gt h r o u g ht h ea n a l y s i so fr e a ld a t a ,a n dc a ng e tu pt ov e r yg o o d p r e d i c t i o nr e s u l ti nv a r i o u sk i n d so fd a t aa n a l y s i s k e yw o r d s :d a t am i n i n g ,p r e d ic ts y s t e m ,r e g r e s s i o na n a l y s i s ,m e t h o d o fl e a s ts q u a r e s ,n e u r a ln e t w o r k ,f u z z yp e r c e p t r o n ,g e n e t i ca l g o r i t h m s 独创性声明 本人声明辑呈交豹学位论文是本人在导燃攘导下避行熬磷究工作鞠取得浆 研究成聚,隐了文中特别加以栎注帮致谢之处夕 ,论文中不包含其他人已经发表 或撰写过豹硬究或裂,也不包含为获得丕冀杰雯或其他教育机构黥学位或诞 书而使厢过的褙料。与我葡工作豹同志对本研究所做的任何贡献均已l 在论文中 俸了骥确懿说骥并表示了巍意。 学位论文作者签名:冯勘 签字目辎:御路年岔月弦目 学位论文版权使用授权书 本学位论文作翥完全了解i 燮2 妄! 兰有关保留、霞掰学位论文的规定。 特授投芙蓬太学可以褥学位论文鹣全部袋部分内誊绽入有关数据霹进嚣检 索,并采用影印、缩印或扫描簿复裁手段保存、汇编以供查阅釉借阐。同意学校 蠢甏家有关部门或季晁弱送交沦文翡复露箨帮磁鑫。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:冯勐 导师签名:触缸霹 签字| 三i 期:了口心年雾胃黝嗣签字目期吱州r 年p 月1 9 | = ;= | 天津大学硕士学位论文 第一章数据挖掘概论 1 1 数据挖掘定义 第一章数据挖掘概论 当今随着数据库和各类信息系统应用的不断深入,超量数据充斥着我们的 计算机、网络、生活,政府机构、科研机构和企业都投入大量的资金去收集和存 、储数据。在这些大量数据的背后隐藏了很多具有决策意义的信息,实际上这些数 据只有- - 4 , 部分被用到,因为在很多情况下,要么数据太大了,难于管理,要么 就是数据结构太复杂,不能进行有效的分析。那么怎么得到这些具有决策意义的 信息“知识”呢? 也就是怎样通过一颗颗的树木了解到整个森林的情况? 计算机科学对这个问题给出的最新回答就是:数据挖掘。在“数据矿山” 中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报。数 据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的 公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们 的产品推广策略( 把产品推广给最需要他们的人) ,以用最小的花费得到最好的 销售。 数据挖掘( d a t am i n i n g ) 就是指从大量的数据中抽取出潜在的、不为人知 的有用信息、模式和趋势。数据挖掘技术是在2 0 世纪8 0 年代被提出来的,并在 9 0 年代取得了长足的发展,是当今数据库系统及其应用领域中的一个热点话题。 数据挖掘从技术上定义为从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含的、规律性的、人们事先未知的、但又是潜在有用 的并且最终可理解的信息和知识的非平凡过程。事先未知的信息是指该信息是预 先未曾预料到的,数据挖掘就是要发现那些不能靠直觉发现的信息或知识,甚至 是违背直觉的信息或知识。挖掘出的信息越出乎意料,就可能越有价值。所挖掘 的知识的类型包括模型、规律、规则、模式、约束等。潜在有用性是指发现的知 识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的、 有实用价值和可实现的。常识性的结论或已被人们掌握的事实或无法实现的推测 都是没有意义的。最终可理解性要求发现的模式能被用户理解,目前它主要体现 在简洁性上。发现的知识要可接受、可理解、可运用,最好能用自然语言表达所 发现的结果。非平凡通常是指数据挖掘过程不是线性的,在挖掘过程中有反复、 天津大学硕士学位论文 第一章数据挖掘概论 有循环、所挖掘的知识往往不易通过简单的分析就能够得到,这些知识可能隐含 在表面现象的内部,需要经过大量数据的比较分析,应用一些专门处理大数据量 的数据挖掘工具。 数据挖掘从商业角度的定义:按企业既定业务e l 标,对大量的企业数据进 行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化 的先进有效的方法。从商业角度看,数据挖掘的主要特点是对商业数据库中的大 量数据进行抽取、转化、分析和模式化处理,从中提取商业决策的关键知识,即 从数据库中自动发现相关商业模式。 1 2 数据挖掘的目的和成功的要素 数据挖掘可以应用在各个不同的领域。它是一个利用各种分析工具在海量数 据中发现模型和数据间关系的过程,使用这些数据和关系可以进行预测,它帮助 决策者寻找数据间潜在的关系,发现被忽略的因素。预测是使用数据集中的一些 变量或域来预测其他我们所关心变量的未知或未来的值,以往需要领域专家和分 析人员进行大量人工分析的问题,如今可以直接由数据本身迅速得出基于知识的 决策。 快速、准确、高效地收集和分析数据是企业提高决策水平和增强企业竞争力 的重要的手段,企业数据就像埋藏在深山中的金矿,如果不能供企业决策人员使 用,就不能充分发挥其应有的价值。所以数据挖掘的重要性显而易见,而数据挖 掘的目的就是:提高市场决策能力;检测异常模式;在过去的经验基础上预言未 来趋势等。 有保证数据挖掘成功的两个关键要素:一是准确的定义你所要解决的问题, 定位准确的问题通常会带来最好的回报;二是使用正确的数据,选定了你所能得 到的数据,也许还要从外部购买数据,你需要对这些数据做有效的数据整合和转 换。 1 3 数据挖掘过程 在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什 么样的e l 标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成 功。很多软件供应商和数据挖掘顾问公司都提供了一些数据挖掘过程模型,来指 导他们的用户一步步的进行数据挖掘工作。比如s p s s 公司的5 a 一评估( a s s e s s ) , 2 天津大学硕士学位论文 第一章数据挖掘概论 访问( a c c e s s ) ,分析( a n a l y z e ) ,行动( a c t ) ,自动化( a u t o m a t e ) ,和s a s 公 司的s e m m a - 一采样( s a m p l e ) ,探索( e x p l o r e ) ,修正( m o d i f y ) ,建模( m o d e l ) , 评估( a s s e s s ) 。 虽然我们把各个步骤按顺序排列,但要注意数据挖掘过程并不是线性的,是 一个循环往复的过程,要取得好的结果就要不断反复重复这些步骤。比如在“分 析数据”时你可能觉得在“建立数据库”时做得不够好,还要往里面再添加一些 新的数据。 数据挖掘基本过程包括: 1 问题定义,即确定业务对象 2 数据准备,即数据预处理:数据清理、数据集成、数据变换、数据归约 3 建立模型 4 评价模型 5 实施:数据挖掘、结果分析 6 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去 数据挖掘过程的步骤图: 枷t 斜斟 圈圈回叵 1 4 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步骤需要有不同专长的人员,他们大体可 以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出 用于数据定义和挖掘算法的业务需求。 天津大学硕士学位论文第一章数据挖掘概论 访问( a c c e s s ) ,分析( a n a l y z e ) ,行动( a c t ) ,自动化( a u t o m a t e ) ,和s a s 公 司的s e a 采样( s m n p l e ) ,探索( e x p l o r e ) ,修正( m o d i f y ) ,建模( m o d e l ) , 评估( a s s e s s ) 。 虽然我们把各个步骤按顺序排列,但要注意数据挖掘过程并不是线性的,是 一个循环往复的过程,要取得好的结果就要不断反复重复这些步骤。比如在“分 析数据”时你可能觉得在“建立数据库”时做得不够好,还要往里面再添加一些 新的数据。 数据挖掘基本过程包括: l 问题定义,即确定业务对象 2 数据准备,即数据预处理:数据清理、数据集成、数据变换、数据归约 3 建立模型 4 评价模型 5 实施:数据挖掘、结果分析 6 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去 数据挖掘过程的步骤图: 1 4 数据挖掘需要的人员 图1 1 数据挖掘过程步骤 数据挖掘过程的分步实现,不同的步骤需要有不同专k 的人员,他们大体可 以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据备业务对象确定出 用于数据定义和挖掘算浊的业务需求。 用于数据定义和挖掘算浊的业务需求。 天津大学硕士学位论文 第一章数攥挽藏獭论 数据分祈人员:精通数据分桥技术,并辩统计学肖较熟练的掌握,商能力懿泣 务潆求转化为数掇挖掘的各步搡 乍,并为每步操作选择合邋的技术。 数据管疆人员:精通数据管壤技术,并从数据库簸数据仓痒中收集数掇。 献上胃觅,数攒挖箍是一个多释专家合作鲍过程,氇燕一个在资金上和技术 上麓投入懿:j 逢稷。这一过程饕爱复避行,不攀魏趋瓣予饔秘黪本质,不凝趣傻纯 问题的解决方案。 1 5 数据挖擒技术 数蠢藏瓣是门交叉学秘,该鼓零弱戮究帮秀发簧涉及戮多个镶城鹣焱谖, 主鬻有:数据管溅技术、人工智能、神经网络、统计科学、模式识别、知识库、 缎滚获取鼓零、绥怠素雩l 羧拳、麓性裁诗雾疆及数攥熬可褪纯、并行楚壤等毅零。 爨以说数撼挖撼怒多拨术的综岔。 数据拣攒方法通常分为两类:描述型方法帮预测型方法。常用翁方法包捂: 关联瓣剽( a s s o c i a t i o nr u l e s ) 、决策褥( d e c i s i o nt r e e ) 、浆癸分耩( c l u s t e r i n g a n a l y s i s ) 、回归分析( r e g r e s s i o na n a l y s i s ) 、神经网络( n e u r a ln e t w o r k ) 、 髂毽( e s t i m a t i o n ) 、辩阗窿瓣、髯鬻分耩、撵遂鞠霹撬傀法( d e s c r i p t i o na n d ¥i s n a l i z 8 t i o n ) 椁。 数据摭撮穷法分析匿: 数据需求的强度 鼹i - 2 羧攥挖掘方法势棼千鬻 天津大学硕士学位论文第一章数据挖掘概论 在这里描述是指在可用数据集的基础上生成新的、非同寻常的信息,即可描 述的数据中模式或者根据数据的相似性把数据分组。预测是指已知数据项和预测 模型,预测该数据项特定属性的值。例如,已知一个信用卡事务的预测模型来预 测某特定事务是否欺诈。预测也可用于证实己提出的假设。 1 6 数据挖掘的应用 由于数据挖掘带来的显著的经济效益,使数据挖掘越来越普及。它既能用于 控制成本,也能给企业带来效益。很多企业都在利用数据挖掘技术帮助管理客户 生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱、和保 持住好的客户。如果能够确定好的客户的特点,那么就能为客户提供针对性的服 务。比如,已经发现了购买某一商品的客户的特征,那么就可以向那些具有这些 特征但还没有购买此商品的客户推销这个商品;找到流失的客户的特征就可以, 在那些具有相似特征的客户还未流失之前进行针对性的弥补,因为保留一个客户 要比争取一个客户便宜的多。 数据挖掘的典型应用是在商业领域,随着技术发展的深入和相关领域知识的 渗透,如在医疗领域、天文学、地学、生物学等多方面也有广阔的应用。数据挖 掘的成果可以用在信息管理、过程控制、科学研究、决策支持等许多方面。 数据挖掘可以应用在各个不同的领域。电讯公司和信用卡公司是用数据挖掘 检测欺诈行为的先行者。保险公司和证券公司也开始采用数据挖掘来减少欺诈。 零销商更多的使用数据挖掘来决定每种商品在不同地点的库存,通过数据挖掘更 灵活的使用促销和优惠卷手段。医疗应用是另一个前景广阔的产业:数据挖掘可 以用来预测外科手术、医疗试验和药物治疗的效果。制药公司通过挖掘巨大的化 学物质和基因对疾病的影响的数据库来判断哪些物质可能对治疗某种疾病产生 效果。 天津大学硕士学位论文 第二章预测分析 第二章预测分析 凭借有力的数据挖掘解决方案,可以很好地处理商业中遇到的机会和挑战。 在这里,我们看一下如何回答市场人员经常问的一个问题:“我应该向什么人销 售什么产品? ”。更准确的来看,这分成以下三个问题: 哪些产品是经常被一块购买的? 哪些产品是经常被同类型的顾客购买的? 购买与不购买某类商品的顾客之间有什么区别? 某类顾客购买某种商品的 可能性有多高? 2 1 关联分析与聚类分析 通过关联分析,确定哪些属性是经常同时存在的,就可以回答“哪些产品是 经常被一块购买? ”的问题。这种方法经常被用在零售业的市场篮子分析,用来 决定超市中哪些商品是经常一块被购买的。关联分析可以得出规律,指出顾客购 买某种商品组合的可能性。 关联分析的结果可以用在两个方面。一方面是对于购买频率较高的商品组 合,找出那些购买了组合中大部分商品的顾客,向他们推销“遗漏的”商品。另 一方面是对每个顾客找出比较适用的关联规律,向他们推销对应的商品系列。 采用聚类分析,就可以回答“哪些产品是经常被同类型的顾客购买? ”的问 题。在关联分析中,基于某个顾客购买多种商品的情况,决定了商品的组合。在 聚类分析中,基于顾客属性的相似性,对顾客进行分组。这些属性可以是顾客购 买不同的产品、服务的指标。 通过分析聚类的专门特性结构,可以把聚类分析所得的客户组应用到销售 中。每个类别都有特定的聚类指标。这样就可以根据聚类指标给类别中的顾客提 供相应的商品。 2 2 预测分析 对于“购买与不购买某类商品的顾客之间有什么区别? 某类顾客购买某种商 6 一 天津大学硕士学位论文 第二章预测分析 品的可能性有多高? ”这类问题可以通过预测分析来解决。预测的目的是从利用 历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预 测。决策树、回归和神经网络都可用于预测。 决策树根据顾客的各个属性,划分出不同的比例部分,使得各部分能够用比 较简单的规律进行解释。 回归方法首先假定顾客的购买可能性能够通过他的属性加权计算出来。回归 算法使得顾客的属性被有效地加权,以反映顾客真实的购买可能性。 神经网络也象回归那样通过计算某些变量的加权获得顾客的购买可能性。然 而这些变量并不是实际的客户属性,而是一些线性组合并经过非线性变换得到 的。这些变换使得神经网络成为一个强大的模型,能提供精确的预测。 和决策树和神经网络方法不同的是,回归的输出是连续数值,而决策树和神 经网络方法的输出则是离散的类别值。这里我们将主要讨论预测方法回归分 析方法。 2 3 预测分析的作用 依据商务领域的业务经验和预测系统开发经验,我们认为,预测系统能完成 以下工作: 分析客户流失:根据流失客户和没有流失的客户性质和消费行为,分析哪些 客户的流失率最大,流失客户的消费行为如何,客户流失的其他相关因素,如竞 争对手的优惠政策、业务系统事故、国家政策和现行经济运行环境等。通过分析 流失客户对利润和成本的影响,可以决定采用哪种政策,挽留客户或不挽留客户, 并预测在该政策下客户流失情况。 用户发展分析:根据最近发展的用户性质资料,分析哪些用户是当前发展量 最大的用户,哪些用户是当前发展趋势最快的用户,从而决定当前重点发展哪些 用户、对哪些用户进行宣传,并预测用户量发展趋势。 用户信誉度评估、潜在大客户分析:根据用户消费信息、缴费信息、停机信 息、透支信息,预测用户的消费行为和缴费行为,确定用户的可透支额度,并从 中发现潜在大客户。 用户对优惠政策的反映:根据用户消费行为,先将用户分群,然后分析每群 用户对优惠政策的具体反映,从而确定优惠政策的修改、确定对不同的用户实行 天津大学硕士学位论文第二章预潮分疆 不同的优惠政策。 欺诈分析:分析欺诈用户的性质和消费行为,发现可能的欺诈用户以便进行 实时监视。 2 4 预测分析的实施 在预测模型中,搬我们要预测的值或所属类别称为响应炎隰、依赖变量或目 标变鬣;用于预测的输入变量是预测变量戏独立变量。 一些瑟溅攘銎楚道避那些基知霾撂交爨篷懿历史数据训练囊寒静。这里雳予 建立模型豹数据称为训练集,通常是已经掌缓的历史数据。魏,已经不再接受驻 务的用户,你很可能邂保存了他们在接受服务时的历史记录。训练集也可以是通 过实际的实验得到的数据。比如从包含公圈所有顾客的数据库中取出一部分数据 做实验,向他们发送介绍新产品的推销信,然后收集对此做出嘲应的客户名单, 然磊髂就可以蘑这些撵镑霾应记录建立一个预测哪些雳户会辩凝产晶感兴趣豹 挨梨,最后把这个摸戳应用到公司的所霄露户主。这释诩练露耩尊瞧称为带指导的 学习,因为是通过给_ 跬j 一些已知答案的问题( 已知结果的数据) 来让他“学习”。 相对应的,还有不带指导的学习,如上面撮到的描述型数据挖掘( 在运行之前, 算法对数据一无所知) 。 天津大学硕士学位论文 第三章回归分析 第三章阉l 舞分耩 连续型数值的预测可以使用统计技术中的回归分析进行建模。回归分析的目 瓣是逶邀具毒已鳎焦豹交霪来鬏溅其 蠹变量黪德,找到一个联系羧入交爨秘竣爨 变量的最优模型。更确切的说,回归分析就是试图从实际数据中寻找某种规律的 方法,礁立积分辑菜秘噙痤y ( 因变量) 灏重要毅素x ( 对响应枣影噙蛉盎变量 ,五,x)之间的函数关系。即如果是非随机变量或随机变量,y是随机。 变量,那么对z 的每一确定值鼍郄有y 戆一个确定分布与之对应。匿归馕代表一 个条件期攫值,将预测属性视为自变量,预测目标视为因变量,则可使用回归投 术进行预测。 3 1 回煅分类 歇秀个变量阙媚关鲍程度采爨,霞归可分为以下三耱帻况: 完全相关。此时一个变量的慎确定后,另一个变量的值就可通过某种公式求 基来;帮一个交豢静篷哥峦另一个变量掰完全凌定。这耱涛凌在骚突孛怒甭太多 见的。 不籀关。变鬃之闯完金没有任何关系。此时期遵一个变量的值不链掇供有关 另一个变量的任何信息。 统计相关( 不完全相关) 。介予上述两种情况之间。也就是说,知道一个变 爨的值通过某种公式就可以提供关于另一个变量一些信息,通常情况下怒提供有 关另一个变量的均值的信息。此时知道个变量的取值并不能完全决定另一个交 爨的取值,但可绒多或少地决定它的分布。这是科研中鼹常遇到的情况。这里讨 论的回! 麓分析就怒针对予这种统计相关情况进行的。 绞诗回归霹分为线瞧圊熙和非线性回归。在缀简单麴愦况下,回归罴鼹的怒 线性回归这样的标准统计技术,线性回妇的理论已经很完善。但大多数现实世界 中的问题是不能用簿单的线性回归所能预测的。如商品的销售量、股票徐格、产 晶合格率等,很难找到简单有效的方法来预测,只能采用非线性回归。闲为要描 述这些事l 牛的变化所需的变量数瀑很大,且这些变量本身往往都是非线性的。 天津大学碾士学位论文 第三章回翔分辑 3 2 一元线性阐归 蔚边已经说过,回归关系就是对镊一个x 的取僵而,都有y 的一个分布与 之对应。镬矮线瞧隧癌可强稳定默震交量粒一令或多令猿立变量之藤粒最经线瞧 关系。最简单的线性回归是仅有一个预测目标和一个预测属性的一元线性网归。 所谓一元线性回归,就是假定x 与y 之间的关系是线蚀关系,而且满足: y 。“十, g x ( 3 - 1 ) 其中盛帮声嚣为疆癌系数,此嚣亨滋行鏊彗j 分辑豹譬撅羧蹩绘密系数g 秘翡 估计僮。 线性回归意味着条件平均数与x 之间的关系是线性函数,对于每个】,的观察 值m 来说,由于条件均值由( 3 1 ) 式决定,观察值就应该是在条件均值的纂础上 再加上一个随机误差,则一元线性飚归的模型为: y i = 盛爨i s f t 3 ,2 ) 其中n ( 0 ,2 ) ,( 3 ,2 ) 式就是一元正态线性回归的统计模型。 3 2 1 国归系数程和叠的估计 由予实际麓麓只能褥到有限的数掇,无法算蛊准确麓口与箩懿篷,只藐袋密 它们的估计值日和b ,并得到m 的估计值为:允2 口十甄。般使用最小二乘法 估计回归系数睇和声。根据最小二乘法原理,所求出的贱麓平方和( 乃一或) 2 达 i = 1 舞最小鹃塞线为瓣趋线,簿令: s s 。* ( 咒一口一缸) 2 ,骚使观为最小,应该有 堡: ) 嬲 堡:o o b 整理并解此方程后,得 天津大学硕士学位论文 第三章回归分析 。( 薯) ( y i ) 善硼一旦 b :i :l 。! 二一 z ;一( _ ) 2 ” a = 歹一厮 ( 一一i ) ( 乃一罗) ( 一一 i = 1 s 。 s 。 其中,s 。= ( t 一孟) 2 ,称为州拘校正平方和 i = 1 = ( _ 一i ) ( 咒一歹) ,称为j 与j ,的校正交叉乘积和。 f = l 3 2 2 一元线性回归的显著性检验 ( 3 3 ) ( 3 4 ) 回归系数的计算是根据样本数据,而样本只是总体的一部分,由于抽样不同 所获得的回归系数也不相同,需要通过样本对总体情况做出推断,也就是要对回 归方程和回归系数进行显著性检验。以检验得到的结果是不是反映了j 和y 之间 的真实关系。 3 , 2 2 1 回归系数的显著性检验 回归系数的显著性检验使用t 检验。并且在对一个回归方程的统计检验中, 我们更关心的是卢是否为0 ,而不是髓是否为0 。这是因为若卢= 0 ,则线性模 型变为y = a + s ,与x 无关;这意味着盖与y 间根本没有线性关系。反之,a 是 否为0 并不影响x 与y 的线性关系。因此我们常常只对卢作统计检验。 检验的原假设为h 。:= o ,表示x 与y 之间无线性关系: h 1 :0 ,表示与y 之间有线性关系。 ,r = 一 统计量: “:b l s b :生! ! 当 ( 3 5 ) 4 m s o 当凰成立时,玷一柏一圳,进行检验。 其中,m s e 可作为总体方差一的估计量,称为剩余均方。 天津大学磋士学蹙论文 第三章回归努耩 由琢缓设秘被择投设可以纛基,这里t 属予双尾,在诗算蟪暴值时应该使爆 显著性戏1 2 。如果t 检验值的绝对值大于t 临界值,拒绝岛,表明回归系数卢盛 蓍不为0 ,说骥苫与y 之闽线燃关系缓设合理。否则,接受玩,说盟x 与y 之 间线性获系假设不合理。 3 2 2 2 嘲归方程的显著性检验 回归方程的显著性检验是利用方差分析所获得的f 检验值,检测回归模型总 体线淫关系豹显著蛙。 检验的原假设为h 。:d 2 = 0 ,表示总体无线性关系; e :拶2 0 ,表示总体有线性关系。 嚣爨 冀一歹) 2 = ( y i 一受) 2 + 一歹) 2 f = if = l滓t 繇: s k y s s e s s r y 的总校正平方和残差平方和回归平方和 自融度: r l ,11 1 21 这榉裁把y 黪总校正平方积分解成了残差平方亵与潮归平方和。1 l f 已说明, 此& 可代替一,而m s r 可作为回归效果好坏的评价。如果m s r 仅由随机误差遮 藏的话,说明回归失效,x 秘y 没有线性关系;否则它应显装像大。困此可髑 统计髓 f :堕:坠( 3 6 ) m s 。s s 。如一2 ) 对h o := 0 进行梭验。若f 1 ;l c 的阈值吼( 后) :一1 - - 1 ;学习效率 a 2 0 呻l ,b 2 0 斗1 ;给定输入向量z ( t , ) ,给定输出向量_ y f 肼。 2 样本操作 3 求隐层各单元的输出:】,( 尼,f ) = 厂 x ( k , ) 矽( 七,h ,f ) 叼。( 七,f ) = 1 天津大学硕士学位论文 第四章回归方程的优化 3 计算输出层的激活值:y ( 尼) = f z w ( k ,i ) y ( k ,f ) q :( 七) j = 1 计算输出层单元的一般误差:e ( k ) = y ( 尼) 1 一y ( k ,f ) y ( 七+ 1 ) 一y ( 丘) 计算隐层各个单元对于每个g ( 尼) 误差 3 e ( k ,f ) = y ( k ,f ) 1 一y ( 尼) w ( k ,i ) e ( k + l ,f ) j = l 调整l b 层单元到l c 层单元的连接权:d w ( k ,j ) = a y ( k 一1 ) y ( ) 调整三,层单元的闽值:由:( ) = a e ( k ) 调整上。层单元到k 层单元的连接权:d w ( k ,h ,i ) = b x ( k ,h ) e ( k ,i ) 调整三。层单元的阂值:由,( 尼,i ) = b e ( k ,i ) 重复上述操作步骤,直到e ( k ) 变得足够小或者为零。 基于b p 算法神经网络的回归分析方法并不得出回归函数的具体数学表达式, 但是它能够给出具有确定算法与结构参数的神经网络,这个网络结构是清晰的, 从某种意义上说,它能够更有效地表述实际问题。特别是当有些回归问题并不需 要明确的数学表达式或者根本无法找到明确数学公式表达时,基于神经网络的回 归分析就更显示其优越性。也就是说,在非线性回归分析领域,我们不仅可以使 用许多传统的分析方法,也可以使用基于神经网络的分析方法,而且对于较复杂 的情况,使用神经网络进行非线性回归效果更好。 4 2 3 基于前馈神经网络模型模糊感知器回归分析 4 2 3 1 统计优化( ,6 ) 准则定义 一个回归分析模型为: y i = + o ) j x j ,p + s n + l 其中0 9 “= ,国1 ,) ,p = l ,2 ,一,n ,记国 是国”1 的一个估计量。 定义集合 ( 4 3 ) 天津大学硕士学位论文 第四章【旦】归方程的优化 ,。) = 池,一五l s ) 且j ,p 为集合0 ) 的元素个数。 ( 44 ) 定义4 2 对回归分析模型( 4 3 ) ,我们称c o 是c o ”1 的一个( 8 ,6 ) 估计, 如果1 i ,0 ) i i i i d i i ( 4 8 ) 成立,这时调整权值利阈值为: m 1 ) 一“o ) 十南。崭 蚋 3 由此继续,我们得到。一系列 ( 。”( ,) ,d ( f ) ) ,t = l 2 , 使( 4 6 ) 、( 4 8 ) 、( 4 9 ) 成立,执行该运算直到( 4 7 ) 式成立为止,这时所得 的0 3 ”o ) 就为所求不等式方程组( 4 5 ) 的占解。 天津大学硕士学位论文第四章回归方程的优化 4 3 基于遗传算法的回归分析模型 回归分析需要对变量间的关系有一个大致的估计,在模型、变量的选择上人 工干预工作量大。本文再引进一种新的基于遗传算法的优化准则,它是利用个体 理想值与实际值之间的误差作为遗传的驱动力,这种进化模式称为误差驱动进 化。将回归分析的各种模型运用遗传算法实现对回归方程系数的选择,使得在不 必估计出函数变量间的关系的情况下就能进行预测。 4 3 1 遗传算法 遗传算法( g e n e t i ca l g o r i t h m s ,简称g a ) 遗传算法是基于进化理论,并 采用遗传结合、遗传变异及自然选择等设计方法的优化技术。遗传算法模拟进化、 适者生存的过程,以随机的形式将最适合于特定目标函数的种群通过重组产生新 的一代,在进化过程中通过选择、重组和突变逐渐产生优化的问题解决方案。它 通过选择、交叉和变异等进化概念,产生出解决问题的新方法和策略。选择是指 挑选出好的解决方案,交叉是将各个好的方案中的部分进行组合连接,而变异则 是随机地改变解决方案的某些部分,这样当提供了一系列可能的解决方案后,遗 传算法就可以得出最优解决方案。遗传算法已经得到广泛的应用,如自动控制、 数据挖掘、计算机科学、工程设计和神经网络等领域。 遗传算法的基本思想可归为两点:1 ) 将物种进化的理论用于求问题的解,物 种的进化又可分为遗传和变异两个方面;2 ) 只有最适合环境的物种才能保留下 来,因而经反复求解后可以得到最佳的解。 遗传算法可以形式化定义为8 个元组s g a = ( c ,e ,p ,m ,中,r ,、壬,r ) , 其中 仁个体的编码方法,卜个体的适应值评价函,p 初始种群,m l 群体 大小,圣选择算子,r 一杂交算子,皿一选择个体的方式,i 一遗传运 算终止条件。遗传算法在实际应用中,必须确定这8 个元组。 遗传算法按照一定的规则生成经过基因编码的初始群体,然后从这些代表问 题的可能潜在解的初始群体出发,挑选适应度强的个体进行交叉和变异,以期发 现适应度更佳的个体,如此一代代地演化,得到一个最优个体,将其经过解码, 该最佳个体编码则对应问题的最优解或近似最优解。 基于上述概念的遗传算法,主要包含三个基本操作,或称基本算子: 天津大学硬学佼谂文第酉章匿妇方程瓣魏纯 1 选择( 繁髓) :选择算子从一个旧群体( 父代) 中选出合适的个体,产生新 群体( 后代) 的过稷。 2 。交叉( 熏缀) :交叉算予选择豫个不周个体的染色体的部分基因进行交换, 形成耨个体。该簿子礁定霸扩充憝窆瘸,是一个夔秘弦秘薰缓篓子。在缀大疆菠 上,遗传算法的性能取决于所使蠲的交换算子的性能。 3 变异( 突变) :变异算子对某燃个体的某些基因谶行变异。在通常的二进 制编码方式下,变异操作就是简单地将基因值取反( 1 变0 、0 变1 ) 。 4 3 2 遗传算法的基本方法步骤 4 3 2 1 遗传算法基本处理步骤 遗传算法爨肖缀强的计算能力,但遗传算法的求鼹过程却很简单。遗传算法 楚一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论