基于线性回归的银行卡业务量因素分析论文_第1页
基于线性回归的银行卡业务量因素分析论文_第2页
基于线性回归的银行卡业务量因素分析论文_第3页
基于线性回归的银行卡业务量因素分析论文_第4页
基于线性回归的银行卡业务量因素分析论文_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于线性回归的银行卡业务量因素分析摘 要回归分析是一种应用广泛的统计分析方法,在金融、经济、医学等领域已被成功的应用。它用于分析事物之间的统计关系,侧重观察变量之间的数量变化规律,并通过回归方程的形式描述和反应这种关系,帮助人们准确的把握变量受其他一个或多个变量影响的程度,进而为预测提供科学依据。本文以银行卡为对象,以微观经济学中的商品需求理论为基础,运用计量经济学中的普通最小二乘法,针对商业银行中间业务中较为重要的银行卡业务需求问题,尝试运用线性回归的方法,具体对影响银行卡业务量的因素进行分析。以银行卡业务量为因变量,以银行卡受理环境的各种因素为自变量,建立银行卡业务影响的多自变量函数模型,

2、考察银行卡的需求函数;同时,通过理论与实证分析,找出对银行卡业务需求影响的显著性因素,揭示银行卡业务需求的特征、银行卡业务发展趋势,为该业务拓展提供经营决策的实证基础。关键词:回归分析,受理环境,统计检验,银行卡Analysis of the Bank Card Business Factors Based on Linear Regression Author: Zhang Wei-minTutor: GuoJing-meiAbstractRegression analysis is a widely used statistical analysis method. It has been

3、 successfully used in financial, economic, medical and other fields. It is used for statistical analysis of the relationship between things, focus on the number of changes of variables, and through the formal description and the relationship between the regression equation, to help people grasp the

4、other variables by one or more variables influence degree, and provide the scientific basis for predicting.Using the merchandise demand theory as the base, this paper takes bank cards as the object and tries to analyze the factors influencing the bank card business. Basing on the Ordinary Least Squa

5、res, this paper analyzes the data with the regression method. The dependent variable is bank card business and the independent factors include the amount of the shops engaged by special arrangement, the amount of the savings outlets, the amount of the ATM and the amount of the POS. Then this paper a

6、nalyzes these variables using SPSS, with the analysis of theory and demonstration. We can find out the remarkable factors which influence the independent variable, so that offer the positive groundwork of management decision-making for developing bank card operation.Key Words: Regressionanalysis, En

7、vironment, Statistical test, Bank card目 录1 绪论11.1 课题背景与意义11.2 研究的思路与方法11.3 论文构成与研究容22 银行卡产业发展状况32.1 我国银行卡业务发展现状32.2 我国银行卡受理环境现状32.3 银行卡业务量与受理环境的关联性43 回归分析53.1 一元线性回归分析53.1.1 一元线性回归分析的基本原理和方法53.1.2 决定系数63.2 多元线性回归分析73.2.1 多元回归模型与回归方程73.2.2 多元回归方程的多重判定系数83.2.3 多重共线性现象93.3 变量选择93.3.1 变量的选择过程103.3.2 变量选

8、择的方法104 回归分析的统计检验114.1 回归方程的显著性检验114.1.1 多元线性回归方程的显著性检验124.2 回归系数的显著性检验124.2.1 一元线性回归系数的检验124.2.2 多元线性回归系数的检验134.3 残差分析134.3.1 残差分析容144.3.2 残差序列的独立性144.4 方差分析154.4.1 方差分析简介154.4.2 单因素方差分析164.4.3 多因素方差分析184.4.4 协方差分析195 银行卡受理环境对银行卡业务量的影响分析195.1 数据、变量选取与模型设计205.2 银行卡业务量函数的回归拟合分析205.2.1 回归方法的选择与标准205.2

9、.2 回归结果与分析21结论25致26参考文献27附 录2834 / 381 绪论1.1 课题背景与意义中国经过20多年的改革开放政策,国民经济取得了巨大的成就,银行卡产业经历了飞速的发展。银行卡的受理环境是银行卡业务发展的重要影响因素。历经20年面向经济金融领域的融合进程,我国银行卡产业发展迄今已初具规模,对于增强商业银行市场竞争力与推动国民经济信息化发挥了重要作用。由于受理环境是整个银行产业发展的市场基础,受理环境(包括ATM机的数量,POS机终端的数量,特约商户的数量,储蓄网点的数量和网络质量等)的好坏,直接对银行卡业务量有很大影响。目前的文献中,有关商业银行中间业务的讨论很多,但是有关

10、银行卡的受理环境对银行卡业务需求影响的文献较少。在银行卡业务的讨论中,又以定性的、直观的议论为主,不能够通过定量的方法找出各因素之间的具体关系,把握其发展趋势以指导该业务实践。基于上述分析,本项研究主要针对银行卡的业务量与其受理环境的各因素之间的影响关系。尝试通过计量模型,找出受理环境的建设对银行卡业务量的影响因素,以揭示银行卡的发展规律,为银行卡受理环境的建设提供一些帮助。最近几年关于银行卡业务和受理环境分析的文献大致包括以下几类:(1) 综合论述我国银行卡市场的发展情况,包括我国银行卡市场概况,银行卡市场面临的问题与解决方案,银行卡市场前景预测等。(2) 论述我国银行卡业务量与宏观经济因素

11、的相关关系,包括GDP,人均GDP,城镇居民消费总额,社会消费品零售总额等对银行卡需求量的影响分析。 (3)论述我国银行卡受理环境的问题与解决对策。前人的文章大多从宏观上分析银行卡市场的各种问题,大多运用定性的手法。虽然也有少数人用数据模型做实证研究,但是也都是分析银行卡业务量和宏观因素的相关性,没有能够从微观层面上定量分析各种因素对银行卡业务的影响。1.2研究的思路与方法在银行卡的受理环境中,有诸多因素会对银行卡业务需求产生影响,如ATM机的数量,POS机终端的数量,特约商户的数量,储蓄网点的数量和网络建设方面等等。本文重点研究ATM机数量,POS机终端数量,特约商户的数量和储蓄网点的数量这

12、四个因素的变化对银行卡业务需求会产生怎样的影响,即银行卡业务需求与受理环境各因素的相关性如何,这些工作是本文的任务,通过数据的分析,考察银行卡业务需求函数的特征,使我们能够进一步把握银行卡业务发展的规律。本文以银行卡为对象,运用计量经济学中的最小二乘法,针对商业银行中间业务中较为重要的银行卡业务需求问题,具体对影响需求的因素进行分析。以银行卡业务需求为因变量,以银行卡受理环境的各种因素为自变量,建立银行卡业务需求的多自变量函数模型,考察需求函数:同时,通过理论与实证分析,找出对银行卡业务需求影响的显著性因素,揭示银行卡业务需求的特征、银行卡业务发展趋势,为该业务拓展提供经营决策的实证基础。1.

13、3 论文构成与研究容本文首先对银行卡以与银行卡受理环境的现状做简要介绍,同时指出了银行卡的受理环境与银行卡业务量之间的关联性。以与对回归分析进行了介绍,包括一元线性回归分析,多元线性回归分析以与变量的选择问题。接着介绍了方程的显著性检验,回归系数的显著性检验,残差分析与方差分析。分析了所研究问题的历史与现状。提出了要研究的问题和与其研究意义。第五章利用计量方法对数据进行回归分析,并用各种方法进行检验,得出因变量与自变量之间的关系并解释说明。最后一章对全文进行了总结,并建议了未来可研究的容。在附录部分运用微观经济学和消费者行为学理论分析了银行卡产品和服务价格对银行卡业务量的影响以与介绍了异方差性

14、与其解决方法。2 银行卡产业发展状况2.1我国银行卡业务发展现状我国的银行卡最早出现是在1979年,当时中国银行省分行与东亚银行签订代理东美信用卡业务协议书,并开始办理此项业务。随后,中国银行于1986年10月又推出了以人民币为结算货币的信用卡即为准贷记卡,并统一命名为“长城卡”,到了1995年,发展银行发行了国第一真正意义上的符合国际标准的人民币贷记卡和国际卡,开创了中国真正信用卡市场发展的先河。1996年8月中国银行首家发行具有国际标准的人民币借记卡长城电子借记卡。到目前为止,国很多商业银行都推出了自己的银行卡。据中国人民银行统计,截至2006年5月底,中国银行卡累计发卡量超过16亿,其用

15、卡累计发行量达1.1亿余。此外,银行卡产业发展的其他各项指标也创下新高。银行数剧显示,2008年1至5月份,中国银行卡跨行交易额达到1.7万亿元,比去年同期增长了55。 随着银行卡受理终端的普与推广,截至2008年5月底,中国境银行卡受理商户已达88万户、联网POS机139万台、联网ATM机14万台。截至2009年末,我国银行卡发卡总量约为20.7亿,较2008年末增加2.7亿。截至2009年末,借记卡发卡量为18.8亿,信用卡发卡量为1.9亿。各类银行结算账户共计28.1亿户,较2008年末增长17.2%;其中,个人银行结算账户27.9亿户,单位银行结算账户2191万户。2.2 我国银行卡受

16、理环境现状在银行卡跨行交易网络的建设方面,中国银联己在2004年12月01日正式上线投产新一代银行卡跨行信息交换新系统。新系统的技术处理能力和各项技术都达到了国际先进水平,网络可用性达到99%,峰值达到每秒处理跨行交易1300笔,较原系统的峰值大大提高。新系统为跨行转接业务的规模增长预留了足够的技术空间,同时也为各项新兴业务的开展提供了坚实的技术保障。自从新系统的应用,我国银行卡跨行系统运行效率得到进一步提高。中国银联转接成功率达到99.8%,交易成功率在前两年大幅提高的基础上进一步攀升。同时,为进一步提高跨行交易运行质量,中国银联进一步建立健全了系统运行质量管理体系,积极协助入网机构解决影响

17、跨行交易质量的突出问题,确保了系统安全、稳定、高效运行,促进了跨行交易成功率的提高。另外,中国银联积极组织各入网机构修改技术规,制定实现EMV迁移的策略,为新系统实现集换、统一清算作好了全面准备。在受理环境的建设方面,我国特约商户和入网机具数量不断增加。截至2004年底,我国特约商户总数为64万户,入网POS机具数为34万台,入网ATM机具为6.8万台。同比分别增长28.1%、5.8%和14.4%。从区域分布看,银行卡机具主要还是集中在发达城市和地区。截至2004年底,18个主要城市和地区的联网POS机具和ATM机具数分别为27.42万台和5.19万台,分别比年初增长了60%和24%;入网特约

18、商户达到15.8万户,POS活动率在70%以上。在18个主要城市和地区中,POS机具布放量在万台以上的地区有:、和:ATM机具布放量超过5000台的地区有:、和。全国性商业银行仍然是市场上POS机具的主要投放主体。中国工商银行、中国农业银行、中国银行、中国建设银行和交通银行投放的POS机具占商业银行投放POS机总数的87%以上。但我国的受理环境中也存在着两个主要的问题:一是特约商户的问题。目前全国可以受理联网银行卡的特约商户数量还很少,严重限制了持卡消费的围。同时,特约商户分布不均,多处在发达地区的大商场和酒店,而居民日常的消费地点大多无法受理银行卡消费。最后,特约商户与银行不断出现的利益之争

19、给持卡消费者带来了不便。如永乐家电、好美家出台的“罢刷”举措,以与的“罢刷”风波,使众多消费者对信用卡消费信心全无。二是我国大多数发卡银行在开展银行卡业务时将银行卡定位为存折的电子化形式,发卡的主要目的是为了获得存款,为银行发展传统企业信贷业务增加资金来源,而资产业务功能则被置于可有可无的从属地位,因此,我国银行卡的发展一直是以借记卡为主,而在国外作为发卡银行收益主要来源的信用卡业务在我国则发展缓慢。由于银行对银行卡消费的不重视,给消费者持卡消费带来诸多不便。如由于我国信用卡技术不过硬,信用卡消费交易成功率低,交易速度慢,出错多,严重阻碍了消费者持卡消费的积极性,根据2002年6月份的数据:全

20、国跨行交易的成功率为85.17%,在该月发生的2.54万笔跨行差错交易中,差错率为0.25%,POS机的差错率为0.15%。比如,消费者在刷卡时经常出现的问题是,由于机器失误,卡上显示有钱,但是刷不出来,真正收到对账单时,钱已经刷掉了,消费者为了追回款项,往往要来回奔波于银行与商家之间,本应“方便”的信用卡此时却带来了诸多不便。2.3 银行卡业务量与受理环境的关联性银行卡的受理环境包括特约商户的发展、联通网络的建设、各种银行卡设备的配置、银行卡受理的效率和质量、银行卡的通用性、安全性等等。银行卡业务的开展需要有良好的用卡环境,银行卡产品的各项功能是要在相应的环境下才能实现的,并给持卡人带来效用

21、,用卡环境是开展银行卡业务的基础和支撑。经过十多年的建设和发展,我国银行卡的用卡环境日益改善,随着发卡业务管理措施的完善、特约商户发展加快,银行卡受理的质量水准有了很大提高。上世纪90年代后期以来,科技发展使银行卡系统的网络覆盖面不断加大,通讯质量进一步提高,同时,银行卡的相关的各种设备、机具如POS机、ATM机、自动存款机、自助终端、IC卡受理机等的数量有很大增长,功能也日益完备,有力地提升了银行卡产品可以为持卡人创造效用的能力。通过银行卡的用卡环境的影响,也使得越来越多的人知道银行卡,了解银行卡,并成为银行卡的持有者,使得银行卡需求快速增长。3 回归分析3.1 一元线性回归分析一元回归处理

22、的是两个变量之间的关系,即两个变量和间若存在一定的关系,则通过实验,分析所得数据,找出两者之间关系的经验公式。假如两个变量的关系式是线性的,那就是一元线性回归分析所研究的对象。3.1.1 一元线性回归分析的基本原理和方法我们可以用一条直线来表示和的关系,并借助最小二乘法,可得到一元线性回归的回归方程又叫做回归方程的回归系数。下面根据最小二乘法原则来确定的取值。对于每一个,由方程可以确定一个回归值。这个回归值与实际观测值之差,刻画了与回归直线的偏离程度。对于所有的,若与的偏离程度越小,则直线和所有的试验点拟合得越好。全部值与回归值的偏离平方和由最小二乘法可知要使Q达到极小值,只要对上式分别对求偏

23、导,并令它们等于零,于是可以推导出的值其中,分别表示,的算术平均值。3.1.2 决定系数利用最小二乘法可求出使因变量的观察值与因变量的预测值之间的离差平方和为最小的a与b值。与之间的差即为以估计所产生的误差;第个观察值的离差为,此差值也称为第个残差(residual)。因此,最小二乘法中所处理的平方和,常被称为误差平方和或残差平方和,以SSE表示。由此可知,如果在总离差平方和中回归平方和所占的比重越大,则线性回归效果越好,表明回归直线对观测值的拟合优度越好。将回归平方和与总离差平方和之比定义为决定系数,记为,即决定系数是一个衡量回归直线对观测值拟合优度的相对指标,反映了因变量的波动中能用自变量

24、所解释的比例的值总是在01之间,越接近于l,拟合优度就越好;反之,说明模型中所给出的对的信息还不充分,回归方程的效果不好,应进行修改,使与的信息得到充分利用。其中:总体平方和:回归平方和:残差平方和:3.2 多元线性回归分析在许多实际问题中,影响因变量的因素往往有多个,这种一个因变量同多个自变量的回归问题就是多元回归,当因变量与各自变量之间为线性关系时,称为多元线性回归。多元线性回归分析的原理同一元线性回归基本一样。3.2.1 多元回归模型与回归方程设因变量为,个自变量分别为,描述因变量如何依赖于自变量和误差项的方程称为多元回归模型。其一般形式可表示为:式中,是模型的参数;为误差项。此式表明:

25、是的线性函数()部分加上误差项。误差项反映了除与的线性关系之外的随机因素对的影响,是不能由与的线性关系所解释的变异性。误差项有三个基本假定:(1)误差项是一个期望为零的随机变量,即.这意味着对于给定的的值,的期望值 (2)对于自变量的所有值,的方差都一样。(3)误差项是一个服从正态分布的随机变量,且相互独立,即。独立性意味着自变量的一组特定值所对应的与任意一组其他值所对应的不相关。正态性意味着对于给定的的值,因变量也是一个服从正态分布的随机变量。根据模型的假定有即为多元回归方程,它描述了因变量的期望值与自变量之间的关系。回归方程中的参数是未知的,需要利用样本数据去估计。当用样本统计量去估计回归

26、方程中的未知参数时,就得到了估计的多元回归方程:式中,是参数的估计值:是因变量的估计值。称为偏回归系数。表示当除了之外的其它自变量不变时每变动一个单位因变量的平均变动量。参数的最小二乘估计:回归方程中的是通过最小二乘法求得,也就是使残差平方和最小。由此可求得的值。3.2.2 多元回归方程的多重判定系数多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。其定义式为:多重判定系数的注意事项:自变量个数的增加将影响到因变量中被估计的回归方程所解释的变差数量。当增加自变量时,会使预测误差变得比较小,从而减少

27、了残差平方和SSE。由于回归平方和SSR=SST-SSE,当SSE变小时,SSR就会变大,从而使变大。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,也会增大。为避免增加自变量而高估,可以使用调整的多重判定系数。调整的多重判定系数计算式为:同时考虑了样本量和模型中自变量的个数的影响,从而调整的多重判定系数永远小于多重判定系数,并且调整的多重判定系数的值不会由于模型中自变量个数的增加而越来越接近1。在多元回归分析中具有更大优势。3.2.3 多重共线性现象当回归模型中使用二个或二个以上的自变量时,这些自变量往往会提供多余的信息;即这些自变量之间彼此相关。多重共线性在回归分析中产生的问题:

28、首先,变量之间高度相关时,可能会使回归的结果造成混乱,甚至把分析引入歧途。其次,多重共线性可能对参数估计值的正负号产生影响,当存在多重共线性时,对回归系数的解释将是危险的。多重共线性的判别:检测多重共线性最简单的方法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数是显著的,就表示模型中所的自变量之间相关,因而存在着多重共线性问题。多重共线性的具体表现:(1)模型各对自变量之间显著相关。(2)当模型的线性关系检验(检验)显著时,几乎所有的回归系数的t检验却不显著。(3)回归系数的正负号与预期相反。多重共线性问题的处理:(1)将一个或多个相关的自变量从模

29、型中剔除,使保留的自变量尽可能不相关。(2)如果要在模型中保留所有的自变量,那就要:a避免t统计量对单个参数进行检验。b对因变量值得推断(估计或预测)限定在自变量样本值的围。多重共线性问题带来的主要麻烦是对单个回归系数的解释和检验。在求因变量的置信区间和预测区间时一般不会受其影响,但必须保证用于估计或预测的自变量的值是在样本数据的围之。因此,如果仅仅是为了估计或预测,则可以将所有的自变量都保留在模型中。3.3 变量选择根据多个自变量建立回归模型时,若试图将所有的自变量都引入回归模型将会使建立的模型不能进行有效的解释。因此,必须在建立模型之前能对所收集到的自变量进行筛选,去掉不必要的自变量,这样

30、才能使模型变得更容易,更具操作性,也更容易解释。3.3.1 变量的选择过程在建立回归模型时,总希望用最少的变量来建立模型。在进行回归分析时,每次只增加一个变量,并且将新变量与已经在模型中的变量进行比较,若新变量引入模型后以前的某个变量的t统计量不显著,这个变量就会从模型中被剔除,这样回归分析就很难存在多重共线性的影响,这也是回归过程的搜寻过程。选择自变量的原则是对统计量进行显著性检验,检验的依据为:将一个或一个以上的自变量引入回归模型中,是否使残差平方和(SSE)有显著减少。如果增加一个自变量使残差平方和(SSE)的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变

31、量引入回归模型。确定在模型中引入自变量是否使残差平方和(SSE)有显著减少的方法,就是使用统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量。3.3.2 变量选择的方法变量选择的主要方法有:向前选择、向后剔除、逐步回归向前选择向前选择法是从模型中没有自变量开始,然后按照以下步骤选择自变量来拟合模型:第一步:对个自变量分别拟合对因变量的一元线性回归模型,共有个,然后找出F统计量的值最高的模型与其自变量,并将其首先引入模型。(如果所有模型均无统计上显著性,则运算过程终止,没有模型拟合)第二步:在已经引入模型的的基础上,再分别拟合引入模型外的个自变量的线性回归模型

32、,即变量组合的个线性回归模型。然后再分别考察这个线性模型,挑选出F统计量的值最大的含有二个自变量的模型,并将F统计量的值最大的那个自变量引入模型。如果除之外的个自变量中没有一个是统计上显著的,则运算过程终止。如此反复进行,直至模型外的自变量均无统计显著性为止。向后剔除向后剔除的过程与向前选择法过程相反,具体如下:第一步:先对因变量拟合包括所有个自变量的线性回归模型。然后考察个去掉一个自变量的模型(这些模型中的每一个都有个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除。第二步:考察个再去掉一个自变量的模型(这些模型中的每一个都有个自变量),使模型的SSE值减少最少的自变量被挑

33、选出来并从模型中剔除。如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减少为止。这时,模型中所剩的自变量都是显著的。此过程可以通过检验的P值来判断。逐步回归逐步回归是将向前选择与向后剔除二种方法结合起来筛选自变量的方法。前二步与向前选择法一样。不过在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。逐步回归是向前选择和向后剔除的结合。逐步回归过程就是按此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加的变量已经不能导致残差平方和的显著减

34、少,这个过程可以通过F统计量来检验。逐步回归法在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中。4回归分析的统计检验利用最小二乘法可以计算出线性回归中的参数值,但由此确定的线性回归方程不能立即用于对实际问题的分析,还必须对回归方程的线性关系进行各种统计检验,包括方程的显著性检验,回归系数的显著性检验,残差分析等。4.1回归方程的显著性检验回归方程的显著性检验正是要检验被解释变量和解释变量与所有解释变量之间的线性关系是否显著,用线性回归方程来描述它们之间的关系是否恰当。回归方程显著性检验的基本出发点和拟合优度检验非常相似。在回归方程的显著性检验中采用方差分析的方法,研究SST中的SS

35、A相对于SSE所占的比例。如果占有较大的比例,则表示与全体的线性关系明显;反之,如果所占的比例较小,则表示与全体的线性关系不明显,利用线性模型反应二者的关系是不恰当的。4.1.1 多元线性回归方程的显著性检验对于多元线性回归方程,其显著性检验的原假设为:,即各个偏回归系数与零无显著差异。当偏回归系数同时为零时,无论各个如何变化都不会引起y的线性变化,所有无法解释的线性变化,与全体不存在线性关系。多元线性回归的显著性检验采用F统计量,其数学定义为:为多元线性回归方程中的解释变量的个数。统计量服从自由度为(p,n-p-1)的分布。利用SPSS将自动计算出检验统计量的观测值与相应的概率值。如果概率值

36、小于给定的显著性水平,则应拒绝原假设,认为回归系数与零有显著差别,被解释变量与解释变量的线性关系显著,应保留在回归方程中;反之,如果概率值大于给定的显著性水平,则应接受原假设,认为回归系数与零无显著性差别,被解释变量与解释变量的线性关系不显著,不应保留在回归方程中。4.2回归系数的显著性检验回归系数的显著性检验是围绕回归系数(或偏回归系数)估计值的抽样分布展开的,以此构造服从某种理论分布的检验统计量,并进行检验。4.2.1 一元线性回归系数的检验一元线性回归系数的显著性检验原假设为:=0,即回归系数与0无显著差别,即当回归系数为零时,不论取值如何变化都不会引起的变化,无法解释的变化,二者之间不

37、存在线性关系。在一元线性回归模型中回归系数估计值的抽样分布服从:于是在原假设成立时,可构造t统计量为:t统计量服从自由度为n-2的t分布。利用SPSS可以自动计算出t统计量的观测值和对应的概率值。如果概率值小于给定的显著性水平,则应拒绝原假设,认为回归系数与零有显著差别,被解释变量与解释变量的线性关系显著,应保留在回归方程中;反之,如果概率值大于给定的显著性水平,则应接受原假设,认为回归系数与零无显著性差别,被解释变量与解释变量的线性关系不显著,不应保留在回归方程中。4.2.2 多元线性回归系数的检验多元线性回归方程的回归系数显著性检验的原假设为:,即第i个偏回归系数与零无显著性差异,即当回归

38、系数为零时,不论取值如何变化都不会引起的变化,都无法解释的变化,二者之间不存在线性关系。在多元线性回归模型中偏回归系数估价值的抽样分布服从:在原假设成立的前提下,可构造t检验统计量为:服从自由度为n-p-1的t分布。利用SPSS可以自动计算出t统计量的观测值和对应的概率值。如果概率值小于给定的显著性水平,则应拒绝原假设,认为回归系数与零有显著差别,被解释变量与解释变量的线性关系显著,应保留在回归方程中;反之,如果概率值大于给定的显著性水平,则应接受原假设,认为回归系数与零无显著性差别,被解释变量与解释变量的线性关系不显著,不应保留在回归方程中。4.3残差分析残差是指由回归方程计算所得的预测值与

39、实际样本值之间的差距,定义为:它是回归模型中的估计值,由多个形成的序列称为残差序列。4.3.1 残差分析容残差分析是回归方程检验中的重要组成部分,其出发点是:如果回归方程能够很好的解释变量的特征与变化规律,那么残差序列中应不包含明显的规律性和趋势性。主要容为:分析残差是否服从均值为零的正态分布;分析残差是否为等方差的正态分布;分析残差序列是否独立;借助残差探测样本中的异常值等。当解释变量取某个特定值时,对应的残差有正有负,但总体上服从以零为均值的正态分布。可以通过绘制残差图对该问题进行分析,如果残差的均值为零,残差图中的点在纵坐标为零的横线上下随机散落。对于残差正态性分析可以通过绘制标准化残差

40、的概率图来进行。如果回归直线对原始数据的拟合是良好的,那么残差的绝对数值比较小,描绘的点应在的直线上下随机散布,这反映出残差服从均值为零,方差为的正态分布,符合原来的假设要求。若残差数据点不是在的直线上下呈随机分布,而是出现了渐增或渐减的系统变动趋势,则说明拟合的回归方程与原来的假设有一定差距。4.3.2 残差序列的独立性残差序列的独立性也是回归模型所要求的,残差序列的前期和后期数值之间不应存在相关关系,即不存在自相关。残差序列存在自相关性会带来许多问题,如参数的最小二乘估计不再是最优的,不再是最小方差无偏估计;容易导致回归系数显著性检验的t值偏高,进而容易拒绝原假设,使那些本不应该保留在方程

41、中的变量被保留下来,并最终使模型的预测偏差较大。残差分析的独立性分析可以通过以下方式实现:(1) 直线相关(2) 绘制残差序列的序列图。残差序列以时间为横坐标,以残差为纵坐标。对图形直线观察可以发现是否存在自相关性。如果残差随时间的推移呈有规律的变化,表明残差序列存在一定的正或负相关。(3) 计算残差的自相关系数。自相关系数是一种测度序列自相关强弱的工具,期数学公式为:自相关系数的取值围在-11之间。接近于1表明序列存在正自相关;接近-1表明序列存在负自相关。(4)DW检验DW检验是推断小样本序列是否存在自相关的统计检验方法。其原假设为总体的自相关系数与0无显著差异。采用的检验统计量为:DW取

42、值在04之间。当序列不存在自相关时,。所以,对DW观测值的直观判断标准为:当DW=4时,残差序列存在完全负自相关;当DW取值在2到4时,残差序列存在负自相关;当DW=2时,残差序列无自相关;当DW取值在0到2时,残差序列存在正相关性;当DW=0时,残差序列存在完全正自相关。如果残差序列存在自相关则说明回归方程不能够充分说明被解释变量的变化,还留有一些规律性没有被解释,即回归模型选择不合适。4.4方差分析方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。4.4.1 方差分析简介方差分析(Analysis of Variance,简称ANOVA),又称“变异数

43、分析”或“F检验”,是由R.A.Fisher发明的,用于两个与两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。1. 方差分析的假定条件为:(1)各处理条件下的样本是随机的。(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。(4)各处理条件下的样本方差一样,即具有齐效性。2. 方差分析的假设检验:假设有个样本,如果原假设:样本均数都一样,个样本有共同的方差,则个样本来自具有共同方差和一样

44、均值的总体。如果经过计算,组间均方远远大于组均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。否则承认原假设,样本来自一样总体,处理间无差异。3. 方差分析的作用:一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以与显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。4.4.2单因素方差分析1.

45、单因素方差分析概念理解单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。2. 单因素方差分析步骤单因素方差分析的第一步是明确观测变量和控制变量。单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组离差平方和两部分,用数学形式表述为:SST=SSA+SSE。单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。3. 单因素方

46、差分析原理在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。4. 单因素方差分析基本步骤a、提出原假设:即为无差异;有显著差异b、选择检验统计量:方差分析采用的检验统计量是统计量,即值检验。c、计算检验统计量的观测值和概率值:该步骤的目的就是计算检验统计量的观测值和相应的概率值。d、给定显著

47、性水平,并作出决策5. 单因素方差分析的进一步分析在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。(1)方差齐性检验方差齐性检验是对控制变量不同水平下各观测变量总体方差是否相等进行检验。前面提到,控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就不能认为各总体分布一样。因此,有必要对方差是否齐性进行检验。SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变

48、量总体的方差无显著差异。(2)多重比较检验单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。6. 检验统计量的构造方法(1)LSD方法LSD方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字画就体现了其检验敏

49、感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。(2)S-N-K方法S-N-K方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况。7.其他检验(1)先验对比检验在多重比较检验中,如果发现某些水平与另外一些水平的均值差距显著,如有五个水平,其中、与、的均值有显著差异,就可以进一步分析比较这两组总的均值是否存在显著差异,即与是否有显著差异。这种事先指定各均值的系数,再对其线性组合进行检验的分析方法称为先验对比检验

50、。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。(2)趋势检验当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观测变量值变化的总体趋势是怎样的,是呈现线性变化趋势,还是呈二次、三次等多项式变化。通过趋势检验,能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。4.4.3多因素方差分析1. 多因素方差分析基本思想多因素方差分析用来研究两个与两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否

51、对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。2多因素方差分析的其他功能均值检验在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中,检验值可以指定为以下几种:观测变量的均值(Deviation);第一水平或最后一个水平上观测变量的均值(Simple);前一水平上观测变量的均值(Diffe

52、rence);后一水平上观测变量的均值(Helmert)。4.4.4协方差分析1. 协方差分析基本思想不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响。 2. 协方差分析的原理协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,人为观测变量的变动受四个方面的

53、影响:即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣除协变量的影响后,再分析控制变量的影响。方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍采用F统计量,它们是各均方与随机因素引起的均方比。5 银行卡受理环境对银行卡业务量的影响分析5.1数据、变量选取与模型设计银行卡业务需求与银行卡的受理环境存在关联性,银行卡受理环境的建设将对银行卡的业务量产生影响。而银行卡的受理环境中,有许多因素对银行卡的业务量产生影响,但考虑到影响因素的重

54、要性以与数据的可得性。选取特约商户的数量(),储蓄网点的数量(),ATM机的数量()和POS机的数量()这四个变量为自变量,而以我国银行卡的业务量为因变量(Y)。以表5.1中的数据为基础,使用SPSS软件的多元线性回归分析过程对我国银行卡业务交易金额寻求恰当的多元回归函数模型,分析银行卡业务交易金额量与对它具有显著影响的因素之间的关系。表5.1 1995年至2004年银行卡业务量回归分析数据时间银行卡业务量(万元)特约商户(个)储蓄网点(个)ATM机(台)POS机终端(台)20042637796935.36486261336096835234944820031798279626.6450619

55、91384175973633023220021156018471.09436014140390489662859002001842794866400671130114399572999822000452999919383683125268330942878451999242167209.34345190123643264242235091998132018300305776.9611440220634180272199712965270028052610778418346131924199610377300023453295315994199716199596122000183422769837051483845.2 银行卡业务量函数的回归拟合分析5.2.1 回归方法的选择与标准取Y 为因变量,为自变量。分别选择SPSS回归过程中Enter、Stepwise、Backward三种回归模型中自变量的进入方式,即:所有选择的自变量全部进入回归方程、逐步回归分析方式、向后剔除分析方式。除了Enter模式外,其他两种分析方式自变量进入或移出回归方程都按F检验统计量的概率标准,即:F统计量的显著性概率,变量将被移出回归方程;,变量将被引入回归方程。对Enter、Stepwise、Backward的解释:Enter:系统的默认选项,表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论