毕业设计(论文)广义线性回归在研究学生成绩相关性的应用_第1页
毕业设计(论文)广义线性回归在研究学生成绩相关性的应用_第2页
毕业设计(论文)广义线性回归在研究学生成绩相关性的应用_第3页
毕业设计(论文)广义线性回归在研究学生成绩相关性的应用_第4页
毕业设计(论文)广义线性回归在研究学生成绩相关性的应用_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引言回归分析是一种应用极为广泛的数量分析方法,它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确的把握变量受其他一个或多个变量影响的程度,进而为事物的控制和预测提供科学依据。作为标准的统计分析工具,多元线性回归分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用。利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是:被解释变量应是连续数值型变量。然而,实际应用中这种要求未必都能得到较好的满足。例如,在对小轿车消费群体特点的分析和预测中,可以根据历史数据,建立关于小轿车的多元回归模型。可能将诸如职业,年收入,年龄等因素

2、纳入模型,并希望通过模型预测具有某特定特征的客户是否会购买小轿车。这个多元回归模型的被解释变量设为是否购买(l表示购买,0表示不购买),是个纯粹的二值型品质变量,显然不满足变量为数值型数据的要求。在数据分析中,尤其在社会科学、医学的研究中,像这样的情况是很普遍的。当出现这种情况的时候,建立的一般多元回归模型就会出现以下问题:残差不再服从零均值的正态分布;被解释变量的取值区间受限制等。基于这种情况,提出了广义线性模型。形式上,广义线性模型是常见的正态线性模型的直接推广。它可适用于连续数据和离散数据,特别是后者,如属性数据,计数数据。这在实际中,尤其是生物、医学、经济和社会数据的统计分析上,具有重

3、要的意义。广义线性模型要求响应变量通过线性形式依赖于自变量,这一特点保持了线性自变量的思想,而且广义线性模型允许许多用于线性模型的方法能用于更一般的实际问题。广义线性模型的响应变量y都属于指数分布族,而指数分布族不仅包含了许多常见的重要分布,如正态分布,二项分布,poisson分布等,而且它有良好的分析性质,在数据处理上有很多方便。总之,广义线性模型为今后回归模型提供了一个重要的统一的研究方法。广义线性模型的个别特例起源很早。fisher在1919年曾用过它。最重要的logistic21模型,在20世纪四五十年代曾由berkson,dyke patterson等人使用过。1972年nelder

4、和weddethum在一篇论文中引进广义线性模型一词,提供了一个新的估计理论和计算框架,对传统线性回归模型作了进一步推广,建立了统一理论和计算框架,对回归模型在统计学中的应用产生了重要影响。这种新的统计模称作广义线性模型(generalized linear models,简称glm)。近年来,广义线性模在理论上和应用上得到了快速的发展,在模型的拓展、参数估计方法以及模型的验和诊断等方面不断趋于成熟。张尧庭11(1995)在与传统线性模型对比的基础上,对广义线性模型本质特征进行了描述。陈希孺17,19院士于20022004年在数理统计与管理杂志上,分十次讲解对多元广义线性模型进行了系统的介绍。

5、另外,我国学者在广义线性模型参数估计的相合性、收敛速度、模型的诊断等方面得到了不少优秀成果。用于glm的计算软件也相继问世,目前,除了由nag(numerical algorithms group)研发的专用程序glim(generalized linear interaetive modeling)外,sas和spass2,3统计软件中的genmod模块也被广泛使用,在统计软件r和x-plore中,也有相应的计算模块。得益于应用软件的推广,广义线性模型在医学、农业、交通运输、产品试验以及经济、金融等方面得到了广泛的应用。近年来,广义线性混合模型、半参数广义线性模型22、广义非线性模型等扩展模

6、型在理论研究和实际应用上得到了快速的发展。广义线性模型理论的建立,极大地推动了以统计方法为基石的精算学的发展。传统的线性回归模型,都是建立在对称分布的基础上,以常值方差为假设。但在精算实践中,所采集的数据往往显示出非常值方差的趋势;用于描述索赔额等变量分布通常具有厚重的右尾;反应变量不再局限于对解释变量的线性依赖。在许多情况下,传统线性回归模型不适宜作为精算统计模型。广义线性模型的出现,为精算学的发展提供了有力的工具。广义线性模型在精算中的应用起始于上世纪八十年代,九十年代经历了快速的发展,并被广泛地应用于精算学的各个领域,如生命表的修匀、损失分布、信度理论、风险分类、准备金和费率的估计等方面

7、。大学学习不同于高中或者初中,以往的教学方式长期有老师的监督和教导,而大学学习更注重培养学生的自主学习的能力,而在这种缺乏约束的学习氛围下,学生的学习成绩可能会出现不同程度的畸形。大学生步入大学之后,由于学习目标不明确而导致学习动力不足,放松要求,出现了考试不及格、降级、退学等学籍异动情况,对学校和个人都造成了损失。那么出现这种事故有无规律?有无征兆?本文仅从学生各门课程考试成绩的变化角度对该问题进行分析与研究,以安徽工程大学统计学专业07级81个学生前三学年的学习成绩为样本通过广义线性回归分析来研究学生学年间成绩的相关性。在这三学年中,有些学生出现了退学降级等学籍异动,对他们的相应数据做了如

8、下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一学年甚至以后几学年的相应学习成绩补缺。出于公正的角度,均用他们的第一次考试成绩为观察值进行数据处理和分析。第1章 绪论1.1广义线性回归基本思想先看下面几个例子。例1 抛物线的拟合某零件上有一条曲线,可以近似看作是一条抛物线,为了在数控机床上加工这一零件,在曲线上测得个点的坐标,要求从这个点的坐标出发,求出曲线的函数表达式。 显然,这是一个回归分析问题,由于曲线可以近似看作是一条抛物线,因此,回归方程(即曲线的函数表达式)是一个二次多项式 ,像这种回归方程是一个多项式的回归,称为多项式回归(polynomial regr

9、ession)。虽然多项式回归方程不是线性的,但可以通过变量代换,化成线性形式。令,原来的回归方程化成了下列形式: , 这是一个线性回归方程,可以用前面介绍过的线性回归的方法求出它的解。具体作回归时,所需要的观测数据, 用, 的数值代入,求得的线性回归方程中常系数的估计,也就是原来的二次多项式回归方程中常系数的估计。例2 科布-道格拉斯(cobb-douglas)生产函数 在经济学中,有一个著名的科布-道格拉斯生产函数,这个函数指出,生产产出 与劳动投入 、资本投入 之间,近似有下列关系: ,其中, 都是常系数。现测得一组劳动投入、资本投入和生产产出的数据,要求从这批数据出发,估计常系数 的值

10、。这是一个回归分析问题,回归方程为 ,显然,它不是线性回归方程,但是,如果我们对方程两边同时取对数,得到 ,(原来有,误差项为,取对数后有,也有一个误差项,我们把这个误差项记为。)再令,它就化成了一个线性回归方程 。用线性回归的方法可以求出它的解。具体作回归时,所需要的观测数据 , 用, 的数值代入,计算得到的线性回归方程中常系数的估计,就是原来回归方程中 的估计,原来回归方程中 的估计,可以通过 求得。例3施肥效果分析对2种作物土豆、生菜,分别施以3种不同数量的肥料氮、磷、钾,得到一批产量的数据,求施肥量与产量之间的关系。设分别是氮、磷、钾肥的施肥量,是产量。与之间,可能有各种各样的关系,但

11、这种关系显然不会是线性的。比如说,可以考虑下列关系: ,这是一个的2次多项式。令,它就化成了一个线性回归方程 ,可以用线性回归的方法求出它的解。例4 混合异辛烯催化反应 在混合异辛烯催化反应中,反应速度与氢的分压 ,异辛烯的分压 ,异辛烷的分压 之间,近似有下列关系: ,其中, 是常系数。现对 作观测,得到观测值,要求常系数 的估计值。对回归方程两边开3次方,再取倒数,得到 ,再令 , , , , , , , , ,原方程就化成了下列形式: ,这是一个不带常数项 的线性回归方程。对于这种回归方程,可以用求线性回归方程的解法,求得它的最小二乘解。作回归计算时,所需要的观测数据,用 的数值代入,按

12、线性回归方法求得常系数的估计 后,从下列各式就可以求出原方程中各系数的估计值:,。 上面举了几个把非线性回归化为线性回归的例子。一个非线性回归问题,如果能够象上面例子中所介绍的那样,通过适当的变量代换,化为线性回归,则称这种回归为广义线性回归(generalized linear regression)。1.2广义线性回归分析在方差分析中分析效应因子a对反应变量y的影响,即,分析效应因子a的不同水平对反应变量y的作用差异。方差分析的原理是分解总体变量:回归分析中分析自变量x对因变量y的依存关系,即,分析自变量x改变一个单位时,因变量y的改变量大小。回归分析原理是分解总体变异:方差分析和回归分析

13、的相同点方差分析和回归分析的不同点主要在于自变量的类型不同前者是分类型的,后者是连续型的广义线性模型分析是将方差分析和回归分析的基本原理结合起来,用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。两个典型的广义线性模型分析方法协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。它消除了混杂变量(协变量)对因变量的影响,使得方差分析结果更加准确。广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法,它和线性回归分析的区别是模型的自变量可以是任意类型的变量。其主要目的是扩

14、大线性回归分析的应用范围,使得它的应用价值得到进一步提高。广义线性回归分析的假设条件:1. 因变量是连续随机变量;2. 自变量相互独立;3. 每一个数值型自变量与因变量呈线性关系;4. 每一个数值型自变量与随机误差相互独立;5. 观察个体的随机误差之间相互独立;6. 随机误差广义线性回归分析和线性回归分析相比,广义线性回归分析的优点有:1,自变量可以是任意类型的变量;2,利用sas的glm过程可以分析每一个分类型变量对因变量的影响的显著性。1.3广义线性回归模型广义线性模型是非线性模型的一些特例,它们具有一些共性,是其它非线性模型所不具备的。它与典型线性模型的区别是其随机误差的分布不是正态分布

15、,与非线性模型的最大区则在于非线性模型没有明确的随机误差分布假定而广义线性模型的随机误差的分布是可以确定的。例如, 即是一个广义线性模型。1.3.1广义线性模型的三项构成要素(1)随机成分:用以明确响应变量的概率分布。随机成分包含自然指数分布族里的某一个分布的若干独立观察值。自然指数分布族概率分布的每个观察值具有如下的密度函数: 。任何一个可以写成这种形式的分布都是自然指数分布族的一员。对于,参数可以是不同的,随自变量的变化而变化。称为该分布的自然参数。例如,二项分布即是(单参数)自然指数分布族的一员。因为它的概率密度函数可作如下变换:,其中, ,。(2)系统成分:用以确定用作预测变量的解释变

16、量的线性函数。广义线性模型的系统成分通过一个线性模型将向量与一组解释变量联系起来,这里是模型矩阵,有时也称作设计矩阵,它包括解释变量的个观测值;是模型的参数向量; 被称为线性预测(向)量。(3)连接函数:用以描述系统成分与随即成分的期望值之间的函数关系。设,与通过来联结,其中是任意单调可导函数。模型通过公式将响应变量观测值的期望值与解释变量连接起来。在上面关于二项分布的例子中,连接函数是logit,或者更具体一点说是。通常,将与自然参数一致的连接函数称为典型连接函数,当然,也可以采用与自然参数不一致的连接函数。一般说来,对于所有的,其连接函数都是一样的,函数表示一致性连接函数,意指该线性预测(

17、向)量是响应变量期望值的线性模型。由此看出,线性模型只不过是广义线性模型的一个特例,在那里,连接函数是一致性连接函数。综上所述,广义线性模型是转换后的响应量期望值的线性模型,该响应变量具有自然指数族的分布。再如,泊松分布的密度函数,变换为,也具有自然指数分布的形式,其中, , 。我国统计学原理教科书上常见的指数曲线回归模型即是这样的广义线性模型。因为其典型连接函数为对数函数,所以也叫做对数线性模型,可用来对定性变量进行回归分析。值得再次强调的是,广义线性模型的响应变量是假定服从某一特定的概率分布的。1.3.2广义性线模型与连续变量模型的关系广义线性模型不仅包括离散变量,也包括连续变量。正态分布

18、也被包括在一族自然指数分布族里,该自然指数分布族包含描述发散状况的参数,属于双参数指数分布族(双参数是指位置参数和发散参数,前述的单参数指数分布族指仅包含位置参数的指数分布族),对于固定的方差,其自然参数就是平均数。所以,对于响应变量的平均数的回归模型是一个采用一致性连接函数的广义线性模型。1.3.3广义线性模型的特(优)点(1)对定性变量进行分析。广义线性模型的其中一些如logit回归和对数线性回归模型在社会统计的各个领域的定性分析中有广泛的用途。其中,logit回归模型可以用连续性的解释变量解释二项分布变量的变化,对数线性模型则可用来解释多个类别变量之间的关系,即对多相列联表进行分析。在纵

19、向数据分析及生存分析中也有广泛的应用,而生存分析及纵向数据分析在目前的统计方法研究中都是热门课题。(2)使非经性回归线性化。两变量与多变量的非线性模型计算非常复杂,用的也非常少,而广义线性模型非现性模型的线性化,则允许模型中有多个解释变量,象线性回归一样,并且,象复回归一样,可以对解释变量进行向前、向后选取分析。(3)广义线性模型的参数估计量具有大样本正态分布,因而具有良好的统计性质。广义线性模型方法的推广和应用对于显示现代统计方法和统计技术的威力,促进全民统计意识的普及及深化有很大的推广作用,也与大统计学科的建设方向相一致。第2章 广义线性回归分分析学生成绩2.1广义线回归性模型由于每一学年

20、统计学专业都设置了十几门课程,在这里建立多维回归是很困难的。所以以学生大学二年级和三年级的平均成绩(表示第年级第个学生的平均成绩,。)作为因变量,大学一年级开设的各门课程成绩 (为第个学生在一年级所学习第门课程的成绩。)作为自变量,其它影响因素归到误差中。其中各的课程名称如表2-1。表2-1 课程名称思想道德修养与法律基础学大学英语一高等数学一高等代数一计算机文化与基础微观经济学学大学英语二高等数学二高等代数二军事理论建立线性模型如下:,并设与有如下广义线性模型: , (2.1.1)其中,是待估参数。2.2模型的参数估计在模型(2.1.1)下:记,令 ,得正规方程组:,的解为,其中,的参数估计

21、借助残差矩阵,则常用的估计为:,其中而。2.3回归方程的显著性检验(或称相关性检验)在这个问题当中,我们事先并不能判定应变量与自变量之间确有线性关系。再求出回归系数的估计之前,回归模型(2.1.1)这是一种假设,尽管这种假设常常不是没有根据的,但在求出线性方程后,对与之间是否有线性关系还需进行统计检验,已给出肯定或者否定的结论。我们假定,如果y与之间均无线性相关关系,则模型(2.1.1)中的系数应均为0。故检验与是否线性相关的问题就等价于检验假设:又,其中。记,则在下而,而q与相互独立。在成立时统计量:,于是统计量为:,在成立时,当原假设不成立时,有增大趋势,故拒绝域为:。2.4回归系数的显著

22、性检验对回归方程进行显著性检验,若否定,仅表示中分量不全为0,但并不排除有某个为0。若,说明自变量对变量y的影响不显著,应从回归模型中删除。因此回归系数是否为0,进行逐个检验是很必要的,即检验以下的假设:,统计量为:,其中为变量的偏回归平方和,为去掉变量的残差平方和。在不成立时,有增大的趋势,所以拒绝域为。第3章 数据分析3.1数据的来源本文数据取自安徽工程大学07级统计学专业的前三学年的学习成绩。在这三年之中,有些学生出现退学降级等学籍异动,对他们统计软件的相应数据做了如下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一年级甚至以后几学年的相应学习成绩补缺。出于公正的

23、角度,均用他们的第一次考试成绩为客观值进行数据处理和分析。3.2数据处理3.2.1参数估计我们通过统计软件spass13.0的glm进行广义线性回归分析实现。的估计为:。3.2.2显著性检验在spss13.0回归系数显著性检验结果如表3-2。表3-2 多元方差分析资料来源因变量第三类平方和自由度均方误差f检验值显著性水平修正模型第二学年平均分4717.068(b)6398.02948.6700.000第三学年平均分5965.235(c)6456.4735.6170.000截距第二学年平均分0.04710.0470.0010.974第三学年平均分104.4851104.4850.7720.369

24、思想道德修养与法律基础第二学年平均分58.199158.1993.6740.070第三学年平均分86.507186.5071.1040.228大学英语 一第二学年平均分139.2641139.2646.5870.013第三学年平均分125.3651125.3651.3520.282高等数学一第二学年平均分69.268169.2680.8940.508第三学年平均分69.578169.5780.7830.588高等代数一第二学年平均分269.2541269.25413.5420.000第三学年平均分256.3511256.3512.2650.125计算机文化与基础第二学年平均分2.36912.3

25、690.2560.952第三学年平均分0.25310.2530.2390.742微观经济学第二学年平均分26.369126.3690.4520.574第三学年平均分17.246117.2460.2510.671大学英语二第二学年平均分58.236158.2360.8740.356第三学年平均分65.269165.2690.9580.541高等数学二第二学年平均分189.3541189.3546.2510.015第三学年平均分258.3641258.3647.2630.001高等代数二第二学年平均分356.5251356.52517.6730.000第三学年平均分426.2561426.2561

26、1.4710.000军事理论第二学年平均分0.25810.2580.0440.875第三学年平均分0.12410.1240.0180.987误差第二学年平均分1025.1177432.258第三学年平均分4263.64974112.254模型总体第二学年平均分172534.16781第三学年平均分169325.43881修正模型总体第二学年平均分4935.43780第三学年平均分5635.78180a b c 在表2中可以看出 (学大学英语一) ,(高等代数一),(高等数学二),(高等代数二)对影响显著; (高等数学二), (高等代数二)对影响显著,其他几门课程对、影响不显著。这说明数据存在共

27、线性。在显著水平时,回归方程显著性检验的拒绝域为 ,经计算,落在拒绝域内,故拒绝原假设,说明大学一年级的学成绩与二年级显著相关。同理,对进行检验得:统计量检验值,也落在拒绝域内,说明大学一年级的学习成绩与三年级的成绩也显著相关。3.3逐步回归法(向后法)向后法是先将全部自变量选入回归模型,然后逐个剔除对残差平方和贡献较小的自变量。具体做法如下:步骤1 建立个自变量与因变量的全模型,计算各变量相应的回归系数的检验统计量的值,选其中最小者,记为,即,对给定的显著性水平,记相应的灵界值为,若,则从回归方程中剔除;否则选择变量过程结束。步骤2 对剩下的个变量,重复步骤1。依次进行,直到经检验,没有变量

28、可剔除为止。先分析大学一年级对二年级影响显著变量:第一步:,所以剔除自变量(军事理论)。依次做下去:得到一年级的学习对二年级成绩影响显著变量为:。同理,一年级学习对三年级成绩影响显著变量为 (高等数学二), (高等代数二)。则向后法选择的最优回归方程为:,从上面的分析我们可以看出:大学一年级的学习和后期学习有显著相关性。而且相关的显著变量为(思想道德修养与法律基础), (学大学英语一),(高等代数一),(高等数学二),(高等代数二)。在上面的分析中我们可以得到结论:在大学一年级的学习中,影响学生学习的两大类课程一类是:像高等数学二和线性代数这类体现学生学习方法是否得当的逻辑课;另一类主要是根据

29、学生出勤和论文情况评分的思想品德修养这类反应学生学习态度的课程。所以大学生入学之后一方面要迅速适应大学的教学方法和环境,调整学习方法;另一方面是要端正学习态度,切不可松弛懈怠。第4章 大学一年级样本的聚类分析和判别分析4.1聚类分析在认识到大学一年级的学习对后期学习有显著影响,我们自然要问:后两年中出现的降级和退学现象是不是在大学一年级的时候就埋下隐患?我们采用马氏距离对所取的样本的一年级成绩进行聚类分析,进一步说明这个问题。样本和的马氏距离定义为:,其中为样本协方差阵的逆矩阵。以bic准则为聚类标准。采用two step cluster对数据进行处理得到的结果见表4-1。表3中第1类学生为大

30、学一年级就降级的3名学生,第2类学生为各科学习成绩均值较低的27名学生,第3类学生为各科学习成绩均值较高的51名学生。表4-1 各类学生成绩均值课程第一类学生均值第二类学生均值第三类学生均值总均值思想道德修养与法律基础62.666763.021484.695276.6766大学英语一57.333363.584979.241673.2058高等数学一40.333362.754774.259869.1612高等代数一35.000069.259876.453872.5304计算机文化与基础57.333369.339678.541374.6887微观经济学63.500075.684184.254980

31、.3762大学英语二56.000061.207574.3984 67.2459高等数学二48.500076.830279.075975.3984高等代数二35.000050.369173.486163.0587军事理论65.000080.236581.246680.3072根据聚类分析对学生分类结果的数据和后期两年的实际数据比对,我们发现在后期学习中出现退学和降级等学籍异动的6名学生(实际学籍异动的学生为5名)均在第1、2两类学生中。也就是说这些学生在大学一年级的学习过程中就已经为后面的悲剧埋下了隐患。教师和教学管理人员应高度重视第2类学生,分析成因,有针对性地开展教育教学工作,避免悲剧发生。

32、4.2判别分析在有了上面聚类分析的结果后我们对这批样本做一次回判。在聚类分析中我们可以清楚的看到3个总体均值有显著差异,因此做判别分析是合理的。在回归分析中我们看到有些自变量对因变量的影响显著,有的影响微弱,所以我们采取逐步判别分析方法。逐步判别就是通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量方法。逐步筛选变量的步骤:记合并组内离差阵,总离差阵,其中, ,为组数,表示t组第个元素,表示第组元素总数,有。步骤1 考察变量对个总体的判别能力。变量的判别能力为,设步骤2 检验对k个总体的判别效果是否显著,即检验:其中为总体的均值向量的第 个分量。在成立时是由构造统计量,对给定的显著性

33、水平,若,把变量引入判别式,并对矩阵做消去变换:,依次做下去,把判别能力强的变量引入。用spss13.0计算,逐步判别分析得到判别能力强的变量为(思想道德修养与法律基础), (学大学英语一), (计算机文化与基础),(高等数学二),(高等代数二),(军事理论)。其中的计算机文化与基础、高等数学二和高等代数二的学习成绩优劣体现了学生在大学一年级逻辑思维能力的训练和学习方法的转变;大学英语一的成绩主要依据是平时的积累和课堂学习的积极性;而思想道德修养与法律基础和军事理论的成绩主要依据学生的出勤和教学过程中小论文完成情况打分,主要反映了学生的学习态度和遵守纪律情况。通过这6个自变量的判别得到判别分析

34、与聚类分类的一致率为95.5%。结果如表4-2。表4-2 分类结果聚类组别预测组学生数总计123计数1200 32028331302495157.570301.568.570从上述分析中在另一个角度得到结论:大学一年级对后期学习有显著影响,教师和管理人员在一年级教学及管理中应从三个方面着重关注学生的成长和发展。第一方面是:学生学习方法的掌握和逻辑思维的训练;第二方面是:提高学生学习的积极性;第三方面是:端正学习态度,遵守学校纪律,完成学校规定的学习任务。结论与展望本文研究了学生学习成绩的相关性问题。以安徽工程大学统计学专业07级81名学生的成绩为样本建立的广义线性回归

35、模型,应用逐步回归、聚类分析和判别分析方法进行数据分析。利用spss13.0统计软件,得到如下结论:一方面,大学生学习应从大学一年级抓起,尤其是一年级的第二学期,一年级的学习与后期学习有显著的相关性;在一年级的学习过程中我们更要重点指导学生适应大学的教学方式和环境,促使学生迅速调整学习方法,并端正学习态度。而在统计学专业中学习方法是否适当主要体现在高等数学和高等代数这几门课程的学习,态度的端正与否主要体现在思想道德修养与法律基础这样根据出勤和论文情况评分的课程上。另一方面我们发现在后期学习上出现退学、降级和考试不及格的学生多是在一年级就已经埋有隐患,也就是说在一年级已经形成了学生成绩的两极分化

36、,教育工作者对这阶段学习有问题的学生应给予足够的重视,帮助他们顺利完成学业。本文主要运用的是广义线性模型,广义线性模型是线性模型的推广,它适用于连续数据和离散数据,而且误差结构不再局限于正态分布。广义线性模型相关知识是一个非常庞大的系统,其涵盖面是很广,该模型在生物、医学和经济、社会数据的统计分析中有着重要的实用意义。通过本文的设计和研究对广义线性回归分析有了更深入的了解,在研究本文课题之后了解到大学生学习成绩在大一学年尤为重要,对于每个刚进大学的学生来说更应该抓住学习的机会在大学一年级就打好根基,为以后的学习充实更多的知识,在一些难于掌握的课程应当投入更多的时间去专研。本文相关研究还存在很多

37、不足的地方,对广义线性回归模型只是作了部分的理解和运用,相关研究还有待提高和深入研究发展。致谢本文的工作是在我的导师范国良老师悉心指导下完成的。范老师渊博的专业知识,严谨的教学态度,精益求精的工作作风给了我极大的影响。本论文从一开始参考文章的选取,毕业论文题目的选择以及整个过程,都是在导师的指导下完成的,倾注了导师大量的心血。范老师还多次询问研究进程,并为我指点迷津,帮助我开拓研究思路,精心点拨、热忱鼓励。在此还要感谢安徽工程大学数理学院的各位老师对我的热情帮助,正是由于他们的精心授课和热心辅导,才能使我获得丰富的知识去完成论文,并且帮助我在学习遇到困难时激发起无尽动力去克服困难,完成学业。您

38、们的谆谆教诲使我受益匪浅,并永远激励在我前进的征途上。在此一一鞠躬感谢!同时,在四年的学习生活中,我与一起学习和生活的同学们也给了我很多帮助,在一起学习知识的同时也让我度过了一段快乐的时光,衷心感谢他们。另外,我要感谢我的家人,他们给我创造了良好的求学条件,给了我莫大的支持。父母给我的支持和帮助是无法表达和言语的,在此真心的感谢父母对我的关心。最后,感谢周围所有给予我帮助和关心的老师,同学和朋友们。学生签名:周维 年 月 日 参考文献1 何晓群.多元统计分析m.北京:中国人民大学出版社,2004.2 张文彤. spss统计分析教程高级篇m. 北京:北京希望电子出版社,2002.3 王力宾.多元

39、统计分析:模型、案例及spss应用m.北京:北京经济科学出版社,2010.4 刘磊,黄斌.因子分析在教学评估中的应用j.湖北工业大学学报,2006, 21(1):59-61.5 范金城,梅长林.数据分析m.北京:科学出版社,2002.6 何晓群,刘文卿.应用回归分析分析m.北京:中国人民大学出版社,2007.7 徐瑾,张伦俊.教学测评数据的聚类分析m.北京:中国人民大学出版社,2008.8 田宏,于晓秋.因子分析与聚类分析在学生成绩综合评价中的应用j.牡丹江师范学院学报(自然科学版),2009, 8(1):34-38.9 白春玲,樊顺厚,刘军利,范贺方.学生学习成绩相关性的研究j.天津工大学理

40、学院学报,2009, 12(3):6-12.10 刘建明.大学生学习差异的元统计分析j.佳木斯教育学院学报,2010, 25(1):59-61.11 张尧庭,方开泰.多元统计分析引论m.北京:科学出版社,1997.12 steven t. garren, shyamal d. peddada. asymptotic normality in multivariate nonlinear regression and multivariate generalized linear regression models under repeated measurements with missing

41、 data j. statistics & probability letters volume ,2000, 48(3):293-302. 13 douglas p. wiens, xiaojian xu. robust prediction and extrapolation designs for misspecified generalized linear regression models j. journal of statistical planning and inference, 2008, 138(1): 30-46.14 anderson t. w an introdu

42、ction to multivariate statistical analysism. new york: word publishing co:wiley,1984.15 蔡鹏,高启兵.广义线性模型中的变量选择j.中国科学技术大学学报, 2003, 36 (9): 55 -58.16 bettina grun, friedrich leisch. fitting finite mixtures of generalized linear regressions in rj. computational statistics & data analysis, 2007, 51(11):524

43、7-5252.17 陈希孺.数理统计引论m.科学出版社,1997.18 周雁.广义线性模型的诊断与实例分析j.四川大学学报(自然科学版),2007, 44 (6): 2 -6.19 陈希孺.广义线性模型(一)j.数理统计与管理,2002, 21(5):11-17.20 刘海生.多元统计分析法在学生成绩综合评价中的应用j.华北科技学院学报,2002, 23(1):77-79.21 王济,川郭志刚.logistic回归模型方法与应用m.北京:高等教育出版社,2001.22 朱仲义,韦博成.半参数非线性模型的统计诊断与影响分析j.应用数学学报, 2001, 24(4):568-570.23 lind

44、sey j. k. applying generalized linear modelsm. belgium: luc diepenbeek, 1995.附录附录a一篇引用的外文文献及其译文英文文献 中文翻译联合广义线性模型中的变量选择摘要在联合广义线性模型中,散度参数与均值都被赋予了广义线性模型的结构,本文主要考虑在只有分布的一阶矩和一阶矩指定的条件下,联合广义线性模型中均值部分的变量选择问题。本文采用广义拟似然函数,提出了新的模型选择准则(eric);该准则是akaikr信息准则的推广。论文通过模拟研究验证了该准则的效果。关键词:akaike信息准则;模型选择;广义线性模型;广义拟似然一、

45、引言建模是进行统计分析与推断的第一步。而对于一组数据,往往有好多类模型可供选择;在同一类模型中,还要确定变量个数,这就是所说的模型或变量选择。经典的模型选择主要是线性回归中自变量的选取,例如akaike信息准则(aic)1等。广义线性模型是线性模型的推广,它适用于连续数据和离散数据,而且误差结构不再局限于正态分布。该模型在生物、医学和经济、社会数据的统计分析中有着重要的实用意义;logistic模型便是广义线性模型的一个特例。对广义线性模型的变量选取, pregibon2和hosmer3分别针对mallow的cp准则进行了推广;efron4基于aic准则进行了推广,这些文献中没有考虑散度参数。

46、而mccullagh5和nelder建议,除非数据或先验信息显示不存在散度,那么把散度参数考虑进来推断效果会更优。hurvich6和tsai利用广义拟似然函数(extended quasi-likelihood5)对指数族分布的aic准则进行了修正;pan7利用广义估计方程(gee)讨论了广义线性模型中的aic准则。然而在这些文献中,散度参数只是被作为常数来处理的。由于异方差数据的大量存在,散度参数被作为变数来处理是有实际意义的。在联合广义线性模型(joint generalized linear models, jglm)中,散度参数与均值都被赋予了广义线性模型的结构,包含了具有异方差正态误

47、差的线性回归模型等。针对jglm的统计推断,在只有分布的一阶矩和二阶矩指定的条件下,mccullagh和nelder提出了广义拟似然函数5,8,9。本文采用广义拟似然的思想,提出了一个适用于jglm的变量选择准则(eaic)。二、eaic准则的推导2.1模型结构假设独立响应变量来自jglm,该模型由三部分组成: 方差模型: ; 均值部分的广义线性模型: ; 散度部分的广义线性模型: ,其中, 称为方差函数, 表示在真实模型下的期望值, 称为散度参数, 代表参数真值向量。和为已知的光滑函数。广义拟似然函数的对数形式为:,其中, 是均值模型的偏差(deviance)成分:。当给定回归模型和时,对数

48、广义拟似然函数可以改写为回归系数的函数: 。由于真实的模型未知,我们以一组jglm作为备选模型,去拟合实际数据:方差模型: ;均值部分的广义线性模型: ;散度部分的广义线性模型: ;其中, 表示在备选模型下的期望值, 是相应的散度参数, 代表未知参数向量。本文只考虑均值部分的模型选择问题,所以此时矩阵。备选模型的对数广义拟似然函数为:,同样, 可以写为回归系数的函数: 2.2准则推导通过kullback-leibler信息量和广义拟似然函数,我们定义了一个新的比较模型差异的度量: (1)其中表示关于真实模型所在分布求期望。由于式(1)中的第一项不依赖于备选模型,可以当作常数忽略,则式(1)可以

49、表示为: (2)给定样本,表示参数的最大广义拟似然估计(meql),则.其在点的taylor展开式为: (3) 式(3)中的第二项至少是渐近成立的,令,则式(3)变为 (4)式(4)中含有样本,因而可看作随机变量,为了消除随机性的影响,可对其求期望:令,则有 (5)对在处进行taylor展开:由于meql估计满足,从而有其中。显然, ,于是, 。从而由式(5)可得, (6)选取的渐进无偏估计值可得我们的模型选择准则: (7)其中, 。计算各备选模型的eaic值,达到最小值者便是最优模型。注意到如果用对数似然函数代替式(2)中的,则式(7)恰是aic准则: ,而且右边的第二项化为,是备选模型中自

50、变量的个数。对aic准则及其各种推广形式,第二项常被解释为对自变量个数增加的惩罚项,并被推广至的函数形式。因此,笔者也尝试着以函数代替式(7)中的第二项,所得准则为:。三、模拟研究我们做了一些模拟研究来验证eaic准则的效果。3.1两个具有超散布性(over-dispersion)的分布所考虑的第一个分布是beta-binomial分布。设观测值为。在概率服从beta分布的条件下,响应变量服从binomial分布: ,此时的边际分布已不再是binomial分布,而是beta-binomial分布,其概率分布为:,其中, 是beta函数。则,其中, ,;被视为散度参数。所考虑的第二个分布是poi

51、sson-gamma分布,它是负二项分布的特例。设响应变量具有均值,则标准的poisson分布满足,其方差函数满足。当存在超散布性时,方差函数将不再满足上式,而换为更一般的形式: 。3.2对beta-binomial分布的模拟对每一组观测值,是的向量,其元素独立同分布于均匀分布服从beta-binomial分布,并由logistic模型产生,因此,真实的模型只包含的前三个变量; 由分布随机产生。为简单起见,笔者只比较了5个嵌套备选模型,也就是依次包含的个元素。所采用的散度模型是: ,其中, 是的向量,其元素独立同分布于均匀分布。令,样本容量取。对该模型的计算,我们使用了调整广义拟似然函数5,此

52、时,表达式的第二项被乘了一个因子。限于篇幅,本文仅列出的模拟结果。表1显示了在1000次试验中,各备选模型被选中的次数。我们同时计算了忽略超散布性时的mle和相应的aic值,并将其模型选择结果列入表1中以作比较。笔者还计算了1000次试验中,参数的广义拟似然估计的平均值和估计的均方误差mse, ,其中表示在1000次试验中第次试验的估计值。结果见表5。3.3对poisson-gamma分布的模拟对每一组观测值,xi是51的向量,其元素独立同分布于均匀分布;响应变量来自poisson-gamma分布: , 由gamma分布随机产生。所采用的散度模型为,其中, ,是的向量,其元素独立同分布于均匀分

53、布。样本容量,模拟结果见表2,表6。为了研究eaic准则的稳定性,我们调整进行了多种模拟,表3列出了样本容量为50, 时100次的模拟结果;表4列出了样本容量为100, 时100次的模拟结果。注意,惩罚项和仅差一个常数因子,理论上,常数因子不改变模型阶数的相合性。实际上,笔者也计算了没有常数因子的情形,结果稍微不如上述所给。四、结论和讨论已有大量文献讨论了基于似然方法的变量选择问题,例如aic准则。但是,利用非似然方法,例如广义拟似然函数,来进行变量选择问题研究的并不多。本文提出了一个适用于jglm的新的变量择准则eaic,而且,利用广义拟似然的方法,无须出样本的分布,只要知道其分本的前两阶矩即可通过模拟研究,笔者验证了eaic准则的有效性稳定性。不过,在aic或eaic中,惩罚项的选取不是任意的,它应该是作为渐近偏差修正项出现我们可以进一步用bootstrap方法来计。此外,eaic准则原则上也适用于度模型中自变量的选择。这一课题的实用价值保了我们进一步研究的意义。参考文献1 h akaike. in

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论