已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 r 本文所涉及的工作是根据省高校教学研究项目关于本科教学质量评估体 系的研究来进行的;数据由校教务处和校招生办提供。统计分析工作自始至 终是与宁静同学合作完成的,其中前半部分第二、第三章墼堂童堑据统计分析的 主要工作由本人完成;后半部分第四、第五章的主要工作由宁静同学完成。为 了保持文章所涉及工作内容的完整性,将两部分内容都写入本文本文针对教 学数据和评估数据的不同特点和性质,分别采用不同的统计方法进行分析,并 对统计分析结果的实际意义进行解释和讨论。主要涉及以下四方面内容;( 本人 主要工作包括第一部分和第二部分:。 ( 1 ) 用有序样本聚类的原理,对新生的高考成绩和第一学年期末成绩进行 墨幽和相关性研究。所得结果对学校的塑粪苫往有较大的参考价 值,并对新生入学后的学习提出一些合理化建议。 ( 2 ) 用方差分析法,选择入学基础、生源省份、性别和师资状况等要素对 。_ _ 。_ - - _ 。_ 一 大学期间学生英语、数学等主干基础课所产生的影响进行评价和分 析。 ( 3 ) 运用旦照分析和时同序列的方法,对中国科技大学近十年的塑生分数 进行趋势分析和周期分析,得出了对招生工作很有价值的判断。 ( 4 ) 通过马氏距离分类和用因子分析调整消除谔估问卷数的影响后再进行 分类的统计方法,对中国科技大学墼望耍薹望她鲞进行了分析,给 任课老师一个横向可比的客观估计值,提出了相应合理的问卷设计改 进措施。 a b s t r a c t t h ew o r kr e f e r r e dt oi nt h i sp a p e ri sd o n ea c c o r d i n gt ot h ee d u c a t i o n a lr e s e a r c h p r o j e c to ft h ep r o v i n c i a lc o l l e g e s ,( r e s e a r c ho nt h eq u a l i t ye v a l u a t i n gs y s t e mo f u n d e r g r a d u a t eed u c a t i o n ) ) t h ed i d a c t i c a lin s t i t u t ea n dt h er e c r u i t i n gi n s t i t u t eo f u s t c s u p p l yt h ed a t a t h es t a t i s t i c a la n a l y s i si sd o n ew i t hm y c l a s s m a t en i n gj i n g f r o mt h e b e g i n n i n gt ot h ee n d m y s e l f d ot h em a i nw o r k p e r t i n e n tt ot h es e c o n da n d t h j r dc h a p t e r s n i n g j i n g d o e st h em a i nw o r k p e r t i n e n t t ot h ef o u r t ha n df i f t hc h a p t e r s i no r d e rt ok e e pt h ei n t e g r a l i t yo ft h i sp a p e r , w ei n c l u d ea l lt h ew o r kd o n e b y u st w o i n t ot h ep a p e r i nt h i sp a p e r , w e a p p l i e dv a r i o u ss t a t i s t i c a lm e t h o d st oa n a l y z i n gt h e d i d a c t i c a ld a t aa sw e l la s e v a l u a t i n g d a t aa c c o r d i n gt ot h e i rd i f f e r e n tt r a i t sa n d p r o p e r t i e s w ee x p l a i na n dd i s c u s s t h e p r a c t i c a ls i g n i f i c a t i o n s o ft h es t a t i s t i c a l a n a l y z i n gr e s u l t sa sw e l l t h ec o n t e n t sa t ea st h ef o l l o w i n gf o u rs e c t i o n s ( t h em a i n w o r ko f m i n ei n c l u d e st h ef i r s ta n dt h es e c o n ds e c t i o n s ) : ( 1 ) w e l o o ka tt h et e r mm a r ko f t h e9 9 g r a d es t u d e n t so f u s t c a st h eo r d i n a ls a m p l e s a c c o r d i n g t ot h ee n t r a n c e m a r k ,a n da s s o r tt h e mo n t h eb a s i sp r i n c i p l e o f c l u s t e r i n g o fo r d i n a ls a m p l e s t h er e s u l t sg i v er a t i o n a ls u g g e s t i o n st ot h ew o r ko f e n r o l l i n g n e ws t u d e n t sa n dt h e s t u d y o f f r e s h m e n ( 2 ) a p p l y i n gt h em e t h o do fv a r i a n c ee n a y s i s ,w es t u d yw h e t h e rf a c t o r ss u c ha s t e a c h e r s ,g e n d e r , f o u n d a t i o n ,n a t i v ep l a c ei n f l u e n c ee n g l i s hg r a d e sa n dm a t h g r a d e so f u n d e r g r a d u a t e so rn o t t h er e s u l t sg i v er a t i o n a ls u g g e s t i o n st oh o wt o i m p r o v e d i d a c t i c a lq u a l i t y ( 3 ) w ea n a l y z et h et r e n da n dp e r i o do ft h el a s tt e n - y e a rr e c r u i t i n gs c o r e so f u s t c a p p l y i n gt h em e t h o d so fr e g r e s s i o na sw e l la st i m es e r i e s m o r e o v e r , s o m e v a l u a b l ec o n c l u s i o n so nt h e r e c r u i t i n gw o r k a r em a d e ( 4 ) w eu s ef a c t o ra n a l y s i sa m e n d i n ga n d e l i m i n a t i n g t h ei n f l u e n c eo ft h en u m b e r so f e v a l u a t i n gq u e s t i o n n a i r e sa n dt h es t a t i s t i c a lm e t h o do fm - d i s t a n c et op a r t i t i o na s w e l l 笛a n a l y z et h eu s t ce d u c a t i o n a lq u a l i t ye v a l u a t i n gq u e s t i o n n a i r e s w e b r i n g f o r w a r d a m e n d i n gm e a s u r e st ot h ed e s i g no f q u e s t i o n n a i r e 致谢 3 7 6 3 8 9 本文是在我的导师缪柏其教授的悉心指导及系里各位老师、同学的关心和 帮助下完成的。借此机会,谨向他们表示深深的谢意。 首先要感谢尊敬的缪老师。在研究生学习阶段,一直承蒙缪老师的无私指 导和严格要求,他严谨的治学态度和渊博的学识将使我一生受益。在论文撰写 的各个阶段,缪老师始终热情的帮助、关怀并提出珍贵的意见。在此,向缪老 师致以崇高的敬意和忠心的感谢。 同时,我有幸得到赵林城教授、苏淳教授、韦来生教授、吴曜华教授和胡 太忠教授的指导和帮助,开拓了我的视野,加深了我对概率统计学的认识。另 外,我要感谢和我一起探讨问题,完成研究工作的宁静同学。 最后,我要感谢统计与金融系各位在读博士生和硕士生,特别是彭衡师兄 给予了不少建议与鼓励。本文的完成与他们的帮助也是分不开的。借此机会向 诸位同学表示我的感激之情。 在统计与金融系学习的这段日子是令人难忘的,我深深感到系里浓厚的学 术气氛和同学之间团结互助的精神,这必将对我今后的学习和工作产生深刻影 响。再次对所有帮助和关心我的老师和同学表示最由衷的谢意。 硕士毕业论文:实际数据的统计分析与建模 实际数据的统计分析与建模 第1 章绪论 1 1选题背景及分析意义 数理统计是一门应用性很强的学科。它是研究如何有效的收集、整理和分 析受随机影响的数据,并对所考查的问题做出推断或预测,直至为采取决策和 行动提供依据和建议的一门学科。它不以任何一门专门领域为研究对象。只要 对其所研究的试验数据的随机性影响有明确的规定( 如服从正态分布) ,我们就 可以用统计方法分析它们,而不管这些数据的实际含义如何。因而,统计方法 的应用很广泛,几乎在人类活动的一切领域中都能不同程度的找到它的应用。 统计方法促进了科学研究的发展,反过来应用上的需要又是统计方法发展的动 力。例如,现代数理统计的奠基人,英国著名学者r a f i s h c r 和k p e a r s o n 在上 世纪初大力从事这方面的研究,就是出于生物学、遗传学、优生学和农业科学 方面的需要。在近代,随着电子计算机得到广泛应用,统计方法已越来越广泛 的应用于工农业生产和社会生活的各个方面。统计理论和方法向各个基础学科 工程学科的渗透是近代科学技术发展的特征之一。今天,数理统计的内容已异 常丰富,应用面广且量大,成为当前最活跃的学科之一。 在理论联系实际方面,统计学是数学中最活跃的分支之一。把统计方法应 用到实际数据的分析中,不仅是现今统计学发展的一个潮流,而且是将来统计 发展的必然趋势。其标志就是统计方法大量运用到国防科技、社会生活的各个 方面。 要对事物有更深入的了解,就不仅仅需要对各种复杂的信息和联系有较为 直观的、表面的、定性的了解,而且需要做出定量的描述和比较,深化对事物 的认识,从而有利于做出更加精确的估计和预测。通过统计分析的方法可以利 硕士毕业论文:实际数据的统计分析与建模 用实际观察到的数据,对我们希望了解的问题做深入的研究,从而找出各种因 素之间某种确定的联系,反映出事物的发展变化规律,进而为人们提供精确可 靠的决策信息。 近年来,国家通过开展教学评估工作,有效的促进了高等院校的健康发展, 同样各个高校内部引进教学评价机制。能及时、全面的反映学校的教学情况, 为校领导提供决策支持。学生的成绩以及学生对教师的教学质量评估,是教学 评价机制的重要环节,也是一项十分复杂的工作,因此高等院校在学生成绩和 教师教学质量评估方面作了大量探索( 文献 8 - 1 2 】) 。但是,我们发现国内在这 方面所做的工作多只注重定性的分析,而忽略了相比之下较为科学、客观的定 量分析。本论文通过教学数据、评估数据及其相关因素的统计研究,希望在统 计方法实际应用方面做出一些深入的分析与结论,填补国内在教学、评估数据 统计分析方面的某些空白。 1 2 1聚类分析 1 2统计方法简介 聚类分析是数理统计中研究“物以类聚”的一种方法。分类学是人类认识 世界的基础科学,在古老的分类学中,人们主要靠经验和专业知识,很少利用 数学。随着科学技术的发展,数学这个工具逐渐被引进到分类学中,形成了数 值分类学, 1 7 卜 1 9 】是这方面的代表作。近十几年来,数理统计的多元分析方 法有了迅速的发展,多元分析的技术自然被引进到分类学中,于是从数值分类 学中逐渐的分离出聚类分析这个新的分支。 为了将样本进行分类,就要研究样本之间的关系。一种方法就是将每个样 本看作m 维空间的一个点,并在空间定义距离,距离较近的点归为一类,距离 较远的点应属于不同的类。样本之间的距离有各种各样的定义,而这些定义与 指标( 变量) 的类型关系很大,通常按照测量尺度分为三类:间隔尺度、有序 尺度、名义尺度。因为间隔尺度用连续的量来表示指标,有明确的数量表示, 2 硕士毕业论文:实际数据的统计分析与建模 所以本章主要用间隔尺度定义距离。 常见的最直观距离有: 办( 1 ) ;艺i x t k - x j k i ,幽( 2 ) = 【芝k 一瓢) 2 】1 ,2 。 这两个距离可以统一成如( g ) ;【艺g 。一瓢p 】。 如( g ) 在实际中用的很多,但有些缺点。如它与各指标的量纲有关,有一定 的人为性;它也没考虑各指标之间的相关性。一种改进的距离就是文中第四章 所用的马氏距离 d ;( 。 ,) = ( x ( ,) 一z ,) ) y 一1 ( j ( ,) 一x ( d ) , 其中x ( ) 表示数矩阵行向量的转置,r 表示数据矩阵的协差阵。它不受指标 量纲的影响,对指标的相关性也作了考虑。 系统聚类法是目前国内外使用最多的一种方法。此方法的基本思想是:先 将n 个样本各自看成一类,然后规定样本之间的距离和类与类之间的距离。选 择距离最小的对并成一个新类,计算新类和其他类的距离,再将距离最小的 两类合并。每次减少一类,到所有样本合成一类为止。类与类之间的距离有许 多定义方法,如可用两类间的最短距离,也可用两类重心之间的距离等等,不 同的方法产生系统聚类的不同方法。 n 个样本分成k 类,如果样本是平等的,则一切可能的分法有 胄( = i 1 掣k - k - i 。i , 对于有序样本,n 个样本分成k 类的一切可能分法有 上式是容易证明的。而且,r ( m i ) = o ( t 。) ,昱i i ) = o ( 破) ,当d - 较大时 r i 以i ) 远远小于矗( ) 的阶,所以有序样本的聚类问题要简单的多,大大减少 了计算机的计算时间和内存。本文第二章用到的f i s h e r 最优分割法的分类依据 是离差平方和,但因为胄,( 啊i ) 远小于r ( 以七) 的阶,所以它只能求得局部最优解。 f i s h e r 最优分割法详见附录。 1 2 2方差分析 在人类活动的各个领域中,经常要研究一些事物的关系,从定量的角度去 研究事物或其某一个侧面,就归结为某些变量之间的关系的研究。般的说, 变量间的关系可以分成两类,一类是变量之间具有严格的确定性关系。例如正 方形面积与其边长a 之间,存在以公式s = n 。表示的确定关系。另一类情况是: 变量之间存在着一定的制约关系,但这种关系没有密切到可由一个决定另一个 的程度。例如人的身高和体重,一般个子高的人较重,但身高并不决定体重。 我们称这种变量的关系为“相关关系”。 影响一个事物的因素往往很多,人们总是希望通过观察和试验找出各种因 素的影响。在事物复杂的联系中,当然有的因索影响大,有的因素影响小,有 的因素可以控制,有的因素不能控制。这就需要我们从多种因素中找出主要因 素,通过主要因素的控制调整来提高我们关心的指标值。从广义地说,这里涉 及的是分析一些事物( 变量) 之间关系的问题,解决这一问题的有效方法之一 就是方差分析。 设想有一我们感兴趣的指标( 变量) y ,其值受到一些因素置,x 。的影 响,也受到随机误差的影响。我们的目的是要通过对试验或观察数据的分析, 去了解因素五,。x 。对指标y 的影响的具体情况,也要了解随机误差的影响有 多大。至于分析的具体形式,则与我们感兴趣的方面,与因素置,z 。的性质 4 硕士毕业论文: 实际数据的统计分析与建模 等都有关系。而每个因素可归入以下两类之一: 1 ) 属性的。如本文第三章分析影响学生成绩各因素中的任课老师和学生性 别等。它们均无数量大小可言,只是性质不同,这种因素叫属性的 2 ) 数量的。如本文第三章中的高考成绩。但数量的因素取值限定在指定值 上可以将其属性化。 一个方差分析问题中考虑的因素有多少,随问题的性质和我们的认识水平 及我们的研究规模而定。有些问题只考虑一个因素,我们称其为单因素问题。 类似的,有双因素问题和多因素问题。第三章对影响学生成绩的分析中选取了 入学基础( 高考成绩) 、生源省份、性别和大学教师等多个因素进行分析。方差 分析模型详见附录。 1 2 3因子分析 1 9 0 4 年c h a r l e ss p e a r m a n 发表一篇著名论文对智力测验得分进行统计分 析视为因子分析的起点。因子分析的形成和发展有相当长的历史,最早用于 研究心理学和教育学的问题,由于计算量大,又缺少高速计算的设备使因子分 析的应用和发展受到很大限制。后来由于电子计算机的出现,才使因子分析的 理论研究和计算问题,有了很大的进展。目前这一方面的应用范围已十分广泛, 在经济学、社会学、生物学等各个领域都取得了显著的成绩。 因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量 综合为数量较少的几个因子,以再现原始变量与因子之间相互关系,同时还可 以根据不同因子对变量进行分类。它也属于多元分析中处理降维的一种统计方 法。因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能 控制所有变量的少数几个随机变量来描述多个变量之间的相互关系。但在这里, 这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性大小把变 量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。可见, 因子分析可以达到数据简化、揭示变量之间的关系和进行统计解释的目的。为 硕士毕业论文;实际数据的统计分析与建模 进一步分析总体的性质和数据的统计特征提供一些重要的信息。 1 2 4时间序列分析 所谓时间序列,指的是一列随时间变化而又相互关联的数字序列,也常称 为动态数据。这类数据序列是经常遇到的,例如按年度排列的产品的年产量, 按月排列的商品月销量等等统计资料都是时间序列。由于各自的实际背景不同, 他们所包含的信息和呈现的规律是千变万化与错综复杂的。当我们初接触某一 动态数据时,会觉得它们杂乱无章。然而,如果仅从数据本身作一些表面的简 单处理。例如画点值图,作简单统计分析等等,是远远不能满足要求的,也不 能获得数据内在的规律。为此需要一套处理动态数据的参数化时域分析方法, 该方法的主要目的,是对各种类型的数据,用相应的数学模型去近似描述,通 过对于相应模型的研究分析,可以更本质的了解数据内在规律的复杂特性,进 一步达到由表及里。从数学模型出发可以获得数据的动态变化规律,从而可以 达到控制规律和预测未来的目的。这些方法称为时间序列分析。 时间序列分析分为单变量和多变量时间序列分析。本文第四章用单变量时 间序列分析对中国科学技术大学近十年招生分数进行分析。时间序列的一般模 型如下: 设扛, 为零均值平稳序列,若满足如下的p 阶随机差分方程 x t = 9 x t _ + 币2 x i - 2 + + 妒p x t p + a i 且满足下列条件: ( 1 ) 口,) 为白噪声序列; ( 2 4 1 ) ( 2 ) 0 r e x ,d ,= o ,t s ,即s 时刻的白噪声与前时刻x ,( f o 为整数。 这样一来,得到更广泛的一类模型: 工f = ( p l x t l + ( 0 1 x t 一2 + + 伊p x t 一,+ 口f 一0 1 a 卜i 一- o q a 卜口 ( 2 4 2 ) 这里令 妒( b ) = 1 一p l b 一仍曰2 一一妒。b 目( 占) = l 一0 1 b 一0 2 8 2 一- o q b 4 若( 2 4 2 ) 满足如下条件: ( 1 ) 伊( 占) 和o ( b ) 无公共因子; ( 2 ) 砟o ,见0 ; ( 3 ) 扣。 为白噪声序列; 硕士毕业论文:实际数据的统计分析与建模 ( 4 ) 戥4 f = o ,f s 则称模型( 2 4 2 ) 为p 阶自回归q 阶滑动平均混合模型,记为删m a ( p ,q ) 模型。 上述的时间序列模型仅适用于描述那些平稳序列。但是,在许多实际问题 中,所获得的动态数据,显然不能近似的看作平稳的,这些数据常不是稳定在 某一常值水平上,而是有明显的增长或衰减趋势。本文第四章招生分数数据就 有较为明显的上升趋势。对这种数据的分析,通常是从所分析的时间序列中提 取时间t 的确定性函数,即认为均值函数是时间t 的多项式,再对提取确定趋势 后的残差序列作时间序列分析。 1 3本文主要工作 本文所做教学数据与评估数据的统计分析都是与宁静同学合作完成的。前 半部分第二、第三章教学数据的统计分析主要工作由本人完成;后半部分第四、 第五章的统计分析主要工作由宁静同学完成。因为是统计与金融系和中国科技 大学教务处合作项目的数据来源,为了说明各种多元统计分析方法处理数据的 不同特点和性质,并保持文章的完整性,将两部分内容都写入本文。 第二章中用f i s h e r 最优分割法和系统聚类法,对按高考成绩由低到高排序 后的大学期间的数学成绩和英语成绩作聚类分析。对数学成绩分析的结果表明: 高考成绩在6 0 2 分左右可将学生分为两类,这两类学生在大学的数学成绩存在 显著差异。对英语成绩分析的结果表明:高考成绩在6 1 1 和6 4 0 左右可将学生 分为三段,各段成绩存在显著差异。对数学成绩和英语成绩二维数据作聚类分 析,表明高考成绩在6 0 1 分左右可将学生分为在大学成绩存在显著差异的两类, 而在同一群体中高考分数的高低对大学成绩已不存在决定性的作用。 第三节用方差分析的方法考查入学后的数学成绩,英语成绩与任课老师、 录入省份、高考成绩、学生性别是否有关,以及考察入学后成绩是否与上述4 个因素中某几个因素共同作用有关联。以口= o 0 5 为检验显著性水平,以原始 甚 硕士毕业论文t实际教据的统计分析与建模 分同学的数据为样本对数学成绩作方差分析找出了老师、省份、性别和老师与 高考成绩之间的交互效应等显著性影响因素;以原始分同学的数据为样本对英 语成绩作方差分析发现每个因子的不同水平都存在显著差别,各个因子的交互 效应均不存在;并对统计结果分析了它们的实际背景和意义。 第四章用回归和时间序列分析的方法对中国科技大学近十年招生分数进行 趋势分析和周期分析。先用回归分析的方法消去数据的趋势项,再对残差进行 时间序列分析。首先分析其周期性,发现残差数据周期为2 ;再对残差的偏相 关函数作分析,可将残差序列定为周期为2 的自回归模型。由a i c 准则,模型 阶数定为1 。并比较了扩招前数据模型和加入近两年扩招后数据的数据模型。 第五章中先对所要处理的数据进行了方差齐次性检验,发现各类的方差不 等,而且从相关系数阵可发现数据各指标之间存在很大的相关性,所以我们用 马氏距离法在方差不等的情形下构造了新的分类方法对数据进行了分类。另外, 我们用因子分析的方法找出有效问卷数对评估分类的影响。消除有效问卷数的 影响后,根据因子重要度算出每位老师的最终教学评估得分,用有序样本聚类 的方法对数据重新进行分类。 9 硕士毕业论文:实际数据的统计分析与建模 第2 章高考成绩与大学成绩的相关性研究 2 1引言及基本结果 教育质量一直被视为高等教育的生命线。生源质量的高低是直接影响学校 教育质量的关键因素。近年来,持续不断的高校生源大战,使各个高校想尽了一 切办法,争取好生源。例如,加大新生的奖学金额度、在高中生中设立班主任和学 生奖金、在高校中实行省份招生包干制,以加强领导力量等等不一而余。这里, 让所有高校不得不思考一个问题,什么叫好的生源? 什么样的高考录取分数线 能确保大学整体质量? 几门单科成绩具有代表性? 大学成绩是否与高考成绩成 正比相关? 带着这些思考,我们将9 9 级学生的商考成绩作为有序样本与大学一 年级统考的数学和英语成绩进行了聚类分析。其结果对今后的招生工作具有十 分重要的指导意义。 我们采用有序样本聚类的方法对高考成绩进行了合理的分段。主要使用的 是s p l u s 软件包,但因s - p l u s 对大型计算速度很慢,所以我们结合使用了 c 语言编程。结果表明,当高考成绩超过一定分数段后,它不再是影晌新生入 学后数学成绩的主要因素;对英语成绩和英语数学综合成绩的分析也有类似结 果,这改变了过去人们认为高考成绩越高,入学后成绩越好的错误倾向。据此, 我们认为,招生工作重点不应放在高分的录取,而是确保整体水平;同时表明, 高考成绩达到一定水平的同学在入学后的努力程度和学习态度是决定他( 她) 们大学成绩的主要因素。 2 2 1样本选择 2 2统计分析 本文的原始数据有1 6 6 9 个,由于各地高考采用不同的模式进行,因此我们 仅对高考5 门,总分为7 5 0 分的学生进行分析。最后的分析是对9 5 6 个学生的 高考总分、一年级统考的数学期末成绩、英语期末成绩来进行的。 1 0 硕士毕业论文:实际数据的统计分析与建模 2 2 2方法 首先,对9 5 6 名学生按高考成绩由低到高排序,称为序列号,因此第i 个 学生是指其高考分按由低到高次序排在第i 位。以x ,表示第i 个学生的成绩, 这里x ,可以是数学成绩或英语成绩,还可以是数学成绩和英语成绩的二维数 据。 本文将f i s h e r 的最优分割法和系统聚类法应用于此有序样品的聚类分析。 所谓有序样本聚类是指不打乱原有样品的排列次序把数据分为若干类。 2 2 3结果 1 根据数学期末成绩分类: 首先,用f i s h e r 最优分割法对其进行有序样本聚类。当我们把学生根据高 考成绩分成二到六个人群时结果如下: 分类数六类 高考序号区间 l 1 0 61 0 7 5 7 55 7 65 7 7 与7 96 8 0 与8 46 8 5 9 5 6 对应高考成绩区间 6 0 26 0 2 6 3 26 3 26 3 3 娟3 76 3 7 ,6 3 86 3 8 数学成绩均值 7 3 27 9 59 97 6 85 1 67 9 8 分类数五类 高考序号区间 1 9 89 9l o m 蝎7 96 8 0 击8 46 8 融9 5 6 对应高考成绩区间 6 0 06 0 l6 0 1 6 3 76 3 7 6 3 8 6 3 8 数学成绩均值 7 4 。22 07 8 95 1 67 9 8 分类数四类 高考序号区间 1 1 0 61 0 7 6 7 9 6 8 0 6 8 46 8 5 固5 6 对应高考成绩区间6 0 26 0 2 6 3 36 3 3 娟3 86 3 8 硕士毕业论文:实际数据的统计分析与建模 数学成绩均值 7 3 27 95 1 67 9 8 分类数三类 高考序号区间 l 9 89 91 0 0 - 9 5 6 对应高考成绩区间6 0 0 6 0 16 0 1 数学成绩均值 7 4 22 07 9 0 2 分类数两类 高考序号区间l 一1 0 61 0 7 h 9 5 6 对应高考成绩区间 6 0 26 0 2 数学成绩均值 7 3 2 7 9 1 从上表中可以看出当分类数为六时,第三类和第五类仅一人和五人。第三 类对应的数学成绩为9 9 分,比旁边两类高出好多,第五类平均值异常低,查对 原始数据发现这5 位同学的数学成绩分别为1 8 ,6 0 ,6 0 ,6 0 ,6 0 。这是一个偶 然的现象,我们将它们作为异常值删除。对其他分类数也可以作类似的分析。 由各分类数的分析可发现当分类数为四时,分类效果最佳。此时剔除异常值后, 得到三类。为比较这三类平均成绩有无显著差异,先对后两类进行方差齐性检 验: :d r ;= d r ;凰:d ;口; 所得p - v a l u e 值为0 0 5 2 ,在口= o 0 5 的水平下通过检验。 接着我们对后两类均值是否相等进行检验: h o :2 = 3 月i :2 , 同样所得p - v a l u e 值为0 3 7 6 6 ,在a = 0 0 5 的水平下风通过检验,即后两 类均值相等。所以我们把后两类合并为一类,然后再检验与第一类是否可以合 并成一类。我们先进行方差齐性检验,结果p - v a l u e 值为0 0 2 2 ,在口= 0 o l 的 1 2 硕士毕业论文:实际数据的统计分析与建模 水平下通过了检验。进而检验它们均值是否相等,结果p - v a l u e 值为0 0 4 3 ,在 。= 0 0 5 的水平下否定了原假设,即不能合并成一类。由此,我们认为可以在高 考成绩6 0 2 分左右将学生分为两类,这两类学生在大学的数学成绩存在显著差 异。 其次,我们也利用系统聚类法对数学期末成绩进行了分类。结果表明,分 类效果不如最优分割法。例如当分类数选为五时,具体结果如下: 高考序号区间 1 , - , 9 91 0 0 5 7 65 7 8 6 4 26 4 4 , - 6 7 96 8 1 9 5 6 对应高考成绩区间6 0 0 6 0 l 6 3 2 6 3 3 6 3 56 3 6 一击3 76 3 8 数学成绩均值 7 3 77 9 37 8 37 7 87 9 5 其中删除了个别异常点。 不过此种方法也进一步验证了6 0 0 分左右是一个分界点。 2 根据英语期末成绩分类: 首先,用f i s h e r 最优分割法对其进行聚类,当分类数选为三时最好,结果 高考序号区间 l 2 3 92 4 ( 3 - - 9 6 59 6 6 1 2 4 9 对应高考成绩区间 5 2 6 6 1 16 1 1 6 4 0 6 4 0 英语成绩均值 7 9 4 18 1 9 98 4 6 6 同样,为比较三个高考分数段的大学英语平均成绩是否有差异,先对三类 的方差是否相等进行检验: h o :0 - f = 0 - 2 = 0 - ;+ + h l :口 ,口;,0 - ;不全相等 所得p - v a l u e 值为o 1 2 3 2 ,在口卸0 5 的显著性水平下风通过检验。 硕士毕业论文:实际数据的统计分析与建模 接着我们检验三类均值是否相等: h o :朋= 2 = 3 + + h i :z 1 ,2 ,胁不全相等 得p - v a l u e 值为0 0 0 7 6 ,以口= 0 0 5 的检验水平否定日o 。 由此,我们可根据高考分数把学生分为三段,分界点分别为6 l l 左右及6 4 0 左右,各段英语平均分有显著差异。 其次,我们用系统聚类法对英语期末成绩进行聚类。同数学成绩一样,分 类结果不如最优分割方法。 当分类数选为六时,结果为: 高考序号区间 l h 9 91 0 0 5 7 75 7 跏6 4 26 4 3 6 7 96 8 l 9 5 69 6 6 - - 1 2 4 9 对应高考成绩区间 5 2 6 5 9 45 9 4 6 2 66 2 击2 86 2 8 6 3 06 3 0 - - 6 4 06 4 0 英语成绩均值 7 9 4 48 1 0 38 2 9 48 2 6 58 2 1 78 4 6 6 其中删除了个别异常点。 3 根据英语和数学期末成绩二维数据用f i s h e r 最优分割法分类: 计算结果当分类数选为三时效果最好,结果为: 高考序号区间 1 1 0 21 0 31 0 4 9 5 6 对应高考成绩区间 6 0 1 英语成绩平均 7 9 1 37 68 2 2 6 数学成绩均值 7 3 8 92 07 9 0 9 删除1 0 3 这个异常点,得到两个高考分数段。同样,为检验平均成绩有无 显著差异,首先作方差齐性检验。 1 4 硕士毕业论文:实际数据的统计分析与建模 h o :盯f = 一付h l :盯f 盯; p - v a l u e 值为0 0 5 8 1 , a = 0 0 5 的检验水平风通过检验a 接着我们对两个高考分数段的均值进行检验: h o :l = 2 + h i :l 9 2 其中,肼= ( 第i 段数学成绩,第i 段英语成绩) ,j = l ,2 得p - v a l u e 值为0 0 0 9 8 ,以a = o 0 5 的检验水平否定o 。 由此,我们可以在高考成绩6 0 1 分左右将学生分为两类,这两类学生在大 学的成绩存在显著差异。 2 3 具有指导意义的几个结论 1 高考分数可以作为大学生智育水平的一个标准。如英语成绩大体上与高 考分成正比。 2 高考总分在一定范围内的学生在大学学习中处于同一起跑线上。我们分 别对数学、英语与高考总分作有序样本统计分析及高考总分与数学英语综合成 绩的统计分析表明,在我校6 0 1 分可以作为一个大体的分界线,即6 0 1 分以下 的学生和6 0 1 分以上的学生构成两个不同的群体。在同一群体中高考分已不再 起决定性的作用,特别是数学。在6 0 1 分以上这一群体中,学生已具备了相当 的学习高等数学的基础,在此基础上学生的成绩取决于自己的努力程度和个人 正确的学习方法。例如一名高考成绩只有6 0 5 的学生入学后数学成绩9 7 分,而 一名高考成绩高达6 6 3 的学生入学后的数学期末成绩只有6 2 分。这从一个侧面 反映了这个问题。另一例证是同一群体中女生成绩普遍好于男生,原因之一是 女生学习努力。 硕士毕业论文:实际数据的统计分析与建模 3 在招生工作中,应控制一个最低招生分数水平,以确保新生的整体水 平,而不要一味强调个别高分的录入。从数据中可看出高考原始分超过6 0 0 分 后,各个高考成绩段的数学期末成绩几乎在 6 0 ,1 0 0 1 中成均匀分布。 6 硕士毕业论文:实际教据的统计分析与建模 第3 章影响学生成绩各因素的评价 3 1引言及基本结果 在我们这个文明古国,评价一个学生成绩的优劣,主要还是通过考试这个 环节。在知识经济扑面而来,竞争日益激烈的今天,考试越来越成为现代人生 活中不可缺少的组成部分。人们需要用考试来检验自己的水平,证明自己的能 力或获得各种普升的机会。从某种意义上说,考试已经是构筑现代社会有序发 展的必要手段和润滑剂。诚然,要使考试能检验出被测对象的能力和水平,那 是有它的一套学问的。 高等学校的考试及其培养质量如今也同高考一样,受到社会的广泛关注, 它们之间有何关联? 选择哪些评价因素,有利于消除模糊性、偶然性和不确定 性,有利于量化处理? 一般来讲,考试可分为三种类型,即测试型、水平型和 选拔型。显然高等学校的入学考试是属于选拔型,而在大学期间的考试多半是 测试型和水平型。这种选拔型的考试如何与大学的测试型、水平型考试相关联? 从而达到大学教育的基本目的? 对它的深入研究,事关学生培养质量的提高, 不可等闲视之。 本章试图通过中国科学技术大学9 9 级学生的两门主干统考课程英语和高等 数学的成绩分析,找到它于入学基础( 高考成绩) 、生源省份、性别和大学教师 等要素的相关性,从而提出若干有利于教学质量提高的建设性意见。 3 2 1 样本选择 3 2统计分析 本章采用了方差分析模型并利用s - p l u s 统计软件。采集了9 9 级学生数据 1 6 6 9 个a 因部分省市题型不同,并去掉部分不全数据。实际采用有效原始分数 据1 2 7 1 份,标准分数据3 0 7 份。每份数据项中的信息包括学生学号,性别,高 硕士毕业论文:实际数据的统计分析与建模 考成绩,录取省份,9 9 年度上学期的英语类和数学类的各科成绩及任课老师。 3 。2 2结果 首先,因为方差分析基于样本服从正态分布的假设,我们采用2 , 2 检验的方 法,对标准分和原始分同学的英语成绩和数学成绩分别进行正态性检验,在水 平口= 0 0 5 下均通过了检验。结果如下: 标准分同学的英语成绩一( 8 1 0 7 ,5 4 4 7 ) 标准分同学的数学成绩( 7 8 6 0 ,1 9 0 2 3 ) 原始分同学的英语成绩( 8 2 7 7 ,4 8 0 6 1 ) 原始分同学的数学成绩n ( 7 8 3 4 ,1 6 7 9 6 ) n ( a 。盯2 ) 表示均值为口,方差为盯2 的正态分布。 我们的目的是观察入学后的数学成绩,英语成绩与任课老师、录入省份、 高考成绩、学生性别是否有关,以及考察入学后成绩是否与上述4 个因素中某 几个因素共同作用( 统计上称为交互作用) 有关联。为此我们分别对上述因素 关于入学后的数学成绩,英语成绩作方差分析以辨识哪些因素( 包括交互作用) 起主要作用。方差分析表中的要素种类包括了4 个基本因素以及它们的各种交 互作用因素( 因为在有些场合,两个或两个以上因素的共同作用会产生很大影 响) 。如果某个要素种类对应的p r ( f ) 值小于显著性水平口,则认为此要素对入 学后的成绩起作用。其中p r ( f ) 值标“一”的表示结果很显著,能通过a = o o l 的检验显著性水平;标“”表示结果是显著的,能通过a = o 0 5 的检验显著性 水平。 1 以原始分同学的数据为样本对数学成绩作方差分析 结果按方差分析表列出如下: 硕士毕业论文:实际数据的统计分析与建模 方差来源自由度平方和f 值 p r ( f ) 任课老师 1 02 1 2 3 6 2 01 6 0 10 0 0 录入省份 2 21 0 9 8 0 8 33 7 5o 0 0 高考成绩 14 1 9o 0 30 8 5 学生性别 11 2 4 7 3 19 4 00 。0 0 老师,省份 1 7 63 0 8 4 7 9 01 3 80 0 0 + 老师,高考分 1 02 9 1 4 9 52 2 3o 0 2 + 老师,性别 1 04 7 5 4 40 4 0 o 9 6 省份,高考分 2 11 4 8 8 6 80 5 10 9 5 省份,性别 1 63 1 8 9 8 51 5 4 o 0 9 高考分,性别 19 1 2 1 0 7 60 4 0 高考分,性别,省份 1 58 6 2 3 70 4 3 0 9 6 高考分,性别,老师 1 0 2 6 3 9 3 22 0 b0 0 3 + 高考分,省份,老师 1 1 31 3 3 7 3 0 5 0 9 00 7 6 省份,老师,性别 3 8 4 1 4 6 5 90 8 40 7 6 老师,性别,省份,高考分 1 01 0 6 9 9 0 o 8 1o 6 2 残差 5 1 5 6 8 1 9 9 7 5 从p r ( f ) n - f 知,以口20 0 5 为检验显著性水平,除了高考成绩外,其它三个 因子的不同水平之间都存在显著差异;而老师与省份,老师与高考成绩之间的 交互效应存在:老师,性别与高考成绩三因子之间的交互效应存在。从这里可 以看出,授课老师的教学水平,男女生不同的思维方式和努力程度,以及不同 的地域文化对大学期间的数学成绩起着重要影响。又因为大学中的数学教学内 容与中学有很大差别,学生需要在思维方式上有较大转变。所以,以高考成绩 为主要衡量标准的高中基础并不对其起主要影响作用。至于老师与其它因素之 间的交互效应的存在,进步说明了老师在因材施教,激发学生的兴趣,启发 思维方面作用的优劣对学生的成绩起到了重要影响。由此可见,高质量的师资 队伍是办好一所大学的关键所在。在全面推进素质教育的今天,优秀的师资队 伍,在启发创新思维,培养动手实践能力和创造能力方面更是起着关键和重要 的作用。 以原始分同学的数据为样本对英语成绩作方差分析,结果为 方差来源 自由度平方和 f 值p r ( f ) 任课老师1 11 9 5 3 3 0 3 7 6 o o o + + 录入省份2 22 2 5 8 1 s 2 1 40 0 2 + 高考成绩11 s 6 1 1 7 3 3 2 0 0 0 0 + + 1 9 硕士毕业论文:实际教据的统计分析与建模 学生性别 12 6 2 0 0 35 5 7 10 0 3 + 老师,省份 1 5 97 9 0 2 8 41 0 30 2 s 老师,高考分 1 16 4 2 1 91 2 5o 2 0 老师,性别 1 11 6 6 4 40 3 00 9 3 省份,高考分 2 21 4 1 9 7 01 3 40 1 5 省份,性别 2 09 8 5 0 11 0 90 4 0 高考分,性别 18 2 0 41 7 10 2 9 高考分。性别,省份 1 77 3 1 2 80 9 00 5 6 高考分,性别,老师 1 15 8 9 4 11 1 3o 3 0 高考分,省份,老师 1 1 75 9 9 9 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小儿腹泻护理查房
- 商业活动现场保洁服务协议
- 2025年昆明市寻甸县公安局招聘警务辅助人员考试真题
- 2025年河南国有资本运营集团有限公司招聘考试真题
- 《商务数据可视化》课件-7.2-新建数据表中的元素
- 2026广东肇庆市高要区教育局赴高等院校招聘教师84人考试模拟试题及答案解析
- 环境事故救援指南
- 2026年常德市新闻系统事业单位人员招聘考试备考试题及答案详解
- 2026年鹅山博爱医院医护人员招聘笔试模拟试题及答案解析
- 2026年毕节市党校系统事业单位人员招聘考试备考试题及答案详解
- Unit5OldtoysPartALet'sspell(课件)人教PEP版英语三年级下册
- 2026年深度学习及其应用-复旦大学中国大学mooc课后章节答案期末练习题(典型题)附答案详解
- 2026云南昆华医院投资管理有限公司(云南新昆华医院)招聘5人备考题库及答案详解参考
- 2026届陕西省西安市五校中考三模语文试题含解析
- 2026小升初语文专项冲刺辅导
- 2025年东莞市康复实验学校招聘笔试真题
- 2024年江苏省徐州市中考英语真题(含答案)
- 2026年长沙市初三中考模拟语文试卷试题(含答案详解)
- 广东省汕头市2026年中考数学模拟试卷五套附答案
- (新)生物安全年度工作计划
- 中学全员育人岗位责任制(标准版)
评论
0/150
提交评论