(应用数学专业论文)基于函数型数据分析的高中学习成绩评价与预测.pdf_第1页
(应用数学专业论文)基于函数型数据分析的高中学习成绩评价与预测.pdf_第2页
(应用数学专业论文)基于函数型数据分析的高中学习成绩评价与预测.pdf_第3页
(应用数学专业论文)基于函数型数据分析的高中学习成绩评价与预测.pdf_第4页
(应用数学专业论文)基于函数型数据分析的高中学习成绩评价与预测.pdf_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 对于如何填报志愿,始终是困扰广大考生和家长的普遍问题。做为重要参考指标, 模拟考试分数能提供许多较为准确的信息。我们尝试结合考生模拟考试成绩,借助函数 型主成分分析方法,试探性地对考生高考成绩进行预测。经过实际数据分析后发现,效 果还是接受的,能为今后的考生及家长提供一定的帮助。 关键词:高考函数型数据分析主成分分析预测 a b s t r a c t h o wt of i ui nt h ea p p l i c a t i o no f c o l l e g ee n t e r a n c ee x a mi sav e r yi m p o r t a n ta i l dh a r d p r o b l e mf o re x a m i n e e sa n dt h e i rp a r a n t s a sam a j o rc o n f e r e n c ei n d e x ,s i m u l a t i o nt e s ts c o r e m a yb eo h e rs o m ei n f o r m a t i o n w et r yt ou s ef u n c t i o n a lp r i n c i p a lc o m p o n e n t s a 1 1 a j y s i sa n d s l m n l a t i o nt e s ts c o r e st op r e d i c tt h es c o r eo f c o l l e g ee n t e r a n c ee x a m b ya n a l y z i n ga 仃u e d a :t a s e t ,w ef i n dt h a tt h i sm e t h o dd og i v eu sag o o d p r e d i c t i v ee f f e c t w eb e l i e v et h a ti n 如t u r e 蚰sp a p e rs h o u l dh e l pe x a m i n e e sa n dt h e i r p a r a n t st os e l e c tac o l l e g er a t i o n a l l v k e y w o r d s :c o l l e g ee n t e r a n c ee x a m ;f u n c t i o n a ld a t aa n a l y s i s ;p r i n c i p a lc o m p o n e n t s a n a l y s i s ;p r e d i c t i o n i l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名 日期:肚塑 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 蠹差o q r 硼日期: 指导教师签名: 日期: 通讯地址:彤糕 牲 东北师范大学硕士学位论文 引言 2 1 世纪,知识经济飞速发展,我国高校逐年扩大招生规模,使得高考不再是千军 万马过独木桥,而是越来越多的青年学生有机会进入高校,接受高等教育。那么如何能 够进入考生心目中理想的大学,学习理想的专业,是一直以来困扰考生和家长的一个难 题。为了解决这个问题,考生和家长要对考生的学习成绩有一个科学、合理的认识,从 而理性的做出选择。但是每年都有一些学生出现高分低就,低分落榜,甚至高分落榜的 现象,这样造成了不必要的教育资源浪费,影响了学生职业生涯起始的质量,或许会改 变他们一生的命运。 如何合理的借鉴模拟成绩,给出准确的评价和判断,进而预测高考成绩,使其正确 的填报志愿,本文尝试对其问题进行分析。 东北师范大学硕士学位论文 第一章综述 1 1 问题的提出 对填报志愿来说,模拟考试分数是第一项重要的参考分。面对无数的大考、小考及 不断变化的分数,我们应该着重关注高三后期的模拟考试成绩。其原因有如下几点:( 1 ) 考生所在地命题老师在命题时,都要对高考大纲进行仔细分析,并努力揣摩高考命题者 的心理,因此模拟考试的出题思路,以及题的难易程度与高考试题都相当接近,此类考 试的成绩也应与高考成绩较为接近。( 2 ) 部分省市的模考统一命题,并且采取与高考一致 的阅卷方式,这一点也使它能成为高考的一个重要参考。( 3 ) 模拟考试不仅从命题、阅卷 等方面模拟了高考,同时它给考生制造了一种高考的氛围,让考生从心理上也进行高考 模拟。在分析几次模拟考试成绩,以掂量自己实力时,我们不能简单地将几次考试成绩 相加,然后以一个平均值做参考。应该注意的是这几次考试成绩的变化趋势:可以画一 条曲线图,看是一个比较平稳的趋势,还是一个上升或是下降的趋势,它反映你成绩的 稳定性,也是对你是否适应“高考 这种考试形式的检验。不论模考的成绩如何,高低 不同的曲线,从一定程度上预示着你高考时可能发挥出的水平。 1 2 研究的意义 合理的分析和评价,能够使学生正确认识自我,找到自己的准确位置,起到激励和 促进的作用。合理的预测,能够避免报考的盲目性,保持一定的“梯度,以争取更多 的录取机遇,防止落选。 1 3 研究方法 为了使分析和预测更加准确,我采用了采用函数型数据分析的基础方法:( 1 ) 收集 数据( 2 ) 建立模型( 3 ) 分析模型( 4 ) 估计参数( 5 ) 预测结果 2 东北师范大学硕士学位论文 第二章函数型数据分析 2 1 函数型数据分析方法简介 在目前的数据分析和处理过程中,所遇到的数据要么是截面数据,要么是面板数据, 但在分析过程中,也会碰到这样一些数据,它们在每一个时间点上的取值都存在,而且 一旦取值的时间点变得十分密集时,这些数据点在数据空间中就会呈现出一种函数性特 征。时间点取得越密集,数据的函数性特征就越明显,如股票指数。此时,用一些传统 的数据分析方法对这样的数据进行分析,并不能取得很好的效果,相反,如果把这些数 据以函数型数据的形式进行分析,会取得很好的结果。 函数型数据( f u n c t i o n a ld a t a ,f d ) 的概念,最早见于加拿大统计学家j 0 r a m s a y 于1 9 8 2 年发表的论文w h e nt h ed a t aa r ef u n c t i o n s ,此后,j 0 r a m s a y 和c j d a l z e l l 于1 9 9 1 年发表的论文s o m et o o l sf a rf u n c t i o n a ld a t aa n a l y s i s ( w i t hd i s c u s s i o n ) , 正式地提出了函数数据分析( f u n c t i o n a ld a t aa n a l y s i s ,f d a ) 的概念。此外,j 0 r a m s a y 和b w s i l v e r r n a n 于1 9 9 7 年出版了f u n c t i o n a ld a t aa n a l y s i s ,书中全面阐述了函数型 数据的基本特征及其统计分析的方法、思想,极大地推动了函数型数据分析这一领域的 发展;后来,j 0 r a m s a y 和b w s i l v e r r n a n 于2 0 0 2 年出版了a p p li e df u n c t i o n a ld a t a a n a l y s i s :m e t h o d sa n dc a s es t u d i e s ,书中对于函数型数据进行了实证领域的应用, 开拓了函数型数据分析在实际中的应用。但是,国外在这方面的研究依然处于起步阶段, 还有很多问题需要研究或进一步完善;另外,从函数型数据方法应用的领域来看,极少 涉及对函数型数据的分析研究。国内在此方面的研究,就目前研究文献来看,更是少之 又少。 函数型数据,顾名思义,数据是以函数的形式出现的,其最大的特征就是函数型。 它具有一般函数所具有的所有特征,可以对其进行函数分析。在坐标系中,每一个样本 的数据都表征为一条函数图像,可能光滑,也可能不光滑。样本在每一个属性上的取值 都是关于某个自变量的一个函数,也就是说,样本在属性上的取值不再像传统的多元统 计分析中处理的数据都是样本在属性上的离散取值,而表征为一个带有过程性的数据。 例如,某一地区的降雨量数据,随着时间点设置的越细,数据也变得越来越稠密,在坐 标系中就表示为一条关于时间t 的函数。 通常来说,人们无法直接获得函数型数据,所能获得的只是观测到一个个的离散样 本点,因此,在进行函数型数据分析之前,首要的工作是将观测到的一个个离散的样本 点进行函数拟合,从而获得函数型数据。常用的拟合方法是平滑法( s m o o t h i n g ) 和插值 法( i n t e r p o l a t i o n ) 。如果观测到的离散值没有观测误差,是精确值,那么拟合的过程 就叫做插值,如果观测到的离散值具有观测误差,且需要消除这些观测误差,那么拟合 3 东北师范大学硕士学位论文 的过程就叫做平滑。常用的平滑方法有:线性平滑法、基函数平滑法、核函数平滑法。 利用这种方法拟合后的函数表达式是连续的。通常来说,人们所获得的观测值大多是有 观测误差的,因此在将离散型数据转化为函数形式时,需要对数据进行光滑处理。常用 基函数的方法来处理。常用的基函数有傅立叶基( f o u r i e rb a s i s ) ,b 一样条基( b - s p l i n e b a s i s ) 、多项式基( p o l y n o m i a lb a s i s ) 、小波基( w a v e l e tb a s e s ) 和伯恩斯坦基 ( b e r n s t e i n ) 等等。 虽然函数型数据的来源形式多种多样,但就其本质来说,它们由函数构成。这些函 数的几何图形可能是光滑的曲线( 如人体在成年前的身体高度变化等) ,也可能是不光滑 的曲线( 如股票综合指数等) 。函数型数据分析( f u n c t i o n a ld a t aa n a l y s i s ,f d a ) 的基本 思想是把观测到的数据函数看作一个整体,而不仅仅是个体观测值的顺序排列。函数指 的是数据的内在结构,而不是它们直观的外在表现形式。 实际中,之所以要从函数的视角对数据进行分析是因为,( 1 ) 实际中,获得数据的 方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系 统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀( 光滑) 和插值 ( s m o o t h i n ga n di n t e r p o l a t i o n ) 技术,可以由有限组的观测数据产生出相应的函数表 示;( 2 ) 尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳人到函数范 式下进行考虑,会使分析更加全面、深刻;( 3 ) 在有些情况下,如果想利用有限组的数 据估计函数或其导数,则分析从本质上来看就具有函数性的特征;( 4 ) 将平滑性引入到 一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。 在实际的统计数据分析中,函数型数据很常见。例如,如考古学家挖掘的骨块的形 状;不同地区的多期温度、降雨量数据;多个地区、行业或企业的多年的年度经济总量; 多家商业银行历年的资本结构;不同时间上多个省市的失业数据等。这些统计数据往往 呈现函数型特征,即每个个体对应着一个函数或曲线。在对函数性数据进行分析时,将 观测到的数据( 函数) 看作一个整体,而不是一串数字,这是函数型数据分析不同于传统 统计分析之根本所在。 2 2 函数型主成分分析方法简介 与多元分析相似的是,主成分分析方法在函数型数据分析中仍然是一个强有力的工 具。假定x ,( f ) 是随机函数x ( t ) 的独立随机实现,均值e x ( t ) = a ( t ) 、协方差函数 g ( s ,r ) = c o v ( x ( s ) ,x ( r ) ) ,其中j , o ,t 】。在空间l 2 【o ,丁】下,协方差函数存在如下表 示: g ( s ,f ) = 以丸( j ) 识o ) ,j ,【0 ,r l , 七= l 其中丸为彼此间标准正交i 拘e i g e n f u n c t i o n ,其所对应的特征值 如? 0 满足 4 东北师范大学硕士学位论文 y 。丑 0 0 。 一f = l 利用随机函数x ( t ) 的k a r h u n e n l o e v e 展开,我们可以得到 x ( f ) = ( f ) + 彘九( f ) , 其中,彘= f 是具有零均值、方差为以的互不相关的随机变量( 即主成分得 分) 。 于是我们建立模型 巧= 置鳓) + 白= 2 ( t o ) + 六九( , r ) + 勺 k = l 其中,巧是第f 个个体第次观测值,勺是独立同分布的正态随机误差,均值为零, 方差仃2 未知。 函数型主成分分析使用的是截断k a r h u n e n - l o e v e 展开式: 巧= 五嘞) + 白= ( 0 ) + 彘丸( t u ) + 勺, k = l 其中m 是相对较小的整数,即主成分的个数。 假定预测考生f 的高考成绩。令z 表示考生f 的全部模拟成绩,对于预测时刻f ,令 丸,= ( 办( f ) ,九) ) 7 , 于是, s i m ( f ) = p ( f ) + 丸,7 鲁m , 其中毒肘= ( 己,) r ,= :。叮啦一p ( 瓦。) 谚( z ,。) ( 互 一互扣。) 。p 、方、m 是通 过对由训练样本估计所得到的。详细估计方法请见y a of e ta 1 ( 2 0 0 5 ) 。 5 东北师范大学硕士学位论文 第三章实例分析 3 1 数据描述 下面将利用函数型数据主成分分析,对东北师范大学附属中学2 0 0 5 年高三年级7 8 6 名学生高考前的六次模拟成绩和高考成绩进行分析,从数据的函数型视角研究数据的意 义。经过观察,我们可以发现数据中存在一些问题( 见图1 ) 。 曲文件哩) 编辑哩)视圈)入q )镕i q ) 工a q ) 数据m )亩口q ) 帮助m ) jjj0jj 二尊。上 一j 矗, 1, 当z 2 lt i 幽,:宋# q 3 , t , 1 bcdefg hi j kl i l 姓名省统考市= 模棱模拟市三模兰棱一三棱= 六淡平均平均升高考高考分差 1 8王字6 3 26 166 5 36 4 36 4 46 2 46 3 53 6 6 8 i 1 66 1 9 姜晓蜻6 2 3 5 6 1 1 6 6 0 6 4 4 6 1 36 0 7 56 2 7甜 6 8 11 65 5 2 0 王倩 6 1 86 4 76 7 26 4 96 , :1 556 0 06 3 92 16 8 11 64 2 图l东北师范大学附属中学2 0 0 5 年高三年级六次模拟成绩和高考成绩 ( 1 ) 数据存在缺失。如表中2 l 号考生,4 5 号考生,仅有省统考一次成绩。2 7 号考生,有 省统考、市二模、三校二,三次考试。 ( 2 ) 考生存在缺科现象。如表中3 7 号考生,在市三模考试中,仅得到1 3 0 分,纵观6 次考 试,其他5 次都在5 6 0 分6 3 0 分之间,波动幅度不是很大,市三模考试中考得1 3 0 分,可 h”弘舢盯们郇孤卯札拍舶们时鸵m刊们曲拍们拼“h驰mmnn“mm撕;弓如蜘如弛弛mhm”耵竹”蛇姓蛆们们 l l 0 0 0 9 g 8 8 8 8 t t 6 6 5 5 5 4 4 4 4 4 3 3 1 l 0 i i i i i i 6 6 6 i 6 6 i 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 n站坫拈阳弘孵曲埘们,“韶讲们曲船舶明州h。如 w:莹蚴詈瞄批啪跏似云j|量瞄瞄批|詈啪哪毫! 佤州瞢州眦蠢;叭州眦|詈萑星|扎叫鲫锄j兰眠咖忆 锄缸锄 756 2 5;i d;3t 8 t 0 o 叶驰 :莒博钯:窨”驼盯朗印曲蛇h晒荫 叭:君酆 们m 舛拍他 盯号曲m舛们们:暑加 埔拍= g 印” 弼n 弛 2 1 0 卯明盱的 晡明忡盯明帅荫驰如鲋跎盯 “盯基曼嚣吾晷m搜m毯莩m嚣mm嚣萎基垦曼m 一0 8 8 a 3 7 巧2 9 5 3 巧3 9巧5正巧6疆t 6 4 3 6 “5 6 6 5 6 6 阻6 6 6 6 嘶6 6印5:罟6祀叭6 4 6 6 6 藏紫珊怒蒸晶装黻鬻艇警黧鬻弘 牡牡烈衢拍盯皋s约轧弛疆弘拓”鲴虬蛇们“非们盯船 东北9 币范大学硕士学位论文 认为是有缺科现象。 ( 3 ) 数据中存在零分现象。 表中存在少量这样的现象,如果利用函数型数据主成分分析来研究问题的话,会对 结果有一定的影响,使预测结果不准确,不真实,为了避免此类事情,可以把数据缺失 和考生缺科的数据删去,这样经过分析和研究,删去有问题的数据后,得到准确的用于 分析的人数是6 1 3 人。 3 2 数据分析与结果 令盔= 只一0 一,其中谚表示每个学生的6 次模拟考试平均分,歹表示6 1 3 名学生的 只的平均。 价 竺 叮 a o 五 e 图2 矾的q q 图 由图2 可以看出,z 不是正态分布的,那么我们选择o - ,0 ,一仃作为分类的准则,将 数据分成四组,分别记为g l ( d i 仃的考生) ,g 2 ( 0 d ,盯的考生) ,g 3 ( - - o z 0 的考生) ,g 4 ( d ,一盯的考生) 。在每组中的人数为1 1 9 ,2 1 3 ,1 7 0 ,1 1 1 。 在对数据进行分析的过程中,我们发现,实际观测的次数比较少,仅为6 次。为了 使分析结果准确,我们人为的将观测时间点稠密化。将每次模拟成绩分别人为重复8 次。 假定每组中考生水平是相似的,那么利用函数型数据主成分分析进行拟合。我们使 7 东北师范大学硕士学位论文 用局部多项式核估计方法来估计模型中的均值函数以及协方差函数。根据累计贡献率达 到8 5 的原则挑选四组数据的主成分个数,分别为4 ,6 ,8 ,9 。利用平均拟合误差 去荟n 玄善n ik ( f ,) 一只心) 1 2 来评价模型的拟合效果,其中r + ( f ,) 表示第f 位考生的第次 考试成绩,z ( f ,) 表示第i 位考生的第歹次考试成绩的拟合值。于是,得到下表: g l g 2g 3 g 4 平均拟合误差1 2 0 3 7 41 5 4 8 7 91 7 5 4 5 i2 1 0 0 0 6 表l平均拟合误差 可见拟合效果还是可以的,那么我们检验模型的预测效果,将拆分数据集:训练样本 ( 8 0 ) 和检验样本( 2 0 ) 。 我们利用平均预报误差: 丢喜k 一t l 来评价模型的预测效果,其中e 表示第f 位考生的高考真实成绩,霉表示第i 位考生的高考预测成绩。 g lg 2g 3 g 4 平均预报误差1 4 6 2 7 82 4 0 5 1 42 9 4 5 1 23 6 3 8 0 9 表2 平均预报误差 由表2 可以看出,我们所做的预测效果也是可以接受的。 我们从四组中,分别取出一人,考察一下预测效果。见表3 g 。( 贾友)g 2 ( 刘莹)g ,( 刘鸣)g 4 ( 代晶) 省统考 5 8 7 55 8 2 54 5 3 53 6 0 5 市二模 6 4 96 0 1 4 8 73 4 8 校模拟6 2 7 55 6 75 1 64 2 9 市三模6 4 96 2 24 6 05 0 2 三校一6 155 5 l4 0 53 4 7 三校二5 8 45 1 94 6 04 2 5 5 高考真实成绩6 5 76 4 15 7 64 5 2 高考预测成绩6 5 26 2 45 3 64 5 l 表3 示例 8 东北师范大学硕士学位论文 结语 我们通过对数据的整理分析,利用函数型数据主成分分析进行拟合,并进行预报, 得到平均拟合误差,平均预报误差,可见预报结果还是可以接受的。 数据表明:g l 高分数段的1 1 9 人中,成绩波动幅度小;g ,、g ,的3 8 3 人中,成绩 波动幅度中等;g 。低分数段的1 1 1 人中,成绩波动幅度大。 但是,还是存在一些问题的。 ( 1 ) 预报高考成绩时,分数有超过7 5 0 分的现象,与事实不符。 ( 2 ) 人为扩充数据,导致数据图像不光滑,存在间断点。为了改进这个情况,我 们可以多次进行测量,使数据稠密。 9 东北师范大学硕士学位论文 参考文献 1 c a r d o th c o n d i t i o n a lf u n c t i o n a lp r i n c i p a lc o m p o n e n t sa n a l y s i s j 】s c a n d i n a v i a nj o u r n a lo f s t a t i s t i c s ,2 0 0 7 ,3 4 :317 3 3 5 2 f a nj ,g i j b e l sl l o c a lp o l y n o m i a lm o d e l l i n ga n di t sa p p l i c a t i o n s 【m 】l o n d o n :c h a p m a na n d h a l l ,1 9 9 6 3 f l u r yb 。c o m m o np r i n c i p a lc o m p o n e n ta n dr e l a t e dm u l t i v a r i a t em o d e l m n e wy o r k :w i l e y , 1 9 8 8 4 r a m s a yjo ,d a l z e l lc j s o m et o o l sf o rf u n c t i o n a ld a t aa n a l y s i s 【j 】j o u r n a lo ft h er o y a l s t a t i s t i c a ls o c i e t y , s e r i e sb ,19 91 ,5 3 :5 3 9 5 7 2 5 r a m s a yjo ,s i l v e r m a nbw f u n c t i o n a ld a t aa n a l y s i s m 】n e wy o r k :s p r i n g e r , 19 9 7 6 r a m s a yjo ,s i l v e r r n a nbw a p p l i e df u n c t i o n a ld a t aa n a l y s i s 【m 】n e wy o r k :s p r i n g e r , 2 0 0 2 7 r a m s a yjo ,l ix c c u r v er e g i s t r a t i o n j j o u r n a lo f t h er o y a ls t a t i s t i c a ls o c i a l ,s e r i e sb ,1 9 9 8 , 6 0 :3 5 1 3 6 3 8 y a of m u l l e rhgw a n gjl f u n c t i o n a ld a t aa n a l y s i sf o rs p a r s el o n g i t u d i n a ld a t a 【j 】j o u r n a l o f a m e r i c a ns t a t i s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论