研究生面试问题.doc_第1页
研究生面试问题.doc_第2页
研究生面试问题.doc_第3页
研究生面试问题.doc_第4页
研究生面试问题.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生面试问题摘要本文是以我国研究生复试问题为背景,通过对所给信息的分析与处理,主要解决了以下问题:(1)建立多重插补模型,利用统计软件SPSS进行计算,补齐了原表中缺失的数据。专家甲的缺失分数填补为70分,专家乙的缺失分数填补为83分,专家丙的缺失分数填补为79分。(2)首先建立了一个应用广泛且简单易行的平均值模型,即去掉一个最高分,一个最低分后取其均值,按照均值大小进行排名录取。为了增强说服力,也为了进行验证比较,建立了第二个模型,即改进后的模糊综合评价模型。定义了排名向量及排名参数,按照排名参数的大小进行排名录取。两种模型在前32名的排名中相似度达到了87.5%。(3)根据通信原理中A律13折线的编码原理的逆过程即译码过程,以每位专家的评分和学生得分的平均值的方差为研究对象进行放大,使所得结果随方差的增大而按指数增加,定义权值函数和宽松系数。宽松系数越大则评分越宽松,经计算可知最严格的是专家戊,最宽松的是专家甲。(4)根据问题二的结论,按三分之一左右录取,将两种排名方法所得到的前35名进行比较,给那些未在两种排名方法中均进入前35名的考生机会;除此之外再取排名在35名以后的95%置信区间内的考生,防止人才流失。综合两种情况共14名考生应当给予第二次面试机会,依次为1号,10号,12号,14号,33号,37号,38号,41号,42号,43号,49号,56号,80号,98号考生。(5)建立肯德尔和谐系数模型,使用SPSS进行计算,共种可能。其中有6组满足要求,可代替五人组专家,其中甲乙戊专家组合的肯德尔和谐系数最高,是最佳选择。关键字:补缺 排名 评价 肯德尔和谐系数一、 问题重述1.1 问题背景 据统计,自2010年起,考研规模连续三年以超过10万人的速度在增长。2012年的考研报名人数已经达到165.6万人,比2011年净增14.5万人,再创历史新高。我国的招生考试包括两个方面,初试及复试。初试为笔试,复试为面试。而复试更能反映出考生的综合素质。研究生招生的复试和录取工作是研究生招生考试的重要组成部分,是保证生源质量的关键环节。复试主要是由专家组进行面试,专家组根据考生的各项综合素质进行打分,给出最后综合评价结果。最终招生单位根据笔试和面试成绩来决定是否录取该考生。 1.2 目标任务 某招生单位组成一个五人专家小组对101名考生进行面试,并打分。运用数学建模方法解决下列问题:问题一:利用数学模型补齐表中缺失的数据,并给出补缺的方法及理由。 问题二:依据题目中所给的面试成绩将101名考生进行排名,确定这101名考生的录取顺序。问题三:根据所建立的模型,找出五位专家中打分最严格及最宽松的专家。问题四:依据所建立的模型,找出应给予第二次面试机会的考生,并说明理由。问题五:若第二次面试的专家小组只由其中的三位专家组成,应选择哪三位专家,并给出选择理由。二、模型的假设1)所有专家评分均保证公平公正原则;2)所有的评分均有效,无坏值的存在;3)所有专家独立打分。 三、符号说明 归因值的个数 考生成绩的最高分 考生成绩的最低分 第i个专家对第j个学生的评价分数 第j个学生的平均得分 因素论域 评价等级论域 等级模糊子集的隶属度 模糊关系矩阵 第i个专家对学生属于第j等级隶属度的判定 评价因素的权向量 模糊综合评价结果向量M 排名参数 排名向量 第位专家打分与平均分的方差 方差的权值函数 宽松系数四、模型建立与求解4.1问题一对于问题一,首先考虑用回归分析的方法,找出缺失值与现有值之间的关系,但利用Matlab计算的一次和二次的拟合结果却显示它们之间的相关度太小,只有0.16 ,远小于0.95,故无法采用。经过查阅相关资料我们决定使用多重插补模型,并利用国际知名的统计软件SPSS(统计产品与服务解决方案)进行计算。4.1.1模型:多重插补的目的是为缺失值生成可能的值,从而创建一些“完整”的数据集。多重插补数据集对应的分析过程为每个“完整”数据集生成输出,并生成包含当原始数据集无缺失值时的结果估计的汇聚输出。这些汇聚结果通常比单一插补方法所提供的结果更准确。() 模型建立多重插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。 多重插补方法分为三个步骤: 为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定 性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。 每个插补数据集合都用针对完整数据集的统计方法进行统计分析。 对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。 () 求解方法题中所给表中数据共五组。后两组即专家丁和专家戊的评分是完整的,专家甲、专家乙和专家丙各有一个分值缺失。通过调用SPSS多值归因模板,将“*”值设定为缺失值,归因数定为100,其余参数全部定为默认值,运行程序。() 结果分析根据所得图表可以很方便的看出归因值的变化。截取专家甲的前10个相关数据,如表1所示:表 1 专家甲的前10个相关数据专家甲数据归因N均值标准 偏差极小值极大值初始数据 10076.5512.83751.0098.00归因值1186.33.86.3386.332163.84.63.8463.843179.44.79.4479.444163.21.63.2163.215149.06.49.0649.066174.60.74.6074.607170.42.70.4270.428182.33.82.3382.339172.50.72.5072.5010169.30.69.3069.30用这100个归因值绘制出的直方图如图1:图1 专家甲的归因值直方图从图上,可以很明白的看到数据主要分布在60100中,整体分布接近正太分布,对于等概率事件,均值与期望相同,故取其期望值作为最终结果。按照该方法将专家乙和专家丙的最终结果也求出来,列于表2中:表 2缺失数据的补缺值专家专家甲专家乙专家丙缺失值708379利用SPSS得到的其它分析表图均放在附录中。4.2问题二 由于每个专家的侧重点不同,故所给的分数彼此有可能存在较大差距,而对全部考生的排名必须综合考虑。在日常生活中,人们常用的一种排名方法就是平均值法,除此之外还可利用相关度的大小来进行排名,即模糊综合评价模型。4.2.1模型:平均值模型采用最为简单直观的平均值法能够快速的将所有的数据进行处理并排名:() 模型建立在第一个问题解决的基础上,对于每一个考生来说,均有五个分值,将其中的最高分和最低分去掉后再求其平均分,按此平均分对其进行排名。() 求解方法利用Matlab编程实现:筛选出每个考生成绩中的最高最低分分别赋值给,;除去这两个值后计算总和并计算平均值:以为依据,对全体考生进行排名。()结果分析将结果列于表3中:表 3 考生评分平均值及排名顺序排名12345678序号1951396469478782平均值94.6790.6789.3389.338887.6787.6787.33排名910111213141516序号55346677164091平均值878786.3386.3386.33868686排名1718192021222324序号10086101815184597平均值8685.338584.6784.33848484排名2526272829303132序号5022841443636772平均值83.67838382.6782.6782.6782.6782.67排名3334353637383940序号114998333742801平均值82.3382.3382.338281.6781.6781.6781.33排名4142434445464748序号3279951056762938平均值81.3381.3381.3381818180.3380.33排名4949494949494949序号4181123135367830平均值808079.6779.6779.6779.3379.3379排名5758596061626364序号3458732425757071平均值79797978.3378.3378.337878排名6566676869707172序号88934694899948平均值7877.6777.33777776.6776.6776.33排名7374757677787980序号271755265287462平均值7675.6775.6775.3375.33757574.33排名8182838485868788序号909296607935268平均值74.33747473.6773.3373.337373排名8990919293949596序号215461385208326平均值72.6772.6772.33727271.337170.67排名979899100101序号2361574459平均值7069.676866.6764.33该模型简单快捷,可操作性强,但存在灵活性差,不能较好的区分个体差异。4.2.2模型:改进的模糊综合评价模型由于该题中的得分并未给出具体的评分项目,因此对于考生的总体评价只能是一种模糊的综合的评价。而是以模糊数学为基础。应用模糊关系合成的原理,将一些边界不清,不易定量的因素定量化,进行综合评价。改进的模型中添加了排名向量,利用排名向量与综合评价结果向量乘积的值定义了排名参数,通过比较排名参数对所有考生进行排名。(1)模型的建立 对于任意一位考生而言:确定评价对象的因素论域:将5个专家的评分作为5个评价指标。确定评语等级论域:将所有的分值按间隔10分划分为5组,即等级集合。每一个等级可对应一个模糊子集。表示0-60分,表示60-70分,表示70-80分,表示80-90分,表示90-100分。建立模糊关系矩阵在构造了等级模糊子集后,要依次对被评考生的每个评价指标上进行量化,即确定从单因素来看被评考生对等级模糊子集的隶属度,进而得到模糊关系矩阵:矩阵中第行第列元素,表示某个被评考生从评价指标来看对等级的模糊子集的隶属度。对于的取值,可以利用如下方法:其中为门函数,表示为:确定评价因素的因为所有的专家都是独立进行评分的,在满足归一化要求即,时确定的评价因素的权向量:,其中。合成模糊综合评价结果向量将与各被评考生的模糊矩阵R进行合成,得到各被评事物的模糊综合评价结果向量。即:其中是由与的第列运算得到的,它表示被评事物从整体上看对等级模糊子集的隶属程度。定义排名参数M首先定义排名向量:并满足,依次表示不同分数层次的权重。该向量中的各权重值可根据录取要求进行修改,如要考虑某位专家分值特别高而其他专家分数较低,即该专家对某个考生的某些方面特别欣赏时而给以高分,为了避免误失人才,可将较高层次分数的权值加大;又或是为了招收各项素质较为均衡的人才时,可将各个分数层次的分数权重定为较为接近或是全部相同的值。定义为排名参数。根据此定义可将101名考生的排名参数求出,进行排序后即可得到录取顺序。(2)模型的求解将相关数据导入Matlab,计算出101名考生的模糊综合评价结果向量。例如第一名的模糊综合评价结果向量为。若将排名向量中的值依次定义为0,0.1,0.2,0.3,0.4,则排名参数M值为0.6775。按此值利用Matlab计算出101名考生的排名参数。(3)结果的分析将计算结果列于表3中:表 4 考生排名参数值及排名顺序排名12345678序号193951564876947排名参数1.411.31.271.171.171.171.141.133排名910111213141516序号48216408677668排名参数1.1231.11.11.11.0951.091.071.063排名1718192021222324序号539197151011004518排名参数1.0230.9950.990.980.9780.980.960.945排名2526272829303132序号7263382267334956排名参数0.9430.920.910.910.90.90.890.885排名3334353637383940序号8411501098141241排名参数0.8830.8750.870.860.860.860.850.848排名4142434445464748序号3076799543322948排名参数0.8450.840.840.830.820.810.80.79排名4949494949494949序号3631804271817035排名参数0.780.7680.750.740.740.740.740.735排名5758596061626364序号557892417882058排名参数0.7250.7180.710.710.7050.70.70.688排名6566676869707172序号19934376027496排名参数0.6780.660.650.630.6080.60.60.595排名7374757677787980序号622575523738954排名参数0.5930.5880.590.590.570.560.520.518排名8182838485868788序号4626659427579228排名参数0.510.4880.450.450.4450.450.450.44排名8990919293949596序号23681369379061排名参数0.4280.4280.420.410.3950.390.380.368排名979899100101序号8583215944排名参数0.340.3350.320.230.223该模型逻辑推理严谨细致,并具有可修改的参数值,灵活性更强。4.3问题三首先应将“严格”,“宽松”的定义确定准确。这里我们定义为:打分与真实值(由于无法得知,所以用得分平均值来代替)越接近(从两边趋近均可),则认为该专家越严格,反之则越宽松。由通信原理中A律13折线进行编码的基本理论(详细讲解见附录),利用其逆过程即解码的方法,以每位专家的评分和学生得分的平均值的方差为研究对象进行放大,使所得结果随方差增大非线性增加,使得出结果差距拉大,更利于专家评分严格与否的判断。4.3.1模型:解码模型数字信号发送采用A律13折线的目的是为了改善小信号时的信号量噪比,即当输入量化器的信号具有非均匀分布的概率密度时,非均匀量化器的输出端可以较高的平均信号量化噪声功率比; 量化噪声对大、小信号的影响大致相同,即改善了小信号时的量化信噪比。 将专家的打分作为已经编码后的信号,要探究其打分严格程度,需对其进行逆推,即解码过程。具体步骤如下:()模型建立 第名考生求其得分均值,然后计算第位专家打分与此平均分的方差在得到101个的取值后,根据其区间的大小划分段并赋予权值。定义权值函数,通信原理中已,要保持信号量噪比恒定,在理论上要求压缩特性为对数特性,则解码时需要为指数特性。可定义为:定义宽松系数越大代表第名专家评分越宽松。()求解及分析用Matlab编程实现(程序见附录)。结果如表 所示:表5 五名专家的宽松系数专家甲乙丙丁戊5.024.073.433.923.06由以上数据可以看出专家戊是最严格的,而专家甲是最宽松的。4.4问题四根据往年的研究生复试录取比例,大约有三分之一的考生可被录取。本题共101名考生参加复试,取本次录入人数为35名。进行第二次面试的考生应包括不同排名方式前35名中未同时出现的考生,以尽量减小排名方法不同导致的录取误差。考虑到录取标准可靠度的影响,排名在35名之后的5%置信度以内的考生也应予以考虑。4.4.1 二次面试理由不同排名模型因为规则要求不同,侧重点不同,得到的排名顺序不可能完全相同。对于这些不同的考生,应当进行第二次面试以再次考察看是否符合招生要求;对于紧随其后的考生来说,可能仅仅是零点几分的差距,与他之前的考生相比,能力方面相差无几,可能在某些方面还具备他人所不有的特长,为了不遗漏英才,应对分数相差不大,排名紧随其后的考生进行二次面试。4.4.2 二次面试人员(1)不同排名顺序所致根据第二个问题的解答,各选取两种排名的前35进行比较。模型一的前40名考生为:表6 模型1的前40名考生序号排名12345678序号1951396469478782排名910111213141516序号55346677164091排名1718192021222324序号10086101815184597排名2526272829303132序号5022841443636772排名3334353637383940序号114998333742801模型二的排名前40名考生为:表7 模型2的前40名考生序号排名12345678序号193951564876947排名910111213141516序号48216408677668排名1718192021222324序号539197151011004518排名2526272829303132序号7263382267334956排名3334353637383940序号8411501098141241对比两个表可得,前35名考生内未在两个排名中全部出现的共7名,依次为14号,33号,38号,43号,49号,56号,98号考生。 (2)紧随其后的5%的考生因为总共有101名考生,即应当再考虑一下第36名到第40名考生情况。由上边表 与表 可知,共10名,依次为1号,10号,12号,14号,33号,37号,41号,42号,80号,98号考生。对于重复的第14号,33号,98号考生,只计算依次。综合两种情况来看,共14名考生应当给予第二次面试机会,依次为1号,10号,12号,14号,33号,37号,38号,41号,42号,43号,49号,56号,80号,98号考生。4.5问题五三位专家小组代替五位专家小组,其实质是要保证对于所有的参加复试的考生排名不能与原来的出入太大。对于处理多列等级变量的相关程度的问题,采用肯德尔和谐系数法进行处理。通过调用SPSS中的相关模块,可以很方便的得到不同组合的肯德尔和谐系数。4.5.1模型:肯德尔和谐系数模型肯德尔和谐,是表示多列等级变量相关程度的一种方法,它适用于两列以上等级变量,即可是k个评分者评N个对象。它可以较为客观地选择好的作品或好的评价者。题中要求的是三列变量,这就有种可能。()模型建立肯德尔W系数又称肯德尔和谐系数,是表示多列等级变量相关程度的一种方法,它适用于两列以上等级变量。在这里, 为肯德尔和谐系数, 为评分者人数,为评分的试卷数, 为等级和。中有集成的肯德尔系数算法,可以直接调用。我们把五位专家按三人一组分为10种情况,对每种情况分别调用程序,分析出每种情况的和谐系数,分别判断每种情况的一致性。()求解方法调用SPSS进行计算。将所有相关数据导入后,可依次求得10种情况下不同组合的肯德尔和谐系数。()结果分析对其中一种组合进行分析。如甲乙丙三位专家组成的小组,其分析结果的详细信息如表8和表9所示:表 8甲乙丙三位专家评分的描述性统计量描述性统计量N均值标准差极小值极大值百分位第 25 个第 50 个(中值)第 75 个V11013.241.313152.003.004.00V21013.551.170153.004.005.00V31013.561.099253.004.005.00表 9 甲乙丙三位专家评分的检验统计量检验统计量N101Kendall Wa.014卡方2.788df2渐近显著性.248Monte Carlo 显著性显著性.245b95% 置信区间下限.236上限.253a. Kendall 协同系数b. 基于 10000 个具有起始种子 1310155034 的采样表。当卡方数值大于df(检测估计临界值)值时,可认为该组合的肯德尔和谐系数满足要求,可以用该组合代替五人专家组。经计算分析可知,共六组满足,这六组的组成人员和肯德尔和谐系数分别为表10所示:(其余分析表图见附录)表 10 六个组的组成人员及肯德尔和谐系数组成人员甲乙丙甲乙丁甲乙戊甲丙戊甲丙丁甲丁戊肯德尔和谐系数0.0140.0130.0160.0140.0110.012其中最佳组合为专家甲,专家乙,专家戊三人组,该组的肯德尔和谐系数最高,很好的满足了要求。五、模型的检验5.1 问题一的模型检验 对于第一问的模型,仍然采用多重插补的方式进行检验。把甲专家的评分中除去带*的行之后,把新的一行中甲的值设为*值,然后标定为缺失值,采用第一问的处理方式,进行对*值的预测,结果精度在-2 2之间,相对误差小于3%,误差精度比较高,误差比较小,说明误差在可接受的范围之内。(具体表图见附录)5.2问题二的模型检验对于第二问模型的检验,采用对比的方式进行说明。第二问中,我们用了两种方法进行排名,因此,可以用两种方法的结果进行相互检验。取部分数据进行验证,如选取前32名考生的排名分别列于表11和表12:表11 平均值法排名排名12345678序号1951396469478782排名910111213141516序号55346677164091排名1718192021222324序号10086101815184597排名2526272829303132序号5022841443636772表12 改进的模糊综合评价法排名排名12345678序号193951564876947排名910111213141516序号48216408677668排名1718192021222324序号539197151011004518排名2526272829303132序号7263382267334956经统计得出:前32名中,共有4名不同,相似度在87.5%,因此可以断定此模型比较精确,模型成立。5.3问题五的模型检验第五问得出的结论是应该选取专家甲、专家乙、专家戊。选取甲、乙、戊三个专家对面试学生的打分重新进行第二问的分析。选取前32名考生排名列于表13: 表13 甲乙戊专家小组的打分排名排名12345678序号1939335197634115排名910111213141516序号8482101141688687排名1718192021222324序号566958122474571排名2526272829303132序号183536795543472经与表12相比较得出:在前三十二名中,三位专家打分排名和五位专家打分排名只有7位不相同,吻合度比较高,说明甲乙戊三位专家是所需选取的专家。六、模型的评价 本文所建立或涉及到的模型较多,不同模型各有其特点,现将其分析如下:6.1优点:(1)问题一中所采用的是多重插补模型。多重插补和贝叶斯估计的思想是一致的,但是多重插补弥补了贝叶斯估计的几个不足。 贝叶斯估计以极大似然的方法估计,极大似然的方法要求模型的形式必须准确,如果参数形式不正确,将得到错误得结论,即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论