版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
VI绪论(一)研究背景与意义研究背景随着我国高等教育的快速发展进程,普通高校的数量和规模持续扩大,基础设施建设成为衡量高校综合实力以及发展潜力的一项关键指标。基础设施囊括教学楼、实验室、图书馆等硬件设施,还包含网络、多媒体教室等信息化建设内容,这些基础设施的质量与水平直接对学校的教学效果、科研能力以及学生的综合素质培养产生影响。优质的基础设施可为学生营造良好的学习和生活环境,是吸引优秀生源的关键因素之一。随着高等教育的普及,高校之间的竞争变得日益激烈,为吸引更多优秀学生,高校需不断提升自身综合实力,这其中就有基础设施的建设。剖析基础设施对本科招生的影响因素,能帮助高校制定有效的招生规模和基础建设规划。高校基础设施的规模与质量直接关乎学校的招生规模,比如教室和实验室的数量及条件决定了可容纳的学生数量,研究基础设施与招生规模的关系,对高校的规划和发展意义重大。2、研究意义(1)理论意义拓展教育管理理论范畴,深入剖析基础设施与本科招生之间的关联,可为教育管理理论增添全新视角与研究导向。理论研究所得成果可帮助高校于基础设施规划及建设方面进行科学决策,提升资源配置的效率及成效。剖析基础设施对本科招生产生的影响,可为教育建设提供相应依据,推动教育体制与机制实现创新。现实意义高校可借助优化基础设施,给学生营造更为优良的学习环境,提升教学质量,吸引到更多优秀学生。良好的基础设施属于高校吸引优质生源的关键手段,对提升高校的社会声誉以及市场竞争力有帮助。随着社会对高素质人才的需求增多,高校要依靠改善基础设施去培育更多契合社会需求的人才。基础设施的均衡发展利于缩小不同地区、不同高校之间的教育差距,推动教育公平。(二)文献综述王淇[1]介绍了在城市化发展和人口迅速增长背景下,土地和人才成为制约21世纪经济发展的两大要素,高等院校通过对人才的培养,科学创新,社会服务等功能成为一个城市土地发展潜力的重要力量;刘永林,周海涛[2]介绍了我国民办高校用地用房作为基本办学条件,涉及占地面积,亟待以落实新《民促法》中明确的民办高校用地扶持政策为契机,统筹公办民办教育用地规划,落实民办教育用地优待政策。王瑜琳,刘学虎,钱欣丽[6]探讨了在数字化转型背景下,高校数字资源建设对提升学生数字技能的路径研究。分析当前国家层面推动全民数字素养与技能提升的政策背景,并且指出提升全民数字素养与技能成为国家战略。提出高校数字资源建设策略及在引领学生数字技能提升方面的重要作用,并呼吁更多高校和教育机构加强数字资源建设;阮楠,王红芳,吴迪[9]介绍了随信息技术迅猛发展,高校图书馆资源建设经历着由传统纸质资源向数字资源的深刻转变。近年来,越来越多的高校重视图书馆数字资源建设工作,并积极探索数字资源建设的有效路径。冀小幸[10]介绍了1999年我国高等教育开始大规模的扩招,尤其是对本科生的扩招数量最为显著。国家发展急需人才,重要产业及行业紧缺的人才需要加快培养。为了提高高等教育的质量,国家做出适度控制高校招生增长幅度的决定。这代表着,我国在未来还会继续进行本科生等高等人才扩招。并且对我国近年来本科生的拥有量和本科生的招生量进行检验,同时预测未来我国本科生拥有量和本科生招生人数的多少。唐年胜,李会琼[14]阐述了回归分析的基础概念、相关理论以及具体应用方法,对回归分析的基础概念给予解释,讲述一元线性回归模型的数学形式与假设条件,探讨怎样估计模型参数,覆盖最小二乘法以及极大似然估计,介绍模型的检验方式,如假设检验、置信区间以及预测区间,扩展至包含多个自变量的多元线性回归模型。介绍模型选择以及模型评估的标准,如调整后的R平方、AIC和BIC,说明怎样检测并处理回归分析里的异常值、杠杆点以及影响点,进行模型假设的检验,比如正态性、独立性以及方差齐性,以及非线性回归模型的概念和应用,介绍如何拟合非线性模型以及开展模型选择,介绍广义线性模型(GLM)的框架,包含二项分布和泊松分布模型;费宇,郭民之,陈贻娟[15]介绍了线性回归模型中自变量的选择方法,多个自变量对因变量的影响,进行模型建立及模型诊断,并解释变量间的关系;GarethJames,DanielaWitten,TrevorHastie,RobertTibshirani[21]介绍了统计学习方法,其中包括岭回归和Lasso回归这两种正则化技术。岭回归和Lasso回归都是在线性回归的基础上引入了惩罚项,以解决模型过拟合的问题。用于处理具有多重共线性的数据集,能够提高模型的预测性能和解释能力。Zhou,W.,Huang,D.,Liang,Q.[16]介绍了采用百度搜索指数预测COVID-19病例数,采用零膨胀负二项回归和基于自变量特征的负二项回归模型;Zhang,W.,Liu,Q.,Ni,J.[17]研究介绍通过负二项回归分析探讨影响浙江省不同蚊种数量的因素;Lee,K[18]介绍一个模拟研究,以评估两个广义线性模型的性能,负二项和零膨胀负二项,用于分析零膨胀计数数据,使用逻辑回归来确定哪些数据属性对预测最佳拟合模型最重要;Gebre,M.N[19]采用多变量负二项回归进行推断性分析,使用发病率率比(IRR)及其95%置信区间(CI)来衡量关联及其统计显著性;Wapp,C.,Biver,E.,Ferrari,S.[20]介绍了再前瞻性队列GERICO中,收集了社区居住老年人在两个时间点[14]的多个跌倒风险因素变量。使用负二项回归模型计算T2报告的跌倒次数与年龄、性别、T1报告的跌倒次数、身体性能测试、身体活动水平、共病和药物数量之间的比率。(三)研究内容本文首先针对高等教育基础设施、招生规模以及统计学方法等相关理论展开了全面的归纳与总结工作。在完成这一基础工作后,着手探讨不同省份高校基础设施对于本科招生规模所产生的影响,具体的研究内容囊括:收集全国31个省份高校的基础设施数据,这些数据包含占地面积、绿化面积、运动场面积、不同人制足球场数量、数字资源储量、教室数量以及终端数量等方面,随后对数据进行预处理操作,其中包括列名重命名以及数据类型转换等,以此为后续分析做好准备。接着依据预处理之后的数据,运用负二项回归模型,获取初步的回归模型,之后对该模型进行逐步回归也就是进行变量选择,将影响不较大的变量给予剔除,为保证模型的有效性,运用Breusch-Pagan检验来检测模型是否存在异方差性,运用方差膨胀因子(VIF)诊断法来检测模型是否存在多重共线性。针对存在的多重共线性问题,采用岭回归和LASSO回归模型。依靠交叉验证来选择最佳的正则化参数,岭回归模型和LASSO回归模型分别给出了对各变量影响的稳健估计。依据最终回归方程的回归系数,深入分析各基础设施指标与本科招生人数之间的关系,并得出相应结论,经由上述一系列步骤,本文希望能够揭示不同省份高校基础设施对本科招生人数的影响机制,为相关政策制定以及高校资源分配提供科学依据。(四)本文创新点本文通过2024年的数据来研究影响普通高校基础设施因素对其招生规模的影响,更贴近当前招生状况。对建立的负二项回归模型进行检验、分析以及调整,通过调整模型保证模型的拟合效果最佳。相关技术介绍负二项回归负二项回归属于广义线性模型GeneralizedLinearModel(GLM)的一种类型,它假定响应变量遵循负二项分布,并非像普通线性回归那样服从正态分布。在回归分析中,若是因变量属于计数数据(非负整数),并且数据存在过度离散(方差大于均值)的情况,负二项回归模型可让因变量的方差大于其均值,可以更灵活地去拟合实际数据。负二项回归模型表示为:,其中是第i个观测的因变量,是均值参数,是离散参数,用于控制方差。均值参数可以通过以下线性预测器与自变量联系起来:,这里是截距项,是回归系数,是第i个观测的自变量。负二项回归模型通过引入离散参数来捕捉数据的过度离散特性,从而在处理计数数据时比泊松回归更为稳健和灵活。负二项回归模型满足以下基本假设:①解释变量是非随机的或固定的,且各解释变量之间互不相关,即自变量之间互不影响。②负二项分布的随机误差项具有零均值、方差与均值的函数关系,且序列不相关。具体来说,对于第i个观测,有和,其中是离散参数,且对于。③解释变量与随机误差项不相关,即,其中。④随机误差项相互独立且服从负二项分布,即。(二)岭回归岭回归,也就是Tikhonov正则化,是一种针对多重共线性问题设计的线性回归改进算法,当出现多重共线性时,数据矩阵可能不满秩,矩阵不可逆,无法直接运用普通最小二乘法OrdimaryLeastSquares(OLS)来估计模型参数,岭回归借助在损失函数里增添一个正则化项(惩罚项)来化解此问题。岭回归的损失函数是残差平方和ResidualSumofSquares(RSS)与正则化项的总和。残差平方和指的是模型预测值跟实际值差值的平方和,而正则化项是模型参数的L2范数(平方和),岭回归的损失函数可表示为:其中,是正则化参数,它控制着正则化项的强度。当时,岭回归退化为普通最小二乘法;当增大时,正则化项的影响增强,模型的复杂度降低,从而减少过拟合的风险。岭回归通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。岭回归的基本假设包括:①解释变量是非随机的或固定的,且各解释变量之间互不相关,即自变量之间无多重共线性。②随机误差项具有零均值、同方差且序列不相关。对于第i个观测,有和,且对于。③解释变量与随机误差项不相关,即,其中。④随机误差项相互独立且服从正态分布,即。(三)LASSO回归LASSO回归,其全称为LeastAbsoluteShrinkageandSelectionOperator,属于一种将变量选择与正则化相结合的线性回归方法,主要是针对处理高维数据集中变量选择问题。其借助在损失函数里添加L1范数惩罚项,以此达成对回归系数的压缩,这样一来,部分不关键变量的系数会精准缩减至零,实现特征选择的成效。由于引入了L1范数惩罚项,它可提升模型的预测性能,而且还可以给出一种简洁的模型解释,原因在于它可自动开展特征选择,将那些对响应变量影响不十分突出的特征剔除。LASSO回归的损失函数可以表示为:其中,是正则化参数,它控制着正则化项的强度。当时,Lasso回归退化为普通最小二乘法;当增大时,正则化项的影响增强,模型的复杂度降低,从而减少过拟合的风险。LASSO回归的基本假设包括:①解释变量是非随机的或固定的,且各解释变量之间互不相关,即自变量之间无多重共线性。②随机误差项具有零均值、同方差且序列不相关。具体来说,对于第i个观测,有和,且对于。③解释变量与随机误差项不相关,即,其中。④随机误差项相互独立且服从正态分布,即。描述性分析(一)数据介绍本文使用的数据是中华人民共和国教育部2024年公布的关于全国31个省份高等教育基础设施以及招生人数的相关数据。包括:地区,招生数,占地面积,绿化面积,运动场面积,校园足球场(包括11人制、7人制、5人制),图书(包括当年新增图书),数字资源(包括电子图书、电子期刊、学位论文、音视频),职业教育仿真实训资源量(包括仿真实验软件、仿真实训软件、仿真实习软件),数字终端(包括教师终端、学生终端),教室(包括网络多媒体教室),固定资产总值(包括教学科研仪器设备资产,当年新增资产)。一共27个指标,31个省份,合计837条数据,变量说明表,如表3.1所示:表3.1变量说明表变量类型变量名称均值方差单位变量类型因变量招生人数(Entrant)154245.42人数定量变量自变量占地面积(Occupy)65850221.98平方米定量变量绿化面积(Green)21680070.31平方米定量变量运动场面积(Sport)4699870.55平方米定量变量校园足球场(Football)202.84个定量变量11人制足球场(11Football)132.03个定量变量7人制足球场(7Football)27.23个定量变量5人制足球场(5Football)43.58个定量变量图书(Book)103398224.74册定量变量当年新增图书(NewBook)5461957.1册定量变量电子图书(EBook)87687856册定量变量电子期刊(EJournal)43768437.65册定量变量学位论文(DBook)309305047.9册定量变量音视频(Audio)5020410.6小时定量变量职业教育仿真实训资源量(Vocatuinal)5663.9套定量变量仿真实验软件(Experiment)1027.32套定量变量仿真实训软件(Training)4194.81套定量变量仿真实习软件(Simulation)441.84套定量变量数字终端(Digital)512495.35台定量变量教师终端(Teacher)131356.19台定量变量学生终端(Student)334849.42台定量变量教室(Classroom)23891.42间定量变量网络多媒体教室(Networkroom)15784.16间定量变量固定资产总值(FixedAsset)11569049.61万元定量变量教学科研仪器设备资产(Equipment)2747006.67万元定量变量当年新增资产(NewAdded)300433.84万元定量变量省份(Region)定性变量(二)数据处理更改列名R软件中使用colnames()函数改变列名,以便后续建模分析。检查数据类型R软件中用sapply()函数检查数据类型,并将非数值型变量转换为数值型变量,以便后续进行建模与分析。(三)变量间的描述性分析变量间的相关系数图3.1相关系数矩阵图如图3.1所示,蓝色越深说明变量之间的正相关性越强,由上述结果可以知道变量之间普遍存在强正相关性,其中7Football和5Football、Audio和Experiment和Training和Simulation这几个变量间的正相关性弱于其他变量间的正相关性。各省份高校占地、绿化、运动场面积与招生人数情况图3.2全国高校面积图如图3.2所示,可以看出全国31个省份高校的占地面积、绿化面积、运动场面积增大其招生人数上升,即这三类面积与招生人数均整体上呈现正向关联。运动场面积与招生人数的散点分布是围绕某条直线聚集的且聚集程度最高,运动场面积与招生人数的线性关系最显著,说明在这三类面积中运动场面积的变化对招生人数的关联性更有规律,但是其散点聚集所示直线倾斜较小,说明运动场面积的的变化对招生人数的影响及其微弱,大幅度运动场面积的变化才引起大幅招生人数的变化。各省份高校不同人制足球场与招生人数情况图3.3全国高校足球场图如图3.3所示,可以看出随着不同人制足球场数量的增加,招生人数随之增加,均是正向关联。不过散点分布较为分散,表明这种关系并非严格线性,存在一定波动和差异,其中5人制足球场的散点最为分散。各省份高校图书与招生人数情况图3.4全国高校图书图如图3.4所示,可以知道随着图书与当年新增图书数量的增加,高校招生人数随之增加。二者均与招生人数呈现正向关联。当年新增图书与招生人数的散点较为聚集且趋于一条直线集中,但图书与招生人数的散点分布并非完全集中在一条直线附近,即这种正向关系并非严格线性。当图书数量增加时,招生人数整体趋向增加,但并不精确、稳定的增加。各省份高校数字资源情况图3.5全国高校数字资源图如图3.5所示,可以知道四类数字资源中,学位论文是最多的,音视频是最少,全国高校对音视频拥有量有待提高。散点分布我们可以知道,整体上随着数字资源数量及时长的增加,招生人数随之有不同程度的上升趋势,存在正向关联。但电子期刊、学位论文散点较为分散,即这种关系并非严格线性。当电子期刊、学位论文数量增加时,招生人数虽有增加趋势,但是波动较大,可能受其他因素影响。各省份高校职业教育仿真实训资源情况图3.6全国高校职业教育仿真实训资源图如图3.6所示,展示了全国高校在职业教育仿真资源方面的分布情况。散点图分为三组,每组代表一种类型的仿真资源:红色代表“Experiment”(仿真实验软件),绿色代表“Simulation”(仿真实习软件),蓝色代表“Training”(仿真实训软件)。全国高校在这些资源与招生人数的散点分布呈现出正向关联,仿真实验软件资源、仿真实训软件资源与招生人数的散点分布十分分散,即这关联并非严格线性。当仿真实验软件资源、仿真实训软件资源增加时,招生人数虽有增加趋势,但是这种波动较大及其不稳定。从整体情况来看,仿真实训软件资源的数量要高于仿真实验软件的数量,而在这其中,仿真实习软件资源的数量是最少的。这种分布情况可能与全国各省份自身的经济条件、教育资源分配状况以及所获得的政策支持等诸多因素存在关联。各省份高校不同类型终端数情况图3.7全国高校终端图如图3.7所示,可以看出整体上不同终端与招生人数呈现正向关联,但散点分布较为分散,即这种关联时飞严格线性的。不同终端类型之间的数量分布存在显著差异,数字终端数量远高于教师端和学生端,学生端数量高于教师端数量,这种分布反映了各省份高校信息化建设的不同特点和需求。各省份高校教室情况图3.8全国高校教室图如图3.8所示,该散点图呈现出全国高校在教室以及网络多媒体教室数量方面的分布状况,红点代表的是教室的数量,蓝点代表的是网络多媒体教室的数量。从图中可看出,教室、网络多媒体教室的与招生人数的散点分布均较为分散,且都有几个异常值点,说明可能存在其他因素影响招生人数,这种分布体现了全国高校在教育信息化建设方面投入和重视程度的不同。各省份高校资产情况图3.9全国高校资产图如图3.9所示,该塞纳点图展示了全国高校在固定资产总值、教学科研仪器设备资产和当年新增资产三个方面的分布情况。散点图分为三组,每组代表一种资产类型:绿色代表“FixedAsset”(固定资产总值),橙色代表“Equipment”(教学科研仪器设备资产),蓝色代表“NewAdded”(当年新增资产)。从图中可以看出,当年新增资产与招生人数的散点图呈现一条接近垂直的线,说明有这极其微弱正向关系。但固定资产总值、教学科研一起设备资产与招生人数的单点分布较为分散,即这中分布是非严格正向线性的。整体而言,全国高校普遍重视教学科研仪器的投入。这种分布反映了全国高校在资产管理方面的不同策略和重点,这与各省份的经济发展水平、教育资源分配以及政策支持等因素有关。各省份高校招生人数图3.10各省份高校招生图如图3.10所示,展示了全国不同省份高校的招生人数情况,直方图中的每个柱子代表一个省份,高度表示该省份的招生人数。西藏、青海、宁夏、海南这四个省份高校的本科招生人数居全国倒数,不难知道这四个省份的高校也少,其经济发展也一般。模型建立与分析(一)模型建立选择负二项回归的原因计算因变量Entrant的均值和方差,均值为154245.45,方差为7905685184.52,方差大于均值,认为因变量过度离散。负二项回归能够更好捕捉数据的离散特性,并且提供更准确的模型拟合和预测结果,所以采用负二项回归模型。模型初步假设假设本文研究的负二项回归模型为:其中是因变量Entrant的均值,是截距项,是回归系数。(二)模型检验表4.1回归系数显著性检验表变量回归系数标准差z值p值常数项9.809e+001.559e-0162.929<2e-16***Occupy3.932e-081.413e-082.7830.00538**Green-7.755e-082.690e-08-2.8830.00394**Sport-1.820e-065.659e-07-3.2160.00130**11Football4.014e-021.394e-022.8790.00400**7Football2.082e-021.155e-021.8020.07161.5Footballll`-2.396e-044.617e-03-0.0520.95860Book2.621e-081.845e-081.4210.15544NewBook7.422e-087.642e-080.9710.33145EBook-1.582e-109.196e-09-0.0170.98628EJournal-5.831e-094.629e-09-1.2600.20775DBook1.823e-091.731e-091.0530.29228Audio7.282e-084.214e-081.7280.08400.Experiment2.887e-041.940e-041.4890.13660Training-2.479e-056.012e-05-0.4120.68012Simulation1.806e-043.819e-040.4730.63620Digital-1.243e-056.896e-06-1.8020.07150.Teacher2.463e-051.314e-051.8740.06091.Student1.260e-051.194e-051.0550.29123Classroom1.852e-047.894e-052.3470.01895*Networkroom-2.853e-041.318e-04-2.1650.03036*FixedAsset9.064e-087.895e-081.1480.25095Equipment-6.821e-075.151e-07-1.3240.18541NewAdded-1.761e-062.374e-06-0.7420.45812AIC:=783.38θ=13.042xlog-likelihood=-733.377注:*、**和***分别表示10%、5%和1%的水平上显著如表4.1所示,模型残差的分布情况,最小值为-3.2727,最大值为1.9153,负二项分布的离散度参数,说明数据的离散程度相对较低,模型假设较为合理。两倍对数似然值为-733.377,这是一个相对较大的负值,说明模型对数据的拟合还有改进的空间,可以通过增加更多预测变量、尝试不同的模型结构或检查数据中的异常值来进一步优化模型。常数项,Occupy,
Green,
Sport,
11Football,
Classroom,
Networkroom
的p值小于0.05,这些变量对因变量翟生人数有显著影响。(三)自变量选择表4.2自变量选择表Step:AIC=766.09Entrant~Occupy+Green+Sport+`11Football`+`7Football`+Book+Audio+Experiment+Digital+Teacher+Classroom+Networkroom+NewAddedDfDevianceAIC<none>31.466766.09-Experiment134.571767.19-`7Football`135.285767.91-Digital135.743768.36-NewAdded136.330768.95-Teacher136.416769.04-Green138.378771.00-Networkroom138.827771.45-`11Football`139.341771.96-Book139.922772.54-Audio140.107772.73-Classroom140.120772.74-Occupy143.114775.73-Sport143.269775.89如表4.2所示,逐步回归直到没有自变量的删除操作能够使AIC值进一步降低为止,最后一步Step:AIC=766.09,当前模型是保留了Occupy,Green,Sport,11Football,7Football,Book,Audio,Experiment,Digital,Teacher,Classroom,Networkroom,NewAdded这几个自变量,此时删除任何一个自变量都会使AIC值增加,所以逐步回归终止。表4.3逐步回归系数显著性检验表变量回归系数标准差z值p值常数项9.979e+001.478e-0167.509<2e-16***Occupy3.784e-081.064e-083.5570.000375***Green-5.559e-082.121e-08-2.6210.008756**Sport-1.046e-062.892e-07-3.6170.000298***11Football1.931e-026.512e-032.9660.003018**7Football1.727e-028.564e-032.0160.043773*Book2.784e-089.567e-092.9100.003615**Audio8.525e-082.911e-082.9280.003407**Experiment2.567e-041.422e-041.8050.071065.Digital-3.503e-061.646e-06-2.1280.033296*Teacher8.915e-063.943e-062.2610.023761*Classroom9.729e-053.247e-052.9960.002734**Networkroom-1.252e-044.592e-05-2.7260.006407**NewAdded-3.125e-061.380e-06-2.2650.023525*AIC:=768.09θ=11.252xlog-likelihood:-738.086注:*、**和***分别表示10%、5%和1%的水平上显著如表4.3所示,Occupy,Green,Sport,11Football,7Football,Book,Audio,Experiment,Digital,Teacher,Classroom,Networkroom,NewAdded的p值均小于0.05,说明这些变量对因变量Entrant有显著影响。(四)模型诊断异方差诊断本文将利用Breusch-Pagan检验对模型的异方差性进行检验,利用bptest()函数进行诊断,得到的结果如下所示:表4.4异方差性诊断表studentizedBreusch-Pagantestdata:step_modelBP=13.028,df=13,p-value=0.4456如表4.4所示,上述检验的显著性水平,由检验结果可知,p值=0.4456>,故w无法拒绝原假设,认为该回归模型不存在异方差。多重共线诊断本文使用方差膨胀因子诊断法对负二项回归模型进行多重共线性诊断,使用vif()函数进行多重共线性诊断,所得的结果如下所示:表4.5方差膨胀因子表vif(step_model)OccupyGreenSport`11Football``7Football49.93070625.481890209.20913375.5324107.239051`BookAudioExperimentDigitalTeacher120.9741362.6975547.85293896.41604142.890491ClassroomNetworkroomNewAdded66.14972961.06920524.754900根据表4.5可知小于10,说明变量7Football、Audio、Experimennt之间不存在多重共线性;其余变量的,说其余变量间存在多重共线性。残差图图4.1残差图图4.1残差分布有一定波动,红色平滑曲线未严格围绕0线,可能模型存在欠拟合问题,或者变量间存在未被捕捉的非线性关系。多数散点靠近直线,但有个别点(如28、7、31)偏离,说明残差近似正态分布,但不完全符合,存在部分偏离正态分布的情况,不过整体上偏离程度不算特别大。。(五)模型调整上述模型诊断说明有部分变量间存在在多重共线性问题,会影响模型的稳定性和预测性能。下面解决多重共线问题,对模型拟合进一步优化。岭回归表4.6岭回归系数表14x1sparseMatrixofclass"dgCMatrix"s1(Intercept)1.074464e+01Occupy2.944635e-09Green-9.252301e-09Sport2.244081e-08`11Football`2.649650e-03`7Football`-2.452232e-03Book2.997645e-09Audio2.489912e-08Experiment4.817543e-07Digital1.952354e-07Teacher-9.500570e-07Classroom7.570060e-06Networkroom6.549464e-07NewAdded2.168169e-07采用岭回归方法,通过引入一个正则化参数来惩罚模型中较大的回归系数,从而减少变量之间的共线性影响。首先,从逐步回归模型(stepmodel)中提取响应变量y和预测变量矩阵X,并去掉截距项。接着,创建一个从的对数等差序列作为岭回归的值候选集。拟合多个岭回归模型,并通过交叉验证选择了最优的值。设置随机种子以确保结果的可重复性,并使用cv.glmnet函数进行10折交叉验证,如表4.6所示最终确定最小均方误差对应的值为8557.912。基于选定的最佳值,得到岭回归模型的系数。结果说明,多数变量的系数都十分接近零,这意味着这些变量对于响应变量所产生的影响是比较小的。以一些变量为例,如Occupy、Green、Book等变量的系数基本上为零,然而变量11Football和7Football的系数分别是0.00265和-0.00245,它们对响应变量有着轻微的正向以及负向影响。其他一些变量,比如Classroom和Networkroom,同样呈现出类似的虽微小但并非为零的效应。LASSO回归表4.7LASSO回归系数表14x1sparseMatrixofclass"dgCMatrix"s1(Intercept)1.092006e+01Occupy.Green.Sport.`11Football`4.891833e-03`7Football`.Book1.931321e-09Audio2.868607e-09Experiment.Digital.Teacher.Classroom1.797070e-06Networkroom.NewAdded.使用LASSO回归解决多重共线性问题,采用LASSO回归方法。LASSO回归通过引入一个正则化参数来惩罚模型中较大的回归系,与岭回归不同的是,LASSO回归能够将某些系数压缩至零,从而实现变量选择的功能,简化模型结构。首先,从逐步回归模型(stepmodel)中提取了响应变量y和预测变量矩阵X,并去掉截距项。接着,创建一个从的对数等差序列作为LASSO回归的值候选集。利用glmnet包,拟合多个Lasso回归模型,并通过交叉验证(cross-validation)选择最优的值。设置随机种子以确保结果的可重复性,并使用cv.glmnet函数进行10折交叉验证,如表4.7所示最终确定最小均方误差对应的值为8361.166。基于选定的最佳值得到LASSO回归模型的系数。结果说明,LASSO回归成功把多个变量的系数压缩到了零,这意味着这些变量对响应变量的影响并不明显。比如说,变量Occupy、Green、Sport、7Football、Experiment、Digital、Teacher、Networkroom以及NewAdded的系数都变为了零,这显示出这些变量在模型中被排除。另外变量11Football和Classroom的系数分别是0.00489和0.000001797,这两个变量对响应变量有着较大的影响。岭回归和Lasso回归结果比较与最佳模型比较表4.8交叉验证均方误差表RidgeRegressionMSELassoRegressionMSE58201.8957893.27在之前分别使用岭回归和Lasso回归来解决多重共线性问题,并得到各自的最优模型。为了确定哪个模型在预测准确性方面表现更佳,我们进一步比较了这两种方法的交叉验证均方误差(MSE)。起初我们对岭回归以及LASSO回归于各自最佳值时的交叉验证均方误差展开了计算。岭回归所呈现出的均方误差数值为58201.89,而LASSO回归的均方误差则是57893.27。对这两个数值给予比较之后,可发现LASSO回归的均方误差稍微低于岭回归,这意味着在当前所使用的数据集里,LASSO回归或许有更为出色的预测准确性。鉴于表4.8交叉验证均方误差的比较结果,我们把LASSO回归选定为最终模型。LASSO回归在预测准确性方面有着更出色的表现,还借助将一些不太关键的变量系数压缩至零的方式,达成了变量选择,让模型结构得以简化。模型再诊断异方差诊断表4.9异方差性诊断表studentizedBreusch-Pagantestdata:lm_for_bpBP=13.028,df=13,p-value=0.4456如表4.9所示,上述检验的显著性水平,由检验结果可知,p值=0.4456>,故w无法拒绝原假设,认为该回归模型不存在异方差。2、残差图图4.2残差图图4.3Q-Q图图4.1残差围绕0线波动,但存在明显趋势,红线呈现起伏状态,且个别点偏离较远,说明初始模型对数据的拟合存在不足,不能完全捕捉数据的特征,存在系统性偏差,部分预测误差较大。图4.2残差围绕0线随机分布,没有明显趋势,虽有个别离群点分布,但整体上模型预测值与实际值之间不存在系统性偏差,说明调整后的模型在不同水平拟合值上表现更一致,对数据的特征捕捉能力增强,拟合效果优于初始模型。图4.1虽大部分点在直线附近,但有个别点偏离直线,说明残差虽近似正态分布,但存在偏离正态的情况。图4.3中更多点紧密沿着参考线分布,偏离参考线的点相对较少,表明残差更接近正态分布。正态性更好,说明着模型误差更符合经典假设,模型的稳定性和可靠性增强,所以调整后的模型在误差分布的合理性上优于初始模型。所以总的来说,,调整后模型的残差图和Q-Q图表现均更优,说明模型在拟合效果、误差分布合理性等方面得到改善,模型变好。(七)结果解读最终确定的模型包括以下四个自变量:11Football,Book,Audio,Classroom。最终模型为:回归系数的现实意义:为回归方程的截距项,表示当11人制足球场(11Football)、图书(Book)、音视频(Audio)、教室(Classroom)这几个自变量取值都为0时,的取值,即此时因变量招生人数均值对数取值。表明在图书(Book)、音视频(Audio)、教室(Classroom)这几个自变量保持不变的情况下,11人制足球场(11Football)的单位是个,当11人制足球场增加1000个时,log(μ)会增4.891833
,因变量招生人数均值对数会有显著变化。表明在11人制足球场(11Football)、音视频(Audio)、教室(Classroom)保持不变时,图书(Book)以册为单位,当增加1亿册图书时时,log(μ)增1.931321,会对因变量招生人数均值对数产生相应影响,但这种影响是很微弱的。表明在11人制足球场(11Football)、图书(Book)、教室(Classroom)保持不变时,音视频(Audio)的单位时小时,当增加1亿小时的音视频时长,log(μ)增加2.868607,会对因变量招生人数均值对数产生相应影响,但这种影响是极地的。表明在11人制足球场(11Football)、图书(Book)、音视频(Audio)保持不变时,教室(Classroom)的单位是间,当增加100万间教室时,log(μ)增加1.79707,教室数量变化对因变量均值对数的影响相对大一些。结论和建议结论本文围绕各省高校本科招生人数(Entrant)展开研究,以各类基础设施为自变量构建模型。结果显示,11人制足球场(11Football)、图书量(Book)、音视频资源量(Audio)、教室数量(Classroom)这四个自变量对高校本科招生人数(Entrant)存在显著影响。其中,11人制足球场数量的增加对高校本科招生人数均值对数的提升作用相对明显,而图书、音视频高校本科招生人数均值对数的影响极为微弱,教室的影响程度介于两者之间。这表明在本文研究情境下,11人制足球场对各省高校本科招生人数起着关键作用。建议考虑到11人制足球场、图书、音视频资源量以及教室数量这些因素,对各省高校本科招生人数有着一定影响,各省高校在进行资源分配和规划的时候,可适度朝着11人制足球场建设、图书建设、音视频资源建设以及教室建设的方向有所倾斜,以此来达成扩大招生规模的目的。可依照本文的结果,去制定相关的行业标准或者指导意见,规范其发展。在校园基础设施建设配备过程中,要重视11人制足球场等关键因素所起到的作用,加大建设力度,比如在资源配置方面,优先保障与11人制足球场相关的资源,合理调整图书、音视频以及教室等资源的投入策略,提升容纳高校本科大规模招生的能力。教育主管部门和高校联合制定校园基础设施建设行业标准或指导意见,明确各类设施建设的量化指标与质量规范,指导高校资源配置。建立基础设施与招生规模关联的动态监测机制,依据招生数据和学生反馈,及时调整资源投入方向和力度,确保资源利用最大化。科研机构和高校进一步开展相关研究,纳入如校园生活设施、师资力量分布等更多变量,细化数据采集维度,深入剖析各因素对招生的综合影响。多场景验证,在不同地区、不同类型高校等多元场景下验证现有模型,检验结论可靠性,增强研究成果在不同环境下的普适性。研究优点与不足1、研究优点从数据收集开始直至模型确定,本文的步骤都十分严谨规范。借助运用科学方法来筛选自变量,所构建的最终模型有一定解释能力,可有效地反映出自变量与因变量之间的关系。在研究过程中综合考量了多种因素,以此保证了模型的可靠性与稳定性。2、研究不足数据来源相对单一,存在样本偏差,影响研究结论的普适性。数据为全国各省份高校的数据,并非各个高校的数据,数据较为笼统。而各省份不同高校办学存在差异,此结果只能说明全国31各省份之间高校招生人数的变化影响。此外,本文仅关注了有限的自变量,可能遗漏其他对有重要影响的因素。在模型构建上,未尝试更多复杂模型进行对比分析,模型优化空间有待挖掘。未关注到数据间量纲的差距,以至于模型的回归系数过小,使得回归系数的大小失去实际意义,难以直接解释自变量对因变量的影响程度。后续研究可以对数据进行标准化处理,消除量纲影响,使回归系数具有可比性和可解释性。
参考文献王淇.高校占地面积及土地集约利用评价[J].淮南职业技术学院学报.2018.刘永林,周海涛.统筹破解名办高校用地用房的制度性瓶颈[J].复旦教育论坛.2019.吴珂林.普通高校固定资产管理探析[J].金陵科技学院学报(社会科学版).2010.06.30.22-26.樊洪君.普通高等院校图书馆数字资源整合研究[J].中国图书馆学会专业图书馆分会2009年学术年会论文集.2009.09.13.173-176.王娟熔,张雄刚.普通高校图书馆数字资源建设与利用探析[J].北京印刷学院学报.2009.02.26.35-38.王瑜琳,刘学虎,钱欣丽.数字化转型背景下高校数字资源建设的策略[J].中国科技期刊数据库.2024.丁红.高校数字图书馆资源建设思考与发展[J].中国冶金教育.2016.08.31.113-115.杨小云.普通高校图书馆数字资源利用情况分析——以渭南师范学院图书馆为例[J].渭南师范学院学报.2012.02.25.107-109.阮楠,王红芳,吴迪.高校图书馆数字资源建设及共享机制探讨[J].价值工程.2024冀小幸.我国本科教育发展规模适度性研究[D].上海海事大学,2007.刘继安.扩招带动高校健康发展[N].中国教育报.2002.10.05(001).鞠培霞.高校扩招,增量更要提质[N].青岛日报.2025.03.25(002).李蕾,徐瑞哲.上海“双一流”优质本科扩容[N].解放日报.2025.03.24(004).唐年胜,李会琼.应用回归分析[M].北京:科学出版社,2014.42-44费宇,郭民之,陈贻娟.多元统计分析[M].北京:中国人民大学出版社,2014.20-21Zhou,W.,Huang,D.,Liang,Q.
etal.
EarlywarningandpredictingofCOVID-19usingzero-inflatednegativebinomialregressionmodelandnegativebinomialregressionmodel[J].
BMCInfectDis
24,1006(2024)./10.1186/s12879-024-09940-7Zhang,W.,Liu,Q.,Ni,J.
etal.
NegativebinomialregressionanalysisoffactorsinfluencingthenumberofdistinctmosquitospeciesinZhejiangProvince,China,2023[J].
SciRep
15,10433(2025)./10.1038/s41598-025-94288-4Lee,K.,Pedroza,C.,Avritscher,E.B.C.
etal.
Evaluationofnegativebinomialandzero-inflatednegativebinomialmodelsfortheanalysisofzero-inflatedcountdata:applicationtothetelemedicineforchildrenwithmedicalcomplexitytrial[J].
Trials
24,613(2023)./10.1186/s13063-023-07648-8Gebre,M.N.Numberofchildrenever-bornanditsassociatedfactorsamongcurrentlymarriedEthiopianwomen:evidencefromthe2019EMDHSusingnegativebinomialregression[J].
BMCWomen'sHealth
24,95(2024)./10.1186/s12905-024-02883-wWapp,C.,Biver,E.,Ferrari,S.
etal.
Developmentofapersonalizedfallratepredictionmodelincommunity-dwellingolderadults:anegativebinomialregressionmodellingapproach[J].
BMCGeriatrics
23,200(2023)./10.1186/s12877-023-03922-1(美)GarethJames,DanielaWitten,Trev.统计学习导论:基于R应用;机械工业出版社,2017:05-15.
附录附录1(代码)data<-read_excel("C:\\Users\\ASUS\\Desktop\\data.xlsx",sheet="Sheet1")colnames(data)<-c("Region","Entrant","Occupy","Green","Sport","Football","11Football","7Football","5Football","Book","NewBook","EBook","EJournal","DBook","Audio","Vocational","Experiment","Training","Simulation","Digital","Teacher","Student","Classroom","Networkroom","FixedAsset","Equipment","NewAdded")data<-data[-1,]colnames(data)#检查数据类型str(data)#查看每列的数据类型sapply(data,class)#找出非数值型的列,但排除第一列(Region列)non_numeric_cols<-sapply(data,function(x)!is.numeric(x))non_numeric_cols_names<-names(non_numeric_cols)[non_numeric_cols][-1]#排除第一列#将非数值型列转换为数值型for(colinnon_numeric_cols_names){#先将列转换为字符型,再尝试转换为数值型temp<-as.character(data[[col]])#处理无法转换为数值的情况,这里将无法转换的设为NAtemp[!grepl("^[-+]?[0-9]*\\.?[0-9]+$",temp)]<-NAdata[[col]]<-as.numeric(temp)}#再次检查数据类型sapply(data,class)modeldata<-data[,-1]#描述统计分析summary(modeldata)#计算均值与方差(结果保留两位小数)means<-round(colMeans(modeldata,na.rm=TRUE),2)variances<-round(apply(modeldata,2,var,na.rm=TRUE),2)#输出结果print("各变量的均值:")print(means)print("各变量的方差:")print(variances)#系数矩阵R=round(cor(modeldata),3)#求样本相关系数矩阵,保留三位小数Rsymnum(cor(modeldata,use="complete.obs"))corrplot(R,addCoef.col="white",number.cex=0.4,number.digits=3)#修改数字大小和小数位数为3位#提取需要的列plot_data<-data[,c("Entrant","Occupy","Green","Sport")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("Occupy","Green","Sport"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校占地面积,绿化面积,运动场面积与招生人数散点图plot1<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="面积(单位:平方米)",y="招生人数",title="各类面积与招生人数散点图")plot1#提取需要的列plot_data<-data[,c("Entrant","11Football","7Football","5Football")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("11Football","7Football","5Football"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校不同人制足球场与招生人数散点图plot2<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="足球场(单位:个)",y="招生人数",title="不同人制足球场与招生人数散点图")plot2#提取需要的列plot_data<-data[,c("Entrant","Book","NewBook")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("Book","NewBook"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校图书、当年新增图书与招生人数散点图plot3<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="图书(单位:册)",y="招生人数",title="图书与招生人数散点图")plot3#提取需要的列plot_data<-data[,c("Entrant","EBook","EJournal","DBook","Audio")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("EBook","EJournal","DBook","Audio"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校数字资源与招生人数散点图plot4<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="数字资源(单位:册/小时)",y="招生人数",title="数字资源与招生人数散点图")plot4#提取需要的列plot_data<-data[,c("Entrant","Experiment","Training","Simulation")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("Experiment","Training","Simulation"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校职业教育仿真实训资源与招生人数散点图plot5<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="职业教育仿真实训资源(单位:套)",y="招生人数",title="职业教育仿真实训资源与招生人数散点图")plot5#提取需要的列plot_data<-data[,c("Entrant","Digital","Teacher","Student")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("Digital","Teacher","Student"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校不同类型终端与招生人数散点图plot6<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="终端(单位:台)",y="招生人数",title="不同类型终端与招生人数散点图")plot6#提取需要的列plot_data<-data[,c("Entrant","Classroom","Networkroom")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("Classroom","Networkroom"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校教室、网络多媒体教室与招生人数散点图plot7<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="教室(单位:间)",y="招生人数",title="教室与招生人数散点图")plot7#提取需要的列plot_data<-data[,c("Entrant","FixedAsset","Equipment","NewAdded")]#将数据转换为长格式,方便绘图plot_data_long<-pivot_longer(plot_data,cols=c("FixedAsset","Equipment","NewAdded"),names_to="Field_Type",values_to="Field_Value")#绘制各省份高校资产与招生人数散点图plot8<-ggplot(plot_data_long,aes(x=Field_Value,y=Entrant,color=Field_Type))+geom_point()+labs(x="资产(单位:万元)",y="招生人数",title="资产与招生人数散点图")plot8#绘制各省份招生人数直方图Plot9<-ggplot(data,aes(x=Region,y=Entrant))+geom_bar(stat="identity",fill="skyblue")+theme(axis.text.x=element_text(angle=75,hjust=1))+#旋转x轴标签,便于查看labs(x="省份",y="招生人数",title="各省份招生人数情况")Plot9#计算Entrsnt均值mean_value<-mean(data$Entrant)print(paste("均值为:",mean_value))#计算Entrant方差var_value<-var(data$Entrant)print(paste("方差为:",var_value))#建立负二项回归模型nb_model<-glm.nb(Entrant~Occupy+Green+Sport+`11Football`+`7Football`+`5Football`+Book+NewBook+EBook+EJournal+DBook+Audio+Experiment+Training+Simulation+Digital+Teacher+Student+Classroom+Networkroom+FixedAsset+Equipment+NewAdded,data=data)summary(nb_model)#变量选择,逐步回归step_model<-step(nb_model)summary(step_model)#模型诊断#异方差性检验bptest(step_model)#多重共线性检验vif(step_model)#绘制残差图par(mfrow=c(2,2))#将图形窗口分为2x2的网格#绘制残差与拟合值的散点图plot(step_model,which=1)#绘制Q-Q图,检查残差的正态性plot(step_model,which=2)#解决多重共线问题#提取数据data<-model.frame(step_model)y<-data[,1]#响应变量X<-model.matrix(step_model)[,-1]#预测变量,去掉截距项#岭回归#创建一个lambda序列lambda_seq_ridge<-10^seq(5,-2,by=-0.1)#拟合岭回归模型ridge_model<-glmnet(X,y,family="poisson",alpha=0,lambda=lambda_seq_ridge)#选择最佳的lambda值(例如,使用交叉验证)set.seed(123)cv_ridge<-cv.glmnet(X,y,family="poisson",alpha=0)best_lambda_ridge<-cv_ridge$lambda.min#打印最佳的lambda值和岭回归系数cat("BestlambdaforRidgeRegression:",best_lambda_ridge,"\n")cat("RidgeRegressionCoefficients:\n")print(coef(ridge_model,s=best_lambda_ridge))#Lasso回归#创建一个lambda序列lambda_seq_lasso<-10^seq(5,-2,by=-0.1)#拟合Lasso回归模型lasso_model<-glmnet(X,y,family="poisson",alpha=1,lambda=lambda_seq_lasso)#选择最佳的lambda值(例如,使用交叉验证)set.seed(123)cv_lasso<-cv.glmnet(X,y,family="poisson",alpha=1)best_lambda_lasso<-cv_lasso$lambda.min#打印最佳的lambda值和Lasso回归系数cat("BestlambdaforLassoRegression:",best_lambda_lasso,"\n")cat("LassoRegressionCoefficients:\n")print(coef(lasso_model,s=best_lambda_lasso))#岭回归和Lasso回归结果比较与最佳模型比较#计算岭回归和Lasso回归的交叉验证均方误差mse_ridge<-cv_ridge$cvm[which.min(cv_ridge$lambda==best_lambda_ridge)]mse_lasso<-cv_lasso$cvm[which.min(cv_lasso$lambda==best_lambda_lasso)]#比较均方误差并输出结果cat("RidgeRegressionMSE:",mse_ridge,"\n")cat("LassoRegressionMSE:",mse_lasso,"\n")if(mse_ridge<mse_lasso){cat("RidgeRegressionhasalowerMSEandma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甘肃电器科学研究院2025年度聘用制工作人员招聘备考题库参考答案详解
- 2025年国家空间科学中心复杂航天系统电子备考题库技术重点实验室复杂系统研制与开发人员招聘备考题库及参考答案详解
- 2025年江西一地招聘辅警52名备考题库及参考答案详解1套
- 国家知识产权局专利局专利审查协作北京中心福建分中心2026年度行政助理招聘备考题库带答案详解
- 2025年湛江市坡头区城市管理和综合执法局公开招录编外人员备考题库及一套完整答案详解
- 2025年基因检测技术商业化可行性研究报告
- 持续优化合同范本
- 2025年绿色化工产业园区开发项目可行性研究报告
- 合肥购车合同范本
- 品种授权合同范本
- 2025版小学语文新课程标准
- 2025年河北省中考化学真题 (解析版)
- 【个案工作介入青少年厌学问题研究12000字(论文)】
- 村级事务监督工作报告
- T/TAC 10-2024机器翻译伦理要求
- 兄妹合伙买房协议书
- 家庭农场项目可行性报告
- 施工升降机防护方案
- 温室大棚可行性报告修改版
- JISG3141-2017冷轧钢板及钢带
- 瑞加诺生注射液-药品临床应用解读
评论
0/150
提交评论