




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于鞋码影响身高的预测模型 姓名:XXX班级:XXXX学号:XXXXX摘 要 在已知一个人的鞋码的情况下,想要大概估算出一个人的身高,本文采用SPSS软件先对采集的数据进行相关性分析,体重和身高正相关,鞋码与身高存在极强的正相关性。接着采用偏相关分析,发现体重对身高的影响大大降低,接着对数据进行曲线估计,得出鞋码与身高为线性关系,对该模型进行检验发现拟合性很好,从而在已知寇老师的鞋码情况下,可以知道他的身高为 .关键词: 偏相关分析 SPSS 曲线估计 身高 71 问题重述已知寇老师所穿的鞋子码数是42码,利用统计学的知识,估计寇老师的身高,并分析身高与哪些因素相关,相关性如何?再建立统计模型。2 问题分析在已知寇老师鞋码的情况下,要我们求出寇老师的身高,则需要收集大量鞋码与身高的数据来对这两者进行分析,考虑到影响身高的因素,我们也将体重这一因素调查出来,利用已学的SPSS软件知识对这三者之间的关系进行分析,是否符合线性回归方程,进而利用鞋码得出寇老师的身高,如若不然,应采用非线性回归分析。在此基础上还应该对已建立的模型进行检验,减小误差,得出身高其他影响因素的关系。3 模型假设1. 假设收集的数据真实可靠;2. 假设收集的数据不存在人为干扰;3. 假设本次收集的数据是随机的;4 定义与符号说明 鞋码 身高 相关系数 表示方程的回归系数5 模型的建立与求解数据预处理表一:描述统计量N全距极小值极大值均值标准差方差身高5033147180169.307.15851.235体重5032417356.748.55073.094鞋码508354340.282.0904.369有效的 N (列表状态)50本次一共收集了50个人的身高鞋码数据,对鞋码、身高、体重的数据的极大值、极小值、均值、标准差、方差进行统计,发现身高大部分分布在169.3cm左右 ,体重则在56.74kg左右,鞋码大部分分布在40.28左右。5.1 鞋码、身高、体重相关与独立性 对鞋码、身高、体重的数据的相关与独立性进行定量分析,利用对3个基本指标的相关数据进行相关分析,若随机变量X、Y的联合分布是二维正态分布,和分别为n次独立观测值,相关系数r的公式为:其中,利用SPSS分析得到表二:表二:相关性分析身高体重鞋码Kendall 的 tau_b身高相关系数1.000.515*.659*体重相关系数.515*1.000.528*鞋码相关系数.659*.528*1.000Spearman 的 rho身高相关系数1.000.674*.776*体重相关系数.674*1.000.641*鞋码相关系数.776*.641*1.000 Pearson 相关性身高相关系数1.705*.856*体重相关系数.705*1.686*鞋码相关系数.856*.686*1根据相关系数的检验标准,由表二可以观察得出身高和鞋码两者高度相关,体重和鞋码两者中度相关,体重和身高之间正相关。但是无法确定它们之间是否存在伪相关性,则需要剔除其他变量的影响,在只有三种数据的情况下,我们采用偏相关系数来反映变量间真实的相关性,所以偏相关分析见表三:表三:偏相关分析控制变量身高体重 鞋码身高相关性1.000.313显著性(双侧).029df047体重相关性.3131.000显著性(双侧).029.df470控制变量身高鞋码 体重身高相关性1.000.722显著性(双侧).000df047鞋码相关性.7221.000显著性(双侧).000.df470由表三输出结果可知,在考虑了鞋码的影响之后,身高和体重的相关系数下降,大大低于两变量相关分析中的相关系数,所以鞋码和身高存在某种线性关系。5.1.1身高与鞋码的相关性由表三数据可知,建立一元线性回归模型:上式中表示方程的回归系数,为鞋码,为身高,利用SPSS对数据进行线性拟合,得到的结果见表四。 表四:模型汇总和参数估计值方程模型汇总参数估计值R 方Fdf1df2Sig.常数b1b2b3线性.733132.006148.00051.1772.933自变量为 鞋码。因变量: 身高根据表三可以得出鞋码与身高的关系方程为:5.1.2模型检验表五:模型汇总c模型RR 方调整 R 方标准 估计的误差1.856a.733.7283.73454a. 预测变量: (常量), 鞋码。b. 因变量: 身高由表五可知,方程的拟合效果很好,调整 R 方也比较大为0.728,则统计量的取值表明模型残差不存在序列自相关。表六:Anovaa模型平方和df均方FSig.1回归1841.05411841.054132.006.000b残差669.4464813.947总计2510.50049表六为方程显著性的方差分析,总平方和的自由度为49,回归平方和的自由度为1,残差平方和的自由度为48,F统计量为132.006,显著性水平为0,残差分析见表六和表七,说明线性方程非常显著,所以自变量作为一个整体对因变量有显著影响。表七:系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)51.17710.2954.971.000鞋码2.933.255.85611.489.000a. 因变量: 身高表七为回归系数及多重共线性诊断结果,内容依次为:非标准化的回归系数,包括回归系数值和标准差;标准化的回归系数;回归系数显著性的检验的统计量;显著性水平。观察显著性水平一列,可见变量都比较显著,则不存在共线性问题。表八:残差统计量a (因变量: 身高)极小值极大值均值标准 偏差N预测值153.8161177.2765169.30006.1296450残差-9.411446.58856.000003.6962450标准 预测值-2.5261.301.0001.00050标准 残差-2.5201.764.000.99050表八列示了逐步回归中各步对应模型的汇总信息,可见随着变量选择过程的进行,调整不断增大,回归标准差不断降低,说明变量选择的每一步都起到了改进的作用,提高了模型的拟合程度。 图一 图二图三图一为标准化残差的直方图,从直方图与相应正态曲线的位置关系来看,标准化残差的分布与正态分布的差别不是太大,结果显示标准化残差的均值接近于0,标准差接近于1。图二为标准化残差概率图,图中散点基本分布在正态分布对应的直线的周围。图三为学生化删除残差与因变量的散点图,图中散点的分布没有明显的规律,可以认为是随机的,因而不存在异方差问题。综上所述,我们建立回归模型与回归分析的基本假设是吻合的,因而这个模型是可以用来预测的。5.1.3模型解答已知寇老师所穿的鞋子码数是42码,即在此方程中,则得出。6 模型评价优点:1、 模型结构简单,参数较少2、 建模所需要的样本较少,专门针对小样本情况缺点: 1、应该分开性别进行分析,减小误差 2、利用的数据比较少,模型的参数误差比较大7 参考文献1 黄向阳.统计学方法与应用.北京:中国人民大学出版社,2005。8 附录附件一:身高(cm)体重(kg)鞋码身高(cm)体重(kg)鞋码1634636170594115244351725741178694116852401716840173654316150371625241154413517553401575137178674216346371726741166593817773421474235167453916043371746242176574217055411726541172554217555
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 事业单位工考课件
- 工艺产品技术合作开发协议书6篇
- 结肠癌根治术基础护理
- 2025年江西省成人高等学校招生考试地理+历史复习题及答案
- 《琵琶行》课件教学课件
- 质检员年终总结格式
- 2025房屋租赁合同协议范例
- 公司收购风控法务课件
- 装修项目年终总结
- 环境设计考察汇报
- 中式面点 教学课件
- 家庭教育中的亲子沟通艺术与策略
- 涉密岗位岗前培训课件
- 农村金融服务创新与农村金融风险管理:2025年风险监测案例报告
- 培训课件银行合规
- 酒店pa考试试题及答案
- 钣金冷冲压激光切割折弯检验作业指导书
- 高中英语译林版课文语法填空知识点课件
- 无创呼吸机面罩设计与应用
- 中国唐朝服装课件
- Q-SY 25781-2024 原油内控指标
评论
0/150
提交评论