数据挖掘作业.docx_第1页
数据挖掘作业.docx_第2页
数据挖掘作业.docx_第3页
数据挖掘作业.docx_第4页
数据挖掘作业.docx_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘作业李伟林3.3.1(1)将文件另存为csv格式,导入数据算出统计学成绩的平均值,中位数,极值等指标 (2)画出生活费的频数分布表并计算统计指标(3)对统计学成绩进行组距分组(4)分性别计算分性别的统计平均成绩;计算分年龄和性别的平均身高(5)编制学生对使用英文教材态度的频数分布表(6)根据学生对使用英文教材态度的数据绘制条形图和饼图 (7) 绘制对比条形图,比较男生和女生对统计学的兴趣,绘制学生对统计学兴趣百分比图。(8)绘制学生调查数据中“概率成绩”的直方图(9)根据学生身高数据绘制茎叶图(10)据“统计成绩”数据绘制箱线图 3.3.2(1)假设总体的分布为0-1区间上的均匀分布,从总体中重复抽取样本容量分别为2、10、30的1000个样本,计算每个样本的均值,然后观察样本均值的分布状况 由计算出来的结果可知,当样本数取得越来越大时,样本均值越靠近0.5(2)假设有大批零件,不合格率为0.2。随机模拟从总体中抽取样本容量分别为5,20,50的2000个样本,分析样本比例的抽样分布1、样本量为52、样本量为203、样本量为50 (3)根据学生调查的身高数据计算总体平均身高的95%的置信区间(4)对于学生调查的数据,假设样本是随机的,试根据样本估计全校学生中女生比例的99%的置信区间(5)假设一个正态总体的均值为100 ,标准差为10。现从总体中随机抽取100个容量为25的随机样本,计算每个样本的95%的置信区间(计算置信区间时假设总体方差未知),看看有多少个区间不包含总体的真值 (6)对学生调查中的身高数据,检验能否认为总体的平均身高等于169厘米由t检验可知,p值等于0.07494,大于0.05,即接受原假设(7)在5%的显著性水平下检验男女生的身高是否相等。p值等于5.846e-05远远小于0.05,即拒绝原假设,认为男女身高不相等。(8)在5%的显著性水平下检验男女生身高的方差是否相等。p值等于0.07429,大于0.05,即接受原假设,男女生身高的方差相等。3.3.3(1)检验按学生兴趣分组的各组统计成绩数据的正态性。得到:分析:w检验是需要将w值和临界值比较,当值大于临界值时,其为正态分布。由于这五个值都大于.,所以统计学成绩按兴趣分组符合正态分布假设。(2)根据学生调查的结果,试用方差分析的方法比较在5%的显著性水平下能否认为学生的学习兴趣对他们的统计成绩有显著性影响。(3)对不同兴趣的学生的统计成绩进行多重比较。 3.3.4(1)绘制学生数据中概率与统计成绩的散点图 (2)计算概率成绩、统计成绩与体重之间的简单相关系数,并检验其显著性。由上图可知,概率论和体重的相关检验与统计学和体重的相关检验的p值分别为0.7862和0.8971,都大于0.05,因此我们接受原假设,认为即统计学成绩、概率论成绩与体重之间不相关。(3)建立统计成绩对概率成绩的回归方程,当概率成绩等于90时,给出统计成绩的点预测值及95%的预测区间。得到统计学成绩对概率成绩的回归方程为a1=53.5657+0.3322

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论