版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目五
SciPy统计推断与探索性分析任务一
相关性分析任务二
卡方检验任务三、t检验任务四
方差分析任务一
相关性分析一、正态分布的相关分析二、非正态分布的相关分析一、正态分布的相关分析小李集鸢尾花数据,含花瓣、花萼长度。欲分析花瓣、花萼长度是否显著相关及方向。需做相关性分析,选合适相关系数。
知识准备相关性分析方法多,初级方法可发现数据关系;中级方法度量关系强弱;高级方法转化关系为模型预测未来。数据的相关性关系主要分类如下,相关性的方向和强弱如图
所示。Python可以计算多种相关系数,包括皮尔逊相关系数、Spearman相关系数、Kendall相关系数等。一、正态分布的相关分析皮尔逊相关系数(PearsonCorrelationCoefficient)是反映两变量之间线性相关程度的统
计量,用它来分析正态分布的两个连续型变量之间的相关性,常用于分析自变量之间,以
及自变量和因变量之间的相关性。皮尔逊相关系数在-1和+1之间变化,0表示没有相关性、-1或+1的相关性暗示着一种精确的线性关系。案例——运输距离与成本相关性分析现有表5-1所列的运输数据,本案例将应用皮尔逊相关系数,量化分析运输距离(公里)
与运输成本(元)之间的关联程度,揭示二者是否存在显著的线性关系。一、正态分布的相关分析运行结果如图所示。运输距离与运输成本相关性二、非正态分布的相关分析斯皮尔曼等级相关系数(Spearman’sCorrelationCoefficientforRankedData)主要用于评价顺序变量间的线性相关关系,常用于计算类型变量的相关性。相关系数表示线性相关程度,即correlation趋近于1表示正相关。pvalue越小,表示相关程度越强。spearmanr函数用来计算斯皮尔曼等级相关系数和pvalue,检验非相关性。该函数的调用格式如下:其中,x和y为变量数据。二、非正态分布的相关分析案例——房屋面积和房屋价格相关性分析为探究房屋面积与价格之间的潜在关联,本案例采用非参数统计方法——斯皮尔曼等级相关分析。分析所用数据见表,检验房屋面积的等级排序与房屋价格是否具有相关性。二、非正态分布的相关分析运行结果如下,散点图如图所示。散点图任务二
卡方检验一、正态性检验二、方差齐性检验三、拟合优度卡方检验任务二
卡方检验任务引入小李想研究鸢尾花的花瓣长度和花萼宽度这两个特征之间是否存在关联。他测量
了多株鸢尾花的花瓣长度和花萼宽度,并将数据按长度和宽度分别分为“长”和“短”两类。他想知道,花瓣长度和花萼宽度这两个分类变量是否独立。这也可以用卡方检
验来分析!那么,小烈应该如何构建列联表,并使用Python进行独立性检验呢?
知识准备卡方检验是一种非参数检验方法。相对来说,
非参数检验对数据分布的要求比
较宽松,并且也不要求有太大的数据量。卡方检验主要比较理论频数和实际频数的
吻合程度,常用于特征选择。例如,检验男人和女人在是否患有高血压上有无区别,
如果有区别,则说明性别与是否患有高血压有关,在后续分析时,就需要把性别这
个分类变量放入模型训练。一、正态性检验正态性检验是利用观测数据判断总体是否服从正态分布的检验。是数据分析的第一步,决定后续分析方法。常用方法有正态概率纸法、Shapiro-Wilk检验法、柯尔莫哥洛夫检验法、偏度-峰度检验法等。1.偏度-峰度检验法正态性检验基于偏度和峰度。偏度和峰度同时是分布特征分析统计量。skew函数用来计算数据的偏度。kurtosis函数用来计算数据的峰度。案例——某公司在全国有40个销售点,试分析各销售点销售额是否符合正态
分布运行结果如下,折线图如图所示。折线图一、正态性检验2.夏皮罗-威尔克检验法夏皮罗-威尔克检验法验小样本数据正态性,统计量大则符合,但非正态数据也可能大,需查表。低于显著性水平则不符合正态分布。shapiro函数用来检验数据是否符合正态分布,计算零假设的pvalue。该函数的调用格式如下:案例——测试绘画成绩是否符合正态分布已知某市小学生比赛分数,抽取绘画、钢琴、笛子、书法、古筝中的40组样本,试通过夏皮罗-威尔克检验法测试绘画成绩是否符合正态分布。运行结果如下,绘画成绩折线图如图所示。绘画成绩折线图一、正态性检验3.柯尔莫哥洛夫检验法柯尔莫哥洛夫检验(Kolmogorov-SmirnovTest)法检验样本数据是否服从某一分布,仅适用于连续分布的检验。kstest函数使用柯尔莫哥洛夫检验法检验数据是否符合正态分布。案例——使用柯尔莫哥洛夫检验法检验数据是否符合正态分布运行结果如图所示。运行结果二、方差齐性检验方差反映了一组数据与其平均值的偏离程度,计算公式如下:方差齐性检验用以检验两组或多组数据与其均值偏离程度是否存在差异,也是很多检验和算法的先决条件。当不确定两总体方差是否相等时,应先利用levene函数进行检验,检验两总体是否具有方差齐性。它的使用格式如下:案例——对表中数据进行方差齐性分析为了考察染整工艺对布的缩水率是否有影响,选用5种不同的染整工艺,分别用A1、A2、A3、A4、A5表示,每种工艺处理4块布样,测得缩水率的百分数,如表所示,试对其进行方差齐性分析。三、拟合优度卡方检验拟合优度卡方检验检验一组观察到的频数分布是否与一个理论分布相符。例如:一个地区的出生性别比例是否符合预期的1:1?网站访问量的每日数据是否符合泊松分布?chisquare函数用来进行拟合优度卡方检验,它的使用格式如下:案例——对表中数据进行卡方检验为了研究性别与NBA比赛观看人次的关系,2020年在10座城市调查了1000个样本,调查数据如表所示。试对其进行卡方检验(原假设是没有显著差异)。任务三、t检验一、单样本t检验二、独立样本t检验三、配对样本t检验任务三、t检验任务引入小李收集了一批鸢尾花的花萼长度数据。他想知道,这批鸢尾花的平均花萼长
度是否与已知的某个品种的平均花萼长度(比如5.8cm)存在显著差异。这就需要
用到t检验了!那么,具体应该选择哪种t检验?情景式任务引入(单样本t检验-饮料容量):情景式任务引入(独立样本t检验-药物疗效):情景式任务引入(配对样本t检验-学习效果):知识准备t检验主要用于检验定量数据,无论哪种t检验,都要符合以下的基本前提条件:样本数据符合正态分布,各样本之间是相互独立的。t检验的步骤如下。●
提出原假设和备择假设。●
构造t统计量。●
计算t统计量。●
对于得到的p值进行分析,若大于0.05,则接受原假设,反之则接受备择假设。一、单样本t检验单样本t检验用于检验数据是否来自同一均值的总体。t检验主要是以均值为核心的检
验。标准误差计算公式:标准误差单样本t检验计算公式:在stats中,ttest_1samp函数用来进行单样本t检验。它的使用格式如下:
案例——对不同年龄段消费者的消费水平进行单样本t检验从淘宝“双12”消费信息中抽取不同年龄段消费者的消费水平样本,如表所示。其
中,整体消费水平为3000元。二、独立样本t检验独立样本t检验用于分析定类数据与定量数据之间的关系,如男、女生的身高是否有显
著差异。在stats中,ttest_ind函数用来进行独立样本t检验。它的使用格式如下:其中,data1、data2是样本数据。案例——对表中数据进行独立样本t检验为了考察气温对树木落叶是否有影响,选用10天不同的温度分别测得两个区域环卫工
人清扫落叶的车数,如表所示。试对其进行独立样本t检验。三、配对样本t检验配对样本t检验分析配对定量数据差异,要求样本量相同且顺序对应。可视为单样本t检验扩展,对象为配对样本观测值之差。可通过差值转化为单样本t检验,常用于比较同一受试对象处理前后差异。。在stats中,ttest_rel函数用来进行配对样本t检验。它的使用格式如下:
其中,data1、data2是样本数据。案例——对表中数据进行配对样本t检验在某市普查某种疾病,为此要抽验12个人的血,可用两种检测方法进行检测,两种检
测方法测得的数据如表所示。试对其进行配对样本t检验。任务四
方差分析一、单因素方差分析二、多因素方差分析任务四
方差分析任务引入小李不仅想知道不同品种的鸢尾花在花萼长度上是否有差异,还想知道不同生
长地点(例如,阳坡和阴坡)是否也会影响花萼长度,以及品种和生长地点之间是
否存在交互作用。他收集了不同品种、不同生长地点的鸢尾花的花萼长度数据。这
时,就需要用到更复杂的方差分析了!那么,
小烈应该选择哪种类型的方差分析?
知识准备方差分析(AnalysisofVariance,ANOVA)又称F检验,联合了假设检验、差
比率检验、方差齐性检验,是一种在零假设之下,统计值服从F分布的检验。它用
于两个及两个以上样本均数差别的显著性检验,主要考虑各组之间的均数差别。试验样本的分组方式不同,采用的方差分析方法也不同,一般常用的有单因素
方差分析与双因素方差分析。一、单因素方差分析单因素方差分析(One-wayANOVA)用来检验由单一因素影响的多组样本某因变量的
均值是否有显著差异。当因变量为数值型、自变量为分类值时,通常的做法是按自变量的类别把实例分成多
组,分析因变量在自变量的不同分组中是否存在差异。f_oneway函数用来对数据进行单因
素方差分析,返回的是统计量和p值。
案例——试检验不同配比油漆对空气的污染效果是否有显著影响某油漆公司为了比较5种不同配比的油漆对空气的污染效果,选取了条件基本相同的20套房间,随机分成4组,一个月后,房间内甲醛含量的测试结果如表所示。二、多因素方差分析当有两个或两个以上的自变量对因变量产生影响时,可以用多因素方差分析的方法进
行分析,此时不仅要考虑每个因素的主效应,还要考虑因素之间的交互效应。多因素方差分析需要加载statsmodels模块,在statsmodels中,anova.anova_lm函数用来
进行配对样本t检验。它的使用格式如下:参数说明如下。●*args:一个或多个拟合线性模型。●**kwargs:第二组或更多属性。①scale:方差的估计,默认从最大的模型开始估计。②test:提供测试统计数据,可选值为"F"、"ChiSq"和"CP",默认值为"F"。③typ:数据类型。④robust:鲁棒性,包括None、"hc0"、"hc1"、"hc2"和"hc3"。二、多因素方差分析案例——测试某新药,进行多因素方差分析研究者测试某新药对血液黏稠是否有疗效,研究者共招募100名志愿者,男、女分别50名。另外,将男、女分别细分使用新药和普通药物。影响因素共分为两个,分别是药物(旧
药和新药)、性别;自变量data为血液黏稠水平。项目总结项目实操:实操一
遗失的信件数据分析全省各地均有大量的爱国主义教育基地,走进这些基地,通过梳理历史文化资源,
挖
掘其中的道德教育价值,感悟道德的力量。某爱国主义教育基地收到全国各地的信件并抽取部分信件进行回复。
一天
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政治会考题目及答案高中
- 2026数据中心机房建设整体解决方案
- 户用超声波热量表在碳普惠平台中的个人减碳量核算
- 金峰豪庭水土保持方案报告表
- 祁门豆花鸡开发与利用项目水土保持报告表
- 体内各器官囊性疾病的研究进展总结2026
- 新生儿窒息课件中职《儿科护理》同步教学(北京出版社)
- 2026服务端面试题及答案
- 2026年AI系统优化蔬菜溯源管理
- 2026安全厂家面试题及答案
- 2026年辽宁锦州海通实业有限公司度校园招聘28人笔试模拟试题及答案详解
- 髋关节撞击综合征标准化诊疗专家共识(2026 版)
- 2026北京语言大学事业编制人员招聘11人备考题库(第三批)附答案详解ab卷
- 2026年中好建造科技有限公司第二次社会招聘笔试参考试题及答案解析
- 2026年重大事故隐患判定标准专项培训试卷附答案
- 黑龙江省哈尔滨市2025届中考物理试卷(含答案)
- 储能行业压缩空气储能电站经济性调研报告
- 2026年高考数学北京卷试卷(含答案)
- 医院慢病管理中心建设与运营方案
- 口腔实践技能考试病史采集要点汇总
- 述职报告结尾金句
评论
0/150
提交评论