Python数据分析 课件 项目6 数据分析库scipy_第1页
Python数据分析 课件 项目6 数据分析库scipy_第2页
Python数据分析 课件 项目6 数据分析库scipy_第3页
Python数据分析 课件 项目6 数据分析库scipy_第4页
Python数据分析 课件 项目6 数据分析库scipy_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目六

数据分析库scipy任务一scipy简介任务二相关性分析任务三假设检验任务四T检验任务五方差分析任务一scipy简介任务引入到了月底,小明收到会计发过来的月底汇总,要求出具统计报表。那么,在Python中,使用什么模块库才能做到数据分析呢?怎么实现所需要求呢?知识准备Scipy模块是python常用的数据分析工具,Scipy的stats模块包含了多种概率分布的随机变量,用于数据统计分析,Scipy中常用的子模块见表。一、linalg模块linalg模块用于进行线性代数计算,线性代数的基本操作对象是矩阵,与numpy相同,linalg的基本数据类型为数组、矩阵,该模块包含各种相关函数。特殊矩阵函数二、stats模块scipy的stats中包含一些比较基本的数据统计分析函数,比如:t检验,正态性检验,卡方检验之类,statsmodels提供了更为系统的统计模型,包括线性模型,时序分析,还包含数据集,做图工具等等。1.概率分布设X是一个随机变量,x是任意实数,函数在scipy.stats中,binom函数实现二项分布,poisson.pmf函数泊松分布,norm函数可以实现正态分布,正态分布函数见表。案例——绘制概率密度曲线2.数据分析在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。在数据分析过程中,选择适合的分析方法和工具是很重要的,下面介绍几种常用的数据统计分析方法。(1)相关性分析(2)回归分析(3)假设检验(4)方差分析运行结果(5)单变量统计分析使用describe函数可以查看数据的统计特性信息,包含以下值:nobs--观测次数minmax--最小值和最大值mean--数学平均数variance--方差skewness--偏度kurtosis--峰度任务二相关性分析任务引入小明对不同产品销售进行分析,查找相关性。相关性分析是数据分析中经常使用的分析方法之一,通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素,并对业务的发展进行预测。那么,如何实现相关性分析?知识准备相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测。数据的相关性关系主要分类如下,相关性的方向和强弱如图所示。正相关:两个变量值同时增长。负相关:一个变量值增加另一个变量值下降,不相关:随机分布的离散的点线性相关:线性正相关是由左下到右上的图形,线性负相关则是从左上到右下的图形非线性相关:例如指数相关、U形相关。一、图表相关性分析最简单的相关分析方法是将数据进行可视化处理,简单的说就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。1.折线图对于有明显时间维度的数据,可以选择使用折线图。案例——健康女性的数据的相关性分析表是对20位25~34周岁的健康女性的测量数据,试利用这些数据对身体脂肪与三头肌皮褶厚度的关系进行相关性分析。相关性的方向和强弱测量数据运行结果案例——健康女性的多组数据的相关性分析表是对20位25~34周岁的健康女性的测量数据,试利用这些数据对身体脂肪与大腿围长、三头肌皮褶厚度的关系进行相关性分析。2.散点图比折线图更直观的是散点图,散点图去除了时间维度的影响,只关注数据间的关系。图的横轴是一个变量,纵轴是另一变量,散点图可以直观地看到相关性的方向和强弱。通过观察散点图上数据点的分布情况,可以推断出变量间的相关性。运行结果案例——健康女性的数据的相关性判断表是对20位25~34周岁的健康女性的测量数据,试利用这些数据对大腿围长、三头肌皮褶厚度的关系进行相关性分析判断。二、相关系数分析协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。协方差的计算公式:

运行结果协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。协方差矩阵的定义:协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。1.正态分布的相关分析皮尔森相关系数(Pearsoncorrelationcoefficient)是反应两变量之间线性相关程度的统计量,用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间,以及自变量和因变量之间的相关性。皮尔森相关系数在-1和+1之间变化,0表示没有相关性.-1或+1的相关性暗示着一种精确的线性关系。案例——男子的体能数据的相关性分析Linnerud曾经对男子的体能数据进行统计分析,他对某健身俱乐部的20名中年男子进行体能指标测量。被测数据分为两组,第一组是身体特征指标X,包括体重、腰围、脉搏;第二组是训练结果指标Y,包括单杠、弯曲、跳高。表就是测量数据。2.非正态分布的相关分析斯皮尔曼等级相关系数(Spearman’scorrelationcoefficientforrankeddata),它主要用于评价顺序变量间的线性相关关系,常用于计算类型变量的相关性。案例——葡萄球菌存活时间相关性分析实验室现有的菌种金黄色葡萄球菌,金黄色葡萄球菌暴露在空气中的存活时间约为6小时。分别滴相同含量稀释的金黄色葡萄球菌菌液,将样品都放在通风的室温环境中,经过0、2、4、6、8、24、48小时取出试验样品,通过缓冲液将细菌洗下来,在琼脂培养基中培养12小时,记每次分别记录细菌树龄,实验数据如表,试通过斯皮尔曼等级相关系数检验温度与葡萄球菌数量的非相关性。运行结果运行结果任务三假设检验任务引入小白发现销售数据涉及30个省100多个县区,数据太多,分析十分吃力,本着-积极探索传的精神,小白查找大样本观测数据分析方法,最终选择样本进行假设检验。假设检验(hypothesistesting),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。那么,如何进行假设检验?知识准备显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。对假设检验问题做出判断可依据两种规则(1)P值规则P值是检验统计量超过(大于或小于)具体样本观测值的概率。如果P值小于所给定的显著性水平,则认为原假设不太可能成立;如果P值大于所给定的标准,则认为没有充分的证据否定原假设。(2)临界值规则根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。一、正态性检验利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。正态性检验是数据分析的第一步,数据是否符合正态性决定了后续使用不同的分析和预测方法,当数据不符合正态性分布时,可以通过不同的转换方法把非正太态数据转换成正态分布后再使用相应的统计方法进行下一步操作。常用的正态性检验方法有正态概率纸法、夏皮罗维尔克检验法(Shapiro-Wilktest),科尔莫戈罗夫检验法,偏度-峰度检验法等等。1.偏度-峰度检验法正态性检验基于偏度和峰度,偏度系数和峰度系数同时也是分布特征分析统计量。案例——某公司在全国有40个销售点,试分析各销售点销售额是否符合正态分布。

运行结果2.夏皮罗维尔克检验法夏皮罗维尔克检验法(Shapiro-Wilk)用于检验参数提供的一组小样本数据是否符合正态分布,统计量越大则表示数据越符合正态分布,但是在非正态分布的小样本数据中也经常会出现较大的W值。需要查表来估计其概率。案例——已知某市小学生比赛分数,抽取绘画、钢琴、笛子、书法、古筝中的40组样本,试通过夏皮罗维尔克检验法测试绘画成绩是否符合正态分布。3.科尔莫戈罗夫检验科尔莫戈罗夫检验(Kolmogorov-Smirnovtest),检验样本数据是否服从某一分布,仅适用于连续分布的检验。kstest函数使用科尔莫戈罗夫检验法检验数据是否符合正态分布。

运行结果案例——使用科尔莫戈罗夫检验检验数据是否符合正态分布二、方差齐性检验方差反映了一组数据与其平均值的偏离程度,计算公式如下:方差齐性检验用以检验两组或多组数据与其均值偏离程度是否存在差异,也是很多检验和算法的先决条件。当不确定两总体方差是否相等时,应先利用levene函数进行检验,检验两总体是否具有方差齐性。运行结果案例——为了考查染整工艺对布的缩水率是否有影响,选用5种不同的染整工艺分别用A1、A2、A3、A4、A5表示,每种工艺处理4块布样,测得缩水率的百分数见表,试对其进行方差齐性分析。三、卡方检验卡方检验是一种非参数检验方法。相对来说,非参数检验对数据分布的要求比较宽松,并且也不要求太大数据量。卡方检验是一种对计数资料的假设检验方法,主要是比较理论频数和实际频数的吻合程度,常用于特征选择。比如,检验男人和女人在是否患有高血压上有无区别,如果有区别,则说明性别与是否患有高血压有关,在后续分析时就需要把性别这个分类变量放入模型训练。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。基本数据有R行C列,故通称RC列联表(contingencytable),简称RC表,它是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。案例——为了研究不同性别NBA比赛观看人次之间的关系,2020年在10城市调查了1000个样本,调查数据见表。试对其进行卡方检验。原假设是没有显著差异的。任务四T检验任务引入小白完成样本检验后,还需要对结果进行检验。T检验是用t分布理论来推断差异发生的概率,从而判定两总体均数的差异是否有统计学意义,主要用于样本含量较小(如n<60),总体标准差σ未知,呈正态分布的计量数据。那么,样本是否适用T检验?如何进行T检验?知识准备T检验主要用于检验定量数据,无论哪种t检验,都有以下的基本前提条件:样本数据符合正态分布,各个样本之间是独立的。T检验步骤如下:提出原假设和备择假设构造t统计量计算t统计量对于得到的p值进行分析,p大于0.05则接受原假设,反之接受备择假设一、单样本T检验单样本T检验用于检验数据是否来自一致均值的总体,T检验主要是以均值为核心的检验。案例——对不同年龄段消费水平进行单样本T检验从淘宝双十二消费信息中抽取不同年龄段消费水平样本,见表。其中,整体消费水平为3000。二、两独立样本T检验独立样本T检验用于分析定类数据与定量数据之间的关系,如男女生的身高是否有显著差异。案例——为了考查气温对树木落叶是否有影响,选用10天不同的温度分别测得两个区环卫工人清扫落叶的车数见表,试对其进行独立样本T检验。三、配对样本T检验配对样本T检验用于分析配对定量数据之间的差异对比关系,要求样本量相同且前后顺序要一一对应。配对样本T检验可视为单样本T检验的扩展,检验的对象由一群来自正态分布独立样本更改为二群配对样本观测值之差。配对样本t检验可以通过差值转化为单样本t检验,它常用于比较同一受试对象处理的前后差异,或者按照某一条件进行两两配对分别给与不同处理的受试对象之间是否存在差异。案例——在某市普查某种疾病,为此要抽验12个人的血,可用两种检测方法进行检测,两种方法检测指标见表,试对其进行配对样本T检验。任务五方差分析任务引入小白需要分析形成销售额差异额单因素。在工程实践中,影响一个事务的因素是很多的。比如在化工生产中,原料成分、原料剂量、催化剂、反应温度、压力、反应时间、设备型号以及操作人员等因素都会对产品的质量和数量产生影响。有的因素影响大些,有的因素影响小些。为了保证优质、高产、低能耗,必须找出对产品的质量和产量有显著影响的因素,并研究出最优工艺条件。为此需要做科学试验,以取得一系列试验数据。如何利用试验数据进行分析、推断某个因素的影响是否显著?在最优工艺条件中如何选用显著性因素?就是方差分析要完成的工作。方差分析已广泛应用于气象预报、农业、工业、医学等许多领域中,同时它的思想也渗透到了数理统计的许多方法中。知识准备方差分析(AnalysisofVariance,简称ANOVA),又称F检验,联合假设检验、差比率检验、方差齐性检验,它是一种在零假设之下,统计值服从F-分布的检验。用于两个及两个以上样本均数差别的显著性检验,方差分析主要是考虑各组之间的均数差别。试验样本的分组方式不同,采用的方差分析方法也不同,一般常用的有单因素方差分析与双因素方差分析。一、单因素方差分析单因素方差分析(One-wayAnova),是检验由单一因素影响的多组样本某因变量的均值是否有显著差异。当因变量Y是数值型,自变量X是分类值,通常的做法是按X的类别把实例成分几组,分析Y值在X的不同分组中是否存在差异。f_oneway函数用来对数据进行单因素的方差分析,返回的是统计量和P值。案例——试检验不同配比油漆对空气污染效果是否有显著影响某油漆公司为了比较五种不同配比的油漆空气污染的效果,选取了条件基本相同的20套房间,随机分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论