数据分析与数据挖掘课件 【ch04】方差分析与相关性分析_第1页
数据分析与数据挖掘课件 【ch04】方差分析与相关性分析_第2页
数据分析与数据挖掘课件 【ch04】方差分析与相关性分析_第3页
数据分析与数据挖掘课件 【ch04】方差分析与相关性分析_第4页
数据分析与数据挖掘课件 【ch04】方差分析与相关性分析_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章方差分析与相关性分析数据分析与数据挖掘01方差分析20%30%40%50%

观察变量是实验结果变量,如销量就是观察变量,各观察值构成观察样本,它是观察变量的抽样。控制变量各取值对应着与其相应的控制方案。

方差分析中的控制变量是离散型的,即各个控制水平通常存在显著性差异。方差分析中的变量单因素方差分析单因素方差分析是分析两组或多组样本所在总体平均值是否有显著性差异,由此来推断控制变量是否对观测变量存在显著影响。

Brown-Forsythe检验(Brown-Forsythetest),用于多组样本的均值相等(Equalityofmeans)检验,也可作为一种方差分析方法,用于检验各组样本所在总体均值是否存在显著性差异,由此来推断控制变量是否存在显著作用。单因素方差Brown-Forsythe检验Welch'st检验(Welch'st-test),又称Welch’sunequalvariancest-test或Unequalvariancest-test,用于检验两总体的均值是否有显著性差异,即检验两总体均值是否在统计上相等。单因素方差Welch'st检验双因素方差分析(Two-wayANOVA),是指有两个控制变量、一个因变量的方差分析。双因素方差检验的前提条件是:①在各控制变量的组合作用下进行独立抽样;②观察变量在各控制变量的组合作用下满足正态分布假设;③观察变量在各控制变量的组合作用下满足方差齐性。无交互作用的双因素方差分析有交互作用的双因素方差分析有交互作用的双因素方差分析需要考虑变量之间的交互作用,需要在两个因素的各控制水平组合下进行多次实验。02PostHoc检验

LSD-t检验是在方差分析之后,即当拒绝原假设,认为控制变量存在显著作用时,才使用的一种事后检验方法。LSD检验Studentized极差分布(Studentizedrangedistribution)○,又称q分布,是一种抽样分布。q分布用于检验多组样本数据所在总体均值是否有显著性差异。Studentized极差分布Tukey’sRange检验Tukey'sRange检验(Tukey'srangetest),又称Tukey'sHSD检验(Tukey'shonestsignificancetest)或Tukey检验,是一种多重比较统计检验(Multiplecomparisonofstatisticaltest)。Tukey-Kramer检验(Tukey-Kramertest)降低了Tukey'sRange检验中要求样本均衡的条件,使用调和平均数(Harmonicmean),修改式(4.28)为式(4.29)。Tukey-Kramer检验

SNK检验(Student-Newman-Keulstest,SNKtest),又称Newman-Keuls检验,是一种逐步的多重比较方法,用于检验多组样本中样本所在总体均值的显著性差异。SNK检验其他几种常用检验方法03连续属性数据的相关性分析

协方差(Covariance)是一个常用的描述两个随机变量的数据协同偏差的统计量。协方差包括两种:样本协方差和总体协方差。协方差的线性相关性度量Pearson相关系数(Pearsoncorrelationcoefficient)是常用的相关系数,又称皮尔逊积矩相关系数(Pearsonproduct-momentcorrelationcoefficient),它是衡量两个数值变量线性相关的一个统计量,如式(4.43)所示。相关系数的线性相关性度量

20%30%40%50%Spearman秩相关系数(Spearman'srankcorrelationcoefficient),属于一种非参数度量方法,用于度量两个属性变量之间的秩相关性,以此来度量两个变量之间是否具有单调关系。

Kendall系数用于评估评价者是否具有一致的打分准则(打分偏好和打分尺度);Pearson相关系数用于度量两个连续变量之间的线性相关性;Spearman秩相关系数用于度量两个属性变量之间是否具有单调关系,而这种单调关系可以是线性单调关系,也可以是非线性单调关系。Spearman秩相关系数04离散属性相关性分析

交叉列联表(Crosscontingencytabulation)又称交叉表(Crosstabulation)或列联表,是两个属性的联合分布频数表。如果每个属性变量都只能取两个可能值,即有两个分类值,这时的交叉列联表是2×2的表格,又称四格表。当两个属性都是数值属性时,无论是连续的数值属性或离散的数值属性,都可以使用Pearson相关系数进行线性相关性度量。交叉列联表分析用卡方检验进行离散相关性分析x²检验(Chi-squaretest,也称为卡方检验)又为Pearsonx²检验,2.6.1节中已指出,它是一种广泛应用于衡量两个离散属性之间相关性检验。列联系数(Contingencycoefficient)是一种统计量,用于度量离散变量之间的相关程度。列联系数在x²统计量的基础上计算的,如式(4.53)所示。列联表上常用的指标Fisher'sexact检验(Fisher'sexacttest),也称Fisher精确检验,是列联表上的一种显著性检验方法。实践中,Fisher'sexact检验经常用于数值较小或不满足卡方检验的列联表检验,但完全可用于大数值的检验,只是需要计算阶乘,计算量稍大。Fisher'sexact检验05本章小结本章小结差分析常用于分析一个控制变量或两个控制变量是否对观察变量有显著影响,这常被视为分析一个离散变量和一个数值变量的相关性。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论