第二讲样本描述性统计与假设检验演示文稿_第1页
第二讲样本描述性统计与假设检验演示文稿_第2页
第二讲样本描述性统计与假设检验演示文稿_第3页
第二讲样本描述性统计与假设检验演示文稿_第4页
第二讲样本描述性统计与假设检验演示文稿_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲样本描述性统计与假设检验演示文稿当前1页,总共55页。(优选)第二讲样本描述性统计与假设检验当前2页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量算术平均数样本数据的总和除以样本个数是样本数据集中趋势中最常用的统计量公式在不分组的情况下f都为1当前3页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量中位数(Median)先将样本按升序或降序排列样本数为奇,中间的数,样本为偶,取中间两个的平均例如:下列两组样本的中位数为___?112495232012542236当前4页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量众数(Mode)样本数据出现频数最多的那个数不受极值影响,可能有多个例如,下面一组样本的众数为_____? 123219463218当前5页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量调整平均数(TrimmedMean)将样本数据排序后,按照一定的比率去掉两端最大值,最小值,对剩下的数据求平均Explore功能中的调整平均数默认两端各去掉2.5%后,对剩下的95%的数据求平均当前6页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量几何平均数(GeometricMean)加权几何平均数简单几何平均数

f=1当前7页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量调和平均数(Harmonic)是n个数的倒数平均数的倒数适用于平均价格、平均速度方面的计算和分析公式当前8页,总共55页。数据分析-何帆基本数学模型-集中趋势统计量四分位数(Quartiles)25分位数:最低数和中位数之间的中位数75分位数:最高数和中位数之间的中位数其他分位数当前9页,总共55页。数据分析-何帆基本数学模型-离散趋势统计量极差(Range)

最大值-最小值 稳定性差平均差(AverageDifference)

各样本数据与均值间差异的绝对值的均值方差(Variance)标准差(StandardDeviation,StdDev)

方差的算术方根当前10页,总共55页。数据分析-何帆基本数学模型-离散趋势统计量标准误(StandardError,S.D.Mean)

是样本平均数的标准差 由于样本抽取的随机性,每次抽取的样本不一,样本均值不一。考虑所有被抽取的样本均值,他们的标准差就是标准误。当前11页,总共55页。数据分析-何帆基本数学模型偏度(Skewness)

反映数据分布不对称的一个数字特征 当数据为正态分布时,偏度为零Ⅰ(α=0)II(α>0)Ⅲ(α<0)当前12页,总共55页。数据分析-何帆基本数学模型峰度(Kurtosis)

是以正态分布为标准描述该分布的密度的形状是陡峭还是平坦的一个数字特征。当数据为正态分布时峰度为零Ⅱ(β>0)Ⅰ(β=0)Ⅲ(β<0)当前13页,总共55页。数据分析-何帆频数分析过程功能菜单:Analyze->DescriptiveStatistics->Frequencies对话框:当前14页,总共55页。数据分析-何帆Statistics对话框分位数集中趋势统计量偏度和峰度离散趋势统计量当前15页,总共55页。数据分析-何帆Chart按钮选择图形定义是按照频数还是按百分比作图当前16页,总共55页。数据分析-何帆应用实例例1对统计出来的红球和值,进行绘制频数表、直方图;计算最大最小值,均数、标准差、中位数M、p2.5和p97.5,并考察偏度和峰度。当前17页,总共55页。数据分析-何帆数据描述过程是否保存变量的标准化数据当前18页,总共55页。数据分析-何帆Option按钮选择显示的次序选择统计量当前19页,总共55页。数据分析-何帆数据探察过程功能菜单ExploreExplore过程主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案当前20页,总共55页。数据分析-何帆数据探察过程对话框因变量分组变量样本标签当前21页,总共55页。数据分析-何帆Statistics按钮描述性统计反映集中趋势的稳健估计量样本异常嫌疑值,最大最小5个四分数当前22页,总共55页。数据分析-何帆Statistics按钮Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的最大似然化的稳健估计量,输出四个不同权重的最大似然确定数。Outliers复选框:输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数当前23页,总共55页。数据分析-何帆Plots按钮设置多个变量时箱型图的形式当前24页,总共55页。数据分析-何帆Option按钮剔除缺失值成对剔除缺失值单独分组,用频数表标出当前25页,总共55页。数据分析-何帆实例应用例2以例1数据为例,做Explore过程统计,画出茎叶图,和箱形图。当前26页,总共55页。假设检验

--平均数比较与T检验当前27页,总共55页。数据分析-何帆主要内容假设检验一般理论分组平均数比较单一样本T检验配对样本T检验当前28页,总共55页。数据分析-何帆问题的提出例3某工厂用包装机包装奶粉,额定标准为每袋净重0.5kg.设包装机称得奶粉重量X服从正态分布,据经验知其标准差σ=0.015(kg).为检验包装机的工作是否正常,随机抽取包装的奶粉9袋,称得重量为

0.4990.5150.5080.5120.4980.5150.5160.5130.524

问该包装机工作是否正常?当前29页,总共55页。数据分析-何帆假设检验一般理论基本任务:根据样本信息对未知总体或其数字特征的假设作出合理的判断基本原理:小概率事件在一次试验中几乎不可能发生

H0

—原假设H1

—备择假设(对立假设)

对于例1可提出如下统计假设:

H0:μ=μ0

=0.5H1:μ≠

μ0=0.5当前30页,总共55页。数据分析-何帆假设检验一般理论对H0

进行检验:(1)寻找检验统计量(2)对给定小概率,寻找拒绝域0

P{(x1,x2,…,xn)0|H0

为真时}=接受域1

:1∪0=(样本空间)当样本观测值:

(x1,x2,…,xn)0

时,拒绝H0

(x1,x2,…,xn)1

时,接受H1

当前31页,总共55页。数据分析-何帆假设检验一般理论什么是显著性水平是一个概率值 原假设为真时,拒绝原假设的概率 被称为抽样分布的拒绝域 表示为α(alpha)

常用的α值有0.01,0.05,0.10由研究者事先确定当前32页,总共55页。数据分析-何帆假设检验一般理论什么是P值?是一个概率值如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线下方小于等于检验统计量部分的面积右侧检验时,P-值为曲线下方大于等于检验统计量部分的面积被称为观察到的(或实测的)显著性水平当前33页,总共55页。数据分析-何帆双侧检验的P值当前34页,总共55页。数据分析-何帆左侧检验的P值当前35页,总共55页。数据分析-何帆右侧检验的P值当前36页,总共55页。数据分析-何帆假设检验一般理论如何利用P值进行决策判断?单侧检验若p-值>α,不能拒绝H0若p-值≤α,拒绝H0

双侧检验若p-值>

α/2,不能拒绝H0若p-值≤α/2,拒绝H0当前37页,总共55页。数据分析-何帆假设检验一般理论检验分类样本平均数与总体平均数的比较检验(单个样本)两独立样本平均数的比较两个配对样本平均数的比较检验多个平均数的样本检验成数假设检验,方差或标准差假设检验分布检验:正态分布检验、均匀分布检验非参数检验:χ2检验法、F—检验法等。

当前38页,总共55页。数据分析-何帆分组平均数比较问题描述 某医师测得40人的血红蛋白值(g%),试比较男性和女性的血红蛋白值是否有差异?

(数据见血红蛋白值.sav)

分组平均数比较是为了比较同一个总体抽样中不同类别的均数的差异性当前39页,总共55页。数据分析-何帆分组平均数比较菜单Analyze->CompareMeans->Means点击弹出如下对话框主要功能分组计算均值对均值进行差异比较当前40页,总共55页。数据分析-何帆分组平均数比较对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值检验线性相关性,实际上就是上面的单因素方差分析当前41页,总共55页。数据分析-何帆分组平均数比较-结果分析F:统计量的值Sig.观测显著性水平即P值当前42页,总共55页。数据分析-何帆单一样本T检验用于检验样本平均与总体平均数的差异统计量:T统计量 其中S是修正的样本标准差主要检验某一个均值是否和某一固定值相符合。当前43页,总共55页。数据分析-何帆单一样本T检验例4

前面给出的血红蛋白值的均值是否等于11,12,13当前44页,总共55页。数据分析-何帆单一样本T检验当前45页,总共55页。数据分析-何帆单一样本T检验结果分析t统计量值自由度P值置信区间的上下限当前46页,总共55页。数据分析-何帆练习1有一种新型农药防治柑桔红蜘蛛,进行了9个小组的实验,其防治效果为:

95%,92%,88%,92%,93%,95%,89%,98%,92%与原用农药的防治效果90%比较,分析其效果是否高于原用农药。当前47页,总共55页。数据分析-何帆练习2在有小麦丛矮病的麦田里,调查了13株病株和11株健株的植株高度,分析健株高度是否高于病株?其调查数据如下:健株26.032.437.337.343.247.351.855.857.864.065.3

病株16.719.819.823.323.425.036.037.341.441.745.748.257.8该数据保存在“丛矮病的麦田.SAV”文件中当前48页,总共55页。数据分析-何帆配对样本T检验配对样本 是相对独立样本而言的,指一个样本在不同时间做了两次试验,或者有两个类似的记录,从而比较其差异。例如:下列哪个属于配对样本?一班和二班的数学分析成绩一班的期中和期末成绩当前49页,总共55页。数据分析-何帆配对样本T检验问题陈述 例1某制鞋厂为比较用来做鞋后跟的两种材料的质量,随机选取了15名男子,让他们每人穿一双新鞋,每双鞋中有一只是用材料A作后跟的,另外一只是用材料B作后跟的,其厚度均为10cm,一个月以后再次测量其厚度,数据如下:当前50页,总共55页。数据分析-何帆配对样本T检验序号123456789101112131415材料A6.67.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论