《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验

上传人：q*** IP属地：山东上传时间：2024-03-30 格式：PPTX 页数：507 大小：15.20MB 积分：70 举报 版权申诉

《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验_第2页

《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验_第3页

《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验_第4页

《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验_第5页

已阅读5页，还剩502页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1章

数据与统计分析1第1章数据与统计分析——目录1.1数据1.2数据来源1.3统计分析1.4统计软件21.1数据——定义数据是对现象进行计量的结果。3地区年末常住人口/万人城镇人口/万人乡村人口/万人北京市21711878293天津海市24182121297江苏省802955212508浙江省565738471810表1-1

中国东部地区2018年人口分布情况地区年末常住人口/万人城镇人口/万人乡村人口/万人北京市21711878293天津海市24182121297江苏省802955212508浙江省5657384718101.1数据——个体、变量和观测值4在研究中，对每个个体的每一变量收集测量值，从而得到数据（data）。个体（element）是指收集数据的对象。变量（variable）是个体的特征或属性。观测值（observation）是数据集中每个个体的测量值集合。观测值个体变量表1-1

中国东部地区2018年人口分布情况51.1数据——定性数据和定量数据取值是否能排序否是是否有比例属性否是定性数据定量数据名义数据顺序数据定距数据定比数据是否能用数值表示是否变量是否连续连续变量离散变量是否61.1数据——定性数据和定量数据√√√√定比数据√√√定距数据√√√

分类（＝，≠）排序（<，>)

间距（+，-）比值（×，÷）顺序数据名义数据四种计量尺度的比较计量尺度数学特性“√”表示该尺度所具有的特性注:

定性数据可以用数值变量表示，但不可看作是数值型数据。处理定量数据也可转化为定性数据（如年龄→老年、中年、青年、儿童）71.1数据——截面数据和时间序列数据按照被描述的现象与时间的关系截面数据（cross-sectionaldata）是在相同或近似相同的时间点上收集的不同个体的数据，用于描述现象在某一时刻的变化情况。时间序列数据（timeseriesdata）是在不同时间点上收集的同一个体的数据，用于描述现象随时间的变化情况。地区年末常住人口/万人城镇人口/万人乡村人口/万人北京市21711878293天津海市24182121297江苏省802955212508浙江省565738471810表1-1

中国东部地区2018年人口分布情况81.1数据——截面数据和时间序列数据截面数据91.1数据——截面数据和时间序列数据时间序列数据年度中央财政债务余额/亿元国内债务/亿元国外债务/亿元2018149607.42148208.621398.802017134770.15133447.431322.722016120066.75118811.241255.512015106599.59105467.481132.11201495655.4594676.31979.14表1-2

中央财政债务余额情况101.2数据——直接来源和间接来源调查或实验间接来源：别人通过调查或实验的方式收集的，使用者只是找到它们并加以使用。系统内部数据；或从公开出版、公开报道的信息中获得优点：收集方便、数据采集快、采集成本低等等缺点：针对性不够

调查（survey）通常针对社会现象。普查：调查针对总体中的所有个体；抽样调查：总体、样本、样本量（举例）。实验（experiment）：在控制条件下进行的（举例）。直接来源：自己直接调查或实验获得的一手数据。使用二手数据时应注意以下几点：数据的含义数据搜集的时间计算口径计算方法数据的可信度111.2数据——直接来源和间接来源121.2数据——直接来源和间接来源（调查vs实验）抽样调查研究问题：一个班的平均身高，按一定的规律抽出20个同学的身高研究。总体：这个班的所有同学的身高。个体：A同学的身高就是1个个体。样本：20个同学的身高。样本容量：20。实验研究问题：糖宁胶囊联合利拉鲁肽对2型糖尿病治疗是否有效。实验方法：对照组皮下注射利拉鲁肽注射液，治疗组在对照组基础上口服降糖宁胶囊，然后收集每组每个人治疗前后的血糖数据。最后数据的统计分析将会有助于了解该药的治疗效果。131.3数据——什么是统计学统计学描述统计（descriptivestatistics）：是将数据以表格、图形或数值形式汇总的统计方法。推断统计（inferencestatistics）：利用样本数据信息对总体特征做出推断，包括参数估计和假设检验两大类。统计学（statistics）：一门分析数据的科学，涉及数据的收集、整理、分析及对数字信息的解释。141.3数据——什么是统计学（推断统计）样本平均值数据对总体平均数进行估计总体：用新灯丝生产的所有灯泡的平均寿命未知200个用新灯丝制成的灯泡200个用新灯丝制成的灯泡的平均寿命为760小时抽样获得样本数据推断统计的过程151.4数据——统计软件SPSS：目前国内应用最为广泛的统计软件Excel：不是专业的统计软件，但包含一些基本的统计方法，容易上手R：专业统计人员最常用的统计软件第2章

数据的图表描述16第2章数据的图表描述——目录2.1单个定性变量的数据描述2.2单个定量变量的数据描述2.3两个变量数据的表格描述2.4两个变量数据的图形描述2.5数据可视化：创建有效图形172.1单定性变量的数据描述定性数据是非数值型的，因此只能对其进行分组（类）处理频数分布（频数、相对频数、百分数频数）条形图饼形图18频数（frequency）：落在某一特定组别中的观测值个数相对频数（relativefrequency）：频数除以总观测值个数（n）百分数频数（percentagefrequency）：相对频数乘以100%192.1单定性变量的数据描述——频数百分数频数=相对频数×100%相对频数=频数/n2.1单定性变量的数据描述——频数分布表（实例）202.1单定性变量的数据描述——频数分布表（实例）212.1单定性变量的数据描述——频数分布表（实例）222.1单定性变量的数据描述——条形图条形图（barchart）：对已汇总定性数据的频数分布进行直观描述的一种图形表示方法。用宽度相同的条形的高度来表示各类别数据的频数（条形高度与类别频数成正比）。绘制条形图时，各类别可以放在纵轴，也可以放在横轴。类别放在横轴的条形图也可称为柱形图（columnchart）。232.1单定性变量的数据描述——条形图24图2-1

购买手机品牌的条形图2.1单定性变量的数据描述——饼形图

252.1单定性变量的数据描述——饼形图26图2-2

购买手机品牌的饼形图

272.2单个定量变量的数据描述——频数2.2单定量变量的数据描述——频数分布表（实例）282.2单定量变量的数据描述——频数分布表（实例）29

2.2单定量变量的数据描述——频数分布表（实例）302.2单定量变量的数据描述——频数分布表（实例）312.2单定量变量的数据描述——直方图直方图（histogram）：用矩形的宽度和高度（即面积）来表示频数分布的定量数据的图形描述方法。在直角坐标中，用横轴表示数据分组，纵轴表示频数分布，各组与相应的频数就形成了一个矩形，即直方图。32图2-5

考试成绩的直方图2.2单定量变量的数据描述——条形图vs直方图条形图用条形的高度（纵置时）表示各类别频数的多少，其宽度没有意义，是固定的。直方图用矩形的宽度和高度（即面积）来表示频数分布，其高度和宽度均有意义。条形图的条形是分开排列的，而直方图的矩形是连续排列的。332.2单定量变量的数据描述——累积频数34累积频数（cumulativefrequency）：将各类有序组别的频数逐渐累加起来得到的频数。可用于描述定量数据或顺序数据表示小于或等于每一组上组限的数据个数。2.2单定量变量的数据描述——累积频数352.2单定量变量的数据描述——茎叶图茎叶图（stem-and-leafplot）：用于显示未分组的原始数据的分布，既能给出数据的分布状况，又能给出每一个原始数值，保留了原始数据的信息。茎叶图由“茎”和“叶”两部分构成，以“17”为例：该组数据的高位数值作树茎“1”，低位数字作树叶“7”。362.2单定量变量的数据描述——茎叶图37图2-6考试成绩的茎叶图2.2单定量变量的数据描述——直方图vs茎叶图直方图可以直观看清数据分布的总体趋势，但是得不到原始的数据内容。茎叶图不仅可以看出数据的分布，还能保留原始数据的信息。制作茎叶图不需要对数据进行分组，当数据量较少时，用茎叶图更容易观察数据的分布。茎叶图的数据可以随时添加数据，方便记录与表示。茎叶图和直方图的应用取决于总体中的个体数。当总体中的个体取值较少时，用茎叶图估计总体的分布；当总体中的个体取值较多时，将样本数据恰当分组，选择直方图。382.3两个变量数据的表格描述——交叉分组表交叉分组表（crosstable），也称列联表（contingencytable）：用于分类观测值的表格描述方法，是观测数据按多个变量分类所列出的频数表。交叉分组表提供了两个变量之间的相互关系的基本画面，可以帮助我们发现它们之间的相互作用。交叉分组表中的两个变量，可以是定性数据或者定量数据。392.3两个变量数据的表格描述——交叉分组表402.3两个变量数据的表格描述——辛普森悖论412.3两个变量数据的表格描述——辛普森悖论422.4两个变量数据的图形描述——散点图

432.4两个变量数据的图形描述——散点图44图2-10北京市旅游人数与餐饮业收入的散点图2.4两个变量数据的图形描述——线图线图（linechart）：变量以时间为序的图形描述方法。绘图时，以时间为横轴，以变量值为纵轴。时间序列数据通常以线图的形式来表示。45图2-1204-18年北京市旅游人数的时间序列图2.4两个变量数据的图形描述——复合和结构条形图复合条形图和结构条形图均是在条形图的基础上进行的拓展，可以用于显示和对比多个数据变量。复合条形图（side-by-sidebarchart）：同时显示已汇总的多个条形图的一种图形描述方法。结构条形图（stackedbar）:其每一个长条被分解为不同段，每段显示该组数据的相对频数。462.4两个变量数据的图形描述——复合和结构条形图47图2-13复合条形图图2-14结构条形图2.4两个变量数据的图形描述——环形图环形图（doughnutchart）：由两个及两个以上大小不一的饼图叠在一起，挖去中间部分所构成的图形。类似于结构条形图，环形图同样可以用来描述数据总体结构并对不同数据系列进行直观对比。环形图中，每个样本用一个环来表示，样本中的每组数据的相对频数（百分数频数）用环中的一段表示。482.4两个变量数据的图形描述——环形图49图2-15环形图2.5数据可视化——创建有效的图形创建有效的图形显示是科学也是艺术。作为单独的图形，简单的永远是最好的。标题要清晰、简明。图形要保持简洁，能用二维表示时不要用三维。轴有清楚的标记，并给出测量的单位。使用颜色区分类别时，要确保颜色有明显差异。用图例来标明多种颜色或线型时，要将图例靠近所表示的数据。所设计的图形应有助于洞察问题的实质，避免歪曲事实。502.5数据可视化——选择图表的类型51用于显示数据分布的图形描述方法：·条形图展示定性数据的频数分布和相对频数分布·饼形图展示定性数据的相对频数分布和百分数频数分布·直方图展示定量数据在一个区间组集合上的频数分布·茎叶图展示定量数据的等级顺序和分布形态用于进行比较的图形描述方法：·复合条形图展示两个变量频数的比较·结构条形图比较和展示两个变量的相对频数和百分数频数·环形图展示两个数据变量的相对频数和百分数频数用于显示两变量数据相关关系的图形描述方法：·散点图展示两个数据变量的相关关系·线图展示数据变量随时间的变化关系2.5数据可视化——工具Echarts：百度开发的一款不需要编程的可视化图表生成工具。其特点：可以在网页端个性化定制可视化图表；完全开源免费；可以和百度地图结合使用；能够应对较大的数据量和三维绘图任务。HighCharts：国外开放的一款成熟的可视化图表生成工具。其特点：具有详细的使用教程和案例库；产品稳定性较强；对非商业使用免费。Tableau：一款用于可视分析数据的商业智能工具。其特点：允许数据混合和实时协作；可以在不编程的情况下进行数据分析，也可以集成R语言或Python对数据进行分析；学生用户可以认证信息后免费下载和试用一年，其他用户也可以下载TableauPublic免费使用，但是需要将自己的数据公开到Tableau的服务器上。522.5数据可视化——工具PowerBI：是微软推出的一款商业智能工具。其特点：可连接数百个数据源，进行数据的收集、整理和分析，生成个性化的数据仪表板；可以在web和移动设备上与他人共享；当建立好数据模型后，可以自动刷新数据，生成新的图表，实现数据处理的全自动化；操作简单，不需要编程；个人用户可以免费使用PowerBIDesktop。FineBI：主要面向企业客户，也是一款不需要编程的商业智能工具。其特点：相比于其他商业智能工具，FineBI更加契合企业分工协作进行数据分析的工作流程；操作界面简单，对普通用户的使用和上手门槛相对更低；对于个人用户来说，FineBI可以免费下载使用。532.5数据可视化——数据仪表板数据仪表板（datadashboard）：一个直观显示的集合，它用易于理解的方法汇总和展示公司或机构的信息，用以监控公司业绩。542.5数据可视化——数据仪表板55为了说明在决策中数据仪表板的使用，我们将用某超市2019年4月1日到30日一个月的销售数据，做一个销售分析的数据仪表板。首先，我们要明确数据仪表板要展示什么内容？超市的数据仪表板要帮助管理者明确如何选择更优的库存管理方法，加快库存周转率，促进产品销售，从而使企业获得更多的利润。针对这个问题，确定以下关键指标：1.总销售额、总利润。2.各品类利润的比较。3.各品牌利润、销售量的比较。4.各品牌有无促销的销售量比较。5.各品牌当前库存的库存量。2.5数据可视化——数据仪表板56频数：展示销售额利润情况条形图：各品牌的利润比较情况饼形图：各类产品的利润占比情况条形图：各品牌当前的库存量条形图：各品牌的销售量比较情况复合条形图：有无促销的销售量比较情况

周销售额:75028.3

周利润：32914.3

2.5数据可视化——数据仪表板57前面讨论的数据可视化准则适用于数据仪表板的单个图，也适用于整个仪表板。除了这些准则，数据仪表板应最大限度地减少屏幕滚动的次数，以及图与图之间应使用边框以提高可读性。构建标题陷阱，误导读者58第2章数据的图表描述的拓展——图表的欺骗性改变纵坐标刻度，拉伸纵坐标，压缩横坐标造成图形更陡峭的效果59过去一年的各季度销售额过去一年的各季度销售额第2章数据的图表描述的拓展——图表的欺骗性改变条形图宽度和高度的比例，夸大增长量60第2章数据的图表描述的拓展——图表的欺骗性加拿大家庭的周均食品支出第4章

抽样与抽样分布6162在一些情况下，对总体的观察成本太高：例：调查国民民意时对国民逐一调查耗时耗力对于某些情况，对总体进行全部检验也是不现实的：例：生产线上产品质检、湖水中物质分析样本推断总体具有一定的可靠性。为什么要抽样？第4章抽样与抽样分布第4章抽样与抽样分布——目录4.1几个基本概念4.2抽样4.3正态分布以及与其相关的几种分布4.4样本统计量的抽样分布4.5其他抽样方法634.1几个基本概念——抽样总体和抽样框抽样总体（sampledpopulation）：被抽取样本的总体。抽样框（sampledframe）：用于抽取样本的总体中所有个体的名单。抽样框是对抽样总体列出名册或排序编号，是抽样总体的具体表现。

目标总体与抽样总体的关系64例：检测某个地区的人均收入水平，抽样总体是该地区群众，抽样框是所有群众的列表。例：研究某企业员工薪酬水平；研究全国人民收入水平。4.1几个基本概念——总体参数与样本统计量基本概念：总体参数：描述总体特征的指标，如均值、方差等。样本统计量：由样本数据构造的不含未知参数的函数，用以描述样本特征。推断统计是通过样本统计量推断总体参数。65总体样本抽样样本统计量总体参数推断描述统计4.2抽样

66利用计算机生成随机数（均匀分布）,从容量为N的总体中生成容量为n的随机样本。例如：Excel的RANDBETWEEN(1,900)能够用来随机产生1到900之间的整数。例如：Excel的RAND()能够用来随机产生0到1之间的数。674.2抽样——随机样本的生成

4.2抽样——有限总体和无限总体

684.3正态分布以及与其相关的几种分布

6970正态分布

正态随机变量在特定区间上取值的概率由该区间正态分布曲线下的面积给出4.3分布——正态分布714.3分布——正态分布正态分布的特征

4.3分布——标准正态分布73

4.4样本统计量的抽样分布在实际操作中，为了通过观测样本获得总体的特征，我们测量样本均值以及方差等样本统计量。从总体中抽取样本的可能性是无穷的，不同样本的统计量有不同的取值，因此样本统计量本身就是随机变量，对样本统计量的判断和比较基于它们的概率分布。样本统计量所有可能值的概率分布称为样本统计量的抽样分布，是一种理论分布。4.4样本统计量的抽样分布样本误差抽样误差(samplingerror)：样本统计量与其对应的总体参数之间的差异。扩大样本容量可减少抽样误差，使得样本更具有代表性。非抽样误差(nonsamplingerror)：除了抽样误差以外所有误差的总和。可以通过缜密的设计和规划进行人为控制。4.4样本统计量的抽样分布——样本均值的分布

824.4样本统计量的抽样分布——样本均值的分布83如果抽样总体服从正态分布，从总体中抽取的随机样本的均值分布服从正态分布。

=50

=10X总体分布n=4抽样分布Xn=164.4样本统计量的抽样分布——样本均值的分布84总体抽样分布

4.4样本统计量的抽样分布——样本均值的分布85总体正态分布

非正态分布

【例】设一个总体，含有4个元素（个体），即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下均值和方差总体分布14230.1.2.3864.4抽样分布——样本均值的分布（例子）现从总体中抽取n＝2的简单随机样本，在重复抽样条件下，共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本（共16个）874.4抽样分布——样本均值的分布（例子）计算出各样本的均值，如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值（x）样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5x884.4抽样分布——样本均值的分布（例子）式中：M为样本数目比较及结论：1.样本均值的均值（数学期望）等于总体均值

2.样本均值的方差等于总体方差的1/n894.4抽样分布——样本均值的分布（例子）4.4样本统计量的抽样分布——其他统计量的分布

904.4样本统计量的抽样分布——其他统计量的分布

914.5其他抽样方法概率抽样（随机抽样）简单随机抽样分层随机抽样整群抽样多阶段抽样系统抽样4.5其他抽样方法——分层随机抽样分层随机抽样（stratifiedsampling）：总体被分为若干个组，每个组称为层，从每层中随机抽取样本。分层随机抽样方法要求按照一定的规则或者标准对总体进行分组。每个组内样本需要具有相同或相近的特征，同时要求组间差异明显。优点：保证样本的结构与总体的结构比较相近，从而提高估计的精度；既可以对总体参数进行估计，也可以对各层的目标量进行估计。93样本总体随机取样

分层……4.5其他抽样方法——分层随机抽样94某地区卫生局需要调查当地群众的身体状况，应如何进行抽样?由于不同年龄人群身体状况相差较大，因此可以将该地区的群众按照年龄分为老年人、中年人、青年人、以及其他，从四组中分别进行随机抽样组成样本。954.5其他抽样方法——整群抽样整群抽样（clustersampling）：使用整群抽样的方法抽取样本时，需要将总体分为若干个群，然后从这些群中随机选取部分群，再对群内的全部个体样本进行测量和计算。整群抽样要求群内个体差异大、分布面广，群间差异小。优点：可以减小工作量（抽样时只需群的抽样框；调查的地点相对集中）缺点：估计的精度较差。样本总体整群抽样……4.5其他抽样方法——整群抽样96市教育局抽查市内中小学生身体素质，应如何进行抽样？由于学校之间差异并不是很大，且从全市中小学生中直接抽取样本的工程浩大、复杂、难以组织。因此选取整群抽样的方法，抽取几所学校对学校的学生进行统一身体素质测试。974.5其他抽样方法——系统抽样

4.5其他抽样方法——系统抽样98某高校一专业为了解毕业生论文质量，从该专业300名学生中抽取20人进行论文审核，如何使用系统抽样的方法进行样本抽取？将300名学生按照学号排序，在前十五位中随机抽取某个学号作为第一个样本，再在该学号的基础上增加15、30、…、285等，用此方法来抽取剩余19个样本。994.5其他抽样方法——多阶段抽样多阶段抽样（Multistagesampling）：是指将抽样过程分多个阶段，逐阶段抽取样本的抽样方法。操作步骤：1.将一个很大的总体划分为若干个子总体，称为一阶单位2.把一阶单位划分为若干个更小的单位，称为二阶单位3.以此类推，划分出更小的单位，依次称为三阶单位、四阶单位等。然

后分别按随机原则逐阶段抽样。当总体单元的数目大、分布广时，多阶段抽样可以简化抽样框的编制，便于最终样本单元的抽取。4.5其他抽样方法——多阶段抽样100

如何对我国农户进行调查。

可以定义全国的县为初级单元，乡镇为二级单元，自然村为三级单元，户为四级单元。在全国抽取若干样本县，在样本县中再抽取若干样本乡镇，在样本乡镇中抽取若干自然村，在自然村中抽取样本户。以上即完成了一个四阶段抽样。第5章参数估计101第5章参数估计——目录5.1参数估计的一般原理5.2单总体均值与比例的区间估计5.3两总体均值之差与比例之差的区间估计5.4总体方差和方差比的区间估计5.5样本量的确定1025.1参数估计的一般原理——点估计

点估计（pointestimate）是直接将样本统计量的某个取值作为总体参数的估计值。例如用样本均值估计总体均值，用样本中的比例估计总体的比例，用样本方差估计总体方差。不足：由于样本是总体的一个子集，我们不可能期望一个具体样本得到的点估计值等于总体参数，同时估计的可靠性无法衡量1035.1参数估计的一般原理——区间估计

104

X99%的样本

90%的样本

95%的样本

5.1参数估计的一般原理——区间估计

置信区间（confidenceinterval）是由样本统计量所构造的总体参数的区间范围。置信水平（confidencelevel）是将构造置信区间的步骤多次重复，总体参数真值被包括在置信区间中的比例，也称为置信度或置信系数（confidencecoefficient）。105以总体均值为例，置信区间如下图所示：

5.1参数估计的一般原理——评价估计量

106P(X)X

无偏有偏5.1参数估计的一般原理——评价估计量

1075.2单总体均值与比例的区间估计

108单总体均值与比例的区间估计均值

比例5.2单总体均值的区间估计

109

5.2单总体均值的区间估计

110

0.900.051.6450.950.0251.960.980.012.330.990.0052.585.2单总体均值的区间估计

5.2单总体均值的区间估计——实例

1125.2单总体均值的区间估计

113思考：以银桥品牌旗下的某一款酸奶为例，规定出厂时每百克产品中活性益生菌含量，然而并不是每一杯酸奶的益生菌含量与出厂标准一致。假设益生菌每百克含量的标准差为6亿CFU。现在抽取42杯酸奶组成一个随机样本，样本的益生菌每百克平均含量为99.023亿CFU，求95%置信水平下该款酸奶活性益生菌含量的置信区间5.2单总体均值的区间估计

114

5.2单总体均值的区间估计

应用建议:如果总体服从正态分布，置信区间是准确的，适用于任何样本容量。如果总体不服从正态分布，置信区间是近似的，近似的程度依赖于总体分布和样本容量。在绝大部分应用中，样本容量n≥30已经足够。当总体分布不服从正态分布但大致对称时，需要样本容量n≥15。如果总体分布严重偏斜或者包含异常点，需要将样本容量增加到50或者更大。5.2单总体均值的区间估计——实例

116525954424450424855546055446262574546435641564471394867645.2单总体均值的区间估计——实例

1175.2单总体均值的区间估计118思考：继续以检验银桥酸奶益生菌含量为例，假设每杯酸奶的益生菌含量服从正太分布，若抽取8杯酸奶组成一个随机样本，样本的益生菌每百克平均含量为99.023亿CFU，标准差为6.4亿CFU，根据这个样本求总体均值95%的置信区间5.2单总体比例的区间估计119

5.2单总体比例的区间估计——实例

1205.2单总体比例的区间估计

121思考：以银桥酸奶益生菌含量为例，工厂将每百克益生菌含量小于等于95亿CFU的产品定义为不合格品，工厂希望通过抽检，了解产品的不合格率，在本次抽检中抽取了100杯酸奶，其中不合格的比例为7%，求总体酸奶不合格率在95%置信水平下的置信区间5.3两总体均值与比例之差的区间估计122两总体均值与比例之差的区间估计均值独立抽样

匹配样本大样本小样本比例5.3两总体均值之差的区间估计通过抽取样本对两总体均值差异进行区间估计时，不同的抽样方式对应不同的区间估计方法。抽样方式有：独立抽样与匹配样本。独立抽样下的样本叫做独立简单随机样本（independentsimplerandomsamples），是指从两个总体中独立抽出两个样本，即一个样本中的元素与另一个样本中的元素相互独立。匹配样本（matchedsample）不同于独立抽样,一个样本中的数据与另一个样本中的数据相对应。1235.3两总体均值之差的区间估计——独立抽样

124

5.3两总体均值之差的区间估计——独立抽样

1255.3两总体均值之差的区间估计——实例

126第一次9895949891939789

93889283100908897第二次97969010092929691

92899186958786945.3两总体均值之差的区间估计——实例

1275.3两总体均值之差的区间估计——独立抽样128前述酸奶公司高层想了解该款酸奶在市场中的竞品情况。通过调查发现，市场该酸奶（记作甲）的最大竞品是伊利旗下的某酸奶（记作乙）。工作人员通过对两种酸奶进行独立抽样，比较两者中的益生菌含量。已知甲乙两种酸奶的总体标准差分别为6.4亿CFU和4.3亿CFU。分别抽取41杯甲和39杯乙，样本中每百克益生菌平均含量分别为98.64亿CFU和99.72亿CFU。两品牌酸奶益生菌含量均值之差在95%置信水平下的置信区间。5.3两总体均值之差的区间估计——独立抽样

129

5.3两总体均值之差的区间估计——实例【例】某公司生产的同一产品分别投入了A,B两地的两个市场，为了进一步推广产品，需要确定市场营销策略，这两个市场是否应该采取相同的营销策略。公司高层认为营销策略是否一致与使用产品的消费者差异相关，主要取决于消费者的收入差异。为了调查两个市场消费者收入的差异，我们分别从两个市场的消费者中抽取7个，9个消费者，收入如表所示。假设两个市场的总体消费者收入都服从正态分布，且方差相等，试求两市场消费者收入差异的置信水平为95%的置信区间。130A68424893964250141324087635379

B46875189786380151426941838967378668955.3两总体均值之差的区间估计——实例

1315.3两总体均值之差的区间估计——独立抽样

1325.3两总体均值之差的区间估计——实例【例】有报告显示，手机APP在日常生活中扮演着越来越不可或缺的角色。每个APP都有其特定的功能，每个人手机中下载的APP数量也有差异。为了探究男性和女性手机中下载的APP数量是否有差异，随机选择两个分别包含10名男性，8名女性的样本，如表5-5所示。假设总体服从正态分布且方差未知，求男性与女性手机APP下载数量差异的置信水平为95%的置信区间。133男29262434221827321633女3217353831294137

5.3两总体均值之差的区间估计——实例

1345.3两总体均值之差的区间估计——独立抽样

1355.3两总体均值之差的区间估计——匹配样本独立样本与匹配样本的差异若有两种可以组装同一类型产品的机器，需要比较两种机器组装产品所需时间的差异。若采用独立抽样，随机分配两批工人分别使用两种机器去组装产品。若采用匹配样本，则指定同一批工人分别用两种机器组装同一种产品，这样得到的两种机器组装产品的数据就是匹配数据。匹配样本有效消除了在独立抽样下由于前后参与组装工人不一致，由工人个体差异带来的组装产品时间的差异。1365.3两总体均值之差的区间估计——匹配样本

1375.3两总体均值之差的区间估计——实例【例】某大学想要了解2019年毕业的学生中，研究生和本科生起薪均值的差异。假定研究生与本科生起薪之差服从正态分布，起薪可能由于专业不同而差异很大，为了消除由专业差异引起的均值差异，选取相同专业的随机样本。1.已知总体差值的标准差为642，选取相同专业的35对随机样本，样本差值的均值为1365，求研究生和本科生起薪均值的差异在置信水平为95%时的置信区间。2.总体差值的标准差未知，选取相同专业的10对随机样本，样本差值的均值与标准差分别为1365和642。求起薪均值差异在置信水平为95%时的置信区间。1385.3两总体均值之差的区间估计——实例

1395.3两总体比例之差的区间估计

140

5.3两总体比例之差的区间估计

1415.3两总体比例之差的区间估计——实例

1425.3两总体比例之差的区间估计产品不合格率是产品质量的重要指标。前述酸奶公司高层管理者想要了解产品甲与竞品乙不合格率的差异，分别抽取100杯甲酸奶和200杯乙酸奶，样本的不合格率分别为7%，4%，求两产品在95%置信水平下不合格率差异的置信区间。1435.4单总体方差的区间估计

144

5.4单总体方差的区间估计

145

21-

总体方差的1-

的置信区间

5.4单总体方差的区间估计——实例【例】投资回报率常常用来衡量投资风险，为了了解某国际知名投行的投资风险状况，随机调查了其经手的26个投资项目的年投资回报率，如下表所示。假设该投行所有项目的年投资回报率服从正态分布，求该投行项目年投资回报率方差的区间估计（置信水平为95%）。14620%5%4.5%7.8%9.4%15.7%8.2%4.1%3.9%8.3%5.1%19.7%5.2%6.8%7.8%5.9%9.2%13.4%14.8%1.6%9.4%15.4%4.2%9.8%6.3%7.1%

5.4单总体方差的区间估计——实例

1475.4单总体方差的区间估计前述酸奶公司希望了解在生产过程中其酸奶益生菌含量的波动情况。假设每杯酸奶的益生菌含量服从正太分布，在某一次检查中，公司随机选取了12杯酸奶作为样本，样本的标准差为0.7亿CFU，试求方差在95%置信水平下的置信区间。1485.4两总体方差比的区间估计

149

5.4两总体方差比的区间估计

150FF1-

总体方差比的1-

的置信区间5.4两总体方差比的区间估计——实例【例】一项研究拟探究在湿滑路面上汽车刹车距离的方差是否比干燥路面的大。在调查研究中，检测以同样速度分别在湿润路面和干燥路面上行驶的13辆汽车的刹车距离，如下表所示。假设汽车在湿润和干燥路面上的刹车距离均服从正太分布，求汽车在湿润和干燥路面上刹车距离的方差比在置信水平为95%时的置信区间。151湿润路面16.318.523.44.68.97.112.59.710.514.913.125.614.5干燥路面1521.3810.69.612.412.9

16.72.35.88.613.823.8

5.4两总体方差比的区间估计——实例

1525.4两总体方差比的区间估计153前文酸奶公司希望了解在生产过程中其自己酸奶产品中益生菌含量波动情况与另一品牌酸奶产品益生菌含量波动情况的差异。假设两种品牌的每杯酸奶益生菌含量均服从正态分布，公司随机选取两种酸奶各8杯作为样本，样本的标准差分别为0.7亿CFU，0.5亿CFU，求两品牌酸奶益生菌含量的方差比在95%置信水平下的置信区间5.5样本量的确定在区间估计时，给定置信水平，我们希望得到精度尽可能高的置信区间。样本量越大，误差越小，得到的置信区间精度越高。然而，样本量的增加会增加抽样的成本。因此，如何确定一个适当的样本量，也是参数估计中需要考虑的问题。1545.5样本量的确定——估计均值

1555.5样本量的确定——估计均值

1565.5样本量的确定——估计均值

1575.5样本量的确定——估计均值

1585.5样本量的确定——估计均值

1595.5样本量的确定——估计比例

160

5.5样本量的确定——估计比例

1615.5样本量的确定——估计比例

162

5.5样本量的确定——实例

163第6章

假设检验164第6章假设检验——目录6.1假设检验的基本原理6.2单总体均值与比例的检验6.3两总体均值之差与比例之差的检验6.4总体方差和方差比的检验1656.1假设检验的基本原理假设（Hypothesis）是事先对总体参数的具体数值所作的一种陈述。总体参数包括总体均值、比例、方差等分析之前必需陈述什么是假设？什么是假设检验？假设检验（hypothesistest）就是在对总体某参数提出假设的基础上，根据样本信息来判断假设是否成立的统计方法。对总体提出某种假设抽取样本，获得数据分析样本数据，判断假设是否成立假设检验的大致思路1666.1假设检验的基本原理——原假设与备择假设

两种假设

需要通过数据支持来获得认同的观点或结论作为备择假设原有的、传统上被广泛认同的观点或结论作为原假设相互对立167例：某灯泡生产商宣称，其生产的A型日光灯泡平均使用寿命为1500小时以上。政府质检部门要通过抽检其中的一批产品来验证该生产商宣称的是否属实。解：研究人员想要验证的是灯泡生产商声称的“A型日光灯泡平均使用寿命为1500小时以上”是否属实，我们可以把灯泡生产商声称的内容看作是原有的、传统上被广泛认同的观点，因而原假设为“A型日光灯泡平均使用寿命大于或等于1500小时”。所以原假设和备择假设是：

6.1假设检验的基本原理——原假设与备择假设1686.1假设检验的基本原理——小概率事件原理小概率事件：在一次试验中，一个几乎不可能发生的事件发生的概率小概率由研究者事先确定在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设假设检验依据的是统计上的小概率事件原理：...如果这是总体的真实均值样本均值

m=50抽样分布这个值不像我们应该得到的样本均值...721696.1假设检验的基本原理——两类错误

实际情况做出的决策假设检验中各种可能结果的概率170

你不能同时减少两类错误!

和的关系就像翘翘板，小就大，大就小1716.1假设检验的基本原理——两类错误6.1假设检验的基本原理——假设检验的流程

172假设检验中的决策是根据检验统计量进行的。检验统计量：根据样本观测结果计算得到的一个样本统计量，研究者据此决定是否拒绝原假设。标准化的检验统计量为：

反映了点估计量与假设的总体参数相比相差多少个标准差的距离是一个随机变量，与样本观测结果一一对应。1736.1假设检验的基本原理——假设检验的流程如何根据检验统计量作出统计决策？临界值法

1746.1假设检验的基本原理——假设检验的流程临界值法：临界值：显著性水平在统计量分布上对应的数值。临界值是由显著性水平决定的，是拒绝域的边界。拒绝域（rejectionregion）是由显著性水平对应的临界值围成的区域。拒绝域是检验统计量可能取值的一个集合。拒绝域的位置：由原假设和备择假设决定判断方法：检验统计量落入拒绝域—>拒绝原假设；检验统计量未落入拒绝域—>不拒绝原假设1756.1假设检验的基本原理——假设检验的流程假设形式原假设备择假设含“=”

检验方法双侧检验

左侧检验

右侧检验1766.1假设检验的基本原理——假设检验的流程

1776.1假设检验的基本原理——假设检验的流程

位置检验方法双侧检验抽样分布两侧左侧检验右侧检验抽样分布左侧抽样分布右侧1786.1假设检验的基本原理——假设检验的流程179例：一家餐饮公司长期以来，顾客从点餐到上菜平均要等待10分钟。该餐厅经理为了检验最近餐厅的服务情况，对最近一周顾客平均等餐时间进行调查。解：目的是为了检验“顾客从点餐到上菜是否平均要等待10分钟”原有的、传统上被广泛认同的观点或结论

原假设所以原假设和备择假设是：

第一步：提出原假设和备择假设；6.1假设检验的基本原理——假设检验的流程180例：一家餐饮公司长期以来，顾客从点餐到上菜平均要等待10分钟。该餐厅经理为了检验最近餐厅的服务情况，对最近一周顾客平均等餐时间进行调查。

6.1假设检验的基本原理——假设检验的流程181例：一家餐饮公司长期以来，顾客从点餐到上菜平均要等待10分钟。该餐厅经理为了检验最近餐厅的服务情况，对最近一周顾客平均等餐时间进行调查。

第三步：获得样本数据；6.1假设检验的基本原理——假设检验的流程182

第四步：计算检验统计量的值；6.1假设检验的基本原理——假设检验的流程183利用临界值进行决策

6.1假设检验的基本原理——假设检验的流程184

6.1假设检验的基本原理——假设检验的流程1.假设检验不能证明原假设正确。2.统计上的显著不等于有实际意义。

“显著的”含义为“样本结果与原假设之间的偏离程度已显著超出随机误差范围”。？1856.1假设检验的基本原理——决策结果的表述6.2.1单总体均值的检验

条件：总体服从正态分布

或者总体并不服从正态分布但是样本量足够大

此时的检验统计量：1866.2.1单总体均值的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域

187188例：某机床厂加工一种零件，根据经验知道，该厂加工零件的椭圆度近似服从正态分布，其总体均值为

0=0.081mm，总体标准差为=0.025。今换一种新机床进行加工，抽取n=200个零件进行检验，得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异？（

＝0.05）6.2.1单总体均值的检验1896.2.1单总体均值的检验决策:拒绝H0有证据表明新机床加工的零件的椭圆度与以前有显著差异

检验统计量：结论:

190例：某灯泡生产商宣称，其生产的A型日光灯泡平均使用寿命为1500小时以上。政府质检部分要通过抽检其中的一批产品来验证该生产商宣称的是否属实。政府质检部门从A型灯泡中随机抽取100个灯泡，对其使用寿命进行检验，测量得到的平均值为1498.6小时，已知总体方差为27。判断在0.05的显著性水平下，该灯泡生产商所称的灯泡指标是否可信。6.2.1单总体均值的检验1916.2.1单总体均值的检验在

＝0.05的水平上拒绝H0有证据表明这批灯泡的使用寿命低于1500小时

决策:检验统计量：结论:

6.2.1单总体均值的检验

条件：总体服从正态分布,或者样本量足够大，或者总体分布不是严重不对称且样本量不是特别小检验统计量：

1926.2.1单总体均值的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域P值法193194例：一个汽车轮胎制造商声称，某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里，对一个由20个轮胎组成的随机样本作了试验，测得平均值为41000公里，标准差为5000公里。已知轮胎寿命的公里数服从正态分布，我们能否根据这些数据作出结论，该制造商的产品同他所说的标准相符？

(

=0.05)6.2.1单总体均值的检验1956.2.1单总体均值的检验在

＝0.05的水平上不拒绝H0

决策:检验统计量：结论:

没有证据表明轮胎使用寿命小于40000公里196例：淘宝某时尚饰品店铺每天平均售出1450件，新店长上任之后，对该店铺的销售情况进行抽查，随机抽取20天的售货量作为一个样本，该20天售货量如表6-4所示。假设该店铺每天的售货量服从正态分布，在0.05的显著性水平下，检验该店铺的日均售货量是否是1450件。6.2.1单总体均值的检验13501460129012001345140015601370140214001489115614701350130013501367138813981401表6-4

某店铺的日售货量1976.2.1单总体均值的检验在

＝0.05的水平上拒绝H0总体方差未知，n=

20决策:检验统计量：结论:

在0.05的显著性水平下，有证据表明该店铺的日均售货量不等于1450件。6.2.2单总体比例的检验条件:大样本检验统计量：

1986.2.2单总体比例的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域199200例：为吸引消费者，提高销售量，一减肥药品在广告中声称，使用该产品的消费者中有70%及以上的人一个月减重超过6斤。为此，食品药品监督局的相关部门为了验证该说法是否属实，在使用该减肥药品的顾客中随机抽取了150人，发现有93人月体重下降超过6斤。在0.05的显著性水平下，是否有证据表明使用该减肥药的消费者中，一个月减重超过6斤的人占比不到70%。6.2.2单总体比例的检验6.2.2单总体比例的检验有证据表明使用该减肥药的消费者中，一个月减重超过6斤的人占比不到70%。

在

＝0.05的水平上拒绝H0

决策:检验统计量：结论:

2016.3.1两总体均值之差的检验影响因素：抽样方式（独立抽样or匹配样本），总体方差是否已知1.独立抽样：

条件：两个总体都服从正态分布或者样本容量足够大检验统计量：2026.3.1两总体均值之差的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域203204例：某手机品牌A为了了解其手机续航时间是否比市场中最受欢迎的手机品牌B的续航时间短，选择了35款A品牌手机和40款B品牌手机作为样本进行调查。样本数据显示两款手机的续航时间分别为33小时，35小时。已知两个手机品牌续航时间的标准差分别为1.2小时，4小时。在0.05的显著性水平下，是否有证据表明A品牌手机的续航时间小于B品牌手机的续航时间。6.3.1两总体均值之差的检验2056.3.1两总体均值之差的检验决策:在

＝0.05的水平上拒绝H0结论：现有证据能表明A品牌手机的续航时间小于B品牌手机的续航时间。检验统计量：

6.3.1两总体均值之差的检验1.独立抽样：

检验统计量为：条件：两个总体都服从正态分布或者样本容量足够大206207例:不少专家都认为，成年人每夜至少要睡7到9个小时。有相关报告显示，2018年我国人均睡眠时长为6.5个小时，想知道男性与女性的睡眠时长是否有差异，随机抽取24人的样本，其中男性13人，女性11人，调查发现样本中男性的平均睡眠时长为6.2小时，标准差为2.4小时，女性的平均睡眠时长为6.7小时，标准差为1.5小时。假定两个总体都服从正态分布且标准差无差异。试问在0.05的显著性水平下，男性与女性的睡眠时长是否有差异。6.3.1两总体均值之差的检验2086.3.1两总体均值之差的检验决策：在

=0.05的显著水平下不拒绝H0结论：在0.05的显著性水平下，没有证据表明男性与女性的睡眠时长有显著差异。检验统计量：

6.3.1两总体均值之差的检验1.独立抽样：

检验统计量为：209条件：两个总体都服从正态分布或者样本容量足够大210例:某市2018年的政府公告显示，2018年该市居民人均可支配收入40105元，为了进一步探究该市东部地区与西部地区的人均可支配收入是否有差异，随机选择一个包含844人的样本（其中东部地区居民432人，西部地区居民412人）调查其人均可支配收入，已知样本的人均可支配收入为40326元，39792元，样本的标准差分别为1452元，1039元。试在0.05的显著性水平下，判断该市东部与西部地区居民人均可支配收入是否有差异。6.3.1两总体均值之差的检验2116.3.1两总体均值之差的检验检验统计量决策:在

=0.05的显著水平下拒绝H0结论：在0.05的显著性水平下，该市东部与西部地区居民人均可支配收入有差异。

自由度6.3.1两总体均值之差的检验2.匹配样本：

当配对差值的总体标准差未知时，检验统计量为条件：总体服从正态分布或者样本量足够大212当配对差值的总体标准差已知时，检验统计量为

213例:有某一增高产品广告宣称其产品可以在一年内帮助产品用户成功增高5cm,为了检验该产品广告是否可信，从使用该增高产品的用户中随机抽取了18名用户分别记录其在使用产品前的初始身高及使用产品一年之后的身高，用户使用产品前后的身高数据如表。假定总体观测值的配对差值服从正态分布，试在0.05的显著性水平下，判断该增高广告是否可信。6.3.1两总体均值之差的检验序号123456789初始身高1711791531491611661721761591年后身高175185158150164170178179162序号101112131415161718初始身高1581701631621711701661581491年后身高1591761661681731741691631552146.3.1两总体均值之差的检验

检验统计量:决策:在

=0.05的显著水平下该增高产品不可信。为左侧检验，临界值为

6.3.2两总体比例之差的检验

2156.3.2两总体比例之差的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域

216例:某大型工厂购进的生产设备全部来自两个品牌，今年工厂又要大规模采购一批生产设备，希望在两品牌中选择设备维修率低的进行购买。为了确定两个品牌的设备维修率，工厂决定从已购买的设备中进行抽样调查，分别抽取24台品牌1的设备，20台品牌2的设备，抽样的两品牌维修率分别为31%，26%，试问在0.05的显著性水平下，该工厂应该购进哪个品牌的设备？6.3.2两总体比例之差的检验2172186.3.2两总体比例之差的检验

决策:在

=0.05的显著水平下不拒绝H0检验统计量:临界值为

结论：在0.05的显著性水平下，没有证据表明两个品牌的维修率有显著差异。6.4总体方差和方差比的检验分为单总体方差的检验和两总体方差比的检验6.4.1

单总体方差的检验总体服从正态分布时，检验统计量为：

2196.4总体方差和方差比的检验6.4.1

单总体方差的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域220221例:由于生产技术有限，某品牌每一份吐司面包的重量各不相同。为了提高产品的稳定性，管理人员要求采用新技术将吐司面包重量的标准差控制到10g以下。在采用新技术后，该品牌的质检总管对该面包的重量进行了抽检以了解面包重量的标准差。在抽检中，随机抽取了44份吐司面包进行称重，称重结果见数据文件。假定每份面包的重量服从正态分布，在0.05的显著性水平下，是否有证据表明生产的吐司面包已符合管理人员的要求。6.4.1单总体方差的检验2226.4.1单总体方差的检验

决策:在

=0.05的显著水平下不拒绝H0

结论：在0.05的显著性水平下，没有证据表明生产的吐司面包符合管理人员的要求。6.4.2两总体方差比的检验当两总体都服从正态分布时，检验统计量为：

注意：自由度的调换2236.4.2两总体方差比的检验

双侧检验左侧检验右侧检验假设形式检验统计量临界值法拒绝域224225例:一个零售商想要比较其旗下两个购物中心日销售额的波动情况。从每家购物中心记录的销售额中分别抽取8个独立随机的日样本，数据如下表所示。假定两个购物中心的日销售额均服从正态分布，这些数据是否提供了充分的证据表明两购物中心的日销售额波动情况之间存在差异？(α=0.10)6.4.2两总体方差比的检验购物中心112434618278947086351586274购物中心210008459634187891450687592表6-8两购物中心的日销售额

单位：万元2266.4.2两总体方差比的检验

决策:在

=0.05的显著水平下不拒绝H0检验统计量:两侧检验，临界值为，结论：在0.1的显著性水平下，没有证据表明两个购物中心日销售额波动情况之间存在显著差异。0.264<F<3.787

小结：单总体均值

比例

方差

227均值服从或近似服从正态分布两总体均值之差

比例之差方差比独立抽样匹配抽样

小结：228第7章

分类数据分析229第7章分类数据分析——目录7.1一个分类变量的拟合优度检验7.2两个分类变量的独立性检验7.3卡方检验中需要注意的地方230

2317.1一个分类变量的拟合优度检验拟合优度检验的原假设和备择假设的一般形式如下：232

7.1一个分类变量的拟合优度检验H0：观察频数与期望频数一致H1：观察频数与期望频数不一致拟合优度检验的检验统计量如下：

7.1一个分类变量的拟合优度检验

233234例：B连锁餐厅老板想要了解顾客在餐厅就餐时最喜欢的主食，对120位顾客进行调查，结果如表7-1所示。试评价顾客在这四种主食中选择时是否存在明显偏好。表7-1120人样本中最爱点的主食

7.1一个分类变量的拟合优度检验最爱点的主食频数杂粮24面条29米饭32馒头35合计120235

SPSS输出的结果如表7-2和表7-3所示：

注意拟合优度检验除了可以处理期望频数相同的数据，同样可以处理期望频数不同的分类数据。7.1一个分类变量的拟合优度检验

观察数期望数剩余残差杂粮2430.0-6.0面条2930.0-1.0米饭3230.02.0馒头3530.05.0总数120

主食偏好卡方2.200df3渐近显著性.532表7-2顾客主食偏好的拟合优度检验（一）人数表7-3顾客主食偏好的拟合优度检验（二）检验统计量236

7.2两个分类变量的独立性检验利用χ2检验来判断两个分类变量是否有关联

独立性检验的原假设和备择假设的一般形式如下：

7.2两个分类变量的独立性检验

独立性检验的检验统计量如下：

2377.2两个分类变量的独立性检验

238例：葡萄酒行业协会想要了解饮酒者性别与葡萄酒偏好是否有关联，对200名饮酒者进行调研，其中男性132人、女性68人，共三种葡萄酒类型：甜葡萄酒、半干葡萄酒、干葡萄酒，样本资料见表7-4。试评价饮酒者性别与葡萄酒偏好是否独立。表7-4男性与女性饮酒者葡萄酒偏好的样本资料

7.2两个分类变量的独立性检验葡萄酒偏好饮酒者性别合计男性女性甜葡萄酒513990半干葡萄酒562177干葡萄酒25833合计13268200239240

SPSS输出的结果如表7-5和表7-6所示：

7.2两个分类变量的独立性检验表7-5饮酒者性别与葡萄酒偏好的频数分布饮酒者性别*葡萄酒偏好交叉制表

饮酒者性别合计男女葡萄酒偏好甜葡萄酒计数513990期望的计数59.430.690.0半干葡萄酒计数25833期望的计数21.811.233.0干葡萄酒计数562177期望的计数50.826.277.0合计计数13268200期望的计数132.068.0200.0

值df渐进Sig.(双侧)Pearson卡方6.4472.040似然比6.4612.040有效案例中的N200

7.3卡方检验中需要注意的地方卡方检验中需要注意的地方有：单元数量为2，各单元的期望频率需大于5，如表7-7；单元数量大于2，期望频率小于5的单元比例不超过20%，如表7-8。特殊情况该如何处理：扩大样本量；将期望频数小于5的类别合并。单元190922108单元19092210838180456567644表7-7准则1说明表表7-8准则2说明表241第8章

方差分析242第8章方差分析——目录8.1方差分析引论8.2单因素方差分析8.3双因素方差分析243

8.1方差分析引论244245例：某企业研发了一种新型有机发光二极管（OLED），为确定其性能的优劣，企业决定考察三种使用温度和三种电极对OLED寿命的影响。在每种电极材料和使用温度下检测三个OLED。表8-1有机分光二极管寿命数据温度电极13015518034407221698015018812412612211125705713811016117412015296104828.1方差分析引论——例题因素（factor

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验

文档简介

温馨提示

最新文档

评论

《商务统计分析 第2版》 课件全套 林军 第1-13章 数据与统计分析-非参数检验

文档简介

温馨提示

最新文档

评论

相关文档

《商务统计分析第2版》课件全套林军第1-13章数据与统计分析-非参数检验