版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章单样本问题经典统计关心的问题:已知总体
均值——位置变量
方差、标准差、极差——尺度变量非参数统计关心的问题:已知:样本
位置变量?
尺度变量?例如:在对人们的收入进行抽样之后,自然要对“人均收入”和“中间收入”等概念感兴趣。这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。
也可能想要知道收入多少才能够算“最富的百分之五”之类的问题。这与分位点的推断有关系。
除了位置,我们也希望通过数据知道它的趋势和走向,这都是本章要研究的内容。2.1广义符号检验和有关的置信区间例2.1
下面是世界上71个大城市的花费指数(包括租金),按递增次序牌类如下(这里上海是44位,指数为63.5)
27.827.829.132.232.732.736.436.537.537.738.841.945.245.84647.648.249.951.852.754.95555.355.558.260.862.763.564.665.365.365.365.466.266.767.771.271.773.974.374.576.276.676.877.777.979.180.98182.685.786.286.489.489.590.390.891.892.895.297.598.299.199.3100100.6104.1104.6105109.4122.4问题:(1)样本中位数M是否大于64.或者说是否指数小于64的城市的比例少于0.5(或指数大于64的比例是否大于0.5)(2)样本下四分位点(0.25分位点)是否小于64,。等价的说,是否指数小于64的城市的比例大于0.25(或指数小于64城市的比例是否小于0.75)由于中位数也是分位点(0.5分位点)。所以,这两个问题实际上都是关于分位点的检验问题,只不过一个是关于分位点,另一个是关于分位点。这里面也出现了求分位点的置信区间问题。
本例中,分布未知,观察直方图
从图中很难说这是什么分布,我们根据
分位点的定义,并通过与分位点相关的Bernoulli试验及二项分布的性质得到需要的结果。
如果是总体的分位点,那么意味着总体中约有比例那么多的个体小于。
显然,关于分位点的推断等价于关于比例的推断。2.1.1广义符号检验:对分位点进行的检验广义符号检验:对连续变量分位点进行的检验。狭义符号检验:仅针对中位数(或0.5分位点)
进行的检验。假定检验的假设是:
备择假设可能是:记样本中小于的点数为,
大于的点数为。并用小写的和分别代表和的实现值。记按照零假设,
与之比应该约为左右,或大约等于,而
与之比应该约为左右,或者说
大约等于。如果与与此相差的很远,那么零假设可能有问题
。在零假设下,应该服从二项分布。下面就在二项分布变量的检验中如何计算p值的问题给出一个表这类检验之所以叫做“符号检验”,是因为为用所有样本点减去之后,差为正的个数,而
为用所有样本点减去之后,差为负的个数。大样本正态近似
比较小时,可以用二项分布的公式来计算精确值。但当比较大时,也可以用正态分布来近似。如果在零假设下,那么当较大时,则可以认为2.1.2基于符号检验的中位数及分位点的置信区间例2.2下面是随机抽取的22个企业的纳税额(单位:万元)。数据已经按照升幂排列
1.001.351.992.052.062.102.302.612.862.952.983.233.734.034.825.246.106.646.816.867.119.002.2Wilcoxon符号秩检验,点估计和区间估计Wilcoxon符号秩检验符号检验利用率观察值与零假设的中心位置之差的符号来检验,但没有利用这些差的大小(距
的远近)的信息。
已知信息越多,结论越有效,所以把已知距离考虑进去更好,即Wilcoxon符号秩检验。宗旨:把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。注意:假定样本点来自连续对称总体分布。此时,总体中位数=均值其目的与符号检验一致,即检验例2.3下面是10个欧洲城镇每人每年平均消费的酒类相当于纯酒精数(单位:升)。数据已经按照升幂排列。
4.125.817.639.7410.3911.9212.3212.8913.5414.45人们普遍认为欧洲各国人均年消费酒量的中位数相当于纯酒精8升。为此进行检验:设,即上述数据的中位数为11.160,因此备择假设为即检验为Wilcoxon符号秩检验步骤如下:(1)对,计算对于例2.3有3.882.190.371.742.393.924.324.895.546.45(2)把上面的个绝对值排序,并找出它们的个秩。如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4)
对于例2.3有秩为53124678910(3)令等于的的秩的和。
等于的的秩的和。
注意:加符号的秩为:-5-3-124678910(4)对双边检验
在零假设下,与应差不多。因而,当其中之一很小时,应怀疑零假设。取检验统计量类似地,对,取
对,取
例2.3,取(5)根据得到的W的值,得到零假设下的值。
如果很大要用正态近似
如果不是很大,可以通过软件或者查Wilcoxon符号秩检验的分布表,得到值(6)比较与,若则拒绝零假设。在零假设下的分布并不复杂。例如时绝对值的秩只有1,2和3,共有8种可能的符号排列
出现了2次,因而秩
符号的8种组合1-+--++-+2--+-+-++3---+-+++01233456概率1/81/81/81/81/81/81/81/8注意和的Wilcoxon分布有关系为由于Wilcoxon符号秩检验要求总体分布对称,我们现在将与的检验结果进行比较.2.2.2基于Wilcoxon符号秩检验的点估计和置信区间样本:n个寻找对称中心,样本中位数即可为了利用更多的信息,可以扩大样本数目:求每两个数的平均(共有个)这样的平均称为Walsh平均。则
这里符号#{}是满足符号{}内条件的表达式的个数(“#”相当于thenumberof)若,即有位移则有来做Wilcoxon符号秩检验。则按升幂排列Walsh平均,记则的置信区间为这里由决定。大样本时,有回看例2.3欧洲人酒精人均消费Walsh平均有中位数10.390是的估计量。再求的置信区间
时,查表有,对于所以,置信区间为§2.4Cox-Staut趋势检验
在客观世界中会有许多各种各样随时间变动的数据序列,我们通常关心这些数据随时间变化的规律,也就是进行趋势分析。例如:依据病患人数判断疫情是否已经得到控制,或者是否还在增长等等。回归分析是常用的趋势分析工具,说明数据是否存在着线性趋势,存在着怎样的线性趋势。但用回归分析也有其局限性,问题在于:如果模型不能通过检验,那么趋势是否存在?是否应该将所有可能的检验穷尽才能回答这个问题?即使模型通过检验,也只能说在模型的假设下,数据的趋势是存在的。趋势检验(不依赖于趋势结构):Cox-Stuart趋势检验趋势的秩检验。(多样本问题)Cox-Stuart趋势检验的理论基础是符号检验,可认为是符号检验的一个应用。例2.4天津机场从1995年1月到2003年12月的108个月旅客吞吐量(人次)如下表.从这些数据,我们能否说明这个差额总的趋势是增长,还是减少,还是都不明显呢?
543794546155408597126077657635633357129670250768667556166427613305818667799763608620775509830208961475791808357217961520667266062968549733108071967759703528282570541746316893853318626535857863292695357337962859728738726067559766477059058935581616405763051588076366357367708547994966992801406226055942583675667361039749588585967263871839757579988885016860058442689555683567021815478511870145950801061868610388548700906555069223851388979999513981146817297366116820956651098818706875362882688518387909799762768750178100878131788116293120770104958109603Cox-Staut趋势检验的一般提法:
H0:无趋势H1:有增长趋势
H0:无趋势H1:有减少趋势
H0:无趋势H1:有增长或减少趋势
解:将数据自己与自己比较。我们以第54个数为界把数据分成两部分,即前半部分和后半部分。用第1个数减去第55个数,第2个数减去第56个数,……,第54个数减去第108个数。即记,i=1,2,3,…,54。计算后得出,54个差值中,有38个取负值,16个取正值。负值的情况比较多,说明数据有增大的趋势。引入假设检验:
H0:数据无趋势,H1:数据有增长的趋势。
检验统计量:类似于符号检验,令
取S+或S-为检验统计量,检验统计量的分布:在H0成立条件下,S+和S-服从参数为54和1/2的二项分布。取检验统计量K=S+,
p值=P(K<s+)=P(K<16)=0.00192,取水平α=0.05或更小的0.002,拒绝原假设,即认为数据有增长的趋势。这个方法就是Cox-Stuart趋势检验。检验的思想直接考虑数据的变化趋势,若数据有上升趋势,那么排在后面的数据的值要比排在前面的数据的值显著得大;反之,若数据有下降的趋势,那么排在后面的数据的值要比排在前面的数据的值显著得小。利用前后两个时期不同数据的差值正负来判断数据总的变化趋势。
注意:每对数据中前后两个数的间隔应固定。为保证数对不受局部干扰,前后两个数的间隔应该较大,但又不能过大,否则数对数量过少,难以判断。所以Cox-Stuart提出最优的拆分点是数列的中间位置的数。检验方法令取xi和xi+c组成数对(xi,xi+c),则当n为偶数时,共有c对;当n为奇数时,共有c-1对。计算每对数对前后两值之差:
Di=xi+c
-xi
检验统计量记S+=#{Di为正数,i=1,2,…,n},等价于:
其中,其中,表示不等于0的数对个数。则H0成立时,S+服从参数为和1/2的二项分布,即
S+~b(,1/2)。
记S-=#{Di为负数,i=1,2,…,n},等价于:
其中,其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江公安警官职业学院《财务管理》2025 学年第二学期期末试卷
- 2025首都医科大学附属北京同仁医院门头沟医院(北京市门头沟区医院)面向社会引进高层次医疗卫生技术人才4人考试核心试题及答案解析
- 2025年脑智研究院招聘张若冰课题组招聘生物电镜图像处理与自动化工程师岗位备考题库参考答案详解
- 2025安徽黄山太平经济开发区投资有限公司招聘高管人员1人考试重点题库及答案解析
- 2026年交通银行交银金融科技秋季校园招聘备考题库及一套完整答案详解
- 2025下半年广东揭阳市市直卫生健康事业单位赴外地院校招聘工作人员27人备考核心题库及答案解析
- 2025湖北随州市广水市事业单位面向驻广部队随军家属招聘5人笔试重点题库及答案解析
- 2025下半年四川绵阳职业技术学院考核招聘高层次人才2人备考核心题库及答案解析
- 新疆分院招聘广东电信规划设计院2026届校招开启(12人)备考笔试试题及答案解析
- 2025湖南长沙浏阳市人民医院公开招聘编外合同制人员8人备考核心题库及答案解析
- erp培训课资料课件
- DB42T 1908-2022 建设工程档案整 理与移交规范
- 釜底抽薪绘本故事课前三分钟演讲背景
- 中国甘油行业发展分析及投资风险预测分析报告2025-2028版
- 民盟北京支部管理制度
- 挂靠试驾车协议书
- 【基于单片机的噪音监测系统设计】8600字(论文)
- 《SJG29-2023合成材料运动场地面层质量控制标准》
- 可再生水使用与管理方案计划
- 公务员2020年国考《申论》真题及答案(省级)
- 安桥功放TX-SR508使用说明书
评论
0/150
提交评论