版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学
StatisticsforBusinessandEconomics
什么是统计学?不列颠百科全书统计学是一门收集、分析、表述和解释数据的科学。统计学的特点以归纳为主要思维方式的统计不是以演绎为主的数学。从整体观念出发,研究大量普遍存在的整体特征,说明事物的规律性。研究客观事物数量方面的方法论科学。描述统计推断统计统计学的分科统计学的分科总体、个体和样本
统计数据是对客观现象计量的结果。数据的计量尺度定类尺度定序尺度定距尺度定比尺度一、数据的计量尺度由低级到高级分为四个层次二、抽样调查从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。
抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样非概率抽样抽样方式误差
抽样误差由抽样随机性造成,只存在于概率抽样中。(样本的特征不一定和总体完全一样,这种差异不是错误而是必然会出现)非抽样误差覆盖误差——被调查总体范围被人为减小无响应误差——调查回收率太低响应误差——没有反映真实观点(理解有误,有意欺瞒)道德误差——调查人员缺乏业务培训或职业道德测量误差——测量工具不准确
一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。
(一)实际抽样误差:
抽样误差(SamplingError)
(二)抽样极限误差一定概率下抽样误差的可能范围(也称允许误差,误差幅度):统计数据的收集方法1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;
2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;
3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;
4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;
5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。调查方案设计1、确定调查目的
Why?2、确定调查对象和调查单位
Who?3、拟订调查项目和调查表
What?
-调查项目要少而精;
-调查项目含义要明确;-尽可能做到各个调查项目之间有一定的联系。4、确定调查时间和期限When?-调查时间是指调查资料所属的时间(时点或时期);-调查期限是指调查工作的起讫时间。5、编制调查的组织计划How?第三章描述性统计Ⅰ:
数据的图表展示第四章描述性统计II:
数值描述
集中趋势(位置)偏态和峰态(形状)离散趋势
(分散程度)数据分布的特征集中趋势的度量位置平均数众数中位数分位数集中趋势的度量数值平均数简单算术平均数加权算术平均数几何平均数调和平均数离散程度的度量(变异度)异众比率极差四分位差方差和标准差离散系数扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!偏态与峰态分布的形状推断统计统计量和估计值样本的(不包含未知总体参数的)函数称为统计量;统计量是随机变量,并有其分布。如果样本已经得到,把数据带入之后,统计量就有了一个数值,称为该统计量的一个实现(realization)或取值,也称为一个估计值(estimate)。三种不同性质的分布总体分布样本分布抽样分布一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布
样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本
抽样分布
(samplingdistribution)考察样本均值的概率分布形式。分两种况:1)总体分布已知且为正态分布;2)总体分布未知;(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布。样本均值的抽样分布
=50
=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值
x也服从正态分布,
x的数学期望为μ,方差为σ2/n。即
x~N(μ,σ2/n)
(2)当总体分布未知时,需要用到中心极限定理(CentrallimitTheorem)抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的
2分布,即3、比例的抽样分布
1、期望值:有限总体:无限总体
2、标准差:
3、样本比例抽样分布的形状(Formofthesamplingdistributionofp)
根据中心极限定理有:当样本容量增大时(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。
区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。区间估计(IntervalEstimation)样本统计量
(点估计)置信区间置信下限置信上限抽样极限误差一定概率下抽样误差的可能范围(也称允许误差,误差幅度):置信区间的一般形式点估计±(临界值)×(标准误差)临界值:根据置信水平和抽样分布确定标准误差:根据抽样分布确定将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-
为是总体参数未在区间内的比例
常用的置信水平值有
99%,95%,90%相应的
为0.01,0.05,0.10置信水平(置信度)
(confidencelevel)
置信区间
(95%的置信区间)重复构造出的20个置信区间
点估计值样本容量的确定估计总体均值时样本容量的确定估计总体均值时样本容量n为样本容量n与总体方差
2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与误差幅度的平方成反比与置信水平成正比样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等定义:误差幅度(边际误差)E=根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定
未知时,可以选取试验样本估计总体比例;也可取使方差最大值p=0.5(此时波动性p(1-p)达到最大,可确保样本量满足要求。如果抽样水平超过了承受能力,只能牺牲置信水平或增加误差幅度E。)其中:假设检验先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理假设检验的基本思想...因此我们拒绝假设
=50...如果这是总体的假设均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20假设检验中的两类错误1. 第Ⅰ类错误(弃真错误)原假设为正确时拒绝原假设第Ⅰ类错误的概率记为
被称为显著性水平2. 第Ⅱ类错误(取伪错误)原假设为错误时未拒绝原假设第Ⅱ类错误的概率记为
(Beta)
显著性水平
(significantlevel)1. 是一个概率值2. 原假设为真时,拒绝原假设的概率抽样分布的拒绝域3. 表示为
(alpha)常用的
值有0.01,0.05,0.104. 由研究者事先确定假设检验需要借助样本统计量进行统计推断,称为检验统计量。标准化结果原假设H0为真点估计量的抽样分布标准化的检验统计量决策规则给定显著性水平
,查表得出相应的临界值z
或z
/2,t
或t
/2将检验统计量的值与
水平的临界值进行比较作出决策双侧检验:I统计量I>临界值,拒绝H0左侧检验:统计量<-临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0一个总体参数的检验z检验(单尾和双尾)
t检验(单尾和双尾)z检验(单尾和双尾)
2检验(单尾和双尾)均值总体参数比例方差方差分析什么是方差分析(ANOVA)?
(analysisofvariance)
检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响
一个或多个分类型自变量一个数值型因变量有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量方差分析的基本思想和原理
(两类误差)组内误差(withingroups)因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差
组间误差(betweengroups)因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差问题的一般提法设因素有k个水平,每个水平的均值分别用
1,
2,,
k
表示要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:
1
2
…
k
H1:
1,
2,,
k
不全相等设
1为零售业被投诉次数的均值,
2为旅游业被投诉次数的均值,
3为航空公司被投诉次数的均值,
4为家电制造业被投诉次数的均值,提出的假设为H0:
1
2
3
4
H1:
1,
2,
3,
4
不全相等分析步骤提出假设构造检验统计量统计决策单因素方差分析表
(基本结构)误差来源平方和(SS)自由度(df)均方(MS)F值P值F临界值组间(因素影响)SSAk-1MSAMSAMSE组内(误差)SSEn-kMSE总和SSTn-1关系强度的测量
变量间关系的强度用自变量平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2,即其平方根R就可以用来测量两个变量之间的相关性方差分析中的多重比较
(multiplecomparisonprocedures)多重比较的步骤提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mi
mj(第i个总体的均值不等于第j个总体的均值)检验统计量:相关分析和回归分析相关分析及其假定相关分析要解决的问题变量之间是否存在关系?(散点图)如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?(相关系数)样本所反映的变量之间的关系能否代表总体变量之间的关系?(显著性检验)为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量相关系数
(计算公式)
样本相关系数的计算公式或化简为
总体相关系数的计算公式回归回归是计量经济学的主要工具回归是研究一个因变量对一个或多个自变量的依赖关系的过程,其用意在于通过后者的设定去估计或预测前者的均值(总体均值)。模型假定的简化
1)E()=0;(E(yi)=
xi)2)对于所有的i,Var()=
.3)是服从正态分布N(0,
)的.4)、(ij)是相互独立的.术语:这些假定意味着来自n个相互独立的同方差、但是期望不同的正态总体。最小二乘估计
(methodofleastsquares)德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数
使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小线性回归模型的检验分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性拟合优度检验显著性检验一元线性回归模型的检验判定系数(coefficientofdetermination)的取值范围:[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高。样本拟合优度可用下面的判定系数测度:判定系数等于相关系数的平方,即R2=r2估计标准误差
(standarderrorofestimate)对误差项
的标准差
的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小
计算公式为注:k为自变量的个数。方差的一个无偏估计。即E(s2)=
显著性检验显著性检验包括对各回归系数的检验对整个回归方程的检验
整个回归方程的显著性检验主要是要考察所选择的变量是否从总体上对被解释变量起线性作用,即各解释变量前的参数是否不全为零。
因此,整个线性关系的检验是通过如下F检验进行的整个回归方程的显著性检验其中,k表示模型中自变量的个数,n为样本容量。回归系数的检验
(检验步骤)提出假设H0:b1=0H1:b1
0计算检验的统计量确定显著性水平
,并进行决策
t>t
,拒绝H0;t<t
,不拒绝H0残差分析解决的问题是线性关系吗?对误差项作的假定适合吗?1)等方差;2)相互独立;3)正态分布;哪些数据属于异常值?哪些观测属于对回归模型有很大影响的?异常值
(outlier)如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型如果完全是由于随机因素而造成的异常值,则应该保留该数据在处理异常值时,若一个异常值是一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年西藏自治区那曲市初二学业水平地理生物会考真题试卷(+答案)
- 2026年新闻发稿公司TOP10权威测评:传声港凭什么以98.5分领跑行业
- 2026年企业员工竞业禁止协议范本
- 2026年版劳动合同解除流程及范本
- 新政下劳动合同变更范本及要点
- 2026年机关思想作风建设的调研报告(2篇)
- 2025年草原那达慕·鄂尔多斯草原文化节
- 外科护理环境管理
- 妊娠剧吐的药物治疗与观察
- 2026年广西南宁市高考语文三模试卷
- 土石方工程施工质量管理制度
- 银行医保业务营销方案
- 年产160吨芬布芬工艺设计
- 2024年通用技术国际新设二级子企业招聘笔试参考题库含答案解析
- 朗格汉斯细胞组织细胞增生症课件
- 电力安全事故应急处置与调查处理条例
- 广西蔗糖行业现状分析
- 药房药品安全管理月检查表
- 中职英语3基础模块(高教版)教案:Unit2-Community-Life(全6课时)
- 新生儿气道及呼吸机管路护理PPT
- GB/T 10561-2023钢中非金属夹杂物含量的测定标准评级图显微检验法
评论
0/150
提交评论