




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学StatisticsforBusinessandEconomics 什么是统计学 不列颠百科全书统计学是一门收集 分析 表述和解释数据的科学 统计学的特点 以归纳为主要思维方式的统计不是以演绎为主的数学 从整体观念出发 研究大量普遍存在的整体特征 说明事物的规律性 研究客观事物数量方面的方法论科学 统计学的分科 统计学的分科 总体 个体和样本 总体 population 所研究对象的全体 分为有限总体和无限总体有限总体的范围能够明确确定 且元素的数目是有限的无限总体所包括的元素是无限的 不可数的个体 individual 或总体单位 组成总体的元素 样本 sample 从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量 参数 parameter 描述总体特征的概括性数字度量 是研究者想要了解的总体的某种特征值只要总体不发生改变 总体参数不会改变总体参数通常用希腊字母表示统计量 statistic 用来描述样本特征的概括性数字度量 它是根据样本数据计算出来的一些量 是样本的函数大小取决于所抽取的样本样本统计量通常用小写英文字母表示 参数和统计量 平均数标准差比例 统计数据是对客观现象计量的结果 数据的计量尺度 一 数据的计量尺度 由低级到高级分为四个层次 二 抽样调查 从调查对象的总体中随机抽取一部分单位作为样本进行调查 并根据样本调查结果推断总体数量特征 抽样方法 简单随机抽样 分层抽样 整群抽样 系统抽样 多阶段抽样 概率抽样 非概率抽样 抽样方式 误差 抽样误差由抽样随机性造成 只存在于概率抽样中 样本的特征不一定和总体完全一样 这种差异不是错误而是必然会出现 非抽样误差覆盖误差 被调查总体范围被人为减小无响应误差 调查回收率太低响应误差 没有反映真实观点 理解有误 有意欺瞒 道德误差 调查人员缺乏业务培训或职业道德测量误差 测量工具不准确 一个样本可以得到总体参数的一个点估计 该点估计值与总体参数真值之间的差异 即为抽样误差 一 实际抽样误差 抽样误差 SamplingError 二 抽样极限误差 一定概率下抽样误差的可能范围 也称允许误差 误差幅度 统计数据的收集方法 1 访问调查 派员调查 调查者与被调查者通过面对面的交谈获取调查资料 2 邮寄调查 通过邮寄或其他方式将问卷送至被调查者 由被调查者填写问卷并寄回或投放到指定收集点 3 电话调查 调查者利用电话同受访者进行语言交流以获取信息 4 座谈会 集体访谈 将受访者集中在调查现场 使其对调查主题发表意见以获取调查资料 5 个别深度访问 一次只有一名受访者参加的特殊的定性研究 调查方案设计 1 确定调查目的Why 2 确定调查对象和调查单位Who 3 拟订调查项目和调查表What 调查项目要少而精 调查项目含义要明确 尽可能做到各个调查项目之间有一定的联系 4 确定调查时间和期限When 调查时间是指调查资料所属的时间 时点或时期 调查期限是指调查工作的起讫时间 5 编制调查的组织计划How 第三章描述性统计 数据的图表展示 第四章描述性统计II 数值描述 数据分布的特征 集中趋势的度量 位置平均数 集中趋势的度量 离散程度的度量 变异度 异众比率极差四分位差方差和标准差离散系数 偏态 峰态 偏态与峰态分布的形状 推断统计 统计量和估计值 样本的 不包含未知总体参数的 函数称为统计量 统计量是随机变量 并有其分布 如果样本已经得到 把数据带入之后 统计量就有了一个数值 称为该统计量的一个实现 realization 或取值 也称为一个估计值 estimate 三种不同性质的分布 总体分布样本分布抽样分布 一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时 样本分布逐渐接近总体的分布 样本分布 sampledistribution 样本统计量的概率分布 是一种理论分布在重复选取容量为n的样本时 由该统计量的所有可能取值形成的相对频数分布样本统计量是随机变量样本均值 样本比例 样本方差等结果来自容量相同的所有可能样本 抽样分布 samplingdistribution 考察样本均值的概率分布形式 分两种况 1 总体分布已知且为正态分布 2 总体分布未知 1 当总体分布已知且为正态分布或接近正态分布时 则无论样本容量大小如何 样本均值都为正态分布 样本均值的抽样分布 当总体服从正态分布N 2 时 来自该总体的所有容量为n的样本的均值 x也服从正态分布 x的数学期望为 方差为 2 n 即 x N 2 n 2 当总体分布未知时 需要用到中心极限定理 CentrallimitTheorem 经验上验证 当样本容量等于或大于30时 无论总体的分布如何 样本均值的分布则非常接近正态分布 因此统计上常称容量在30 含30 以上的样本为大样本 large sample size 抽样分布与总体分布的关系 总体分布 正态分布 非正态分布 大样本 小样本 样本均值正态分布 样本均值正态分布 样本均值非正态分布 样本方差的分布 在重复选取容量为n的样本时 由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本 则比值的抽样分布服从自由度为 n 1 的 2分布 即 3 比例的抽样分布 1 期望值 有限总体 无限总体 2 标准差 3 样本比例抽样分布的形状 Formofthesamplingdistributionofp 根据中心极限定理有 当样本容量增大时 大样本 样本比例抽样分布趋向于以样本期望值为中心 以样本方差为方差的正态分布 区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围 区间估计 IntervalEstimation 抽样极限误差 一定概率下抽样误差的可能范围 也称允许误差 误差幅度 置信区间的一般形式 点估计 临界值 标准误差 临界值 根据置信水平和抽样分布确定标准误差 根据抽样分布确定 将构造置信区间的步骤重复很多次 置信区间包含总体参数真值的次数所占的比例称为置信水平表示为 1 为是总体参数未在区间内的比例 常用的置信水平值有99 95 90 相应的 为0 01 0 05 0 10 置信水平 置信度 confidencelevel 置信区间 95 的置信区间 重复构造出 的20个置信区间 点估计值 样本容量的确定 估计总体均值时样本容量的确定 估计总体均值时样本容量n为样本容量n与总体方差 2 边际误差E 可靠性系数Z或t之间的关系为与总体方差成正比与误差幅度的平方成反比与置信水平成正比样本容量的圆整法则 当计算出的样本容量不是整数时 将小数点后面的数值一律进位成整数 如24 68取25 24 32也取25等等 定义 误差幅度 边际误差 E 根据比例区间估计公式可得样本容量n为 估计总体比例时样本容量的确定 未知时 可以选取试验样本估计总体比例 也可取使方差最大值p 0 5 此时波动性p 1 p 达到最大 可确保样本量满足要求 如果抽样水平超过了承受能力 只能牺牲置信水平或增加误差幅度E 其中 假设检验 什么是假设检验 hypothesistest 先对总体的参数 或分布形式 提出某种假设 然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法 统计上依据小概率原理 假设检验的基本思想 因此我们拒绝假设 50 样本均值 m 50 抽样分布 H0 假设检验中的两类错误 1 第 类错误 弃真错误 原假设为正确时拒绝原假设第 类错误的概率记为 被称为显著性水平2 第 类错误 取伪错误 原假设为错误时未拒绝原假设第 类错误的概率记为 Beta 显著性水平 significantlevel 1 是一个概率值2 原假设为真时 拒绝原假设的概率抽样分布的拒绝域3 表示为 alpha 常用的 值有0 01 0 05 0 104 由研究者事先确定 假设检验需要借助样本统计量进行统计推断 称为检验统计量 标准化结果原假设H0为真点估计量的抽样分布 检验统计量 teststatistic 标准化的检验统计量 决策规则 给定显著性水平 查表得出相应的临界值z 或z 2 t 或t 2将检验统计量的值与 水平的临界值进行比较作出决策双侧检验 I统计量I 临界值 拒绝H0左侧检验 统计量临界值 拒绝H0 一个总体参数的检验 方差分析 什么是方差分析 ANOVA analysisofvariance 检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响一个或多个分类型自变量一个数值型因变量有单因素方差分析和双因素方差分析单因素方差分析 涉及一个分类的自变量双因素方差分析 涉及两个分类的自变量 方差分析的基本思想和原理 两类误差 组内误差 withingroups 因素的同一水平 总体 下 样本各观察值之间的差异比如 同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响 称为随机误差组间误差 betweengroups 因素的不同水平 不同总体 之间观察值的差异比如 不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的 也可能是由于行业本身所造成的 后者所形成的误差是由系统性因素造成的 称为系统误差 问题的一般提法 设因素有k个水平 每个水平的均值分别用 1 2 k表示要检验k个水平 总体 的均值是否相等 需要提出如下假设 H0 1 2 kH1 1 2 k不全相等设 1为零售业被投诉次数的均值 2为旅游业被投诉次数的均值 3为航空公司被投诉次数的均值 4为家电制造业被投诉次数的均值 提出的假设为H0 1 2 3 4H1 1 2 3 4不全相等 分析步骤提出假设构造检验统计量统计决策 单因素方差分析表 基本结构 关系强度的测量 变量间关系的强度用自变量平方和 SSA 占总平方和 SST 的比例大小来反映自变量平方和占总平方和的比例记为R2 即其平方根R就可以用来测量两个变量之间的相关性 方差分析中的多重比较 multiplecomparisonprocedures 多重比较的步骤 提出假设H0 mi mj 第i个总体的均值等于第j个总体的均值 H1 mi mj 第i个总体的均值不等于第j个总体的均值 检验统计量 相关分析和回归分析 相关分析及其假定 相关分析要解决的问题变量之间是否存在关系 散点图 如果存在关系 它们之间是什么样的关系 变量之间的关系强度如何 相关系数 样本所反映的变量之间的关系能否代表总体变量之间的关系 显著性检验 为解决这些问题 在进行相关分析时 对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量 相关系数 计算公式 样本相关系数的计算公式 或化简为 总体相关系数的计算公式 回归 回归是计量经济学的主要工具回归是研究一个因变量对一个或多个自变量的依赖关系的过程 其用意在于通过后者的设定去估计或预测前者的均值 总体均值 模型假定的简化 1 E 0 E yi xi 2 对于所有的i Var 3 是服从正态分布N 0 的 4 i j 是相互独立的 术语 这些假定意味着来自n个相互独立的同方差 但是期望不同的正态总体 最小二乘估计 methodofleastsquares 德国科学家KarlGauss 1777 1855 提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法 即 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 线性回归模型的检验分二大类 统计检验 计量经济检验 从统计学的角度检验所估计的样本回归函数的有效性 拟合优度检验 显著性检验 一元线性回归模型的检验 判定系数 coefficientofdetermination 的取值范围 0 1 越接近1 说明实际观测点离样本线越近 拟合优度越高 样本拟合优度可用下面的判定系数测度 判定系数等于相关系数的平方 即R2 r2 估计标准误差 standarderrorofestimate 对误差项 的标准差 的估计 是在排除了x对y的线性影响后 y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小计算公式为 注 k为自变量的个数 方差 的一个无偏估计 即E s2 显著性检验 显著性检验包括 对各回归系数的检验 对整个回归方程的检验 整个回归方程的显著性检验主要是要考察所选择的变量是否从总体上对被解释变量起线性作用 即各解释变量前的参数是否不全为零 因此 整个线性关系的检验是通过如下F检验进行的 整个回归方程的显著性检验 其中 k表示模型中自变量的个数 n为样本容量 回归系数的检验 检验步骤 提出假设H0 b1 0H1 b1 0计算检验的统计量 确定显著性水平 并进行决策 t t 拒绝H0 t t 不拒绝H0 残差分析解决的问题 是线性关系吗 对误差项作的假定适合吗 1 等方差 2 相互独立 3 正态分布 哪些数据属于异常值 哪些观测属于对回归模型有很大影响的 异常值 outlier 如果某一个点与其他点所呈现的趋势不相吻合 这个点就有可能是异常点 或称为野点如果异常值是一个错误的数据 比如记录错误造成的 应该修正该数据 以便改善回归的效果如果是由于模型的假定不合理 使得标准化残差偏大 应该考虑采用其他形式的模型 比如非线性模型如果完全是由于随机因素而造成的异常值 则应该保留该数据在处理异常值时 若一个异常值是一个有效的观测值 不应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市合伙人协议Ucar6篇
- 2025年智能家居行业智能家居技术应用前景分析研究报告
- 2025年汽车行业智能驾驶技术发展前景分析报告
- 2025年智能机器人行业新产品应用与市场前景研究报告
- 2025年物联网行业发展前景及创新应用研究报告
- 2025年通讯行业5G技术应用与发展前景研究报告
- 商场供暖期安全应急培训课件
- 宁波市2025年浙江宁波慈溪市招引高层次和紧缺人才15名笔试历年参考题库附带答案详解
- 吉林省2025年吉林省省直事业单位招聘工作人员5号(65人)笔试历年参考题库附带答案详解
- 南宁市2025广西南宁市隆安县招聘乡镇残疾人专职委员1人笔试历年参考题库附带答案详解
- 2025年驾驶员安全培训考试试题库卷(答案+解析)
- 无人机培训课件
- 2025辽宁沈阳副食集团所属企业招聘3人考试参考题库及答案解析
- 储罐区的安全题库及答案解析
- 交大入党测试题及答案
- 培训如何开早会的课件
- 2025年河北沧州市中心医院、沧州博施康养集团公开招聘辅助岗工作人员113名考试参考试题及答案解析
- 消防员抗洪抢险知识培训课件
- 历年时事政治试题及答案
- 2025年法考真题及答案
- 摄像基础培训课件
评论
0/150
提交评论