《统计学》完整袁卫-贾俊平.ppt_第1页
《统计学》完整袁卫-贾俊平.ppt_第2页
《统计学》完整袁卫-贾俊平.ppt_第3页
《统计学》完整袁卫-贾俊平.ppt_第4页
《统计学》完整袁卫-贾俊平.ppt_第5页
已阅读5页,还剩223页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学 第一章统计和统计数据的收集第二章统计数据的整理和展示第三章数据的描述性分析第四章概率基础第五章区间估计和假设检验第六章相关与回归分析第七章非参数统计第八章时间数列分析第九章指数 结束 第一章统计和统计数据的收集 一 什么是统计二 数据三 搜集数据的组织方式四 有关数据调查的几个问题 主要内容 目录 一 什么是统计 一 统计包含三种涵义 两重关系 1 统计工作 对统计数据进行搜集 整理和分析的过程 2 统计数据 统计工作所产生的成果 用以描述我们所研究现象的属性和特征 如统计图表 统计分析报告等 3 统计学 一门研究总体数量特征的方法论科学 统计工作统计资料统计学 工作与工作成果关系 实践与理论关系 二 四个重要的术语 所研究的具有某些相同性质的全部单位或事件的整体 总体 无限总体 含无限多个单位 范围 有限总体 含有限个单位 样本 亦可称为抽样总体 是从总体中抽取部分单位所组成的整体 用以分析总体 参数 亦可称为总体指标 是综合测量的整个总体的某个数量特征 统计量 亦可称为样本指标 是根据样本数据计算的综合测量值 可用以反映或估计 推断总体的某个数量特征 三 统计学的内容 1 描述统计 关于搜集 展示一批数据 并反映这批数据特征的各种方法 其目的是为了正确地反映总体的数量特点 2 推断统计 根据样本统计量估计和推断总体参数的技术和方法 描述统计是推断统计的前提 推断统计是描述统计的发展 二 数据 一 为何需要数据 统计学要研究各种随机变量 通过对这些随机变量的观察所获取的数据包含了我们所需的信息 这些信息能有助于我们在许多场合中做出更为正确的决策 例如 市场研究者需要对产品的特性进行评估 以区分不同的产品 药品制造厂商需要判别一种新药是否比现在正使用着的药更有效 审计人员想通过查看某家公司的财务报表 以确认这家公司是否是依据了通行的会计准则做报表 财务金融分析人员想判断在未来的五年中 哪些行业中的哪些公司最具有成长性 经济学家想估计我国国内生产总值今年的增长速度 生产部门的经理按惯例要检查生产过程 以检验其生产的产品质量是否符合公司的标准 二 数据分类的原则 互斥原则 每一个数据只能划归到某一类型中 而不能既是这一类 又是那一类 穷尽原则 所有被观察的数据都可被归属到适当的类型中 没有一个数据无从归属 三 数据的类型 1 定性数据和定量数据 定性数据 用文字描述的 如在本章的 统计引例 中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据 定量数据 用数字描述的 如企业的净资产额 净利润额等 2 离散型数据和连续型数据 变量 若我们所研究现象的属性和特征的具体表现在不同时间 不同空间或不同单位之间可取不同的数值 则可称这种数据为变量 类型 离散型变量 数据只能取整数 如一家公司的职工人数 连续型变量的数据可以取介于两个数值之间的任意数值 如销售额 经济增长率等 3 数据的四个等级 定类数据 例如 对人口按性别划分为男性和女性两类 也称定名数据 这种数据只对事物的某种属性和类别进行具体的定性描述 能够进行的唯一运算是计数 即计算每一个类型的频数或频率 即比重 定类数据 例如 对企业按经营管理的水平和取得的效益划分为一级企业 二级企业等 定序数据 也称序列数据 是对事物所具有的属性顺序进行描述 定距数据 如10 20 等 它不仅有明确的高低之分 而且可以计算差距 如20 比10 高10 比5 高15 等 也称间距数据 是比定序数据的描述功能更好一些的定量数据 定距测定的量可以进行加或减的运算 但却不能进行乘或除的运算 定比数据 如产量 产值 固定资产投资额 居民货币收入和支出 银行存款余额等 也称比率数据 是比定距数据更高一级的定量数据 它不仅可以进行加减运算 而且还可以作乘除运算 测定层次 特征 运算功能 举例 1 定类测定2 定序测定3 定距测定4 定比测定 分类分类 排序分类 排序 有基本测量单位分类 排序 有基本测量单位 有绝对零点 计数计数 排序计数 排序 加减计数 排序 加减乘除 产业分类企业等级温度商品销售额 统计数据四个层次的概括 4 截面数据和时间序列数据 截面数据 所搜集的不同单位在同一时间的数据 例如 所有上市公司公布的2004年年度的净利润 时间序列数据 所搜集的同一总体或单位在不同时间的数据 某公司公布的1993年到2004年的年度净利润就是时间序列数据 5 原始数据和次级数据 原始数据 指直接从各个调查单位搜集的 尚未经过整理的统计数据资料 也称一手数据 次级数据 指那些已经加工整理过的 往往是公开发表的数据 也称二手数据 如从报纸杂志 统计年鉴 会计报表上取得的数据 四 数据的来源 1 从政府机构 各种行业组织 公司和企业所公布的数据中获取 就是把政府机构 各种组织和公司所公布的数据作为来源 这种数据往往是次级数据 2 设计一次试验以获取必要的数据 例如 在检验洗衣机洗净程度的研究中 研究人员通过实际洗涤脏衣服 来研究哪种牌子的洗衣机效果最佳 3 从观察研究中获取 研究人员通常是在自然状态下 进行直接的观察 例如 观察路口的交通流量 观察顾客在商场的购买行为和观察流水线上的产品质量等 4 进行一次调查 它对所调查人们的行为不进行任何控制 仅提出诸如出生年月 爱好 消费习惯 对某一事件的看法和其他特征方面的问题 然后对他们回答的结果进行整理 编码 列表和分析 调查方案的主要内容 确定调查目的 确定调查对象和调查单位 拟订调查提纲 确定调查时间 编制调查的组织计划 三 数据搜集的组织方式 一 普查 抽样 统计报表制度和重点调查 1 普查 特点 工作量大 时间性强 需要大量人力和财力 任务 搜集重要的国情国力和资源状况的全面资料 为政府制定规划 方针政策提供依据 方式 建立专门机构 配备专门人员调查 利用基层单位原始记录和核算资料进行调查 原则 规定统一的标准时点 规定统一的普查期限 规定统一的调查的项目和指标 2 抽样调查 特点 1 按随机原则从总体中抽取样本 2 以样本指标 统计量 为依据推断总体参数或检验总体的某种假设 3 抽样误差可以事先计算并加以控制 3 统计报表制度 是按一定的表式和要求 自上而下统一布置 自下而上提供统计资料的一种统计调查方法 这种搜集统计数据方法是伴随着计划经济而产生的 并曾在我国占主导地位 现在 在社会主义市场经济条件下 仍是我国搜集统计数据的组织方式之一 4 重点调查 特点 在总体中选择个别或部分重点单位进行调查 任务 及时了解总体基本情况 为主管部门指导工作服务 方式 重点单位指在总体中有举足轻重地位的单位 其标志值在总体标志总量中占有绝大比重 经常性调查 同报表制度结合 用统计报表调查 例如 要了解全国钢铁生产的基本情况 只要调查鞍钢 宝钢 首钢 武钢 包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基本情况 二 抽样的优点 1 适用的范围广 对于有限总体 从理论上讲 既可以进行普查也可以进行抽样 对于无限总体 就只能进行抽样 若理论上可以而实际上很难采用全面普查的情况 也只能采用抽样 如产品质量的破坏性检验 居民住户调查等 2 与全面普查相比 抽样最大的优点是节省人 财 物力和时间 3 随机抽样可以比普查更为精确 三 抽样的类型 非随机抽样 随机抽样 判断抽样 定额抽样 方便抽样 简单随机抽样 抽样类型 系统抽样 分层抽样 整群抽样 非随机抽样 又称为非概率抽样 是不按照随机原则来抽取样本中的单位或个体 特点 具有方便 快速和低成本 精确性差 结论缺乏普遍性 判断抽样 又称为典型调查 是从事有关工作的专家按照一定的标准有意识地在总体中选择若干有代表性的单位组成样本进行调查 代表单位的选取标准应根据统计研究的目的而定 定额抽样 是根据已定的单位数抽取样本 往往是对总体了解甚少的时采用 如想获取某地区化妆品的销售情况 对该地区的5家商厦进行调查 方便抽样 是为了取样方便 随意地抽取样本单位 街头偶遇式调查就是一种最为常见的方便抽样 随机抽样 是根据随机原则来抽取样本单位 简单随机抽样 方法 在抽样框中的每个单位都具有相同的被抽中的机会 每个容量相同的样本被抽中的机会也是相同的 亦称为纯随机抽样 抽取样本的方法 有放回抽样和无放回抽样 适合 总体内部差异不是很大 规模也不大的情况 系统抽样 方法 抽样框中的N个单位被分成k个系统 k等于抽样框的容量N除以所需的样本容量n 在抽样框中前面的k个个体或单位中随机抽出第一个样本单位 然后 可在其后的每隔k个单位抽取样本中其余的部分 亦可称为等距抽样 编号有两种方法 一种是利用原有的顺序或编号 如学生的注册名单 或者是从生产流水线上下来的 有编号的产品等 对所研究的总体已有所了解 则可用已知的相关变量对抽样框中的单位进行编号 分层抽样 亦可称为类型抽样 方法 将总体全部单位分类 形成若干个类型组 后从各类型中分别抽取样本单位 合成样本 总体N 样本n 等额 等比例 最优 整群抽样 方法 首先把总体中的N个单位划分成为若干个群 并要求每个群对整个总体都具有代表性 然后对群进行简单随机抽样 并对抽中群内的所有单位进行调查研究 总体群数R 16样本群数r 4样本容量 A B C D E F G H I J K L M N O P L H P D 适合 比简单随机抽样的方法能节约更多的成本 特别当总体的分布地域非常辽阔时 四 有关数据调查的几个问题 调查的目的 判断调查误差的大小 调查误差 登记性误差 代表性误差 系统性的代表性误差 登记 汇总 过录时产生的误差 以及无回答误差和测量误差等 偶然性的代表性误差即为抽样误差 调查中的道德性问题 1 调查者别有用意地 有意识地选择导向性的问题 使回答者出现有倾向性的回答 2 询问者有意识地通过语气 语调引导被询问者出现有倾向性的回答 3 回答者不重视或不愿意回答调查的内容 就很可能提供错误的信息 第二章统计数据的整理和展示 统计数据的整理 目录 统计数据的展示 排序 统计分组 频数分布编制 统计表 统计图 一 统计数据的整理 排序 统计搜集到的大量资料是分散的 不系统的 只能说明各个单位的特征和属性 必须按照科学的原则加以整理 使之条理化和系统化 成为便于储存和传递的 反映总体特征的数据 就是把定量数据按从大到小或从小到大的顺序排列 把定性数据按习惯的文字顺序排列 便于我们研究其条理 统计分组 对于定性数据就是依据属性的不同将数据划分成若干组 对于定量数据就是依据属性数值的不同将数据划分成若干组 组内同质性 组间差异性 频数分布编制 分组的关键 变量的选择 选择与研究的问题有关的变量 组限的确定 应遵循穷尽和互斥原则 定性数列编制 组限的确定一般比较简单 如人口按性别分组 企业按所有制分组等 定量变量编制 分为单项数列和组距数列两种形式 单项数列 即变量的一个取值为一组 适用于离散型变量 并且变量的取值较少 组距数列 即每一组有一个上限值和一个下限值所形成的区间 适用于连续性变量 或离散型变量且变量的取值较多的情况 注意以下三个方面的问题 1 确定组数 2 确定组距 组距为上限与下限之差 等距数列 数据分布均匀 异距数列 数据分布不均匀 3 确定组限 应能把现象的不同类型划分出来 要考虑到数据是连续性变量还是离散型变量 无法确定实际数据的取值范围 或者数据中存在极端数值 可采用开口组的形式 4 确定组中值 上限 下限 2 开口组 二 统计数据的展示 当统计数据比较多时 就应该制作表格或者图形进行来展示 使数据的重要特性能从表格或者图形中直观地反映出来 这样可提高分析数据和解释数据的效率 统计表 是把统计数据用表格的形式展示出来 类型 按作用分 调查表 按数据所属的时间分 截面数据表时间序列表 汇总整理表 计算分析表 按分组变量的多少分 单变量分组表多变量分组表 有平行形式交叉形式 统计图 统计图形通常可比统计表格更生动地描述数据 类型 饼图是以整个圆的360度代表全部数据的总和 按照各类组所占的百分比 频率 把一个 饼 切割为各个扇形 适用于定性数据 50家门店按区域分组的饼图 条形图中 每一分类组表示成一个条 条的长度代表了这个组中所含数据的频数或频率 适用于定性数据 50家门店数按区域分组的条形图 家门店按区域并按人数分组的分段比例条形图 直方图与条形图相似 是在每个分组区间上绘制一个长条形而产生的图形 它可以用来描述已表示成频数或频率的数据 适用于定量数据 根据表2 5的等距数列 对于异距数列 以组距为宽 以频数密度为高来绘制直方图 折线图可以在直方图基础上 将每个长方形的顶端中点用折线连接而成 或用组中值与频数 或频率 求坐标点连接而成 根据图2 6的直方图绘制的折线图 曲线图当变量的取值非常多 变量数列的组数无限增多时 折线便趋于一条平滑的曲线 这是一种概括描述变量数列分布特征的理论曲线 枝叶图是探索性数据分析中的一种方法 也是对一批数据进行组织整理的很有价值的一个工具 可用以了解一批数据中由所有观测值构成的数据的取值范围是如何分布的 第三章数据的描述性分析 本章将讨论的是数据的总量和相对关系的测度 数据的集中趋势 离散趋势及其形态的测度 一 绝对数和相对数二 集中趋势的测定三 离散趋势的测定四 数据的形态测定 主要内容 一 绝对数和相对数 一 绝对数 绝对数 亦称总量指标 是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标 3 是计算相对指标和平均指标的基础 作用 概念 例如 企业的销售收入 一个地区或国家的社会总产值 国内生产总值等 1 反映一个国家的国情和国力 一个地区或一个企业的人力 物力 财力 2 是进行经济核算和经济活动分析的基础 分类 按反映总体的内容分 按反映的时间状态分 按计量单位分 变量总值单位总数 时期数时点数 实物量价值量 相对数是用两个有联系的指标进行对比的比值 可以反映现象的数量特征和数量关系 并可将现象的绝对差异抽象化 使原来不能直接相比的绝对数可以进行比较 种类 计划完成相对数 结构相对数 比较相对数 强度相对数 动态相对数 二 相对数 概念 五种相对数指标的比较 不同时期比较 动态相对数注 又称发展速度 强度相对数注 复名数有正逆指标 不同现象比较 不同总体比较 比较相对数 同一总体中 部分与总体比较 实际与计划比较 结构相对数 计划完成相对数注 有正逆指标 同一时期比较 同类现象比较 1 正确选择对比的基数 2 必须注意统计的可比性 3 相对指标要与总量指标相结合 应用原则 二 集中趋势的测定 平均数 概念 表明同类现象在一定时间 地点 条件下所达到的一般水平 是总体内某个变量大小各异的观察值的代表性数值 也是对变量分布集中趋势的测定 数据集中区 变量x 常用的几种平均数 概念计算公式特点 优点 容易理 便于计算 灵敏度高 稳定性好 和缺点 易受极值影响 在偏斜分布和U形分布中 不具有代表性 1 算术平均数 一个变量的所有观察值相加 再除以观察值的个数 简单 加权 权数解释 权数 Weighted 是分布数列中的频数或频率 对求平均数具有权衡轻重的作用 是影响平均数变动的两个因素之一 另一因素是变量值 1 2 3 X 4 5 6 合计 频数 频率 10 20 10 25 0 50 0 25 0 40 100 0 X 4 5 6 合计 频数 频率 20 40 20 25 0 50 0 25 0 80 100 0 X 4 5 6 合计 频数 频率 20 10 10 50 0 25 0 25 0 80 100 0 5 5 4 75 频率分布变了 均值也变 因此 严格地说 权数应指频率 算术平均数的变形 数学上称其为调和平均数 只是用这种形式时 变量的取值不能为0 求某种商品三种零售价格的平均价格 调和平均 价格 元 3 3 2 5 2 0 合计 销售额 元 10 10 10 30 常用的几种平均数 概念计算公式特点 优点 灵敏度高 受极值影响小于和 适宜于各比率之积为总比率的变量求平均缺点 有 0 或负值时不能计算 偶数项数列只能用正根 2 几何平均数 几个变量值连乘积的n次根 简单 加权 概念计算公式特点 3 中位数 Me 是一种位置平均数 数据按大小顺序排列 处于数据序列中间位置的数值就是中位数 上限公式 下限公式 优点 容易理解 不受极值影响 适宜于开口组资料和些不能用数字测定的事物缺点 灵敏度和计算功能差 间断数Me 常用的几种平均数 常用的几种平均数 概念计算公式特点 4 众数 Mo 是一种位置平均数 是一批数据中出现次数最多的那个数值 通常只用于定性数据或离散型的定量数据 上限公式 下限公式 优点 容易理解 不受极值影响缺点 灵敏度和计算功能差 稳定性差 具有不唯一性 25 30 35 40 45 50 5 10 15 f 人数 月收入 元 36 11 d1 d2 55 位置平均数与算术平均数的关系 1 众数适用于所有的定性数据和定量数据中位数适用于定性数据中的定序数据和定量数据算术平均数只适用于定量数据 2 定量数据 若是钟形分布 三种集中趋势指标一般都可适用 而对J形分布 反J形分布和U形分布 中位数和算术平均数没有任何意义 3 在确定集中趋势指标的过程中 算术平均数比中位数和众数使用了更多的数据信息 4 对于钟形分布且数据量很大时 三种集中趋势指标有如下三种数量关系 X f X f X f 对称分布 正偏态分布 右 负偏态分布 左 1 2 1 2 应用平均指标的原则 1 必须是同质的量方可平均 2 总平均数与组平均数结合分析 3 集中趋势与离散趋势结合分析 三 离散趋势的测定 概念 标志变异指标是反映变量分布离散趋势 与平均指标相匹配的指标 1 反映变量分布的离散趋势 3 是对事物发展均衡性的量度 2 是对平均数的代表性程度的量度 作用 常用的几种标志变异指标 概念计算方法特点 是非众数组所占比重 1 异众比率 如百得便利超市公司50家门店按区域划分的众数是A区域 该组的次数是20家 所以异众比率为60 这说明50家门店按区域划分的离散程度比较大 众数的代表性较差 异众比率是反映定名数据离散趋势的唯一指标 这个指标越小 说明数据的离散程度越小 集中程度越大 常用的几种标志变异指标 概念计算特点 数列中最大值与最小值之差 2 极差 R R 最大值 最小值R 最大组的上限 最小组的下限 优点 容易理解 计算方便缺点 不能反映全部数据分布状况 3 四分位差 M3 M1 2 在反映数据的离散程度方面比全距较为准确 但仍显粗略 是一批数据中的第三四分位数与第一四分位数之差的二分之一 常用的几种标志变异指标 概念计算特点 4 平均差 AD 各标志值与均值离差绝对值的算术平均 简单 加权 优点 反映全部数据分布状况缺点 取绝对值数字上不尽合理 所有观察值与平均数离差平方平均数的平方根 亦称均方差 标准差的平方即为方差 5 方差 2s2 和标准差 s 优点 反映全部数据分布状况 数字上合理 缺点 受计量单位和平均水平影响 不便于比较 简单 加权 概念计算特点 6 标准差系数 V 标准差与均值之商 是无量纲的 两列数据的分布进行离散程度的比较 当它们的平均数不等 计量单位不同时则应消除平均数不同和计量单位不可比的影响 此时就需要用离散系数这种相对数来是测定离散趋势 方差 2 和标准差 是应用最广的标志变异指标 常用的几种标志变异指标 四 数据的形态测定 偏度 是测定数据分布的偏斜程度的指标 定义M X A k n为变量X关于A的k阶矩 当A 0 即以原点为中心 上式称为 K阶原点矩 K 1 2 3时 有 一阶原点矩M1 X 0 1 n X n二阶原点矩M2 X 0 2 n X2 n三阶原点矩M3 X 0 3 n X3 n 当A 即以为中心 上式称为 K阶中心矩 K 1 2 3时 有 一阶中心矩二阶中心矩三阶中心矩 所以 m3可以测定偏度 为消除量纲 转变为系数 再除以 3 0正偏态 峰度 是用来反映数据分布曲线顶端的尖峭或扁平程度的指标 3尖顶曲线 注 在EXCL等软件中输出的峰度是在此基础上再减3 五数概括 即最小值xmin 最大值xmax 第一四分位数M1 中位数Me和第三四分位数M3 五个数之间的关系 确定数据分布形态的方法 数据是完全对称 数据是不对称 最小值xmin到中位数的距离等于中位数到最大值xmax的距离 从xmin到M1的距离等于M3到xmax的距离 从xmax到中位数的距离大于中位数到xmin的距离 从M3到xmax的距离大于从从xmin到M1的距离 右偏分布 从xmin到中位数的距离大于中位数到xmax的距离 从xmin到M1的距离大于M3到xmax的距离 左偏分布 箱线图 是基于五数概括的图示方式 使得集中趋势 离散趋势和偏态更为直观 第五章参数估计和假设检验 推断统计 利用样本统计量对总体某些性质或数量特征进行推断 随机原则 总体 样本 总体参数 统计量 推断估计 参数估计 检验 假设检验 抽样分布 抽样分布 简单随机抽样和简单随机样本的性质 无限总体 有限总体 不放回 放回 样本 样本 放回 不放回 样本 样本 独立性和同一性 同一性 当n N 5 时 有限总体不放回抽样等同于放回抽样 无限总体 统计量与抽样分布 统计量 即样本指标 样本均值 样本成数 样本方差 如 抽样分布 某一统计量所有可能的样本的取值形成的分布 性质 数字特征 0 P Xi 1 P Xi 1 均值E X 方差E x E x 2 方差的平方根即抽样分布的标准差就是推断的 抽样误差 样本均值的抽样分布 简称均值的分布 抽样 总体 样本 均值 X N 均值 Xi N x n 样本均值是样本的函数 故样本均值是一个统计量 统计量是一个随机变量 样本均值的概率分布称为 样本均值的抽样分布 均值分布的数学期望和方差 抽样方法均值方差标准差 1 从无限总体抽样和有限总体放回抽样 2 从有限总体不放回抽样 抽样误差 抽样误差 从正态总体中抽样得到的均值的分布也服从正态分布 从非正态总体中抽样得到的均值的分布呢 中心极限定理 无论总体为何种分布 只要样本n足够大 n 30 均值 标准化为 z 变量 必定服从标准正态分布 均值 则服从正态分布 即 关于均值的抽样分布有如下的一些结论 1 对于多数总体分布来说 不论其形态如何 如果样本观察值超过30个 那么均值的抽样分布将近似于正态分布 2 如果总体分布是明显对称的 那么只要样本观察值超过15个 均值的抽样分布也近似于正态分布 3 如果总体是正态分布的 则不管样本大小如何 均值的抽样分布一定是正态分布的 两个样本均值之差的抽样分布 抽样 总体 样本 X1 N1 x1 n1 抽样 总体 样本 X2 N2 x2 n2 估计 1 如 2 如果两个总体都是非正态总体 只要n1 n2足够大 根据中心极限定理 可知 样本成数 即比例 的抽样分布 简称成数的分布 抽样 总体 样本 成数 X N 成数P Ni N x n 所有可能的样本的成数 所形成的分布 称为样本成数的抽样分布 成数分布的数学期望和方差 抽样方法均值方差标准差 1 从无限总体抽样和有限总体放回抽样 2 从有限总体不放回抽样 根据中心极限定理 只要样本足够大 的分布就近似正态分布 np和nq大于5时 抽样误差 抽样误差 两个样本成数之差的抽样分布 抽样 总体 样本 X1 N1 x1 n1 抽样 总体 样本 X2 N2 x2 n2 估计 当n1 n2都足够大时 样本成数都近似服从正态分布 两个样本成数之差 也近似服从正态分布 P1 P2 一个样本方差的抽样分布 抽样 总体 样本 若 从一个正态总体中抽样所得到的样本方差的分布 n S2 则 当 则 两个样本方差之比的抽样分布 抽样 总体 样本 从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布 n1 S12 则 抽样 总体 样本 n2 S22 参数估计 点估计 以样本指标直接估计总体参数 评价准则 的数学期望等于总体参数 即 该估计量称为无偏估计 无偏性 有效性 当为的无偏估计时 方差越小 无偏估计越有效 一致性 对于无限总体 如果对任意 则称 的一致估计 是 充分性 一个估计量如能完全地包含未知参数信息 即为充分量 估计量 点估计 常用的求点估计量的方法 1 数字特征法 当样本容量增大时 用样本的数字特征去估计总体的数字特征 例如 我们可以用样本平均数 或成数 和样本方差来估计总体的均值 或比率 和方差 2 顺序统计量法 如果把取得的样本观测值按大小排列起来 那么与排列位置有关的统计量就称为顺序统计量 常用的顺序统计量有样本中位数和极差 当总体服从正态分布时 用样本中位数来估计总体的数学期望 3 极大似然估计法 极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法 其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量 其理论依据就是概率最大的事件最可能出现 区间估计 估计未知参数所在的可能的区间 评价准则 随机区间 置信度 精确度 随机区间 包含 即可靠程度 越大越好 的概率 的平均长度 误差范围 越小越好 一般形式 或 总体参数 估计值 误差范围 一定倍数的抽样误差 例如 抽样误差 一定时 越大 概率 可靠性 大 随之增大 精确度就差 参数的区间估计 简单随机抽样 待估计参数 已知条件 置信区间 正态总体 2已知 正态总体 2未知 非正态总体 n 30 有限总体 n 30 不放回抽样 总体均值 未知时 用S 未知时 用S 两个正态总体 已知 两个正态总体 未知但相等 两个非正态总体 n1 n2 30 两个总体均值之差 1 2 简单随机抽样 待估计参数 已知条件 置信区间 无限总体 np和nq都大于5 总体成数 p 无限总体 n1p1 5 n1q1 5n2p2 5 n2q2 5 两个总体成数之差 P1 P2 有限总体 np和nq都大于5 有限总体 n1p1 5 n1q1 5n2p2 5 n2q2 5 简单随机抽样 待估计参数 已知条件 置信区间 正态总体 总体方差 两个正态总体 两个总体方差之比 样本数的确定 待估计参数 已知条件 样本数的确定 正态总体 2已知 总体均值 例 误差范围 简单随机抽样 有限总体 不放回抽样 2已知 总体成数 P 服从正态分布 有限总体 不放回抽样 假设检验 基本思想 检验规则 检验步骤 常见的假设检验 方差分析 基本思想 小概率原理 如果对总体的某种假设是真实的 那么不利于或不能支持这一假设的事件A 小概率事件 在一次试验中几乎不可能发生的 要是在一次试验中A竟然发生了 就有理由怀疑该假设的真实性 拒绝这一假设 总体 某种假设 抽样 样本 观察结果 检验 接受 拒绝 小概率事件未发生 小概率事件发生 假设的形式 H0 原假设 H1 备择假设 双侧检验 H0 0 H1 0 单侧检验 H0 0 H1 0H0 0 H1 0 假设检验就是根据样本观察结果对原假设 H0 进行检验 接受H0 就否定H1 拒绝H0 就接受H1 检验规则 确定检验规则 检验过程是比较样本观察结果与总体假设的差异 差异显著 超过了临界点 拒绝H0 反之 差异不显著 接受H0 差异 临界点 拒绝H0 接受H0 c c 判断 两类错误 接受或拒绝H0 都可能犯错误 I类错误 弃真错误 发生的概率为 II类错误 取伪错误 发生的概率为 检验决策H0为真H0非真 拒绝H0犯I类错误 正确 接受H0正确犯II类错误 怎样确定c 大 就小 小 就大 基本原则 力求在控制 前提下减少 显著性水平 取值 0 1 0 05 0 01 等 如果犯I类错误损失更大 为减少损失 值取小 如果犯II类错误损失更 值取大 确定 就确定了临界点c 设有总体 X N 2 2已知 随机抽样 样本均值 标准化 确定 值 查概率表 知临界值 计算Z值 作出判断 0 接受区 拒绝区 拒绝区 当检验判断为接受原假设H0时 就有可能犯取伪的错误即II类错误 确定犯第 类错误的概率 比较困难 具体计算可根据书上的例子 统计上把称为统计检验的势 它是原假设实际上是错误的应该被拒绝的概率 II类错误的概率 的计算 检验步骤 根据具体问题的要求 建立总体假设H0 H1 1 2 选择统计量确定H0为真时的抽样分布 3 给定显著性水平 当原假设H0为真时 求出临界值 计算检验统计量的数值与临界值比较 4 几种常见的假设检验 总体均值的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 0H1 0 z 2 H0 0H1 0 3 H0 0H1 z 0 z 0 正态总体 2已知 总体均值的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 0H1 0 t 2 H0 0H1 0 3 H0 0H1 t 0 t 0 0 正态总体 2未知 n 30 总体均值的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 0H1 0 z 2 H0 0H1 0 3 H0 0H1 z 0 z 0 0 非正态总体n 30 2已知或未知 两个总体均值之差的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 1 2H1 1 2 z 2 H0 1 2H1 1 2 3 H0 1 2H1 1 2 z 0 z 0 0 两个正态总体 已知 两个总体均值之差的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 1 2H1 1 2 t 2 H0 1 2H1 1 2 3 H0 1 2H1 1 2 t 0 t 0 0 两个正态总体 未知 但相等 两个总体均值之差的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 1 2H1 1 2 2 H0 1 2H1 1 2 3 H0 1 2H1 1 2 0 z 0 0 两个非正态体n1 30n2 30 已知或未知 z z 总体成数的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 P P0H1 P P0 z 2 H0 P P0H1 P P0 3 H0 P P0H1 P P0 z 0 z 0 0 np 5nq 5 两个总体成数之差的检验 条件 检验条件量 拒绝域 H0 H1 1 H0 P1 P2H1 P1 P2 z 2 H0 P1 P2H1 P1 P2 3 H0 P1 P2H1 P1 P2 z 0 z 0 0 n1p1 5n1q1 5n2p2 5n2q2 5 一个总体方差的检验 条件 检验条件量 拒绝域 H0 H1 总体服从正态分布 两个总体方差之比的检验 条件 检验条件量 拒绝域 H0 H1 总体服从正态分布 F F F 方差分析 一 问题的提出 同一原材料加工产品质量 产地 各组产品的质量是否有显著差异 随机原则 一个班级的学生 某门课程的成绩 专业分组 各组学生的成绩是否有显著差异 差异 随机误差 系统误差 随机原则 加以比较 若存在显著性差异 则说明该因素的影响是显著的 二 假定条件 各组水平都服从正态分布 均值和方差未知 但方差相同 i 1 2 3 k 三 单因素方差分析 H0 各水平的均值相等H1 各水平均值不全相等 总离差平方和 组间离差平方和 组内离差平方和 离差平方和 SST SSB SSE 自由度 n 1 k 1 n k 方差 MST MSB MSE 检验量 系统误差 随机误差即 F MSB MSE 检验规则 因为 F 3 15 0 05 所以接受原假设 认为不同的家庭背景对学员成绩没有显著影响 四 不考虑交互作用的两因素方差分析 H0 A 因素A的k个水平的均值相等H1 不全相等 总离差平方和 组间离差平方和 组内离差平方和 离差平方和 SST SS A SS B SSE 自由度 kh 1 k 1 h 1 k 1 h 1 方差 MST MS A MS B MSE 检验量 系统误差 随机误差即 F A MS A MSEF B MS B MSE H0 B 因素B的h个水平的均值相等H1 不全相等 检验规则 因为 F A 0 393 0 05 P B 0 99 0 05 所以接受原假设 认为不同的机器设备和不同的工艺方法对生产量都没有显著影响 五 考虑交互作用的两因素方差分析 H0 A 因素A的k个水平的均值相等H1 不全相等 总离差平方和 组间离差平方和 组内离差平方和 离差平方和 SST SS A SS B SS AB SSE 自由度 khm 1 k 1 h 1 k 1 h 1 kh m 1 方差 MST MS A MS B MS AB MSE 检验量 系统误差 随机误差即 F A MS A MSEF B MS B MSEF AB MS AB MSE H0 B 因素B的h个水平的均值相等H1 不全相等 H0 AB AB之间不存在交互影响的作用H1 有交互影响 检验规则 例 因为 F A 7 89 3 40F B 0 532 51或P A 0 002 0 05 P AB 0 0002 0 05 所以认为不同的机器设备对日产量有显著影响 不同的工艺方法对日产量没有显著影响 不同机器设备与工艺搭配的交互作用对日产量有显著的影响 相关分析回归分析 第六章相关与回归 相关和回归分析方法 是分析两个或更多变量之间的相互关系 测定它们之间联系的紧密程度 以揭示其变化的具体形式和规律性 以便用一个或几个变量 去预测另一个我们感兴趣的变量 主要内容 相关分析 概念 种类 线性相关 变量之间关系 函数关系 相关关系 因果关系 互为因果关系 共变关系 确定性依存关系 随机性依存关系 种类 一元相关 多元相关 负相关 正相关 线性相关 曲线相关 x y 正相关 x y 负相关 x y 曲线相关 x y 不相关 线性相关 相关系数 测定两变量是否线性相关 定义式 未分组 已分组 值 r 0不存在线性关系 r 1完全线性相关0 r 1不同程度线性相关 0 0 3微弱 0 3 0 5低度 0 5 0 8显著 0 8 1高度 符号 r 0正相关 r 0负相关 计算公式 相关系数的检验 t检验 检验统计量 回归分析 特点 一元线性回归 多元线性回归 非线性回归 逻辑回归 种类 特点 1 理论和方法具有一致性 2 无相关就无回归 相关程度越高 回归越好 3 相关系数和回归系数方向一致 可以互相推算 1 相关分析中 x与y对等 回归分析中 x与y要确定自变量和因变量 2 相关分析中x y均为随机变量 回归分析中 只有y为随机变量 3 相关分析测定相关程度和方向 回归分析用回归模型进行预测和控制 种类 一元回归 多元回归 线性回归 非线性回归 自变量的多少 变量之间的具体变动形式 一元线性回归 1 一元线性回归模型的一般形式 总体一元线性回归模型的一般形式 Y的数学期望E Yi 随机误差 也称一元线性回归方程 是对应于自变量X某一取值时因变量Y的均值 未知参数 Yi Xi i 回归系数b表明自变量x每变化一个单位因变量y的平均增 减 量 b与r的关系 r 0r 0r 0b 0b 0b 0 样本的一元线性回归模型和回归方程 一元线性回归模型 一元线性回归方程 截距 斜率 回归系数 x y 2 一元线性回归模型的确定 根据实际数据 用最小平方法 即使 分别对a b求编导并令其为零 求得两个标准方程 解联立方程 得到 3 一元线性回归模型拟合优度的评价 判定系数 r2 是对回归模型拟合优度的评价 x y 总偏差 回归偏差 剩余偏差 r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释 r的符号同b 估计标准误 Sxy Sxy越小 拟合越好 Sxy越大 拟合越差 Sxy也是用自变量对因变量进行区间估计的抽样误差 68 27 94 45 99 73 是一个测量Y的实际值与Y的预测值之间离散程度的统计量 4 回归分析中的假设条件和残差分析 回归分析中的假设条件 随机误差项 的理论假定 值相互独立 服从正态分布 的数学期望E 0 的方差 都相同 且 残差分析 随机误差项ei Yi 又称为残差 对残差进行分析 既能用来评价回归模型与实际数据的拟合优度 也能评价回归的假设能否成立 评价回归模型的拟合优度 可通过绘制残差图直观地进行评价 残差图是以残差为纵坐标 以相应自变量的X值为横坐标的散点图 散点的分布不存在明显的变化规律 说明建立的模型对数据是合适的 散点的分布有明显的变化规律 说明建立的模型对数据是不合适的 假设条件的评估 1 等方差性 通过残差与Xi的残差图来评价 残差0 X 0 此图中 散点如扇形般地展开 即显示出X增大时残差的变异也在增大 证明了在X的每个水平上 Y缺少等方差性 2 正态性 可通过残差分析中计算残差的频数分布 并把其结果用直方图加以反映和评估 引例店址选择的数据 可把残差列成如表的频数分布 并把其结果可用直方图展示出来 3 独立性 可根据数据获得的先后顺序排列的残差散点图来评估 在一段时间内收集的数据 有时观测值中会存在着自相关的影响 此时 前后之间的残差就会有某种联系 若存在这种联系 就违背了独立性假设 这将很明显地在残差对收集数据的时间散点图上反映出来 自相关的影响可用杜宾 沃特森统计量进行测度 5 一元线性回归模型的显著性检验 回归系数b的检验 设总体回归系数为 H0 0 H1 0 n 30时 检验统计量 0 b是样本回归系数抽样分布的标准差 通常是未知的 用其估计量代替 给定显著性水平 查Z表可知其临界值 n 30时 0 给定显著性水平 查t表可知其临界值 0 0 Z t 回归模型整体的F检验 H0 R2 0 H1 R2 0 检验统计量 F 6 应用回归方程进行估计 n 30时 给定x0 y0的置信度 1 的置信区间为 n 30时 x y X0 0 给定的x0越接 y值估计的精确度越高 平均值估计 n 30时 特定值估计 多元线性回归 1 多元线性回归模型的确定 二元线性回归模型 总体多元线性回归模型的一般形式 Y的数学期望 随机误差 表明自变量 共同变动引起的Y的平均变动 也称总体的二元线性回归方程 常数项 和Y构成的平面与Y轴的截距 偏回归系数 表示在固定时每变化一个单位引起的Y的平均变动 偏回归系数 表示在固定时每变化一个单位引起的Y的平均变动 随机误差 其理论假定与一元线性回归模型中的一样 偏回归系数的符号与它们所联系的自变量Xi同因变量Y的相关系数ri的符号是一致的 样本多元线性回归模型的一般形式 二元线性回归模型为 其数学期望 也称样本 或估计的 二元线性回归方程 2 二元线性回归方程的确定 根据实际资料 用最小平方法 即使 分别对b0 b1 b2求编导并令其为零 求得三个标准方程 解此联立方程便可得到 0 1和 2 3 多元线性回归模型的判定系数和估计标准误 判定系数 修正的判定余数 估计标准误 r2和Sy x1 x2 都是对回归模型拟合优度的评价指标 Sy x1 x2 也是用自变量对因变量进行区间估计的抽样误差 4 多元线性回归方程的显著性检验 对偏回归系数的t检验 H0 1 0 H1 1 0 H0 2 0 H1 2 0 检验统计量 按显著性水平 和自由度 n 3 查t表可得到临界值 t 0 模型整体的F检验 检验统计量 k 自变量个数 或 按给定的 和自由度 2 和 n 3 查F表可得到临界值 F 5 多元回归中的相关分析 复相关 指一个因变量同多个自变量的相关关系 复相关系数恒取正值 偏相关 净相关 指各个自变量在其他自变量固定不变时 单个变量同因变量的相关关系 x1与y的偏相关系数 x2与y的偏相关系数 6 应用多元回归方程进行区间估计 Y的平均值的区间估计 Y的特点值的区间估计 式中 是 即区间估计的抽样误差 的抽样分布的标准差 式中 是 的抽样分布的标准差 即区间估计的抽样误差 7 建立多元回归模型应注意的几个问题和步骤 建立多元回归模型应注意的几个问题 1 变量的选择 当实际问题确实有两个或两个以上因素影响其变动时 就应尽力获得这些因素的资料 构造多元回归模型 通常有两种 向前逐步回归 向后逐步回归 2 多重共线性 如果各自变量之间存在完全相关或高度相关的情况 这在统计上称作多重共线性 方差膨胀因子 VIF 若一系列自变量之间是不相关的 则VIFj等于1 若这些解释变量之间存在着高度的相关 则VIFj可大到超过10 一般的标准是VIFj的最大值超过5 则可认为此自变量与其他自变量之间存在着较高的相关 需要对回归模型进行修正 3 多元线性回归模型的残差分析 需要对每个自变量与因变量的简单线性回归方程的残差图分别都进行分析 建立回归模型的方法 1 考虑一批可能入选模型的自变量 3 判别每个自变量的VIF是否大于5 4 有可能发生发下三种结果 2 拟合一个含有全部考虑过的自变量的回归模型 以便判别每个自变量的变异膨胀因子 VIF a 没有一个自变量的VIF 5 若产生这种情况 进入第5步 b 有一个自变量的VIF 5 若产生这种情况 剔除这个自变量 进入第5步 c 不止一个自变量的VIF 5 若产生这种情况 剔除VIF值最大的那个自变量 然后回到第2步 5 对余下的自变量 找出所有自变量形成的子集 进行最佳子集的回归分析 以获得给定自变量的最佳模型 具体可计算Cp统计量来选择最佳子集 有关Cp统计量的计算公式和使用方法可阅读相关的书籍 6 列出所有Cp k 1 的模型 7 在第5步列出的所有模型中 选择一个最佳模型 8 对模型做一个包括残差分析在内的完整分析 9 根据残差分析的结果 增加二次项或进行变量变换 见下一节 然后分析数据 10 用选定的模型进行预测 虚拟变量运用虚拟变量 就能把定性自变量作为回归模型的一部分 逻辑回归 若给出的定性自变量有两个分类 虚拟变量Xd的定义如下 Xd 0 若观测对象属于第一个分类Xd 1 若观测对象属于第二个分类 逻辑回归 设P Y 1 X p表示自变量为X时 因变量Y 1出现的概率 对p作Logit变换 定义Logitp为 Logitpi 总体一元逻辑回归模型 Logitpi Xi i 或 样本的一元逻辑回归方程 a bXi 其中 或 例 在一次住房展销会上 与房地产商签定初步购房意向书的共有n 325名顾客 在随后的3个月时间内 只有一部分顾客确实购买了房屋 购买了房屋的顾客记为1 没有购买房屋的顾客记为0 以顾客年家庭收入为自变量X 对表所示的数据 建立逻辑回归方程 解 令X为自变量 为因变量 由公式6 49可得回归方程为 0 8863 0 1558Xi 判定系数 r2 0 9243显著性检验p值约等于零 所以高度显著 预测 年家庭收入为8万元的实际购房比例 逻辑回归方程 非线性回归模型 当自变量与因变量存在某种曲线相关关系时 可拟合曲线回归模型 例如 双曲线模型 指数曲线模型 二次曲线回归模型 对多元非线性模型 非线性模型的判别方法 理论和经验判断 观察散点图 非线性模型的确定方法 通常用变量代换法将曲线转换为直线 按线性模型求解参数 而后再变换为曲线模型 第七章非参数统计 非参数统计 亦称非参数检验 是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法 主要特点 不要求总体分布已知或对总体分布作任何限制性假定 不以估计总体参数为目的 能适用于定性变量中的定类数据或定序数据 也能适用于定距数据和定比数据这种定量变量方法直观 易于理解 运算比较简单 缺点是检验的功效不如参数检验方法 主要内容 2检验 成对比较检验 曼 惠特尼U检验 游程检验 等级相关检验 2检验 一 什么是 2检验 2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验 也就是检验观察值与理论值之间的紧密程度 设有k K 2 个观察值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论