数据、模型与决策第三、四章.ppt_第1页
数据、模型与决策第三、四章.ppt_第2页
数据、模型与决策第三、四章.ppt_第3页
数据、模型与决策第三、四章.ppt_第4页
数据、模型与决策第三、四章.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据 模型与决策 秀秀老师 1 第一节图表描述分析 2 第二节数量资料的特征数字 3 第三节属性资料的特征数字 Contents 第三章统计资料描述分析 第一节图表描述分析 图表描述分析 统计表的种类与应用 频数分布的编制 统计资料的图像描述 单变量的频数分布 两变量交叉分类的频数分布 直方图 折线图与曲线图 累积分布图 饼形图与圆环图 帕累图 散点图 雷达图 茎叶图 第二节数量资料的特征数字 原始数据 10591368 集中趋势 算术平均数 含义 假定为样本观察值 用表示算术平均数 则算术平均数的基本计算公式为特殊考虑 对于已经过分组并形成频数分布的资料 此时计算算术平均数就要采用加权的办法 计算加权算术平均数时 需要对各个组的变量值与相应组的频数的乘积求和 然后除以频数之和 加权均值 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 X 020100人数分布 F 118乙组 考试成绩 X 020100人数分布 F 811 加权均值 计算50名工人日加工零件数的均值 集中趋势 计算和运用算术平均数是需要注意 算术平均同时受到两个因素的影响 一个是各组的观察值的大小 另一个是各组分布频数的多少算术平均值易受极端值干扰 集中趋势 中位数含义 把观察值按从小到大的顺序排列 位置居中的数叫做中位数求下列各组数据的中位数1 1 2 3 3 3 4 6 8 8 8 9 9中位数是 52 1 2 3 3 3 4 8 8 8 9 9中位数是 4公式 MEDIAN 集中趋势 中位数是一种较为常用的反映集中趋势的特征数字1 不受极端值的影响 具有很强的抗干扰性2 由组距频数分布资料计算中位数时 要求等距组数 且要求观察值在中位数所在的组中近似服从对称分布 否则计算结果可能存在误差3 对于观察值大量重复的现象 中位数未必准确 四分位数 概念要点 1 集中趋势的测度值之一2 排序后处于25 和75 位置上的值 3 不受极端值的影响4 主要用于定序数据 也可用于数值型数据 但不能用于定类数据 集中趋势 截尾均值含义 去掉观察值中部分最大值和最小值 由保留下来的数据计算平均值称为截尾均值 离散趋势的测度 离散趋势的测度 在统计学中也称为指标变异指标 是用来描述数列中指标值的离散趋势与离散程度的 常用的标志变异指标有极差 平均差和标准差等 1 极差 极差是指一个数列中两个极端值即最大值与最小值之间的差异 根据极差的大小能说明标志值变动范围的大小 其计算公式为 极差 最大标志值 最小标志值 根据组距数列求极差的计算公式为 极差 最高组上限 最低组下限 在实际工作中 极差可以用于检查产品质量的稳定性和进行质量控制 在正常生产的条件下 产品质量稳定 极差在一定范围内波动 若极差超过给定的范围 就说明有不正常情况产伤 但极差受到极端是的影响 测定结果往往不能反映数据的实际离散程度 例子 1 3 4 7 8 9 10求极差R 10 1 9 极差 1 一组数据的最大值与最小值之差2 离散程度的最简单测度值3 易受极端值影响4 未考虑数据的分布 未分组数据R max Xi min Xi 5 计算公式为 极差是离散程度的最简单测度值 它只利用了一组数据的两个极端值 易受极端值的影响 且不能反映中间数据的分散状况 比如 1 6 6 6 6 6 10这一组数据 极差是 R 10 1 9和上一组极差值相同 都是9 如果以此断言两组数据离散程度相同 恐怕很不合适 直觉告诉我们后一组数据的差异比前一组数据大的多 2 四分位差 四分位差是根据四分位数计算的 首先把变量各单位标志值从小到大排序 再将数列四等分 处于四分位点位次的标志值就是四分位数 记作 为第一四分位数 也称为下四分位数 为第二四分位数 就是中位数 为第三四分位数 四分位差的计算公式为 四分位差是对极差的一种改进 与极差相比 四分位差因不受极值的影响 在反映数据的离散程度方面比极差准确 具有较高的稳定性 同时 对于存在开口的组距数列 不能计算极差 但可以计算四分位差 四分位差与极差相比较 四分位差和极差一样 不能充分利用数据的全部信息 也无法反映标志值的一般变动 4 方差和标准差 未分组资料时 方差的公式为 标准差的公式为 分组资料时 方差的公式为 标准差的公式为 式中 算术平均数 总体单位数 各组频率 方差 标准差 变量值 5 离散系数 上述的各种标志变异度指标 都是对总体中各单位指标值变异测定的绝对量指标 而离散系数是测定总体中各单位标志值变异的相对量指标 以消除不同总体之间在计量单位 平均水平方面的不可比因素 常用的离散系数主要有平均差离散系数和标准差离散系数 其公式分别为 离散系数 上面介绍的各离散程度的测度值 反映的是数据分散程度的绝对值 其数值的大小取决于原变量值绝对水平的高低 举个例子 两组数据 第一组 5 10 20 25 30第二组 100000 100005 99995 100020 100040 第一组数据极差 25第二组数据极差 45第一组数据平均差 8 4第二组数据平均差 14 4第一组数据方差 107 5标准差 10 36822第二组数据方差 332 5标准差 18 23458第一组的离散系数 10 36822 8 4 1 23第二组的离散系数 18 23458 14 4 1 26 对平均水平不同或计量单位不同的不同组别的变量值 不能直接的用上述离散程度的测度值进行直接的比较各组的离散程度 为了消除变量值水平的高低和计量单位不同对离散测度值的影响 我们计算离散系数值 离散系数一般是用标准差计算的 也称为标准差系数 它是一组数据的标准差与其相应的均值之比 是测度数据离散程度的相对指标 其计算公式为 离散系数 概念要点和计算公式 1 标准差与其相应的均值之比2 消除了数据水平高低和计量单位的影响3 测度了数据的相对离散程度4 用于对不同组别数据离散程度的比较5 计算公式为 1 正方形面积S与边长x之间的关系 2 人的身高不能确定体重 但平均说来 身高者 体也重 那么身高和体重具有什么关系 3 类似的情况生活中是否还有 1 商品销售收入与广告支出经费 2 粮食产量与施肥量 相关关系 相关性分析 相关性测量 相关系数反映变量间线性相关关系的重要指标 计算公式 1 变形后的公式 属性资料的特征数字 属性资料的集中趋势的测度主要是 众数 中位数 四分位数属性资料的离散趋势的计算方法 常用的有离散比率 GINI SIMPSON指数和熵等 第四章参数样本推断 参数样本推断 统计量与抽样分布 参数估计的应用 假设检验应用 总体 选择个体 样本 观测样本 样本观察值 数据 数据处理 样本有关结论 推断总体性质 统计量 统计的一般步骤 这种不含任何未知参数的样本的函数称为统计量 它是完全由样本决定的量 第四章参数样本推断 第一节统计量与抽样分布 统计量X1 X2 Xn为来自总体X的样本 称不含未知参数的样本的函数f X1 X2 Xn 为统计量 若x1 x2 xn为样本观测值 则称f x1 x2 xn 为统计量f X1 X2 Xn 的观测值 统计量是处理 分析数据的主要工具 对统计量的一个最基本的要求就是可以将样本观测值代入进行计算 因而不能含有任何未知的参数 设X1 X2 Xn是来自总体X的样本 X N 2 其中 2为未知参数 则X1 min X1 X2 Xn 为统计量 但诸如等均不是统计量 因它含有未知参数 或 第一节统计量与抽样分布 三大抽样分布1 2分布设X1 X2 Xn为相互独立的随机变量 它们都服从标准正态N 0 1 分布 则称随机变量称 2服从自由度为n的 2分布 记作 2 2 n 2分布具有下面性质 1 可加性 设是两个相互独立的随机变量 且 第一节统计量与抽样分布 2 2分布曲线随自由度n的增大而逐渐趋向于正态分布曲线3 设X1 X2 Xn为相互独立的随机变量 它们都服从标准正态N 0 1 分布 令Q1 Q2 Q3 QK Qi i 1 2 K 是秩为ni的非负定二次型 则Q1 Q2 QK相互独立 且分别服从自由度为ni的 2分布的充要条件是n1 n2 nk n 练一练 1 2分布的形状随自由度n的增大而逐渐趋向于 第一节统计量与抽样分布 2 t分布设X N 0 1 Y 2 n X与Y独立 则称随机变量 服从自由度为的t分布 又称为学生氏分布 记为T t n 3 F分布设X 2 n Y 2 m 且X与Y独立 称随机变量服从自由度为 n m 的F分布 记为F F n m 第一节统计量与抽样分布 1 从一个总体中随机抽出容量相同的各种样本 从这些样本计算出的某统计量所有可能值的概率分布 称为这个统计量的抽样分布 抽样分布就是从总体中抽出相同容量的全部样本 并计算出统计量的值 然后按统计量的值编制出来的频数分布 2 设X1 X2 Xn是取自总体X的样本 样本均值 所有可能样本的均值构成 的概率分布即为样本均值的抽样分布 例 设一个总体 含有4个元素 个体 即总体单位数N 4 4个个体分别为X1 1 X2 2 X3 3 X4 4 总体的均值 方差及分布如下 现从总体中抽取n 2的简单随机样本 在重复抽样条件下 共有42 16个样本 所有样本的结果如下表 计算出各样本的均值 如下表 并给出样本均值的抽样分布 所有样本均值的均值和方差 式中 M为样本均值的个数 现从总体中抽取n 2的简单随机样本 在不重复抽样条件下 共有12个样本 所有样本的结果如下表 计算出各样本的均值 如下表 并给出样本均值的抽样分布 练一练 1 不重复抽样样本均值的均值与总体均值 但其方差比总体方差和重复抽样均值的方差 2 抽样分布含义3 为了搞清楚统计量的性质 需要借助 的概念 以揭示统计量取值的变化情况 样本均值的分布当总体服从正态分布N 2 时 来自该总体的所有容量为n的样本的均值 X也服从正态分布 X的数学期望为 方差为 2 n 即 X N 2 n 样本均值的抽样分布与总体范围的大小有关 与总体的分布性质有关 还与样本的容量和样本的抽取方式有关 对于正态总体 样本均值服从于正态分布 非

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论