基本统计知识(初级)PPT课件_第1页
基本统计知识(初级)PPT课件_第2页
基本统计知识(初级)PPT课件_第3页
基本统计知识(初级)PPT课件_第4页
基本统计知识(初级)PPT课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基本统计知识 六西格玛工具培训 主要内容 统计分析中的基本概念描述性统计概率及概率计算变量和分布中心极限定理 Part1 统计分析中的基本概念 什么是统计学 统计学的英语单词是statistics 来源于state 即指政府 官方所要求的信息 统计学是研究如何收集数据 整理数据 分析数据及推导结论的一门学科 Statisticsisscience smethodtoorganize characterizeandsummarizedatasothatonecanusetheinformationtodrawconclusionsand orpredictions 统计分析过程 收集数据 DataCollection 数据收集计划 数据数量数据收集方法整理数据 DataOrganization 统计指标图形分析数据 DataAnalysis 统计理论统计分析工具推导结论 Conclusion 统计描述与工程描述统计结论与工程结论 数据类型 定量数据 Quantitative 有数量概念的数据 包括计数型和计量型数据 计量型 连续型 Variable Continuous 用仪器测量出的结果 可能的取值在一个区间内 一个产品的尺寸 165cm 178cm 158cm 一件产品的重量 200g 210g 197g 一台设备的MTTF 1500H 2000H 计数型 离散型 Attribute Discrete 数据的结果只可能是整数 一个月内接到的投诉数量 0 1 2 3 一个产品上的缺陷数量 0 1 2 3 满意或不满意的人数 数据类型 定性数据 Qualitative 没有数量概念 一般转换为计数型数据来分析 名义型 分类别的和独立的 一个数值不真正的大于另一数值颜色 红 橙 黄 绿等 性别 男 女 不同的城市 北京 上海 深圳等 顺序型 分类别的但可以排序的 满意度 最差 差 一般 好 最好 空气质量 一 二 三 四 五级 球的外观 大 中 小 数据类型 统计上分析的数据最终只有两种 计数型和计量型定性数据一般转换为计数型数据进行分析时间类数据一般转换为计量型数据进行分析比例数据需要根据具体情况而定计数型和计量型数据的区分是相对的计数型数据的取值比较多时 可以当作计量型数据进行分析计数型数据近似服从正态分布时 可以当作计量型数据进行分析 数据类型 请说出下列数据的类型顾客的平均消费电话的待机时间产品的缺陷率员工名字 张三 李四等某人的身高 总体和样本 总体 Population 研究的一类对象的全体 总体的大小 个体的数量 可以是有限的或无限的 个体 Individual 构成总体的每一个成员称为个体 样本 Sample 从总体中抽出的部分个体组成的集合称为样本 样本的数量 大小 是有限的 数量一般都比较少 样本容量 SampleSize 样本中包含的个体的数量称为样本容量 通常用n表示 总体和样本 参数 Parameters 针对总体特性值测量 统计量 Statistics 针对样本特性值的测量 抽样 Sampling 样本 测量 对总体特性进行推论 2 平均 方差 标准偏差 总体 平均 方差 标准偏差 样本 S2S 统计分析分类 描述性统计 DescriptiveStatistics 将原始数据整理为简单有效的指标 图形 表格原始数据的缺点 数量多 难以发现规律 难以理解主要内容统计指标 Mean Sigma Cpk etc 列联表图形 直方图 盒子图 等 推论性统计 InferentialStatistics 根据已知数据预测 估计总体性质主要内容统计理论参数估计和假设检验 ttest Ftest ANOVA Ptest etc 回归 相关分析试验设计 因子设计 田口设计 等 统计分析分类 图形 表格 图表显示 位置 散布 形状 统计指标 描述性统计学 点估计 区间估计 参数估计 参数检验 非参数检验 假设检验 推论性统计学 统计学 Part2 描述性统计 描述性统计主要内容 DotPlot点图 BoxPlot盒子图 Histogram直方图 TrendChart趋势图 Graphics图形 CrossedTabulation列联表 Tables表格 图表显示 Mean平均值 Median中位数 Mode众数 Quartiles四分位数 Location位置 Range极差 StandardDeviation标准差 Variance方差 Inter quartileRange内四分位极差 Dispersion散布 Skewness偏度 Kurtosis峰度 Shape形状 统计指标 描述性统计学 位置的测量 中心趋势 平均值 mean 均值是总体中所有值的和除以总体中个体的总数总体平均值用希腊字母m来表示样本平均值用X Bar来表示 位置的测量 中心趋势 中位数 Me Median 将一列数据按照从小到大的顺序排列后 处于中间位置的那个数 Me 50 50 相对数据个数 不是对数据大小 众数 Mode 一列数据中出现频率最高的那个数 一列数据中可能出现几个众数 Mo 位置的测量 中心趋势 位置水平最小值 Minimum 最大值 Maximum 中位数 Median 四分位数 Quartile Q1 Q3 Me 25 25 25 25 Min Max Q3 Q1 位置的测量 中心趋势 平均值 中位数 众数比较 位置的测量 中心趋势 散布的测量 极差 极差 Range 一列数据中的最大值与最小值的差 这两个分布都有相同的极差值但是它们的分布形状完全不同 分布1 分布2 散布的测量 极差 极差 Range 移动极差 MR MovingRange 相邻的几个数的极差计算移动极差的数据的数量 称为移动步长 LengthofMoving 方差 Deviation 总体方差 s2 方差是所有数值与平均值的偏离量平方的平均 总体方差的估计值 样本方差 s2 数值与平均值的偏离量平方除以 n 1 而不是n就得到对总体方差 无偏 估计 总体方差 样本方差 方差不能带量纲 单位 这样就得不到合理解释 只有标准差才能带单位 散布的测量 方差 标准差 StandardDeviation StDev s Sigma 标准差是方差的正平方根 总体标准差 样本标准差 实际应用中常用样本标准差作为总体标准差的估计值 散布的测量 标准差 平均值的思考 河水平均深度 1 4M士兵平均身高 1 7M 平均值和标准差的理解 设有两组样本数据分别为 2 4 6 8 104 5 6 7 8把这两组数据分别标在下面的直线轴上 0 0 2 4 6 8 10 4 5 6 7 8 这两组数据均以6为中心 但前面5个数的离散程度要大于后面5个数的离散程度 第一组数的标准差是3 16 第二组数的标准差1 58 方差的重要特性 方差具有可相加性 标准差不能相加 分布 形状偏度 Skewness 衡量数据分布形状的对称性 计算公式为 形状的测量 偏度 正态 正倾斜 负倾斜 分布 形状峰度 Kurtosis 表现分布的尖峭程度 计算公式为 正态分布的峰度为0 形状的测量 峰度 平的 0 正态 尖的 0 Minitab统计指标的计算 MINITAB中统计指标的计算 描述性统计 统计表格 CrossedTabulation 交叉表 列联表 将原始数据按照一定的分类 整理成表格的形式 将原始数据转化为表格的过程中 不要掩盖 遗失有用的信息 例 20世纪80年代 有女性学生控告加州大学伯克莱分校在录取研究生时存在性别歧视 她们提供的一份数据表明男生的录取率 44 5 比女生的录取率 30 4 高了很多 所以她们有理由相信校方存在性别歧视 描述性统计 统计表格 例 续 校方做出了回应 伯克莱大学的理学院的主任PeterBickel把数据重新分析 得出了另外一个结果 Bickel把数据按每一个系的具体录取率分析 从图表看到 有4个系的研究生录取率是女生比男生高的 由此可见 学校并没有性别歧视 描述性统计 统计图形 Histogram 直方图 分布图 BoxPlot 盒子图 BarChart 柱型图 条型图 PieChart 饼图 TrendChart RunChart 趋势图 描述性统计 统计图形 Histogram 直方图 分布图 一列数据落在不同区域的频率 频数 描述性统计 统计图形 Histogram 直方图 分布图 续 绘制步骤收集整理数据 确定数据数量N 一般要求N 100 确定分组数量n经验公式 n 1 3 3lgN找出最大值和最小值 计算极差R 然后计算组距d确定组的中心点和各组界限制作频数 或频率 分布表绘制频数 或频率 分布图 描述性统计 统计图形 Histogram 直方图 分布图 续 观察以下直方图 他们提供哪些特殊信息 描述性统计 统计图形 BoxPlot 盒子图 箱线图 用来反映数据的分布情况 描述性统计 统计图形 BoxPlot 盒子图 箱线图 续 从以下盒子图能看出哪些信息 描述性统计 统计图形 看直方图 盒子图的一般方法分布最集中的区域在哪里 最小值 最大值是多少 分布的宽度大概是多少 是否对称 是否有异常点 离群点 与目标值 标准范围的关系 描述性统计 描述性统计总结明确知道数据代表的意义 保证数据来源可靠 使用正确的分析指标 正确对待异常点 离群点 合理解释分析结果 可能推导出错误的结论 或误导信息接收者 Part3 概率及概率计算 概率 随机试验 试验可以在相同的条件下重复进行 试验可能的结果是明确可知的 并且不止一个 每次试验出现可能结果中的一个 但在试验之前不能确定是哪一个结果 随机试验出现的结果称为事件 概率 Probability Pr 概率是一个事件发生的可能性的大小 机会 机率 频率 可能性 把握概率是一个随机试验的固有属性 一个事件A发生的概率记为P A 概率计算 概率的计算频率的稳定值 事件A发生的概率近似等于大量重复的试验中 事件A出现的频率 古典概型 事件A发生的概率等于事件A与基本事件总数的比例 几何概率 事件A发生的概率等于事件A占领的 空间 与样本占领的 空间 的比例 正面朝上的概率为0 5 历史上著名数学家抛硬币试验结果统计表 抛硬币试验 掷骰子的游戏 一枚骰子掷下去后点数为1 2 3 4 5 6各出现的可能性有多大 我们大家都知道一枚骰子掷下去后 各个点数出现的机会均等 每个点数出现的可能性都是1 6 设有一对完全相同的骰子 把这一对骰子随机掷下 一对骰子两两组合的点数最多出现11种结果 这种结果的组合点数可能是2 3 4 5 6 7 8 9 10 11 12 有位顾客 仅仅需要能两两组合成4 5 6 7 8 9 10 11的结果 请问能使这位顾客期望实现的概率有多大 不能使这位顾客满意的风险是多大 顾客的期望 一对骰子出现的全部组合 每个组合出现的概率是多少 计算组合点数出现的概率 计算组合点数出现的概率 投币游戏 地上有一张中国象棋棋盘 一个人站在离棋盘约1米的地方 向棋盘中投掷硬币 求硬币落在棋盘上的空格内 没有压住任何线条 的概率 3 3 2 4 0 9 乘法原则 一段电路由三个电子元件串联而成 每个电子元件工作到1000个小时以上的概率分别是0 8 0 9 0 7 则这段电路能工作到1000个小时的概率是 0 8 0 9 0 7 0 504一段由三个电子元件并联的电路 每个电子元件工作到1000个小时以上的概率分别是0 8 0 9 0 7 则这段电路能工作到1000个小时的概率是 1 1 0 8 1 0 9 1 0 7 0 994 Part4 变量和分布 随机变量 日常生活中 生产实践中随机现象无处不在 把随机现象的结果用变量来表示 就称为随机变量 随机变量是随机现象表示的一种抽象 有了这种抽象 使得我们的研究更具普遍性 随机变量分为离散型和连续型两大类 离散型随机变量 离散型变量 变量的取值为计数型数据 数据的结果只可能是整数 如 一个产品上的缺陷数量 0 1 2 3 一批产品中的不合格品数量 0 1 2 3 一个月内接到的投诉数量 0 1 2 3 离散型随机变量是仅取数轴上有限个点 x1 x2 x3 x4 x5 x6 x7 X 公路上的汽车 连续型随机变量 连续型变量 变量的取值为计量型数据 可能的取值在一个区间内 如 一个产品的尺寸 165cm 178cm 158cm 一件产品的重量 200g 210g 197g 一台设备的MTTF 1500H 2000H 连续型随机变量的取值可以是整个实数轴上的任一区间 a b X 变量X和Y XY IndependentVariableDependentVariable自变量因变量Predictor Factor Response预测 因子 响应InputOutput输入输出CauseEffect Quality 原因影响 质量 ParameterPerformanceIndex参数表现指数ControlCharacteristicProcessCharacteristic控制特性流程特性KPIVKPOV关键流程输入变量关键流程输出变量 随机变量的分布 分布总体特性 变量 取值的概率特征描述 包括 离散型变量分布列 列出变量取每一个值的概率 连续型变量密度函数 概率密度函数 PDF 分布函数 累计概率密度函数 CDF 变量的数字特征期望 总体平均值方差 总体标准差的平方标准差 总体标准差 随机变量分布的主要类型 DiscreteDistributions离散型变量分布BinomialDistribution 二项式分布 PoissonDistribution 泊松分布 ContinuousDistributions连续型变量分布NormalDistribution 正态分布 ExponentialDistribution 指数式分布 SamplingDistributions抽样分布tDistribution t分布 X Distribution 卡方分布 FDistribution F分布 变量取值的概率特征 变量取值的概率特征 规律 密度函数f x 直观判断 形状 对称性 集中趋势 累计密度函数F x 计算 分位点 正态分布函数 正态分布的来源正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出 德国数学家Gauss率先将其应用于天文学家研究 故正态分布又叫高斯分布 正态分布随机变量的密度函数 均值 集中趋势 2 方差 分散趋势 正态分布记作N 2 N 0 1 记作标准正态分布 正态分布的形状 正态分布的形状是中间高 两边低 倒钟形 密度函数关于 对称 在 处达到最大值 离 越近 发生的概率越大 取值越大 越小 分布越集中在 附近 越大 分布越分散 N 2 N 1 2 N 2 2 N 22 N 12 N 32 1 2 不变 1 2 3 不变 1 2 正态分布的特征值 正态分布的特点如果一个量是许多微小的独立随机因素影响的结果 那么这个量为正态分布 如 在生产条件不变的情况下 产品的强力 抗压强度 口径 长度等指标 同一种生物体的身长 体重等指标 测量同一物体的误差 正态分布的特征值 正态分布的概率意义 密度函数f x 与X轴的 面积 表示随机变量发生的概率 总 面积 为1 随机变量落在区间 a b 内概率为f x X轴 X a X b所围区域的 面积 P a P X 0 5 正态分布的特征 1 2 相同 u不同 不同 u相同 u1 不同 u不同 u2 最常见 标准正态分布 标准化变换 ZStandardization 任何一个正态分布都可以转换为标准正态分布 研究实际问题比较方便 可以借助标准正态分布表 标准正态分布转换 Z值的计算 根据标准要求计算Z值 ZValue ZScore 或sigma水平 单侧标准上限 LSL ZLSL Xbar LSL 双侧标准限 LSL USL ZBench Z1 PL PU备注Xbar为当前水平的平均值 为当前水平的标准差 计算的结果可能为负数 u LSL USL PL Pu 不合格品率计算 正态分布计算 根据产品分布和标准计算不合格品率产品参数服从正态分布N 2 时 与该参数对应的不合格品率的计算 u LSL USL PL Pu 产品特性不合格品率 其中PL为X低于下规范线的概率 Pu为X高于上规范线的概率 根据不合格品率计算Z值 根据不合格品率计算Z值 或sigma水平 不合格品率p对应的Z值从以下公式导出 F X Z p X为标准正态分布N 0 1 备注 根据不合格品率计算Z值时 不合格品率从正态分布的右侧开始计算 Z值可能小于零 不合格品率为p Z 流程能力计算 正态分布计算 根据产品分布和标准计算流程能力备注Xbar为当前水平的平均值 为当前水平的标准差 Within 短期Overall 长期 概率分布计算 例 某批零件的长度服从正态分布 平均长度为10mm 标准差为0 2mm 试问 1 从该批零件中随机抽取一件 其长度不到9 4mm的概率是多少 2 为了保证产品质量 要求以95 的概率保证该零件的长度在9 5mm 10 5mm之间 这一要求能否得到保证 解1 已知X N 10 0 22 1 P X 9 4 9 4 10 0 2 3 0 00135 概率分布计算 例 解2 2 P 9 5 x 10 5 10 5 10 0 2 9 5 10 0 2 2 5 2 5 2 2 5 1 0 98758 P 9 5 X 10 5 P 2 5 z 2 5 即可以用98 76 的概率保证该批零件的长度在9 5mm 10 5mm之间 Minitab计算概率 接上例 平均值10mm 标准差0 2mm 问题1 长度不到9 4mm的概率是多少 Stat Calc ProbabilityDistribution Normal 正态分布 Minitab计算概率 问题2 长度在9 5mm 10 5mm之间的概率是多少 9 5mm 10 5mm之间的概率 0 99379 0 00621 0 98758 正态分布概率计算 练习 某一零件的规格要求为1 030 0 030 1 000 1 060 假定测量30个零件 Xbar 1 050 s 0 015计算超出规格的比率 数据的实际分布 1 0201 0351 0501 0651 080 LSL USL 目标值 X 6 与正态分布 任何一个正态分布都满足的规律 68 27 95 45 99 73 99 9937 99 99943 99 9999998 注意 上图中有一个错误 请找出并加以更正 3 与6 若质量特性值X服从正态分布 那么 在 3 范围内包含了99 73 的质量特性值 正态分布中心与规格中心重合时u 3 u 6 的不合格率 未考虑偏移 1350ppm 1350ppm 3 6 0 001ppm 0 001ppm 6 和3 4ppm 考虑流程平均值漂移1 5 后 6 3 4ppm LSL USL 1 5 的漂移 6 7 5 1 5 6 期望流程 4 5 面积约等于百万分之3 4 和PPM 考虑流程平均值漂移1 5 后 2 308 537 3 66 807 4 6 210 5 233 6 3 4 PPM 分布偏移 1 5s 过程能力 每百万机会中的缺陷数 正态分布计算总结 目的 用统一的指标计算产品 过程表现 内容 根据产品分布和标准计算不合格品率 根据不合格品率计算Z值 Sigma水平 根据产品分布和标准计算Z值 Sigma水平 根据产品分布和标准计算过程能力 其它分布类型 离散型变量所服从的分布二项分布 计件值 主要用于具有计件值特征的质量特性值分布规律的研究 泊松分布 计点值 主要用于计点值特征的质量特性值分布规律的研究 二项分布的平均值和标准差 当N 10n p 0 1或np 4 5时 就可以用正态分布代替二项分布进行近似计算 二项分布的分布图 泊松分布 泊松分布常与单位时间 或单位面积 单位产品等 上的计数过程相联系 实际应用中许多随机现象服从泊松分布 一个产品上的缺陷数量单位时间内 电话交换台中来到的呼叫数公共汽车站的乘客数 泊松分布的平均值和标准差 当np 5时 泊松分布近似正态分布 2 0 5 0 概率 0 1 0 2 0 3 泊松分布的分布图 Minitab实现各种分布的概率计算 正态分布概率计算例 计算一个服从 28 1的正态分布随机变量小于等于27的概率 1 选取Calc ProbabilityDistributions Normal 2 选取Cumulativeprobability 3 在Mean栏中 输入28 在Standarddeviation 标准差 栏中填入1 4 选取Inputconstant并输入27 点击OK Minitab实现各种分布的概率计算 二项分布概率计算例 已知某生产流程生产的产品中有10 是有缺陷的 而该生产流程生产的产品是否有缺陷完全是随机的 现在随机选取5个产品 求其中有2个产品有缺陷的概率是多大 1 在工作表中填入1 5 因为选取了五个产品 2 选取Calc ProbabilityDistributions Binomial 3 选取Probability 4 在Numberoftrials 试验次数 栏中 填入5 在Prob

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论