第五章 统计方法(1).ppt_第1页
第五章 统计方法(1).ppt_第2页
第五章 统计方法(1).ppt_第3页
第五章 统计方法(1).ppt_第4页
第五章 统计方法(1).ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章统计方法 本章目标阐述统计推论在数据挖掘中的一些常用方法 介绍评价数据集的差异的不同统计参数 描述朴素贝叶斯分类和对数回归方法的内容和基本原理 用列联表的相关分析介绍对数线性模型 论述方差分析和多维样本的线性判别分析的一些概念 统计学是一门收集 组织数据并从这些数据中得出结论的科学 数据集的一般特性的描述和组织是描述性统计学的主题领域 而怎样从这些数据推出结论是统计推理的主题 统计数据分析是为数据挖掘制定的最好的一套方法论 从一元的到多元的数据分析 统计学为数据挖掘提供了大量的不同类型的回归和判别分析方法 5 1统计推断 在统计推断这个领域 如果观测到组成总体的所有观测值是不可能或不切实际的 只要关心怎样得出关于总体的结论 在大多数统计分析应用中 必须依据从总体中抽取的子集的观测值 称这个子集为数据集 从这个数据集建立一个总体的统计模型 从而对相同的总体作推断 问题是它可能导致对总体错误的推断 因此最好是在独立的 随机观察的情况下选取一个随机的数据集 统计推断方法 估计和假设检验 在估计中 为了估计系统的未知参数需要给出一个置信度或一个置信区间 我们的目标是从数据集T中获得信息来估计现实系统f X w 模型的一个或更多的参数w 数据集可用下式描述 T x11 x1n x21 x2n xm1 xmn 上式可作为一组具有相应特征值的样本被列成表格的形式 只要估计出这个模型的参数 就能用来预测随机变量Y Y是T中固有的一个属性Y X 如果 是数值数据 称为回归 如果是离散的 无序的数据 称为分类 当估计出数据集的参数模型w后 就可用该模型 以函数f X w 给出 的结论去预测 预测值与真实值 之间的差称为预测误差 对于 的预测值 模型f X w 的自然属性度量指标是整个数据集T的期望均值平方差 ET Y f X w 2 至于假设检验相关课程已有介绍 5 2评测数据集的差异 许多数据挖掘项目 了解给定数据集的更多有关中心趋势分布的一些特征是非常有用的 平均数mean 中位数median和众数mode是反映数据的中心趋势的典型指标 而方差和标准差是反映数据离散程度的指标 平均数 加权平均数 中位数 对偏斜数据集来说 中位数更能反映它的中心趋势 中位数 n是奇数 n是偶数 众数 它是反映数据集中心趋势的另一个指标 众数是在数据集中出现频率最高的一个数据集 平均数和中位数主要反映数值型数据集的特征 而众数也适应于分类数据 但因它是不排序 所以必须有详细说明 数值数据分散的程度为数据的离散度 反映离散度最常用的指标是标准差和方差 n个数据值的x1 x2 xn的方差是 标准差是方差的平方根 其基本性质如下 1 度量的是半于平均值的离散程度 仅当平均值作为中心的度量量使用 2 仅当数据不存在分散时 0 否则 0 5 3贝叶斯定理 不难想象 数据不是总体或系统建模时惟一可利用的信息资源 贝叶斯方法提供了一套将外部客观信息溶入数据分析过程中的原理方法 它为解决归纳 推理分类问题的统计方法提理论依据 贝叶斯定理 设X是一个未知类标号的数据样本 设 为某种假定 数据样本 属于特定的类 我们希望确定 H X 即给定观测数据样本 后假定 成立的概率 贝叶斯定理给出数据集 后我们对假设的信任度的后验概率 贝叶斯定理提供了一种由概率P H P X 和P X H 计算后验概率P H X 方法 其基本关系是 P H X P X H P H P X P H X 是后验概率 或条件X下H的后验概率 例如 假设数据空间由水果组成 用它们的颜色和形状描述 假设X表示红色和圆的 H表示假定X是苹果 则P H X 反映当我们看到 是红色并是圆的时 我们对 是苹果的确信程度 作为对比 P H 是先验概率 或 的先验概率 现在假设有一组m个元素的样本s s1 s2 sn 其中每一个样本Si代表一个n维向量 x1 x2 xn 分别对应于属性A1 A2 An 并且有k个样本类 每一个样本属于其中一个类 另外给出一个数据样本 它的类是未知的 可以用最高的条件概率P Ci X i 1 2 n 来预测 的类 P Ci X 的算式 P Ci X P X Ci P Ci P X 由于P X 对所有类为常数 只要 P X Ci P Ci 最大即可 P Ci 类别Ci的样本数 样本总数 P X Ci P Ci 计算很复杂 假设样本属性之间条件独立 上式可用一个乘积来表示 P xi Ci 可由训练样本来估算 例如 下表是Na veBayesianclassifier分类训练数据集 用训练样本计算所给新样本X 1 2 2 class 计算P Ci P C 1 4 7 0 5714 P C 2 3 7 0 4286计算P xi Ci P A1 1 C 1 2 4 0 50P A1 1 C 2 1 3 0 33P A2 2 C 1 1 4 0 25P A2 2 C 2 2 3 0 66 P A3 2 C 1 1 4 0 25P A3 2 C 2 2 3 0 66假设各属性是条件独立的情况 条件概率P X Ci 是 P X C 1 P A1 1 C 1 P A2 2 C 1 P A3 2 C 1 0 50 0 25 0 25 0 03125P X C 2 P A1 1 C 2 P A2 2 C 2 P A3 2 C 2 0 33 0 66 0 25 0 14375 P C1 X P X C 1 P C 1 0 03125 0 5714P C2 X P X C 2 P C 2 0 14375 0 4286可见P C2 X 最大 我们预测新样本属于类 2 理论上 朴素贝叶斯分类与数据挖掘的其他分类方法相比具有最小的误差率 但实践上并非如此 这是由于对属性以及类条件的独立性的假设具有不准确性 5 4预测回归 连续型数值的预测可以用称为回归的统计技术进行建模 回归分析的目的是找到一个联系输入变量和输出变量的最优模型 广义线性模型是最常用的统计方法 它用来描述一个变量的变化趋势和别的变量值的关系 这种建模称为回归 建模的任务不只是找到一个合适的模型 而且要从几个模型中找出最优的模型 择优方法采用方差分析 在5 5节中介绍 回归方程的广义线性模型如下 Y 1 X1 2 X2 3 X3 n Xn应用于给定的样本集可得一新的方程组 yi 1 x1j 2 x2j 3 x3 n xnj jj 1 m式中 j是m个给定样本的回归误差 一元线性回归 给定n个样本数据 x1 y1 x2 y2 xn yn 其中xi X yi Y 线性回归模型如下 Y X 式中 和 是回归系数 假设变量 的方差上一个常量 可以用最小二乘法来计算这些系数 使实际数据点和估计回归直线之间的误差达到最小 一般称这些残差平方和回归直线的误差平方和 用SEE来表示 对SEE分别对 和 求微分 令微分方程为零 总误差最小 可得 解方程组 可得 多元回归是单个一元线性回归的扩展 涉及到多个预测变量 响应变量 是作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论