统计学习基础概要.doc_第1页
统计学习基础概要.doc_第2页
统计学习基础概要.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数据挖掘统计学习基础:数据挖掘、推理与预测介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。统计学习基础:数据挖掘、推理与预测内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。研一上半学期,我们主要学习了统计学习基础:数据挖掘、推理与预测这本书的前4章和第十章。下面我将分别对这五章的内容进行总结。第一章是绪论部分。这一章是为更好地学习这本书作铺垫。,它给出了在具体学习这本书之前,我们需要掌握的一些基本知识,如:统计与数学的5大区别:出发点不同、推理手段不同、判别标准不同、研究的关系不同、问题来源不同;统计学、统计学习等几个名词的解释。此外,对有指导学习和无指导学习进行了介绍,有指导学习的预测过程为:观察训练数据集-建立预测模型-预测未知结果。然后,绪论部分对本书涉及的几个统计学习实例:垃圾邮件分类、前列腺癌、手写字体数字识别、DNA表达微阵列分析,作了简单介绍,为后面的学习打下基础。第二章概括性的给出了有指导学习。2.2变量类型和术语。指出问题的分类:回归问题、分类问题与有序分类问题,2.3 两种简单预测方法:最小二乘方法和最近邻法。简单介绍最小二乘法和最近邻法,并对两中方法做比较。然后给出两种方法的变形。2.4 统计决断理论引入一个理论,然后在此基础之上分析最小二乘法、最近邻法。并比较K最近邻法与贝叶斯分类器。2.5 高维空间的局部方法实际应用表明随维数增加,最近的近邻趋向于偏离目标点,偏倚和反差都将出现。2.6 介绍联合分布的统计模型、由指导学习、函数逼近,并提供其应用的方向。2.7 发现模型存在的问题,并引进结构化模型对其优化。2.8 简单介绍几种受限的估计方法类: 粗糙度罚和贝叶斯方法、核方法和局部回归、基函数和字典方法2.9偏倚-方差权衡考虑k-最近邻回归拟合的误差。讨论发现,方差项随k增加而减小。从而,随k变化,需要在偏倚与方差之间权衡。更一般的,随着我们的过程模型的复杂度增加,方差趋向于增加,而平方偏倚趋向于减小。随着模型的复杂度降低,情况相反。对于最近邻方法,模型的复杂度被k控制。第3章 讨论回归的线性方法1. 介绍最小二乘法:最小二乘估计,通过使残差平方和最小,求得X列满秩时,唯一解然后给出了的一些性质并对部分性质做了证明。检验回归系数,并检验一组系数的显著性,举例说明其应用。利用高斯-马尔可夫定理证明在所有的无偏线性估计中,最小二乘法具有最小的均方误差。2. 从简单的一元回归到多元回归的过度一元回归又可以分为有截距和无截距的,有截距的一元模型可看成二元无截距的模型,只需将x0=1关于X正交化。对多元回归,我们利用Gram-Schmidt过程对模型进行回归,这样不仅可以得到参数,使用X的QR分解还可一次得到整个多元最小二乘拟合。此外,对模型的多元输出给出了一个线性模型。3. 考虑到预测精度和结果解释,引进选择变量法(最佳子集回归、逐步回归、逐步回归法选择自变量)和系数收缩的方法(岭回归、拉索回归、主成分回归、偏最小二乘法)。第4章 讨论分类的线性方法本章回到分类问题并关注分类的线性方法。这一章介绍了四种线性分类器,分别是线性回归分析,线性判别分析,logistic回归和分离超平面。线性回归分析的思想为:由于输出变量时类别变量,对输出变量y进行编码,这样可以使定性变量定量化,然后套用多元输出的线性回归的思想进行回归。线性回归分类的方法一、线性回归算法的合理;性线性回归分类的方法二、线性回归方法的缺陷4.2 分析并举例说明,当类的个数k3时,回归方法还有严重的问题,可能需要高达k-1次多项式对他们求解。4.3 线性判别分析(LDA)分析LDA与最小二乘分类法、QDA的差异,得出LDA的优缺点。然后介绍改进的判别分析:正则化的判别分析, 利用特征分解LDA的计算,降秩线性判别分析LDA,两分类的Fish方法,多类的线性判别分析(Fisher降维)。4.4 logisti回归通常使用极大似然法拟合logisti回归模型,并实际用极大似然法拟合模型,给出理解输入变量在解释结果中的作用。 逻辑斯蒂回归与LDA比较:通常认为逻辑斯蒂回归比LDA更安全、更健壮,它依赖于较少的假设。经验发现:两者得到的函数都是线性函数,而且形式非常类似。4.5 介绍分离超平面分类法。第10章 重点是关于一个相关的过程即提升。本章概述:1. 展示AdaBoost拟合一个基本学习器的加法模型,优化一个新颖的指数损失函数。该损失函数与(负的)二项式对数似然非常相似。(第10.2节到10.4节)2. 证明指数损失函数的总体极小是类概率的对数几率(见10.5节)3. 介绍比平方误差或者指数损失具有更强健壮性的回归和分类损失函数。(见10.6节)4. 证明对于提升算法在数据挖掘中的应用来说,决策树是一个理想的基本学习器(第10.7节到10.9节)5. 使用梯度方法,为具有任意损失函数的提升树开发一类技术(“MART”)(见10.10节)6. 强调“慢学习”的重要性,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论