统计机器学习(陈明)基础-probability_第1页
统计机器学习(陈明)基础-probability_第2页
统计机器学习(陈明)基础-probability_第3页
统计机器学习(陈明)基础-probability_第4页
统计机器学习(陈明)基础-probability_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Classification,Input:x=x1,x2T,Output:C0,1Prediction:,1,LectureNotesforEAlpaydn2010IntroductiontoMachineLearning2eTheMITPress(V1.0),BayesRule,2,posterior,likelihood,prior,evidence,LectureNotesforEAlpaydn2010IntroductiontoMachineLearning2eTheMITPress(V1.0),K=2Classes,Dichotomizer(K=2)vsPolychotomizer(K2)g(x)=g1(x)g2(x)Logodds:,3,LectureNotesforEAlpaydn2010IntroductiontoMachineLearning2eTheMITPress(V1.0),BayesRule:K2Classes,4,LectureNotesforEAlpaydn2010IntroductiontoMachineLearning2eTheMITPress(V1.0),ParametricClassification,5,LectureNotesforEAlpaydn2010IntroductiontoMachineLearning2eTheMITPress(V1.0),数学基础的重要性,研究数据分析必须打好概率和统计基础Usingfancytoolslikeneuralnets,boostingandsupportvectormachineswithoutunderstandingbasicstatisticslikedoingbrainsurgerybeforeknowinghowtouseaband-aid.,预修课程:概率统计,主要内容:概率、随机变量及其分布、常用分布、多元随机向量随机变量的变换及其分布独立、条件独立、贝叶斯公式期望、方差,第一章:概率,概率:定量描述不确定性的数学语言例:P(牙痛是由虫牙引起)=0.820%所有其他可能实际数值可能来源于统计数据、模型、启发规则或猜测更精确的概率定义:代数、可测量、测度(参考CBChp1),概率、样本空间和事件,考虑一个事先不知道输入的试验:试验的样本空间是所有可能输出的集合事件A是样本空间的子集对每个事件A,我们定义一个数字P(A),称为A的概率。概率根据下述公理定义:,概率公理,事件A的概率是一个非负实数P(A)0合法命题的概率为1P()=1两两不相交(互斥)事件A1,A2,从上述三个公理,可推导出概率的所有的其他性质。,公理的推论,不可满足命题的概率为0P()=0P(AAc)=0对任意两个事件A、BP(AB)=P(A)+P(B)P(AB)对事件A的补事件AcP(Ac)=1P(A)对任意事件A0P(A)1,概率的解释,概率的“真正意义”仍是一个非常有争议的论题没有一种解释被一致接受概率两种主要的解释:频率解释概率=一个事件的相对频率(大量试验情况下)对应频率推断(点估计、置信区间)可信度解释概率=观测者对可能性的判断“贝叶斯概率”对应贝叶斯推断,概率的频率解释,在相似试验条件下,进行多次重复试验,得到某个特定输入的相对频率(如掷骰子或抛硬币)满足概率公理只有试验才能确定概率但是试验次数多少次才足够多?相似条件?(条件完全相同?)P(正面朝上)?P(你本门课程得90分以上)?P(明天会下雨)?,概率的可信度解释,亦称“贝叶斯概率”概率表示观测者对可能性的判断定量表示某人的信念强度是基于个人的信念和信息“主观概率”而不是“真正的概率”并没有对世界客观的表述主观判断完全一致没有矛盾?不同人之间没有统一的客观基准满足概率公理(在保持一致性的情况下),独立事件,当P(AB)=P(A)P(B)时,称两个事件A与B独立,记为可推广到有限个事件系列可通过两种方式确定事件之间的独立性显式假设:如抛硬币试验中,假设每次抛掷都是独立的数值推导:满足P(AB)=P(A)P(B)如在一个公正的掷骰子的试验中,则,不相交独立,独立总结,独立总结若P(AB)=P(A)P(B),则A和B独立。独立某些时候是假设的,某些时候推导得到的。有正概率的不相交事件不一定独立。,条件概率,当P(B)0时,给定B时A的条件概率为给定任意B,若P(B)0,则也是一个概率,即满足概率的三个概率公理当不相交时,,条件概率,下列等式不一定成立,条件概率,例1.13:对疾病D的医学测试结果输出为+和-,其概率分别为:假设某个测试的结果为+,则得病的概率为多少?,检验相当正确,不要相信直觉!,得病概率很小,条件概率,例1.13(续):假设某个测试的结果为-,则得病的概率为多少?,得病概率几乎为0,独立与条件概率,若A与B独立事件,则知道B不会改变A的概率当A与B不独立时Vs.A与B独立时:,例:条件独立,赌徒的谬误:戴伦伯特系统参与者赌红色或黑色,每赌失败一次就加大赌数,每赌赢一次就减少赌数。如果小小的象牙球让他赢了,那么就会有某种原因“记住”它,不太可能让他在下一次再赢;如果小球使他输了,它将感到抱歉,很可能帮助他在下一次赢。事实上:每一次旋转,轮盘都与以前旋转的结果无关。,摘自数学悖论奇景,条件概率总结1.如果P(B)0,则2.对给定的B,P(.|B)满足概率公理。通常,对给定的A,P(A|.)不满足概率公理。3.通常,P(A|B)P(B|A)。4.当且仅当P(A|B)=P(A)时,A与B独立。,贝叶斯公式,全概率公式:令A1,Ak为的一个划分,则对任意事件B,有。贝叶斯公式:令A1,Ak为的一个划分且对每个i,i=1,2,k。若,则对每个有,后验概率,先验概率,例:邮件分类,例1.19:email可分为三类:A1=“垃圾,”A2=“低优先级”和A3=“高优先级”。根据先前的经验,我们发现则:0.7+0.2+0.1=1。令B表示email中包含单词“free”。根据先前的经验,,思考,如果收到一封带有单词“free”的邮件,该邮件为垃圾邮件的概率是多少?如果仅以单词“free”为先验来进行邮件邮件分类,如何判别一封邮件是否为垃圾邮件?,第二章:随机变量,上节课内容概率理论概率公理及推论随机变量之间的关系:条件概率、独立/条件独立、贝叶斯公式本节课内容随机变量及其分布随机变量变换常见分布族多元随机向量的分布联合分布、边缘分布、条件分布、独立,随机变量,统计推断是与数据相关的。随机变量就是将样本空间/随机事件与数据之间联系起来的纽带随机变量是一个映射,将一个实数值赋给一个试验的每一个输出例2.2:抛10次硬币,令X()表示序列中正面向上的次数,如当=HHTHHTHHTT,则X()=6。,随机变量的概率描述,事件的概率随机变量的概率描述给定一随机变量X及实数子集A,定义例2.4:抛2次硬币,令X表示正面向上的次数,则,其中X表示随机变量,x表示X可能的取值,随机变量的分布函数,随机变量X的累积分布函数(cumulativedistributionfunction,CDF)定义为CDF是一个非常有用的函数:包含了随机变量的所有信息。CDF的性质:略(见书),有时记为F,例:随机变量的CDF,例2.6:公正地抛硬币2次,令X表示正面向上的次数,则CDF右连续、非减函数对所有实数x都有定义虽然随机变量只取0、1、2,离散型随机变量的概率函数,离散型随机变量的概率函数(probabilityfunctionorprobabilitymassfunction,pmf)定义为对所有的CDF与pmf之间的关系为:,有时记为f,例:离散型随机变量的pmf,例2.10:公正地抛硬币2次,令X表示正面向上的次数,则概率函数为:,连续型随机变量的概率(密度)函数,对连续型随机变量X,如果存在一个函数,使得对所有的x,且对任意有则函数被称为概率密度函数(probabilitydensityfunction,pdf)。CDF与pdf之间的关系:在所有可微的点x,则,注意:是可能的,例:连续型随机变量的CDF和pmf,例2.12:设X有PDF:显然有有该密度的随机变量为(0,1)上的均匀分布:Uniform(0,1),即在0和1之间随机选择一个点。其CDF为:,分位函数(quantilefunction),令随机变量X的CDF为F,CDF的反函数或分位函数(quantilefunction)定义为其中。若F严格递增并且连续,则为一个唯一确定的实数x,使得。为增函数中值(median):一个很有用的统计量,对噪声比较鲁棒,随机变量的变换,X:老的随机变量,Y:新的随机变量,离散:,离散型随机变量的变换,例2.45:假设Y的取值比X少,因为该变换不是一一映射。,连续型随机变量的变换,方法1:CDF方法变换的三个步骤对每个y,计算集合计算CDFPDF为,连续型随机变量的变换,方法2:Jacobian方法当r为单调增函数/减函数,定义r的反函数,则当X、Y存在一一映射时,上述结论仍可用分区间:在每个区间内为单调函数,可分区间利用上述结论,例:连续型随机变量的变换,例2.46:令求Y的概率密度函数,例:连续型随机变量的变换,例2.46:则CDF法:Jacobian方法,例:连续型随机变量的变换,例:概率积分变换X有连续CDF,定义随机变量Y为,则Y为0,1上的均匀分布,即对随机数产生特别有用,0.5,1.0,0,二元随机向量的联合分布,离散型随机变量的联合分布:令X、Y为一对离散型随机变量,联合概率函数(pmf)定义为联合累积分布函数(CDF)为:,(X,Y):随机向量,例2.18:对如下有两个随机变量的二元分布,变量X和Y取值为0、1,则。,二元随机向量的联合分布,连续型随机变量的联合分布:令X、Y对一对连续型随机变量,联合概率密度函数(pdf)定义为对任意集合联合概率分布函数(CDF)为:,边缘分布,离散型随机变量:,边缘分布,连续型随机变量:,联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布,但反之通常不成立,独立,PDF可以因式分解,独立,随机变量之间的关系,独立当且仅当不独立:随机变量之间的关系用条件分布描述条件分布:,条件分布,离散型随机变量的条件概率函数:对连续型随机变量,条件概率定义相同,但解释不同,第一节课中随机事件的条件概率:,条件分布,给定变量Y时,在X上的概率分布对Y的每个可能取值,对X都定义有一个概率分布是一个概率分布,满足概率分布的所有性质,如,例:条件分布,联合分布、边缘分布与条件分布,边缘分布与联合分布:条件分布与边缘分布、联合分布:联合分布与条件分布、边缘分布:,条件概率链规则(ChainRule),链规则或,贝叶斯规则,贝叶斯规则,似然,先验,后验,贝叶斯规则中的边缘化,给定和,推导经常使用贝叶斯规则的归一化因子通过边缘化,,已知,?,边缘分布,通过使用(1)边缘化和(2)链规则,给定,可以计算:,条件独立,(绝对)独立:给定Y,不会对X增加任何信息条件独立:若在给定Z的情况下,X与Y条件独立,则一旦已知Z,Y不会对X提供额外的信息例:,联合概率,联合概率:定义了所有可能状态的概率二值变量的情况下有项如果这些变量是独立的,则对二值变量,用n个独立变量表示,联合概率,例:但若Y和W在给定X下独立,且Z和W、X在给定Y下独立,则真实问题通常是这样的,贝叶斯网络就是利用了条件独立的性质,链规则推广,条件概率的定义递归定义:,多元随机向量的分布,令随机向量,其中为随机变量,用表示X的pdf/pmf,先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量,如可以定义边缘分布、条件分布等当随机向量互相独立时,随机向量相互独立两两独立,但反之不成立,随机向量的变换,令,求1.对每个z,计算集合2.计算CDF3.PDF为例2.48,常见分布族,离散型随机变量Ch2,p25均匀(Uniform)分布贝努利(Bernoulli)分布二项(Binnomial)分布超几何(HyperGeometric)分布几何(Geometric)分布泊松(Possion)分布连续型随机变量Ch2,p27均匀(Uniform)分布正态(Normal)分布Gamma分布Beta分布分布指数(Exponential)分布,常见分布族,每个分布族pdf/pmf形式参数典型应用均值、方差,正态分布,亦称高斯分布,:位置(location)参数:尺度(scale)参数如图像处理中的多尺度分析,正态分布,最重要的分布之一在实际遇到的许多随机现象都服从或近似服从正态分布如考试成绩中心极限定理:随机样本的均值近似服从正态分布对任意IID样本,则,标准正态分布,当时,正态分布称为标准正态分布,通常用Z表示服从标准正态分布的变量,记为。pdf和CDF分别记为标准化变换:若,则若,则正态分布的线性组合仍是正态分布:若是独立的,则,常见多元分布,多元二项分布多元正态分布,多元二项分布,二项分布的多元变量版本其中例:从箱子中共k中颜色的球,为抽取到颜色j的概率,共抽取n次,令为颜色j出现的次数,则,多元二项分布,边缘分布:若,其中且,则的边缘分布为,多元正态分布,令,其中且互相独立则Z的协方差矩阵为单位矩阵I,记为。,多元正态分布,更一般地,其中表示矩阵的行列式,为均值向量,协方差矩阵为一个对称的正定矩阵,多元正态分布,多元正态分布有如下性质:1、若且,则2、若,则3、若,a为与X相同长度的向量,则,随机向量的变换,令集合集合且A、B存在一一映射时,可利用Jacobian方法计算定义反变换,变换的Jacobian为(U,V)的联合分布为,思考题:求两个正态分布的和与乘积的分布,第三章:期望,上节课内容随机变量及其分布随机变量变换的分布常见分布族多元随机向量的分布:联合分布、边缘分布、条件分布本节课内容常用统计量:期望、方差、矩、中值、分位数IID样本、样本均值、样本方差,期望,期望/均值:随机变量的平均值概率加权平均,期望,期望是随机变量的一个很好单值概述:随机变量典型的值或期望值大数定律(Chp5):当有大量独立同分布(IndependedIdenticalDistribution,IID)样本时,期望可视为样本均值当,我们说是良好定义的(welldefined);否则我们说期望不存在。,期望,最小距离假设我们用L2距离度量一个随机变量X与一个常数b的距离,即。b离X越近,这个量就越小。因此我们可以确定b的值,使得最小,b可认为是X的一个很好预测。问题:如果采用L1作为距离度量呢?,注意:是常数,随机变量变换的期望,1.2.注意:当时,,随机变量变换的期望,例1:,则概率是一个特殊的期望:概率为的期望例3.7:,则也可以先求,然后,随机向量变换的期望,随机向量变换的期望,令例3.9:设(X,Y)是单位正方形区域上的联合均匀分布,则,期望的性质,线性运算:加法规则:乘法规则:,期望的性质,不好计算。利用加法规则:令则,众数(mode),众数:设随机变量X有密度,且存在满足,则称为X的众数。随机变量出现次数最多的位置期望、中位数和众数都称为位置参数。当随机变量的分布为高斯分布时,三者相等,方差,方差:刻画随机变量围绕均值的散布程度方差越大,X变化越大;方差越小,X与越接近方差:二阶中心矩,方差的性质,注意:期望的加法规则无需独立条件不独立随机变量和的方差计算需考虑变量之间的协方差,方差,此时为确定性事件,故没有变化,方差为0,样本均值和方差,令为IID,样本均值定义为计算均值时忽略了概率?样本方差定义为,样本均值和方差,和分别为和的很好估计(无偏估计),协方差(covariance)/相关系数,协方差/相关系数:刻画两个随机变量之间关系强弱,协方差(covariance)/相关系数,X、Y独立,则X、Y不相关:但反过来不成立!,协方差的性质,对任意两个随机变量X和Y,有当X、Y独立时:推广到多个随机变量:,方差-协方差矩阵,令随机向量的形式为:则的方差协方差矩阵为当个成分变量独立时,协方差矩阵是什么样子呢?,相关(correlation),相关:度量两个变量之间的线性相关程度若当时,当时,变量之间不线性相关独立意味着不相关但反过来不成立!非线性相关,但可能高阶相关,条件期望,给定变量Y时,在X上的概率分布对Y的每个可能取值,对X都定义有一个概率分布也能求期望,称为条件期望,条件期望,:数字:y的函数。在知道y的值之前,不知道:随机变量,当Y=y时,的值:随机变量,条件期望,例3.23:假定对采样,在给定x后,在对采样直观地,期望实事上,对,有得到期望因而注意:是随机变量,当时,其值为思考题:当X与Y独立时,的值?,条

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论