王秀平-数据挖掘复习.pptx_第1页
王秀平-数据挖掘复习.pptx_第2页
王秀平-数据挖掘复习.pptx_第3页
王秀平-数据挖掘复习.pptx_第4页
王秀平-数据挖掘复习.pptx_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、K-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。,K-近邻分类算法,算法 K-近邻分类算法 输入: 训练数据X;近邻数目K;待分类的元组t。 输出: 输出类别c。 (1)N=; (2)FOR each d X DO BEGIN (3) IF |N|K THEN (4) N=N d; (5) ELSE (6) IF u N such that sim(t,u)sim(t,d) THEN BEGIN (7) N=N - u; (8) N

2、=N d; (9) END (10)END (11)c=class to which the most u N.,KNN的直观解释,1、定义的直观形式: 找出与目标最接近的K个样本; 将目标划分到找出的K个样本中出现最频繁的类。 2、K的直观形式: 以目标样本为中心; 划出一个刚好包含K个样本的圆; 当K增大时,圆半径增大。,k近邻算法,k近邻法,K近邻 设有N个样本分布到c个类为1, , i, c,每类有Ni个样本,i=1c。在全部 样本找出k个最近距离的近邻。 k个近邻分布于c个类中数目用ki表示。k近邻的判断函数为:,决策规则 如果 那么决策为 如图所示例子中k1=4, k2=0, k3

3、=1,所以 j=1, 。,本例的k1=4, k2=0, k3=1,遗传算法的生物学基础 生物进化理论与遗传学,现代综合进化论,没有所谓生存斗争的问题,单是个体繁殖机会的差异也能造成后代基因库组成的改变,自然选择也能够进行,生物的进化实际上是种群的进化 每一代个体基因型的改变会影响种群基因库的组成 种群基因库的进化就是种群的进化,基因库+适者繁殖=群体进化,遗传算法的基本术语,编码:从问题域到遗传域的映射。即性状与基因的DNA序列的映射 解码:从遗传域到问题域的映射。即将DNA序列解释成个体的性状 适应度:种群的某个个体对生存环境的适应程度。适应度高的个体可以获得更多的繁殖机会,而适应度低的个体

4、,其繁殖机会就会比较少,甚至逐渐灭绝 选择:以一定概率从种群中选择若干个体的操作。一般而言,选择就是基于适应度的优胜劣汰的过程 交叉:有性生殖生物在繁殖下一时两个同源染色体之间通过交叉而重组,即在两个染色体的相同位置处DNA被切断,前后两串分别交叉组合形成新的染色体,遗传算法的基本思想,遗传算法的流程图,编码,解码,遗传算法基本要素与实现技术,编码与解码,问题域(解空间) 优化变量,遗传域(基因空间) 优化变量的代码表示,映射,二进制编码 浮点数编码 符号编码,编码与解码,二进制编码 二进制编码是遗传算法中最常用、最原始的一种编码方法,它将原问题的解空间映射到二进制空间上,然后进行遗传操作。找

5、到最优个体后再通过解码过程还原原始的数据形式进行适应度评价 二进制编码的串长度 取决于求解的精度,编码公式,解码公式,编码与解码,浮点编码 个体的基因值用某一范围内决策变量的一个浮点数来表示,个体的编码长度等于其决策变量的个数。 浮点编码使用的是决策变量的真实值,X:,某个优化问题含有6个变量,则它的一个基因表达为,对应的表现型为 x=2.50,9.54,3.25,0.25,4.25,7.00,编码与解码,符号编码 个体基因值取自一个无数值含意,而只有代码含义的符号集。符号集可以是字母,也可以是数字序号。,如血型A,B,AB,O可以分别用a,b,c,d表示,或者a1,a2,a3,a4,也可表示

6、为1,2,3,4,二进制编码染色体的交叉,单点交叉 基因位数为 ,交叉点k的范围为1, -1,在该点为分界相互交换变量,例如:,子个体1 0 1 1 1 0 1 0 0 1 0 1 子个体2 1 0 1 0 1 0 1 1 0 1 0,二进制编码染色体的交叉,多点交叉,多点交叉的破坏性可以促进解空间的搜索,二进制编码染色体的交叉,均匀交叉 两个配对个体的染色体每个基因位以相同的交叉概率进行交换 具体步骤 随机产生一个与个体编码串长度等长的屏蔽字W 按下列规则交叉两个父本的基因,若 =0,则父代第i个基因相互交换,若 =1,则父代第i个基因不相互交换,均匀交叉,例如,几个术语,基因型:10001

7、01110110101000111,表现型:0.637197,编码,解码,个体(染色体),基因,单点交叉运算,交叉前: 00000|01110000000010000 11100|00000111111000101 交叉后: 00000|00000111111000101 11100|01110000000010000,交叉点,GA的框图,产生初始群体,是否满足停止准则,是,输出结果并结束,计算个体适应度值,比例选择运算,单点交叉运算,基本位变异运算,否,产生新一代群体,执行M/2次,线性分类器,f,x,y,+1 -1,f(x,w,b) = sign(w. x - b),线性分类器的间隔( m

8、argin):到超平面最近的样本与此超平面之间的距离。,最大间隔,f,x,y,+1 -1,f(x,w,b) = sign(w. x - b),具有最大间隔的线性分类器叫做最大间隔线性分类器。 其就是一种最简单的支持向量机(SVM) (称为线性支持向量机,即LSVM),线性支持向量机,f,x,y,+1 -1,f(x,w,b) = sign(w. x - b),支持向量(Support Vectors) :是那些距离超平面最近的点。,具有最大间隔的线性分类器叫做最大间隔线性分类器。 其就是一种最简单的支持向量机(SVM) (称为线性支持向量机,即LSVM),线性支持向量机,最大间隔,Why 最大间

9、隔?,+1 -1,f(x,w,b) = sign(w. x - b),支持向量(Support Vectors) :是那些距离超平面最近的点。,具有最大间隔的线性分类器叫做最大间隔线性分类器。 其就是一种最简单的支持向量机(SVM) (称为线性支持向量机,即LSVM),线性支持向量机,传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。 传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。 推广能力是指: 将学习机器(即预

10、测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。,SVM的理论基础,“过学习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。 例如:对一组训练样本(x,y),x分布在实数范围内,y取值在0,1之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0.,过学习问题,根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。 Vapnik 提出的支持向量机(Support Vector Machine, SVM

11、)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。 形成时期在19921995年。,SVM,由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解 SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中 Joachims 最近采用SVM在Reuters-21578来进行文本分类,并声称它比当前发表的其他方法都好,SVM,SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用图2的两维情况说明.,最

12、优分类面,图中, 方形点和圆形点代表两类样本, H 为分类线,H1, H2分别为过各类中离分类线最近的样本且平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。 所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大. 推广到高维空间,最优分类线就变为最优分类面。,最优分类面,如何求最优分类面,最优分类面,非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 SVM

13、 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理 ”(transductive inference) ,大大简化了通常的分类和回归等问题。,SVM方法的特点,SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主

14、要体现在: 增、删非支持向量样本对模型没有影响; 支持向量样本集具有一定的鲁棒性; 有些成功的应用中,SVM 方法对核的选取不敏感。,SVM方法的特点,例1:如下图所示(简单的一维情况) 1、设全部样本分为6类, 2、计算距离矩阵D(0),3、求最小元素: 4、把1, 3合并7=(1,3) 4, 6合并8=(4,6) 5、作距离矩阵D(1),按最小距离准则,6、若合并的类数没有达到要求,转3。否则停止。 3、求最小元素: 4、8, 5, 2合并, 9=(2,5,4,6),三、初始分类和调整 选一批代表点后,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初

15、始分类,再重新计算各聚类中心,称为成批处理法。 选一批代表点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。 直接用样本进行初始分类,先规定距离d,把第一个样品作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。,四、K-均值算法:成批处理法 例:已知有20个样本,每个样本有2个特征,数据分布如下图,第一步:令K=2,选初始聚类中心为,第三步:根据新分成的两类建立新的聚类中心,第四步: 转第二步。 第二步:重新计算 到z1(2) , z2(2) 的距离,把它们归为最近聚类中心,重新分为两类,,第三步,更新聚类中心,第四步, 第二步, 第三步,更新聚类中心,说明: (1)K是指需要分成K类,均值是指每类的中心,就是该类所有样本的平均值,不一定就有某个样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论