机器学习聚类山东大学学习教案_第1页
机器学习聚类山东大学学习教案_第2页
机器学习聚类山东大学学习教案_第3页
机器学习聚类山东大学学习教案_第4页
机器学习聚类山东大学学习教案_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1机器机器(j q)学习聚类山东大学学习聚类山东大学第一页,共59页。n一的定义,而且也很难给出一个公认的和准确的定义。n机器学习在大多数情况下应用概率论与统计学理论来设计算法;2第1页/共58页第二页,共59页。3测试数据发现(fxin)规律预测预测结果规则邮件邮件XiYi:垃圾:垃圾or正常正常1.发件人邮件地址异常;2.标题含有“低价促销”3.第2页/共58页第三页,共59页。4训练(xnlin)数据测试数据学习预测预测结果模型训练过程应用过程(X1, Y1)(X2, Y2) (Xn, Yn)XiYi第3页/共58页第四页,共59页。n有监督的学习;n无监督的学习;n半监督的学习;

2、n增强学习;n多任务学习;5第4页/共58页第五页,共59页。型。n遗传算法与神经网络;n。6第5页/共58页第六页,共59页。n聚类是一种无监督分类法:没有预先指定的类别;n典型(dinxng)的应用n作为一个独立的分析工具,用于了解数据的分布;n作为其它算法的一个数据预处理步骤;7第6页/共58页第七页,共59页。8训练(xnlin)数据待分类数据第7页/共58页第八页,共59页。供了最基本的数据;n基因芯片可以衡量基因在不同条件下的表达量;n基因如果被转录(zhun l),就可以认为是处于激活状态;n转录(zhun l)产物 mRNA 的数量代表基因的活性;9第8页/共58页第九页,共5

3、9页。(biod)的差异;n研究不同的基因样本在相同的条件下的表达(biod)差异10第9页/共58页第十页,共59页。n黄色:在两种状态都表达;n黑色:在两种状态都不表达;n表达强度数据会被标准化、组成(z chn)表达强度矩阵。11Time:Time XTime YTime ZGene 110810Gene 21009Gene 348.63Gene 4783Gene 5123第10页/共58页第十一页,共59页。集合;12第11页/共58页第十二页,共59页。n聚类并非易事;n算法不同可能得到(d do)不同的结果;13第12页/共58页第十三页,共59页。Chebychev距离:n皮尔森

4、相关系数:nMinkowski距离:142()iiixy2()iiixy22(1)cosiiixyxyiiiix yCxy1()qqiiixy22()()(2)()()iiixyxyiiiixxyyCrxxyyiii-yx|maxiii-yx第13页/共58页第十四页,共59页。n类平均法:n离差平方和:15min ( ,)pqijDd x x121 21 212()(),()(),()()ipjqkpqipipjqjqxGxGkipqxGGDxxxxDxxxxDxxxxDDDDmax ( ,)pqijDd x xmin (,)pqpqDd xx121( ,)ipjqpqijxGxGDd x

5、xn n 第14页/共58页第十五页,共59页。目前划分(hu fn)的簇的质心。质心是簇的中心(平均点);n把每一个对象赋给最近的种子点;n重复第二步,直到没有新的分配;16第15页/共58页第十六页,共59页。17012345012345expression in condition 1expression in condition 2x1x2x3第16页/共58页第十七页,共59页。18012345012345expression in condition 1expression in condition 2x1x2x3第17页/共58页第十八页,共59页。19012345012345e

6、xpression in condition 1expression in condition 2x1x2x3第18页/共58页第十九页,共59页。20012345012345expression in condition 1expression in condition 2x1x2x3第19页/共58页第二十页,共59页。n缺点:n只有在 cluster 的平均值被定义(dngy)的情况下才能使用,那当涉及有分类属性的数据时该怎么办?n需要事先给出 k, cluster 的数目;n不能处理噪声数据和孤立点;n不适合发现非凸面形状的cluster ;n对初值比较敏感;21第20页/共58页第二

7、十一页,共59页。22第21页/共58页第二十二页,共59页。23第22页/共58页第二十三页,共59页。n找出最不相似的项分裂出去成为两类24第23页/共58页第二十四页,共59页。25第24页/共58页第二十五页,共59页。26第25页/共58页第二十六页,共59页。27棕熊棕熊(zngxing) 北极熊北极熊 黑熊黑熊 眼镜熊眼镜熊 大熊猫大熊猫 浣熊浣熊 小小熊猫熊猫第26页/共58页第二十七页,共59页。28第27页/共58页第二十八页,共59页。29第28页/共58页第二十九页,共59页。n个阈值,可以将距离大的边删除;n将剩余的图破解(p ji)为团的集合,每个团对应一个聚类;3

8、0第29页/共58页第三十页,共59页。31条件基因传统(chuntng)聚类双聚类第30页/共58页第三十一页,共59页。32第31页/共58页第三十二页,共59页。33f( )f( )f( )f( )f( )f( )f( )f( )f(.)f( )f( )f( )f( )f( )f( )f( )f( )f( )f( )第32页/共58页第三十三页,共59页。诊断;n方式:n基于(jy)各种特征,或在机器学习过程中提取特征;n一般基于(jy)训练集合给出关于特征的标准;34第33页/共58页第三十四页,共59页。n决策树;n支持向量机;n人工神经网络;nk 近邻法;n。35),( ,),(1

9、1llyxyxT第34页/共58页第三十五页,共59页。n)到达目标的规划。n常用于分类;n动物分类的例子:n基于不同的属性进行分步骤的判断;36 根结点根结点个子大个子大可能是松鼠可能是松鼠可能是老鼠可能是老鼠可能是大象可能是大象在水里在水里会吱吱叫会吱吱叫鼻子长鼻子长脖子长脖子长个子小个子小不会吱吱叫不会吱吱叫鼻子短鼻子短脖子短脖子短可能是长颈鹿可能是长颈鹿在陆地上在陆地上可能是犀牛可能是犀牛可能是河马可能是河马第35页/共58页第三十六页,共59页。型。n利用决策树对新数据进行分类。从根结点依次测试记录的属性值,直到到达某叶结点,找到该记录所在的类。n关键点:n建树(Tree Build

10、ing):决策树建树算法见下,这是一个递归的过程,最终将得到一棵树。n剪枝(Tree Pruning):剪枝的目的是降低由于训练集存在噪声而产生的起伏。37第36页/共58页第三十七页,共59页。n冗余属性不会对决策树的准确率造成不利影响;n找到最佳的决策树理论上是NP 难问题;38第37页/共58页第三十八页,共59页。(ji din)尽量少,熵值低;n决策节点(ji din)特征的选取;39第38页/共58页第三十九页,共59页。40PQRS0101QS001第39页/共58页第四十页,共59页。的情况;n甚至扩展(kuzhn)到使用非线性函数中去。n近年来的热点方法;n监督式学习(sup

11、ervised learning)41-0.500.5-0.500.5-0.5-0.4-0.3-0.2-0.100.10.20.30.40.5X1X2X3-0.500.5-0.500.5-0.500.5Hs.128749Hs.234680Hs.7780第40页/共58页第四十一页,共59页。42第41页/共58页第四十二页,共59页。43HH1H2第42页/共58页第四十三页,共59页。44HH1H2第43页/共58页第四十四页,共59页。45第44页/共58页第四十五页,共59页。46cd第45页/共58页第四十六页,共59页。n:类问题的决策(juc)规则为n如果 g(x) 0,则判定 x

12、 属于 H1,n如果 g(x) 0,则判定 x 属于 C2,n如果 g(x) = 0,则可以将 x 任意分到某一类或者拒绝判定。47bxwxgi)(0bxwiHC2C1第46页/共58页第四十七页,共59页。48-0.500.5-0.500.5-0.5-0.4-0.3-0.2-0.100.10.20.30.40.5X1X2X3第47页/共58页第四十八页,共59页。n并且满足:n故 H1到 H2 的间隔为:n目标:在满足约束条件的前提下达到间隔最大;n前提:线性可分;49Nibxwyii, 2 , 1,1)(0bxwi|w|2第48页/共58页第四十九页,共59页。理论,按这个(zh ge)理

13、论构造拉格朗日函数的原则为:502/minwwNibxwyii, 2 , 1,1)(s.t.NiiiiPbxwywwL1) 1)(21(3)第49页/共58页第五十页,共59页。51第50页/共58页第五十一页,共59页。52第51页/共58页第五十二页,共59页。5322212121,2,2,2, 1xxxxxx0),(2121xxxxg2221xx121xx第52页/共58页第五十三页,共59页。任何局部最优解都是全局最优解;nSVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是(b shi)样本空间的维数,这在某种意义上避免了“维数灾难”。n少数支持向量决定了最终结果,这不但可以帮助我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论