




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘知识点:1、 数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识。数据库DB系统最主要的功能:数据存储、查询处理、事物处理。数据挖掘的主要功能:关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理:是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。数据预处理功能:数据集成,数据清理,数据变换,数据简化。2、 数据挖掘的基本算法:1、分类:分类的目的是构造一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到某一个给定类别。 分类定义:给定数据库Dt1,t2,tn,元组tiD,类的集合CC1,Cm,分类问题定义为从数据库到类集合的映射f:DC,即数据库中的元组ti分配到某个类Cj中,有Cj ti|f(ti) = Cj,1in,且tiD。ID3算法:ID3算法是国际上最具影响和最早的决策树算法。首先通过检验数据库中的所有字段,找出具有最大信息增益Gian(A)的字段作为决策树碑的一个结点,再根据字段的不同取值建立树的分支,对每个子集分支重复建立下层结点和分支,直到某一子集的结果属于同一类。信息量计算公式: I(s1,s2,sm)=Pi log2(pi) (i=1,m) (S是s个数据样本的集合。类别属性具有m个不同值Ci。si是类Ci中的样本数。pi是任意样本属于类别Ci的概率,并用si/s估计。)由非类别属性A划分为子集的熵(也叫做信息熵)计算公式为:E(A)= (s1j+ +smj)/s * I(s1j, ,smj) (非类别属性A具有v个不同值a1,a2,av。利用属性A将集合S划分为v个子集S1,S2,Sv;其中Sj包含S集合中在属性A上具有值aj的数据样本。 Sij是子集Sj中类Ci的样本数(Sij是子集Sj中类Ci的样本数)。 )信息增益:Gain(A)= I(s1,s2,sm) E(A)例题:DayoutlookTemperatureHumidityWindPlay ball1晴HotHighWeakNo2晴HotHighStrongNo3多云HotHighWeakYes4有雨mildHighWeakYes5有雨CoolNormalWeakYes6有雨CoolNormalStrongNo7多云CoolNormalStrongYes8晴mildHighWeakNo9晴CoolNormalWeakYes10有雨mildNormalWeakYes11晴mildNormalStrongYes12多云mildHighStrongYes13多云hotNormalWeakYes14有雨mildHighStrongNo类C1运动“适合”,类C2对运动“不适合”I(s1, s2) = I(9, 5) =0.940计算属性天气的熵::贝叶斯分类方法:贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预测一个数据对象属于某个类别的概率。贝叶斯定理:主要算法:朴素贝叶斯分类、贝叶斯信念网络分类算法等。朴素贝叶斯分类:朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。 原理:(1)设样本有n个属性(A1,A2,.,An),每个样本可看作是n维空间的一个点X=(x1,x2,.,xn)。(2)假定有m个不同的类别,C1,C2,.Cm。X是一个未知类别的样本。预测X的类别为后验概率最大的那个类别,即算法将未知类别的样本X归到类Ci,当且仅当P(Ci|X) P(Cj|X),对于所有的j成立(1jm,ji)即P(Ci|X)最大。(3)根据贝叶斯定理得知 P(Ci|X)=P(X|Ci)P(Ci)/P(X)。P(X)对于所有类为常数,因此只需 P(X|Ci)P(Ci)取最大即可 类的先验概率P(Ci)由P(Ci)=si/s估算 Si训练样本中属于类Ci的样本数,s全部训练样本的样本数。(4)给定具有多属性的数据集,计算P(x|Ci)的开销可能非常大,为降低计算P(x|Ci)的开销,朴素贝叶斯做了类条件独立假设,即假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,则:P(X|Ci)P(x1|Ci)P(x2|Ci).P(xn|Ci)(5)对未知样本X分类,对每个类Ci,分别计算P(X|Ci)P(Ci)。样本X被指派到类Ci,当且仅当 P(X|Ci)P(Ci) P(X|Cj)P(Cj), (1jm,ji)即X被指派到其P(X|Ci)P(Ci)最大的类Ci。算法描述:函数名:NaiveBayes输入:类别号未知的样本X=x1,x2,xn输出:未知的样本X所属类别号 (1) for j=1 to m (2) 计算X属于每个类别Cj的概率 P(X|Cj)P(x1|Cj)P(x2|Cj).P(xn|Cj); (3) 计算训练集中每个类别Cj的概率P(Cj); (4) 计算概率值Q = P(X|Cj)* P(Cj); (5) end for (6) 选择计算概率值Q最大的Ci (1=i=m)作为类别 输出。例题:DayoutlookTemperatureHumidityWindPlay ball1晴HotHighWeakNo2晴HotHighStrongNo3多云HotHighWeakYes4有雨mildHighWeakYes5有雨CoolNormalWeakYes6有雨CoolNormalStrongNo7多云CoolNormalStrongYes8晴mildHighWeakNo9晴CoolNormalWeakYes10有雨mildNormalWeakYes11晴mildNormalStrongYes12多云mildHighStrongYes13多云hotNormalWeakYes14有雨mildHighStrongNo使用朴素贝叶斯算法预测未知样本:x=rainy,hot,normal,weak,?属性play为yes还是no的概率。1、 P(play=yes | x)=P(x | play=yes)* P(play=yes) =P(x1| play=yes)* P(x2|play=yes)*.*P(x4 | play=yes)*P(play=yes) P(x1| play=yes)=P(outlook=rainy | play=yes)=3/9 P(x2| play=yes)=P(tem=hot | play=yes)=2/9 P(x3| play=yes)=P(humidity=normal | play=yes)=6/9 P(x4| play=yes)=P(wind=weak | play=yes)=6/9 所以,P(play=yes | x)=3/9 * 2/9 * 6/9 * 6/9 * 9/14=0.0212、 P(play=no | x)=P(x | play=no) * P(play=no) =P(x1|play=no) * P(x2|play=no) * P(x4|play=no) * P(play=no) P(x1| play=no)=P(outlook=rainy | play=no)=2/5 P(x2| play=no)=P(tem=hot | play= no)=2/5 P(x3| play=no)=P(humidity=normal | play= no)=1/5 P(x4| play=no)=P(wind=weak | play=no)=2/5所以,P(play=no| x)=2/5 * 2/5 * 1/5 * 2/5 * 5/14=0.0045拉普拉斯 ( Laplace ):朴素贝叶斯分类算法在计算概率的时候存在概率=0,及概率值可能很小的情况,所以,在某些情况下,需要考虑条件概率的Laplace估计和解决小概率相乘溢出问题。条件概率=0,用条件概率的Laplace估计。Laplace估计定义:P(Xi|Yj)=(nc+l*p)/(n+l)N是类 Yj中的实例总数,nc是类 Yj的训练样例中取值为Xi的样例数,l p例题:序号是否有房婚姻状况年收入拖欠贷款1YesSingle 125KNo2NoMarried100KNo3NoSingle 70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle 85KYes9NoMarried75KNo10NoSingle 90KYes当条件概率为0时,用Laplace估计求X=(yes,single,80k,?)拖欠贷款的属性为yes还是no的概率。设是否有房为x1,婚姻状况为x2,年收入为x3. 1)P(拖欠贷款=yes | x)=P(x | 拖欠贷款=yes) P(拖欠贷款=yes) =P(x1|拖欠贷款=yes) P(x2|拖欠贷款=yes)P(x3|拖欠贷款=yes)P(拖欠贷款=yes)P(x1|拖欠贷款=yes)=(0+31/3)/3+3=1/6P(x2|拖欠贷款=yes)=2/3P(x3|拖欠贷款=yes)= =0.589x3(平均)=(95k+85k+90k)/3=90k2)P(拖欠贷款=no | x)=P(x | 拖欠贷款=no)P(拖欠贷款=no) =P(x1|拖欠贷款=no)P(x2|拖欠贷款=no)P(x3|拖欠贷款=no)P(拖欠贷款=no)P(x1|拖欠贷款=no)=3/7P(x2|拖欠贷款=no)=2/7P(x3|拖欠贷款=no)=X3(平均)=(125k+100k+70k+120k+60k+220k+75k)=110k2、聚类a)聚类(Clustering)是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。b)有关的聚类方法(类型)主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基于模型类方法。c)聚类和分类的相同点和不同点分析:一是按照定义区分;二是聚类不依赖于预先定义好的类,它要划分的是未知的;是无指导学习,聚类是观察式学习,而不是示例式学习。(聚类又称分段,是一种对具有共同趋势和模式的数据元组进行分组的方法。) d)无论如何最大程度的实现类中对象相似度最大,类间相似度最小是聚类分析的指导思想。e)数据挖掘对聚类算法的典型要求如下:可伸缩性处理不同类型属性的能力发现任意形状的聚类需要(由用户)决定的输入参数最少处理噪声数据的能力对输入记录顺序不敏感高维问题基于约束的聚类可解释性和可用区间标度变量计算方法:数据标准化:计算绝对偏差的平均值 计算标准度量值 (z-score):二元变量计算方法:一个二元变量只有两个状态0或1,0表示该变量为空,1表示该变量存在。两个变量0和1没有优先权,则二元变量为对称,相反,如果两个状态输出不是同等重要,那么该二元变量是不对称的。对称的二元变量计算其相异度公式d(i,j)=(r+s)/(q+r+s+t)非对称的二元变量:d(i,j)=(r+s)/(q+r+s)其中q表示对象i和j都为1的变量数目,r是对象i为1而对象j为0的变量数目。s 是对象i为0对象j为1的变量数目,t是对象i和j都为0的变量数目。变量的总数是p=q+r+s+t。例题:计算相异度:Name是对象标识,gender是对称的二元变量,其余的属性都是非对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 古诗登高赏析与解读:高二语文教案
- 我的周末初一语文作文12篇
- 农业行业农产品质量安全责任免责合同
- 时间想象课件
- 高中我的老师作文8篇
- 市场调研数据分析表格-新零售模式探索
- 梦想的色彩700字(11篇)
- 农业生产托管技术服务协议
- 课题2 化学实验与科学探究 第1课时 常见仪器和试剂取用 分层作业(解析版)人教版九年级化学上册
- 《新编商务应用文写作》第三章 习题参考答案
- 河南中州水务笔试内容
- 《中长跑课件》课件
- 2025版高考化学一轮复习第九章有机化合物1甲烷乙烯苯煤石油天然气的综合利用强化训练1含解析新人教版
- 《肿瘤溶解综合征》课件
- 电瓶车以租代购协议书范文范本
- 人教版(2024新版)七年级上册数学第四章 整式的加减 单元测试卷(含答案)
- 小数乘除法竖式计算专项练习题大全(每日一练共23份)
- 幼小衔接-认识人体-课件
- XX集团公司合规管理体系建设实施方案
- 高职药学专业《药物化学》说课稿
- 婚纱店入股合同协议书范本
评论
0/150
提交评论