




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘主要算法及流程说明1 贝叶斯概率算法1) 贝叶斯概率算法主要应用于离散分类应用中,其要求属性集保持相对独立性或者具有弱关联关系。2) 贝叶斯概率算法主要是适用于分类问题,进行所属类型的判定;通过对各种属性及概率的最大似然估计判断,得到最终分类结果。3) 贝叶斯分类算法的决策依据(以二分类为例):最小误差分类,即,则将X分到类别y1,否则为y2,其相应错误分类概率为。最小风险分类:通过错误代价矩阵判定应该归属类,其代价矩阵为,风险矩阵值通过给定风险函数确定,风险函数为:,若,则将X分到类y1中,否则分到类别y2中。4) 在判定中,习惯于选择正态密度函数作为数据分布的假设,计算变量X的最终所属分类为便于描述,X表示属性集,Y表示类变量。贝叶斯概率算法的主要步骤可以分成两大步:创建网络拓扑结构估计每一个属性的概率表中的概率值。其中,网络拓扑结构(有向无环图)生成,是简化贝叶斯概率算法复杂度的一个重要步骤。网络拓扑结构可以通过对主观的领域专家知识编码进行获得,其主要流程处理如下:a) 假设表示变量的全序b) For j=1,2,d doc) 令表示T中第j个次序最高的变量d) 令表示排在前面的变量集合e) 去掉集合中对变量没有影响的变量,通过先验概率进行判断。f) 在和集合中剩余的变量之间画弧,即表示彼此之间存在一定的互相影响关系。g) End for依据统计数据的概率值进行结果分类判定,其主要执行步骤如下:1. 假设表示所有的属性集合,表示所有的类变量集合。2. 合计统计数据集的数量,即为N。3. For i = 1,2,m do4. For j = 1,2,n do5. 统计结果为Yi时,恰好相应属性集分别为Xj时的数目Nij。6. Pij = Nij/N(即计算的统计概率)。7. End for8. 计算后验概率,表示当前待判定的属性集合9. End for10. 选择最小概率误差结果的Yk,(k=1,2,m)表示最终分类结果注:1 在进行贝叶斯网络拓扑结构生成过程中,需要人为适当干预,确定变量中的原因变量与结果变量成分,然后从各原因变量向其对应的结果变量画弧,否则计算量会达到d!之多。2 在特殊情况下,若训练样例不能保证覆盖所有属性值时,可以针对为覆盖属性指定用户概率值p,尤其适用于训练样集相对比较小的情况。3 计算后验概率时,依据贝叶斯网络拓扑结构的因果关系图,进行直接乘法操作或者判定无关而直接取先验概率。4 针对属性集中的相关属性,需要进行打捆处理,否则可能会降低贝叶斯算法的分类效果。2 神经网络算法1) 神经网络算法是一种由多个输入经计算到单个输出的处理算法,对信息的处理是非线性的。2) 神经网络算法的输入层与输出层之间可以包含多个中间层,对于不同模型的神经网络算法各神经元节点之间存在不同的连接方式。3) 神经网络算法可以处理一定的冗余特征,主要体现在权值在训练过程的学习方式。4) 训练神经网络算法各神经元对应权值是一个非常耗时的过程,尤其是当隐藏节点数量比较大时。但是,其在计算分类过程中速度比较快。在训练神经网络来学习分类任务之前,需要确定输出层的节点数目,若为2-分类问题,一个输出节点即可;而对于k-类问题,则需要k个输出节点。神经网络算法权值训练学习过程如下所示:开始确定输入层与输出层节点数神经网络计算输出结果检验得到优化后的权值Y反馈计算,优化权值权值更新N结束图1 神经网络算法权值训练学习流程示意图以最为常用且比较成熟易操作的单隐藏层神经网络结构为例,其算法伪代码实现如下:a) 令是训练样例集b) 随机初始化权值向量c) Dod) For 每一个训练样例 doe) 计算预测输出结果f) For 每个权值 dog) 更新权值h) End fori) End forj) While(不满足终止条件)注:1 在计算过程中保持01之间,被称作是学习率。其值接近0时,新权值主要受旧权值的影响;当值接近1时,则新权值对当前循环中的调整量更加敏感。2 为保证新权值变化的合理性与提升运算效率,开始一般初始化值较大,运算过程中依据计算结果进行梯度调整:。即依据误差平方和的平局值进行调整。3 关联分析1) 关联分析主要用于发现隐藏在大型数据集中的有意义联系,并对所发现的联系用频繁项集或关联规则的形式进行表示。2) 关联规则是一种形如的蕴涵表达式,其中X和Y是不相交的项集,即。3) 关联规则的强度由支持度和置信度计量,其中支持度,置信度。表示包含项集X的事务数目。在进行关联分析计算时,最重要且最费时的环节为频繁项集的产生阶段,一般利用Apriori算法进行生成。算法伪代码描述如下:a) K=1b) ,即产生所有的频繁1-项集c) Dod) K = k + 1e) ,即产生相对应的候选项集f) For 事务 dog) ,此步骤用于识别事务t的所有候选h) For 候选项集 doi) j) End fork) End forl) ,即产生所有的频繁k-项集m) whilen) result = 注:!在频繁项集生成与选择过程中,一般是先产生一个包括空集在内的项集格,然后确定包含较少候选项的频繁项集,采用深度优先搜索算法,仅对该项集的超集进行匹配查找,提升运算效率。针对频繁项集result需要深度分析内部的关联规则,规则生成也使用Apriori算法。a) for k-频繁项集, k 2 dob) ,即规则的1-项后件c) Call ap-genrulesd) End for其中ap-genrules的实现伪代码如下:a) ,即频繁项集的大小b) ,即规则后件的大小c) If dod) e) For 每个 dof) g) If doh) 输出:规则及其置信值i) Elsej) 从中删除k) End ifl) End form) Call ap-genrulesn) End if在频繁项集生成与规则发现环节,我们均使用了过程,其中的实现伪代码基本如下:a) for 每个dob) for每个 doc) if dod) e) if dof) delete cg) else h) i) End ifj) End ifk) End forl) End form) Return 注:1 的作用是为了防止重复产生关联项。频繁项集规则生成过程即在频繁项集中筛选同时满足最小支持度与最小可信度的项集关系。爱人者,人恒爱之;敬人者,人恒敬之;宽以济猛,猛以济宽,政是以和。将军额上能跑马,宰相肚里能撑船。最高贵的复仇是宽容。有时宽容引起的道德震动比惩罚更强烈。君子贤而能容罢,知而能容愚,博而能容浅,粹而能容杂。宽容就是忘却,人人都有痛苦,都有伤疤,动辄去揭,便添新创,旧痕新伤难愈合,忘记昨日的是非,忘记别人先前对自己的指责和谩骂,时间是良好的止痛剂,学会忘却,生活才有阳光,才有欢乐。不要轻易放弃感情,谁都会心疼;不要冲动下做决定,会后悔一生。也许只一句分手,就再也不见;也许只一次主动,就能挽回遗憾。世界上没有不争吵的感情,只有不肯包容的心灵;生活中没有不会生气的人,只有不知原谅的心。感情不是游戏,谁也伤不起;人心不是钢铁,谁也疼不起。好缘分,凭的就是真心真意;真感情,要的就是不离不弃。爱你的人,舍不得伤你;伤你的人,并不爱你。你在别人心里重不重要,自己可以感觉到。所谓华丽的转身,都有旁人看不懂的情深。人在旅途,肯陪你一程的人很多,能陪你一生的人却很少。谁在默默的等待,谁又从未走远,谁能为你一直都在?这世上,别指望人人都对你好,对你好的人一辈子也不会遇到几个。人心只有一颗,能放在心上的人毕竟不多;感情就那么一块,心里一直装着你其实是难得。动了真情,情才会最难割;付出真心,心才会最难舍。你在谁面前最蠢,就是最爱谁。其实恋爱就这么简单,会让你智商下降,完全变了性格,越来越不果断。所以啊,不管你有多聪明,多有手段,多富有攻击性,真的爱上人时,就一点也用不上。这件事情告诉我们。谁在你面前很聪明,很有手段,谁就真的不爱你呀。遇到你之前,我以为爱是惊天动地,爱是轰轰烈烈抵死缠绵;我以为爱是荡气回肠,爱是热血沸腾幸福满满。我以为爱是窒息疯狂,爱是炙热的火炭。婚姻生活牵手走过酸甜苦辣温馨与艰难,我开始懂得爱是经得起平淡。爱人者,人恒爱之;敬人者,人恒敬之;宽以济猛,猛以济宽,政是以和。将军额上能跑马,宰相肚里能撑船。最高贵的复仇是宽容。有时宽容引起的道德震动比惩罚更强烈。君子贤而能容罢,知而能容愚,博而能容浅,粹而能容杂。宽容就是忘却,人人都有痛苦,都有伤疤,动辄去揭,便添新创,旧痕新伤难愈合,忘记昨日的是非,忘记别人先前对自己的指责和谩骂,时间是良好的止痛剂,学会忘却,生活才有阳光,才有欢乐。不要轻易放弃感情,谁都会心疼;不要冲动下做决定,会后悔一生。也许只一句分手,就再也不见;也许只一次主动,就能挽回遗憾。世界上没有不争吵的感情,只有不肯包容的心灵;生活中没有不会生气的人,只有不知原谅的心。感情不是游戏,谁也伤不起;人心不是钢铁,谁也疼不起。好缘分,凭的就是真心真意;真感情,要的就是不离不弃。爱你的人,舍不得伤你;伤你的人,并不爱你。你在别人心里重不重要,自己可以感觉到。所谓华丽的转身,都有旁人看不懂的情深。人在旅途,肯陪你一程的人很多,能陪你一生的人却很少。谁在默默的等待,谁又从未走远,谁能为你一直都在?这世上,别指望人人都对你好,对你好的人一辈子也不会遇到几个。人心只有一颗,能放在心上的人毕竟不多;感情就那么一块,心里一直装着你其实是难得。动了真情,情才会最难割;付出真心,心才会最难舍。你在谁面前最蠢,就是最爱
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源汽车自动驾驶系统安全性评估与保险产品设计研究报告
- 2024-2025年新教材高中生物 第3章 第2节 第2课时 细胞器之间的协调配合和生物膜系统说课稿 新人教版必修1
- 第二课 兴趣的作用说课稿-2025-2026学年小学心理健康南大版三年级-南大版
- 人教版八年级上册生物说课稿 第五单元第四章章第三节 真菌
- 烟囱建筑方案设计图
- 食品外卖平台运营方案范文
- 鼓楼医院江北建筑方案设计
- 厂房管理考试题及答案
- 2025年工业互联网平台区块链智能合约安全事件应急响应流程与优化报告
- 护士资格证理论与实践考试题库
- 钢模板安全知识培训课件
- 新学期三年级班主任工作计划(16篇)
- 2025广东汕尾市海丰县公安局招聘警务辅助人员50人备考题库及答案解析
- 消防政府专职队培训课件
- 6.1 包饺子(教案)北师大版数学三年级上册
- 现代学徒制企业试点工作评估报告
- 火电厂特种设备培训课件
- 档案管理基本知识培训课件
- 2025至2030年中国K12教育行业市场调研分析及投资战略咨询报告
- 2025年中学无线电知识竞赛题库
- 2025《心肺复苏机救治院内心搏骤停患者护理专家共识》解读
评论
0/150
提交评论