全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学习18种经典的数据挖掘算法花了大约2个月的时间,自己学习了18大数据挖掘的经典算法,并实现了编码,参与了决策分类、聚类、链接挖掘、相关挖掘、模式挖掘等。 这也是对数据挖掘领域的一个小小的入门。 以下是一个小结。 以后是我自己算法的博文链接,希望能帮助大家学习。1.C4.5算法。 C4.5算法是与ID3算法相同的数学分类算法,C4.5算法是ID3算法的改进。 ID3算法采用信息增益进行决策,C4.5采用增益率。详细介绍链接: /andreoiddlushangderen/article/details /2.CART算法。 CART算法的全名是分类回归树算法,他是二元分类,采用与熵相似的基尼指数作为分类决策,形成决策树后进行剪枝。 我自己在实现整个算法时采用了成本复杂度算法详细介绍链接: /andreoiddlushangderen/article/details /3.KNN(K最近邻)算法。 给予训练数据,输入新的测试数据点,计算此测试数据点中包含的最近点的分类状况,由于哪个分类的类型占多数,此测试点的分类与此相同,因此在此可以复制不同分类点的不同权重。 近点权重大的点,远点当然小。详细介绍链接: /andreoiddlushangderen/article/details /4 .本地贝叶斯(本地贝叶斯)算法。 朴素贝叶斯算法是贝叶斯算法中一种比较简单的分类算法,用比较重要的贝叶斯定理简单概括为条件概率的互变换推导。详细介绍链接: /andreoiddlushangderen/article/details /5 .支持向量机(SVM )算法。 以分类线性数据和非线性数据的方式,当对非线性数据进行分类时,可以在利用内核函数将支持向量机算法转换为线性数据的情况下重新处理该算法。 一个重要步骤是搜索最大边超平面。详细介绍链接: /andreoiddlushangderen/article/details /6 .期望最大化(em )算法。 预期最大化算法可分为两种算法,一个E-Step预期步骤和一个M-Step最大化步骤。 他在算法的框架内,每当计算结果时,都近似统计模型中的参数的最大似然或最大后验估计。详细介绍链接: /andreoiddlushangderen/article/details /7.Apriori算法。 Apriori算法是关联规则挖掘算法,通过连接和截断运算找出频繁的项集,然后根据频繁的项集获得关联规则,推导关联规则必须满足最小可靠度要求。详细介绍链接: /andreoiddlushangderen/article/details /8.FP-Tree (频繁模式树)算法。 该算法也称为FP-growth算法,该算法克服了Apriori算法的过剩候选集的缺点,递归地生成频率模式树并挖掘树,其后的进程与Apriori算法相匹配。详细介绍链接: /andreoiddlushangderen/article/details /9.PageRank算法。 PageRank算法最初生成于Google,中心思想是通过网页链数作为网页的快速判定基准,当一个网页内包含多个到外部的链接时,PR值被平均化,PageRank算法也是Link Span详细介绍链接: /andreoiddlushangderen/article/details /10.HITS算法。 HITS算法是另一种链路算法,有些原理与PageRank算法相似。 HITS算法引入了权威值和中心值的概念,HITS算法受用户查询条件的影响,通常用于小型数据链路分析,易受攻击。详细介绍链接: /andreoiddlushangderen/article/details /11.k均值(k均值)算法。 K-Means算法是聚类算法,在这里k是指分类的类型数,因此在开始设定时很重要,算法的原理首先假定k个分类点,根据欧元距离计算分类,接着重复进行直到将分类的平均值收敛为新的聚类中心为止。详细介绍链接: /andreoiddlushangderen/article/details /12.BIRCH算法。 BIRCH算法可以构造CF聚类特征树作为算法的核心,利用树形、BIRCH算法扫描数据库,在存储器中构造初始CF-树,并将其看作数据的多层压缩。详细介绍链接: /andreoiddlushangderen/article/details /13.AdaBoost算法。 AdaBoost算法是一种提升算法,在数据的多次训练中获得多个互补分类器,组合多个分类器以构成更为准确的分类器。详细介绍链接: /andreoiddlushangderen/article/details /14.GSP算法。 GSP算法是一种序列模式挖掘算法。 GSP算法也是Apriori类的算法,算法的过程中也进行连接和剪枝,剪枝判断中添加了时间制约等条件。详细介绍链接: /andreoiddlushangderen/article/details /15.PreFixSpan算法。 PreFixSpan算法是另一种序列模式挖掘算法,在该算法的过程中没有生成候选集,而是给出初始前缀模式,并通过后缀模式的元素转移到前缀模式中以递归方式进行挖掘。详细介绍链接: /andreoiddlushangderen/article/details /16 .基于关联规则的分类(CBA )算法。 CBA算法是一种综合挖掘算法,由于其构建于关联规则挖掘算法之上,因此只需根据现有的关联规则理论进行分类判断,在算法开始时处理数据,就形成了类似事务的形式。详细介绍链接: /andreoiddlushangderen/article/details /17 .粗糙集算法。 粗糙集理论是一种比较新颖的数据挖掘思想。 在此使用使用粗糙集进行属性简约的算法,在上下近似集的判断中删除无效的属性,进行制约的输出。详细介绍链接: /andreoiddlushangderen/article/details /18.gSpan算法。 gSpan算法属于地图挖掘算法的领域。 此外,主要用于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公务员考试试题及答案
- 公务员考试世间试题及答案
- 2026年淮南职业技术学院单招职业技能考试必刷测试卷及答案1套
- 2026年宁波幼儿师范高等专科学校单招职业技能测试必刷测试卷完美版
- 2026年沙洲职业工学院单招职业倾向性测试必刷测试卷含答案
- 2026年辽宁城市建设职业技术学院单招职业适应性考试题库附答案
- 初级会计云会计题库及答案
- 2025广东中央港澳工作办公室信息中心面向社会招聘工作人员4人参考题库含答案详解(研优卷)
- 2025广东汕尾市城区代建项目事务中心招聘7人(第一批)参考题库及一套参考答案详解
- 2026年攀枝花攀西职业学院单招职业倾向性测试题库含答案
- 岗位技能比武汇报
- 蜡染研学课程讲解
- 施工安全用电常识培训课件
- 医务人员职业道德准则2025
- 监理安全知识岗前培训课件
- 河北省临西县2025年上半年事业单位公开招聘试题含答案分析
- 2025年版小学数学新课程标准测试题含答案【附新课标解读】
- 2025年病历书写规范及病案管理培训试题(附答案)
- 无机化学教学设计案例分享
- 2025年宝武作业长培训考试题库
- 《产品创新设计》课件 第5章 产品创新设计与人工智能
评论
0/150
提交评论