


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学习18种经典的数据挖掘算法花了大约2个月的时间,自己学习了18大数据挖掘的经典算法,并实现了编码,参与了决策分类、聚类、链接挖掘、相关挖掘、模式挖掘等。 这也是对数据挖掘领域的一个小小的入门。 以下是一个小结。 以后是我自己算法的博文链接,希望能帮助大家学习。1.C4.5算法。 C4.5算法是与ID3算法相同的数学分类算法,C4.5算法是ID3算法的改进。 ID3算法采用信息增益进行决策,C4.5采用增益率。详细介绍链接: /andreoiddlushangderen/article/details /2.CART算法。 CART算法的全名是分类回归树算法,他是二元分类,采用与熵相似的基尼指数作为分类决策,形成决策树后进行剪枝。 我自己在实现整个算法时采用了成本复杂度算法详细介绍链接: /andreoiddlushangderen/article/details /3.KNN(K最近邻)算法。 给予训练数据,输入新的测试数据点,计算此测试数据点中包含的最近点的分类状况,由于哪个分类的类型占多数,此测试点的分类与此相同,因此在此可以复制不同分类点的不同权重。 近点权重大的点,远点当然小。详细介绍链接: /andreoiddlushangderen/article/details /4 .本地贝叶斯(本地贝叶斯)算法。 朴素贝叶斯算法是贝叶斯算法中一种比较简单的分类算法,用比较重要的贝叶斯定理简单概括为条件概率的互变换推导。详细介绍链接: /andreoiddlushangderen/article/details /5 .支持向量机(SVM )算法。 以分类线性数据和非线性数据的方式,当对非线性数据进行分类时,可以在利用内核函数将支持向量机算法转换为线性数据的情况下重新处理该算法。 一个重要步骤是搜索最大边超平面。详细介绍链接: /andreoiddlushangderen/article/details /6 .期望最大化(em )算法。 预期最大化算法可分为两种算法,一个E-Step预期步骤和一个M-Step最大化步骤。 他在算法的框架内,每当计算结果时,都近似统计模型中的参数的最大似然或最大后验估计。详细介绍链接: /andreoiddlushangderen/article/details /7.Apriori算法。 Apriori算法是关联规则挖掘算法,通过连接和截断运算找出频繁的项集,然后根据频繁的项集获得关联规则,推导关联规则必须满足最小可靠度要求。详细介绍链接: /andreoiddlushangderen/article/details /8.FP-Tree (频繁模式树)算法。 该算法也称为FP-growth算法,该算法克服了Apriori算法的过剩候选集的缺点,递归地生成频率模式树并挖掘树,其后的进程与Apriori算法相匹配。详细介绍链接: /andreoiddlushangderen/article/details /9.PageRank算法。 PageRank算法最初生成于Google,中心思想是通过网页链数作为网页的快速判定基准,当一个网页内包含多个到外部的链接时,PR值被平均化,PageRank算法也是Link Span详细介绍链接: /andreoiddlushangderen/article/details /10.HITS算法。 HITS算法是另一种链路算法,有些原理与PageRank算法相似。 HITS算法引入了权威值和中心值的概念,HITS算法受用户查询条件的影响,通常用于小型数据链路分析,易受攻击。详细介绍链接: /andreoiddlushangderen/article/details /11.k均值(k均值)算法。 K-Means算法是聚类算法,在这里k是指分类的类型数,因此在开始设定时很重要,算法的原理首先假定k个分类点,根据欧元距离计算分类,接着重复进行直到将分类的平均值收敛为新的聚类中心为止。详细介绍链接: /andreoiddlushangderen/article/details /12.BIRCH算法。 BIRCH算法可以构造CF聚类特征树作为算法的核心,利用树形、BIRCH算法扫描数据库,在存储器中构造初始CF-树,并将其看作数据的多层压缩。详细介绍链接: /andreoiddlushangderen/article/details /13.AdaBoost算法。 AdaBoost算法是一种提升算法,在数据的多次训练中获得多个互补分类器,组合多个分类器以构成更为准确的分类器。详细介绍链接: /andreoiddlushangderen/article/details /14.GSP算法。 GSP算法是一种序列模式挖掘算法。 GSP算法也是Apriori类的算法,算法的过程中也进行连接和剪枝,剪枝判断中添加了时间制约等条件。详细介绍链接: /andreoiddlushangderen/article/details /15.PreFixSpan算法。 PreFixSpan算法是另一种序列模式挖掘算法,在该算法的过程中没有生成候选集,而是给出初始前缀模式,并通过后缀模式的元素转移到前缀模式中以递归方式进行挖掘。详细介绍链接: /andreoiddlushangderen/article/details /16 .基于关联规则的分类(CBA )算法。 CBA算法是一种综合挖掘算法,由于其构建于关联规则挖掘算法之上,因此只需根据现有的关联规则理论进行分类判断,在算法开始时处理数据,就形成了类似事务的形式。详细介绍链接: /andreoiddlushangderen/article/details /17 .粗糙集算法。 粗糙集理论是一种比较新颖的数据挖掘思想。 在此使用使用粗糙集进行属性简约的算法,在上下近似集的判断中删除无效的属性,进行制约的输出。详细介绍链接: /andreoiddlushangderen/article/details /18.gSpan算法。 gSpan算法属于地图挖掘算法的领域。 此外,主要用于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 碳化合物的性质比较试题及答案
- 会计的面试真题及答案
- 云计算服务模式演变下的行业应用创新与2025年市场前景研究报告
- 安全工程师应对建筑施工中突发事件的策略试题及答案
- 2025金融科技面试题及答案
- 教育行业教育行业教育行业教育行业市场调研报告:2025年消费者行为分析
- 竞聘队长面试题及答案
- 旅游度假区景观初步设计2025年旅游市场拓展评估报告
- 英语家庭测试题及答案
- 数字货运面试题及答案
- 2025年农村土地使用权益永久转租协议范本
- 病历书写规范培训课件
- 2025年沪科版七年级数学下册全套测试卷
- 2025年山东地区光明电力服务公司招聘笔试参考题库含答案解析
- (中等生篇)2025年高考备考高中历史个性化分层教辅之宋元时期
- Unit 6 Beautiful landscapes Integration 说课稿 -2024-2025学年译林版英语七年级下册001
- 上海市八校2025届高考数学三模试卷含解析
- 医务人员手卫生规范课件
- 【MOOC】太极功夫-西南交通大学 中国大学慕课MOOC答案
- 知不足而后进 望远山而力行-期中家长会【课件】
- 氟化工艺作业安全培训
评论
0/150
提交评论