




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Top10MostCommonDataMiningAlgorithms
Unit
6TextBContents
NewWords
Abbreviations
Phrases参考译文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA十大最常见的数据挖掘算法1.C4.5算法C4.5是顶级数据挖掘算法之一,由RossQuinlan开发。C4.5用于根据已分类的一组数据以决策树的形式生成分类器。这里的分类器是指一种数据挖掘工具,该工具获取我们需要分类的数据并尝试预测新数据的类别。每个数据点将具有自己的属性。由C4.5创建的决策树提出了有关属性值的问题,并根据这些值对新数据进行分类。标记训练数据集,使C4.5成为监督学习算法。决策树始终易于解释和说明,与其他数据挖掘算法相比,这使C4.5快速且流行。2.K-均值算法K-均值是最常见的聚类算法之一。它的工作方式是根据对象之间的相似性从一组对象中创建k个组。也许不能保证组成员将完全相似,但是与非组成员相比,组成员将更加相似。按照标准实现,K-均值是一种无监督学习算法,因为它无需任何外部信息即可自行学习聚类。参考译文3.支持向量机就任务而言,支持向量机(SVM)的工作方式类似于C4.5算法,但支持向量机根本不使用任何决策树。支持向量机学习数据集并定义一个超平面以将数据分为两类。超平面是一条线的方程,看起来像“y=mx+b”。支持向量机会把数据扩展映射到更高的维度。一旦映射,支持向量机便定义了最佳的超平面,将数据分为两个类别。4.先验算法先验算法通过了解关联规则来工作。关联规则是一种数据挖掘技术,用于了解数据库中变量之间的相关性。一旦了解了关联规则,就将其应用于包含大量事务的数据库。先验算法用于发现有趣的模式和相互关系,因此被视为无监督学习方法。尽管该算法是高效的,但它会消耗大量内存、占用大量磁盘空间并花费大量时间。参考译文参考译文5.期望最大化算法期望最大化(EM)用作聚类算法,就像用于知识发现的K-均值算法一样。EM算法以迭代方式工作,以更好地查看观测数据。接下来,它估计带有未观察到的变量的统计模型的参数,从而生成一些观察到的数据。EM算法也是无监督学习方法,因为我们在不提供任何标记的类信息的情况下使用它。6.PageRank算法PageRank通常被像谷歌等搜索引擎使用。它是一种链接分析算法,可确定对象网中链接的对象的相对重要性。链接分析是一种探索对象之间关联的网络分析。谷歌搜索通过了解网页之间的反向链接来使用此算法。PageRank是谷歌用来确定网页的相对重要性并将其在谷歌搜索引擎上排名更高的方法之一。PageRank商标是谷歌的专有商标,PageRank算法由斯坦福大学获得专利。PageRank被视为一种无监督学习方法,因为它仅通过考虑链接即可确定相对重要性,而无需任何其他输入。7.Adaboost算法Adaboost是用于构建分类器的提升算法。分类器是一种数据挖掘工具,可获取数据并根据输入预测数据的类别。提升算法是一种集成学习算法,可运行多种学习算法并将其组合。提升算法吸收一组弱学习法,并将它们组合成一个单一的强学习法。弱学习法对数据进行分类的准确性较低。弱算法的最佳示例是决策树桩算法,它基本上是一个单步决策树。Adaboost是完美的监督学习,因为它可以以迭代方式工作,并且在每次迭代中,都使用标记的数据集训练较弱的学习法。Adaboost是一种简单且非常直接的算法。在用户指定轮数之后,每次连续的Adaboost迭代都会为每个最佳学习法重新定义权重。这使Adaboost成为自动调整分类器的绝佳方式。Adaboost具有灵活性、多功能性和简洁性,因为它可以合并大多数学习算法并可以处理大量数据。
参考译文8.KNN算法KNN是一种用作分类算法的消极学习算法。消极学习法在训练过程中除了存储训练数据外不会做任何事情。消极学习法仅在输入新的未标记数据作为输入时才开始分类。另一方面,C4.5、SVN和Adaboost是积极学习法,它们在训练过程中就开始建立分类模型。由于为KNN提供了标记的训练数据集,因此将其视为监督学习算法。9.朴素贝叶斯算法朴素贝叶斯不是单个算法,尽管可以将其视为单个算法。朴素贝叶斯是一组分类算法。该算法家族使用的假设是,要分类的数据的每个特征都独立于该类中给出的所有其他特征。朴素贝叶斯用提供给自己的带有标签的训练数据集来构造表格。因此,它被视为监督学习算法。参考译文参考译文10.CART算法CART代表分类树和回归树。它是一种决策树学习算法,可将回归树或分类树作为输出。在CART中,决策树节点将恰好具有2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 32960.3-2025电动汽车远程服务与管理系统技术规范第3部分:通信协议及数据格式
- 未来汽车技术与环境保护考试题及答案
- 糯米糍测试题及答案
- 绿色金融产品创新与绿色金融产品创新市场趋势分析报告
- 技巧总结2025年商务英语考试试题及答案
- 新能源汽车技术人才培养测验及答案
- 数量与数字试题及答案一览
- 2025物流管理面试题库及答案
- 环保型汽车拆解项目经济效益与可持续发展研究报告
- 新西兰马尔堡产区葡萄酒品牌国际化策略报告2025
- 2024年四川省公安厅招聘警务辅助人员真题
- 机械制造及非标零部件加工项目突发环境事件应急预案
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- GB/T 119.1-2000圆柱销不淬硬钢和奥氏体不锈钢
- 劳动保障监察执法课件
- 小学奥数:乘法原理之染色法.专项练习及答案解析
- 西藏林芝地区地质灾害防治规划
- 入团志愿书样本(空白)
- 老年人烫伤的预防与护理课件
- 部编版小学道德与法治六年级下册《各不相同的生活环境》课件
- 国内外经济形势和宏观经济政策展望课件
评论
0/150
提交评论