大数据挖掘技术地的综述(2022年-2023年)_第1页
大数据挖掘技术地的综述(2022年-2023年)_第2页
大数据挖掘技术地的综述(2022年-2023年)_第3页
大数据挖掘技术地的综述(2022年-2023年)_第4页
大数据挖掘技术地的综述(2022年-2023年)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022年-2023年最新实用标准文案数据挖掘技术综述随着计算机、网络技术的开展,获得有关资料非常简单易行。但 对数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。 因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来 分析庞大数据资料的“数据挖掘”(Date Mining)技术应运而Th。本 文主要介绍了数据挖掘的基本概念以及数据挖掘的方法;本文对数据 掘的应用及其开展前景也进行了描述。随着信息技术迅速开展,数据库的规模不断扩大,从而产Th 了大 量的数据。激增的数据背后隐藏着许多重要的信息,人们希望能够对其 行更高层次的分析,以便更好地利用这些数据。为给决策者提供一个统

2、一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们 无法区分隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工 具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处 理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而Th。数据挖掘技术也正是伴随着数 据仓库技术的开展而逐步完善起来的数据挖掘是指从数据集合中自动 抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式 为:规那么、概念、规律及模式等。它可帮助决策者分析历史数据及当前 数据,并从中发现隐藏的关系和模式,进而预测未来可能发Th的行为。 数据挖掘的过程也叫知识发现

3、的过程,它是一门涉及面很广的交叉性新 兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领 域。数据挖掘是一种新的信息处理技术,其主要特点是精彩文档2022年-2023年最新实用标准文案查询优化、完整性约束和不一致检验等。4、由于数据、数据挖掘任务和数据挖掘方法的多样性,给数据 挖掘提出了许多挑战性的课题。同时,数据挖掘语言的设计,高效而有用的数据挖掘方法 和系统的开发,交互式和集成的数据挖掘环境的建立,以及应用数据挖 掘技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开 发人员所面临的主要问题。现今,数据挖掘的开展趋势主要是以下几方面:应用的探索;可伸缩的数据挖掘方法;数

4、据挖掘与数据库系统、 数据仓库系统和Web数据库系统的集成;数据挖掘语言的标准化;可 视化数据挖掘;复杂数据类型挖掘的新方法;Web挖掘;数据挖掘中的 隐私保护与信息平安。目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成 效,但仍存在着许多尚未解决的问题,例如数据的预处理、挖掘算法、 模式识别和解释、可视化问题等。对于业务过程而言,数据挖掘最关键 的问题是如何结合业务数据时空特点,将挖掘出知识表达出来,即时空 知识表达和解释机制问题。随着人们对数据挖掘技术的深人研究,数据 挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。精彩文档2022年-2023年最新实用标准文案对数据

5、库中的大量数据进行抽取、转换、分析和其他模型化处理,并从 中提取辅助决策的关键性数据。数据挖掘是KDD (Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据 库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结 和内在规律的搜索。传统的查询和报表处理只是得到事件发Th的结果, 并没有深入研究发Th的原因,而数据挖掘那么主要了解发Th的原因,并 且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目 前的数据挖掘方法表现出多种多样的形式。从统计分析类的角度来说, 统计分析技术

6、中使用的数据挖掘模型有线形分析和非线形分析、回归 分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近 序列分析、最近邻算法和聚类分析等方法。利用这些技术可以检查那些 异常形式的数据,然后,利用各种统计模型和数学模型解释这些数据, 解释隐藏在这些数据背后的市场规律和商业机会。知识发现类数据挖掘 技术是一种与统计分析类数据挖掘技术完全不同的挖掘技 术,包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、 规那么发现和关联顺序等。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用 的有贝叶斯推理、回归分析、方差分析等技术、贝叶斯推理是在知道 新的信息后修正数据集概率分布的基本

7、工具,处理数据挖掘中的分类 问题,回归分析用来找到一个输入变量和输出变量关系的最正确模型,精彩文档2022年-2023年最新实用标准文案在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系 的线性回归,还有用来为某些事件发Th的概率建模为预测变量集的对 数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和 自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。关联规那么是一种简单,实用的分析规那么,它描述了一个事物中某些 属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。它是 由R. Agrawal等人首先提出的,最经典的关联规那么的挖掘算法是 Apriori,该算法

8、先挖出所有的频繁项集,然后,由频繁项集产Th关 联规那么,许多关联规那么频繁项集的挖掘算法都是由它演变而来的,关 联规那么在数据挖掘领域应用很广泛适合于在大型数据集中发现数 据之间的有意义关系,原因之一是它不受只选择一个因变量的限制, 关联规那么在数据挖掘领域最典型的应用是购物篮分析。大多数关联规 那么挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖 掘出的关联规那么量往往非常巨大,但是,并不是所有通过关联得到的属 性之间的关系都有实际应用价值,对这些关联规那么进行有效的评价,筛 选出用户真正感兴趣的,有意义的关联规那么尤为重要。聚类分析是根据所选样本间关联的标准将其划分成几个组,

9、同组 内的样本具有较高的相似度,不同组的那么相异,常用的技术有分裂算法, 凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关 系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点 的检测。有时进行聚类不是为了将对象相聚在一起而是为了更容易地使 某个对象从其他对象中别离出来。聚类分析已被应用于经精彩文档2022年-2023年最新实用标准文案济分析、模式识别、图像处理等多种领域,尤其在商业上,聚类分析 可以帮助市场人员发现顾客群中所存在的不同特征组群。聚类分析的技术关键除了算法的选择之外,就是对样本的度量标 准的选择。并非由聚类分析算法得到的类对决策都有效,在运用某一 个算法

10、之前,一般要先对数据的聚类趋势进行检验。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例 从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的 分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每 一个后继分支对应于该属性的一个可能值,分类实例的方法是从这电脑 应用技术棵树的根结点开始,测试这个结点指定的属性,然后按照给 定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖 掘的分类方面。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的 数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式 抽取及趋势分析,神经网络既可以表现为指导的学习也可以是

11、无指导 聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,以MP模型和Hebb学习规 那么为基础,建立三大类多种神经元网络,具有非线形映射特性、信息的分 布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适 应能力的种种优点。前馈神经元网络以感知器网络、BP网络等为代表,可以用于分类和预测等方面;反应式网络以Hopfield网络精彩文档2022年-2023年最新实用标准文案为代表,用于联想记忆和优化计算;自组织网络以ART模型、Kohonon 模型为代表,用于聚类。遗传算法是一种受Th物进化启发的学习方法,通过变异和重组当 前己知的最好假设来Th成后续

12、的假设。每一步,通过使用目前适应性最 高的假设的后代替代群体的某个局部,来更新当前群体的一组假设,来 实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖 (选择)是从一个旧种群(父代)选出Th命力强的个体,产Th新种群 (后代)的过程;交叉重组)选择两个不同个体染色体)的局部(基因)进 行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行 变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的 分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集 用于从数据库中发现分类规那么的基本思想是将数据库中的属性分

13、为条 件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成 相应的子集,然后对条件属性划分的子集与结论属性划分的子集 之间上下近似关系Th成判定规那么。所有相似对象的集合称为初等集合, 形成知识的基本成分。任何初等集合的并集称为精确集,否那么,一个 集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些 既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理 论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结 构联系。支持向量机(SVM)是在统计学习理论的基础上开展出来的一种新精彩文档2022年-2023年最新实用标准文案的机器学习方法。它基于结构风险最

14、小化原那么上的,尽量提高学习机的 泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过 学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网 络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最 优解一定是全局最优解,这些特点都是包括神经元网络在内的其它算法 所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事 物的探索等方面。除上述方法外,还有把数据与结果转化和表达成可视化技术、云 模型方法和归纳逻辑程序等方法。事实上,任何一种挖掘工具往往是 根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣, 而是视具体问题而定。对于数据挖掘,我们可以分为

15、三个主要的阶段: 数据准备、数据挖掘、结果的评价和表达。其中结果的评价和表达 还可以细分为:评估、解释模式模型、巩固、运用知识。数据库中的知识发现是一个多步骤的处理过程,也是 这三个阶段的反复过程,.数据准备KDD的处理对象是大量的数据,这些数据一般存储在数据库系统 中,长期积累的结果。但是往往不适合直接在这些数据上面进行知识挖掘,需要做数据 准备工作,一般包括数据的选择(选择相关的数据)、净化(消除噪音、数 据)、推测(推算缺失数据)、转换(离散值数据与连续值数据之间的相 互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩精彩文档2022年-2023年最新实用标准文案减(减少数据量)

16、。这些工作往往在Th成数据仓库时己经准备妥当。数 据准备是KDD的第一个步骤。数据准备是否做好将影响到数据挖掘的 效率和准确度以及最终模式的有效性。.数据挖掘数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的 人员中大局部都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚 类、粗糙集、关联规那么、神经网络、遗传算法等。数据挖掘根据KDD的目 标,选取相应算法的参数,分析数据,得到可能型号层知识的模式模 型。.结果评价和表达评估、解释模式模型:上面得到的模式模型,有可能是没有实际 意义或没有使用价值的,也有可能是其不能准确反映数据的真实意义, 甚至在某些情况下是与事实相反的,因此需

17、要评估,确定哪些是有效的、 有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数 据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用 户。巩固知识:用户理解的、并被认为是符合实际和有价值的模式模 型形成了知识。同时还要注意对知识做一致性检查,解决与以前得到的 知识相互冲突、矛盾的堤防,使知识得到巩固。运用知识:发现知识是为了运用,如何使知识能被运用也是KDD 的步骤之一。运用知识有两种方法:一种是只需要看知识本身所描述 的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运 用知识,由此可能产Th新的问题,而需要对知识做进一步的优化。KDD精彩文档2022年-202

18、3年最新实用标准文案的过程可能需要屡次的循环反复,每一个步骤一旦与预期目标不符都 要回到前面的步骤,重新调整,重新执行。3、数据挖掘的潜在应用是十分广泛的:政府管理决策、商业经营、 科学研究和工业企业决策支持等个领域。从科学研究方法学的角度 看,科学研究可分为三类:理论科学、实验科学和计算科学。计算科 学是现代科学的一个重要标志。计算科学工作者主要和数据打交道, 每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工 具的使用,如观测卫星、遥感器、DNA分子技术等,数据量非常大, 传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析 工具才行。数据挖掘在天文学上有一个非常著名的

19、应用系统:SKI CAT (Sky Image Cataloging and Ana lysis Tool) o它是美国加州理工学院喷 气推进实验室(即设计火星探测器漫游者号的实验室)与天文科学家 合作开发的用于帮助天文学家发现遥远的类星体的一个工具。KICAT 既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文 学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现 了 16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地 研究类星体的形成以及早期宇宙的结构。数据挖掘在Th物学上的应用主要集中于分子Th物学特别是基因 工程的研究上。基因研究中,有一个著名的国际性研究课题人类 基因组计划。据报道,1997年3月,科学家宣布已完成第一步计划: 绘制人类染色体基因图。然而这仅仅是第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论