




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十七章 数据挖掘技术概论 本 章 内 容第一节 数据挖掘的概念第二节 数据挖掘的功能及主要应用第三节 数据挖掘的过程第四节 数据挖掘的常用方法第五节 数据挖掘技术的发展趋势2022-4-29第十七章 数据挖掘技术概论2大数据时代大数据时代大数据(4V理论):规模性(Volume)1多样性(Variety)2高速性(Velocity)3真实性(Veracity)42022-4-29第十七章 数据挖掘技术概论3关于大数据关于大数据信息技术进步的自然产物:数据挖掘信息爆炸数据过剩数据多,信息或知识少2022-4-29第十七章 数据挖掘技术概论41.11.1数据挖掘的概念数据挖掘的概念数据挖掘就是从
2、大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的含义数据源必须是真实的、大量的、多数是含有噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、易理解、可运用;所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的;2022-4-29第十七章 数据挖掘技术概论5 本 章 内 容第一节 数据挖掘的概念第二节 数据挖掘的功能及主要应用第三节 数据挖掘的过程第四节 数据挖掘的常用方法第五节 数据挖掘技术的发展趋势2022-4-29第十七章 数据挖掘技术概论62.12.1数据挖掘的功能数据挖掘的功能 数据特征化
3、目的是对数据进行更高层次的抽象,给出它的总体综合描述1.数据特征化 简单关联、时序关联2.关联分析 分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些类3.分类与预测 按照某种相似程度度量方法(通常是测算距离),将数据分成一系列有意义的簇4.聚类分析 对离群点数据的分析处理5.离群点分析 对那些随时间变化的数据对象的变化规律和趋势进行建模描述6.演化分析2022-4-29第十七章 数据挖掘技术概论72.2 2.2 数据挖掘的应用领域数据挖掘的应用领域1. 商业领域 对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助商业决策的关键性知识,尤其是在如:电信、电力
4、、银行、保险、零售等典型的商业领域2. 科学与工程研究领域制造业实现零部件故障诊断、资源优化、生产过程分析犯罪调查案件调查、诈骗监测、洗钱认证、犯罪组织分析生物学领域实现DNA序列相似搜索和比对,基因组特征及基因序列分析3. 网络数据分析领域 可以分析出有哪些外部环境信息和内部经营信息会对企业产生重大或潜在重大的影响; 可以归纳、推理出个人用户的使用偏好,预测个人的未来行为2022-4-29第十七章 数据挖掘技术概论8 本 章 内 容第一节 数据挖掘的概念第二节 数据挖掘的功能及主要应用第三节 数据挖掘的过程第四节 数据挖掘的常用方法第五节 数据挖掘技术的发展趋势2022-4-29第十七章 数
5、据挖掘技术概论93.13.1数据挖掘的过程数据挖掘的过程 消除数据噪声和与挖掘主题无关的数据;对数据做简单的泛化处理数据清理 将来自于各个不同数据源的数据集成到一起数据集成 从大量的基础数据中选择与挖掘任务相关的数据数据选择 通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式数据转换 KDD中最核心的一个步骤,其作用就是根据数据挖掘任务,利用各种数据挖掘方法对数据进行深入分析数据挖掘 根据一定的评估标准,从挖掘结果筛选出有意义的模式知识模式评估 采用可视化和知识表示技术,向用户提供和展示挖掘的知识知识展示2022-4-29第十七章 数据挖掘技术概论10 本 章 内 容第一节 数据挖掘的概念第
6、二节 数据挖掘的功能及主要应用第三节 数据挖掘的过程第四节 数据挖掘的常用方法第五节 数据挖掘技术的发展趋势2022-4-29第十七章 数据挖掘技术概论114.1 4.1 数据挖掘的常用方法数据挖掘的常用方法从大的方面来讲,机器学习和数理统计等是数据挖掘主要依据的方法。 统计方法应用于数据挖掘主要是进行数据评估; 机器学习作为人工智能的一个重要分支,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。1.联机分析处理(Online Analytical Processing,OLAP) OLAP是由数据仓库提供一种重要的数据分析工具,主要通过多维的方式来对各种粒度数据进行分析、查询和
7、报表。 主要的操作包括:上卷、下钻、切片、切块、旋转以及统计操作等。2.关联挖掘 关联挖掘即是在大量的数据中找出能够反映数据项之间关系的知识来。 最常应用的领域是购物篮分析 关联规则的形式如:面包=牛奶 支持度=70%,置信度=65%。 关联规则的挖掘分为两步:(1)找出所有的频繁项集(2)由频繁项集中,再比较置信度,找出关联规则来。2022-4-29第十七章 数据挖掘技术概论124.1 4.1 数据挖掘的常用方法数据挖掘的常用方法3.决策树(Decision Tree) 决策树是一种建立在信息论基础之上的树型结构分类模型,是常用的数据进行分类的方法之一。 实现了数据分类规则的可视化,其输出结
8、果也容易理解。 决策树方法很适合于处理非数值型数据,精确度比较高,分类结果容易理解,效率也比较高。4.神经网络(Neural Network) 神经网络方法是通过模拟生理神经网络结构的非线性预测模型。 神经网络由一系列类似于人脑神经元一样的处理单元组成,称之为神经元节点(Nerodes),这些节点通过网络彼此互连,每个单元之间的每个连接都关联一个权重。 在网络学习阶段,网络通过调整权重实现输入样本与输出类别之间的对应。它比较擅长处理参数较多的复杂问题。例如:可以指定输入层为代表过去的销售情况、价格及季节等因素,输出层便可输出判断本季度的销售情况。2022-4-29第十七章 数据挖掘技术概论13
9、4.1 4.1 数据挖掘的常用方法数据挖掘的常用方法5. 均值(K-means)算法 K-均值算法是一种基本的、基于划分的聚类算法。 首先从n个数据对象中任意选择k个对象作为初始聚类中心;对于剩余的数据对象,则根据它们与这些中心之间的距离,将它们分配到与它们最相似的簇中;然后再重新计算每个所获新聚簇的中心;不断重复这一过程,直到标准测度函数收敛为止。6.数据可视化(Data Visualization) 通过数据可视化工具,可以使用户可以“深入”数据,观看到数据不同层次的细节,更容易理解数据。 常用的数据可视化方法有:散点图、散点矩阵等,可以帮助用户分析数据聚类,观察数据的分布、看是否存在奇异
10、点等;其他还有盒图、三维立方体、数据分布图表、曲线、曲面、链接图等。 早期的可视化工具多用于处理数值型数据,而今多数数据为非数值型的,例如Web数据、社交网络等,给数据可视化的研究带来了新挑战。2022-4-29第十七章 数据挖掘技术概论14 本 章 内 容第一节 数据挖掘的概念第二节 数据挖掘的功能及主要应用第三节 数据挖掘的过程第四节 数据挖掘的常用方法第五节 数据挖掘技术的发展趋势2022-4-29第十七章 数据挖掘技术概论155.1 5.1 数据挖掘技术的发展趋势数据挖掘技术的发展趋势数据挖掘技术应用领域的拓展;数据挖掘算法要能应付更大量的数据,挖掘算法要能伸缩,最好还可交互;与搜索引擎、数据库系统、数据仓库系统和云计算系统等能有效、平滑地集成;研究能够适应多种数据类型的数据挖掘算法;构建分布式数据挖掘系统;研究数据挖掘中的隐私保护和数据安全机制。2022-4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CCMA 0206-2024混凝土机械液压平衡阀
- T/CCMA 0203-2024高速清扫车
- 上海小学四年级数学试题
- 教学研究巴国城一期班组收尾合同4篇
- 合同书样本劳动合同2篇
- 游泳安全卫生常识
- 专业技术培训协议书范本8篇
- T/ZJSEE 0018-2023分布式光伏发电项目检测管理规范
- 货物运输合同车队-3篇
- T/ZJFIA 002-2019浙江玫瑰米醋
- 2025年北京海淀初三二模语文试题及答案
- 2025年保定市中考二模历史试题及答案
- 泰国餐饮劳务合同协议书
- 广东省五校联考2024-2025学年高一下学期5月月考生物试题(有答案)
- 计算器毕业设计
- 孵化投资战略协议书
- 2025年高考第三次模拟考试数学(新高考Ⅰ卷)(考试版)
- 二年级数学下册应用题专项练习卷(每日一练共38份)
- 重症胰腺炎患者的监测与护理
- 2024年陕西省电力公司招聘笔试真题
- 2024年江苏省无锡市中考生物真题
评论
0/150
提交评论