版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/6/30,Data Mining: Concepts and Techniques,1,数据挖掘 概念与技术 Chapter 1 ,Jiawei Han and Micheline Kamber,2020/6/30,Data Mining: Concepts and Techniques,2,Chapter 1. 引言,什么激发了数据挖掘,为什么它是重要的? 什么是数据挖掘? 在何种数据上进行数据挖掘? 数据挖掘功能 所有模式都是有趣的吗? 数据挖掘系统的分类 数据挖掘的主要问题,2020/6/30,Data Mining: Concepts and Techniques,3,需要是
2、发明之母,数据爆炸问题 自动数据收集工具和成熟的数据库技术导致海量数据累积,需要对数据库、数据仓库及其他信息存储设备中的数据进行分析。 我们溺死在数据坟墓中,却难以提取有效信息 解决方法:数据仓库与数据挖掘 数据仓库 and 联机分析处理(OLAP) 在大型数据库数据中挖掘有趣知识 (规则, 模式, 约束),2020/6/30,Data Mining: Concepts and Techniques,4,数据库技术发展,1960s: 数据收集,数据创建 1970s: 关系数据模型, 关系数据库管理系统 1980s: 高级数据模型 (扩充关系, 面向对象, etc.) 面向应用的数据库管理系统
3、(空间的,时间的,知识库, etc.) 1990s: 数据挖掘,数据仓库,Web 数据库 2000s 面向各种应用的数据挖掘 Web 技术 和 全球信息系统,2020/6/30,Data Mining: Concepts and Techniques,5,什么是数据挖掘?,数据挖掘 (从数据中提取或“挖掘”知识) 从大量数据中提取有兴趣 (不琐碎的, 固有的, 先前未知的 和 潜在有用的) 知识 数据挖掘: 用词不当? 同义词 数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞 注意事项: Is everything “data mining”? 查询处理. 专家系统或统计程序,2
4、020/6/30,Data Mining: Concepts and Techniques,6,为什么要数据挖掘?潜在的应用,数据分析与决策支持 市场分析和管理 目标市场,客户关系管理, 市场销售分析, 交叉销售, 市场分割 风险分析和管理 预测, 消费能力, 质量控制,竞争力分析 欺骗探测 和不寻常行为探测 其他应用 Web 挖掘 DNA 和生物信息挖掘,2020/6/30,Data Mining: Concepts and Techniques,7,市场分析和管理,数据来源? 信用卡事务, 折扣优待卷,客户投诉电话, 公众生活方式调查 目标市场 发现具有相同特征(兴趣、收入状况、消费习惯等
5、)的消费者模式 随着时间发展,决定消费者购买的模式 交叉市场分析 产品间的销售联系, 基于这些联系进行预测 消费者类型 什么样的消费者买什么样的产品 (聚类 or 分类) 消费需求分析 为不同消费者提供最好产品 预测吸引新消费者的因素 提供信息总结 多维总结报告 分析汇总信息 (数据集中趋势和变化),2020/6/30,Data Mining: Concepts and Techniques,8,公司分析 & 风险管理,经费计划与资产评估 现金流转分析 和 预测 临时问题分析进行评估资产 交叉组合和时间序列分析 (财政比率, 趋势分析, etc.) 资源计划 总结、比较资源花费 竞争 监控竞争
6、者和市场方向 划分消费群和基于分类的定价程序 制定具有高度市场竞争力的定价策略,2020/6/30,Data Mining: Concepts and Techniques,9,欺骗探测 & 挖掘不寻常模式,方法: 聚类 进行欺骗模式构造, 孤立点分析 应用: 卫生保健, 零售业, 信用卡服务. 汽车保险: 洗钱: 可疑金钱事务 医疗保险 长途通讯 零售产业 分析显示: 38% 的零售收缩归咎于不诚实雇员 反对恐怖主义,2020/6/30,Data Mining: Concepts and Techniques,10,其他应用,运动 IBM高级侦察系统统计NBA比赛 天文学 喷气推进实验所(J
7、PL) 与 Palomar 天文台在数据挖掘帮助下发现22类星体,2020/6/30,Data Mining: Concepts and Techniques,11,数据挖掘: 知识发现过程,数据挖掘知识发现过程的核心,清理与集成,数据库,数据仓库,Knowledge,选择与转变,数据挖掘,评估与表示,2020/6/30,Data Mining: Concepts and Techniques,12,知识发现过程步骤:,了解应用领域 相关前提知识和应用目标 数据清理 和数据集成: (可能需要付出 60%的努力!) 数据选择 数据变换 选择数据挖掘功能 特征化、关联、分类、聚类分析以及演变和偏差
8、分析. 选择挖掘算法 数据挖掘 模式评价 和 知识表达 可视化,转换,排除冗余模式, etc. 使用发现知识,2020/6/30,Data Mining: Concepts and Techniques,13,数据挖掘 和 商业智能,Increasing potential to support business decisions,End User,Business Analyst,Data Analyst,DBA,决策,知识表示,Visualization Techniques,数据挖掘,Information Discovery,数据查询,OLAP, MDA,Statistical An
9、alysis, Querying and Reporting,数据仓库 /数据集市,数据源,Paper, Files, Information Providers, Database Systems, OLTP,2020/6/30,Data Mining: Concepts and Techniques,14,结构: 典型数据挖掘系统,Data Warehouse,数据清理 数据集成,过虑,Databases,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,2020/6/30,Data Mining: Concepts and Techniques,15,在何种数据上进行
10、数据挖掘,关系数据库 数据仓库 事务数据库 高级数据库系统和高级数据库应用 面向对象数据库 对象关系数据库 空间数据库 时间数据库和时间序列数据库 多媒体数据库 异种数据库和遗产数据库 WWW,2020/6/30,Data Mining: Concepts and Techniques,16,数据挖掘功能,概念/类描述: 特征化和区分 归纳, 总结, 对比数据特征, e.g., dry vs. wet regions 关联分析 (相关性和因果关系) Diaper Beer 0.5%, 75% 分类和预测 模型构造:描述和预测类标记未知的对象类 例如,基于气候划分国家, 基于汽油消耗定额划分汽车
11、 表示: 判定树,分类规则,神经网络 预测空缺或不知道的数据值,2020/6/30,Data Mining: Concepts and Techniques,17,数据挖掘功能 (2),聚类分析 类标记是未知的:聚类数据以形成新类标记 最大化类内的相似性、最小化类间的相似性 孤立点分析 孤立点: 数据对象与数据的一般行为或模型不一致 噪声 or 异常丢掉? 不! 在欺骗探测, 罕见事件分析中有用 演变分析 趋势 和 背离 连续时间序列数据分析, 周期模式匹配分析 基于类似性的数据分析,2020/6/30,Data Mining: Concepts and Techniques,18,所有模式都
12、是有趣的吗,数据挖掘会生成很多模式:并不是所有模式都是有趣的 建议方法: Human-centered, query-based, focused mining 有趣模式 易于被人理解;在某种程度上,对于新的或测试数据是有效的;是潜在有用的;是新颖的。 客观 vs. 主观兴趣度度量 客观: 基于所发现模式的结构和关于它们的统计, e.g., support, confidence, etc. 主观: 基于用户对数据的确信, e.g., unexpectedness, novelty, actionability, etc.,2020/6/30,Data Mining: Concepts and
13、 Techniques,19,我们可以发现所有有趣模式吗?,发现所有的兴趣模式: 完全的 数据挖掘系统可以发现所有有趣模式吗? 启发式 vs. 穷举搜索 联合 vs. 分类 vs. 聚类 仅产生有趣的模式: 最优化问题 数据挖掘系统能仅产生有趣模式吗? 方法 首先生成所有模式,然后过虑非兴趣模式. 仅生成有趣模式优化数据挖掘查询,2020/6/30,Data Mining: Concepts and Techniques,20,数据挖掘: 多学科汇总,数据挖掘,数据库技术,统计学,其他学科,可视化,信息科学,机器学习,2020/6/30,Data Mining: Concepts and Te
14、chniques,21,数据挖掘: 分类方案,一般功能 描述性数据挖掘 预测性数据挖掘 不同的观点, 不同的分类 根据挖掘的数据类型分类 根据挖掘的知识类型分类 根据所用的技术分类 根据应用分类,2020/6/30,Data Mining: Concepts and Techniques,22,数据挖掘多维角度,数据来源 Relational, data warehouse, transactional, stream, object-oriented/relational, active, spatial, time-series, text, multi-media, heterogene
15、ous, legacy, WWW 知识被挖掘 Characterization, discrimination, association, classification, clustering, trend/deviation, outlier analysis, etc. 不同概念层上多种挖掘功能结合 运用技术 Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, etc. 面向应用 Retail, telecommunication, banking, fraud ana
16、lysis, bio-data mining, stock market analysis, Web mining, etc.,2020/6/30,Data Mining: Concepts and Techniques,23,数据挖掘的主要问题,挖掘方法 在数据库中挖掘不同知识, e.g., bio, stream, Web 性能: 有效性,可伸缩性, 并行处理 模式评估: 兴趣度问题 结合背景知识 处理噪声和不完全数据 整合从已知信息中发现的知识: knowledge fusion 用户交互 数据挖掘查询语言 表示和可视化数据挖掘结果 多个抽象层的交互知识挖掘 应用和社会影响 特定范围数据挖掘应用 保护数据安全性, 完整性, 保密性,2020/6/30,Data Mini
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏徐州工程学院招聘高层次人才(教师)21人建设考试参考试题及答案解析
- 2026河南理工大学招聘建设考试参考试题及答案解析
- 2026年丽水市市直医疗卫生健康单位公开招聘卫技人员36人建设笔试模拟试题及答案解析
- 2026年铜陵市中医医院公开招聘工作人员(二)建设笔试备考题库及答案解析
- 2026湖南长沙市望城区卫健人才公开引进20人建设考试参考题库及答案解析
- 2026年大庆市第四医院招聘聘用制工作人员2人建设考试备考题库及答案解析
- 2026国家空间科学中心空间科学卫星运控部科学卫星运行人员招聘1人(北京)建设笔试备考试题及答案解析
- 2026保利物业战新业务专项招聘建设考试备考题库及答案解析
- 2026广东广州市南沙区事业单位招聘博士研究生3人(第二批)建设笔试备考试题及答案解析
- 江西省人才发展集团有限公司2026年春季集中招聘专题【11人】建设考试备考题库及答案解析
- QCT55-2023汽车座椅舒适性试验方法
- (高清版)TDT 1059-2020 全民所有土地资源资产核算技术规程
- 危大工程安全检查录表
- 玻璃纤维窗纱生产工艺流程
- 化妆品企业质量管理手册
- 少先队辅导员主题宣讲
- 劳动用工备案表
- 部编版五年级下册语文全册优质课件
- 一轮复习家长会课件
- 国家级重点学科申报书
- 实用中医护理知识学习题库-多选及简答题库
评论
0/150
提交评论