版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2022年-2023年最新
数据挖掘技术
数据挖掘技术的由来2022年-2023年最新
网络之后的下一个技术热点
大量信息在给人们带来方便的同时也带来了一大堆问题:
第一:是信息过量,难以消化;
第二:是信息真假难以辨识;
第三:是信息安全难以保证;
第四:是信息形式不一致,难以统一处理。
5/1/2021
数据挖掘技术的由来2022年-2023年最新
网络之后的下一个技术热点
“要学会抛弃信息、”
〃如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息
利用率?”
数据开采和知识发现(DMKD)技术应运而生
5/1/2021
数据挖掘技术的由来2022年-2023年最新
数据爆炸但知识贫乏
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,
人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,
人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。
目前的数据库系统可以高效地实现数据的录入、查询、统计
等功能,但无法发现数据中存在的关系和规则,无法根据现有的数
据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导
致了“数据爆炸但知识贫乏”的现象。
5/1/2021
数据挖掘技术的由来j
支持数据挖掘技术的基础
•海量数据搜集
・强大的多处理器计算机
■数据挖掘算法
5/1/2021
2022年-2023年最新
从商业数据到商业信息的进化
进化阶段商业问题'支持我术」产品厂家产品特点
数据搜集“过去五年中我计算机,磁带和磁盘IBM,CDC提供历史性的、
的总收入是多静态的数据信息
(60年代)少?”
数据访问“在新英格兰的关系数据库(RDBMS),Oracle,Sybasejnf在记录级提供历
分部去年三月的结构化查询语言ormix,IBM,Micros史性的、动态数
(80年代)销售额是多少?”(SQL),ODBC,oft据信息
Oracle,Sybase,Informix」
BM,Microsoft
数据仓库;“在新英格兰的联机分析处理Pilot,Comshare,Ar在各种层次上提
决策支持分部去年三月的(OLAP),多维数据库,bor;Cognos^icro供回溯的、动态
(90年代)销售额是多少?数据仓库strategy的数据信息
波士顿据此可得
出什么结论?”
数据挖掘“下个月波士顿高级算法,多处理器计Pilot,Lockheed/B提供预测性的信
(由蝴行)的销售会怎么样?算机,海量数据库M,SGI,其他初创息
兴r"49”A,
数据挖掘技术的由来2022年-2023年最新
数据挖掘逐渐演变的过程
算法学习
a
a
机
5/1/2021
数据挖掘的定义2022年-2023年最新
技术上的定义及含义
数据挖掘(DataMining)就是从大量的、不完全的、有噪声
的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事
先不知道的、但又是潜在有用的信息和知识的过程。
5/1/2021
数据挖掘的定义2022年-2023年最新
技术上的定义及含义
•数据源必须是真实的、大量的、含噪声的;
•发现的是用户感兴趣的知识;
♦发现的知识要可接受、可理解、可运用;
•并不要求发现放之四海皆准的知识,仅支持特定的发现问题
5/1/2021
数据挖掘的定义2022年-2023年最新
商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的
大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决
策的关键性数据。
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未
知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘与传统分析方法的区别
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质
区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.
数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘和数据仓库
数据仓库是为决策支持而不是为事务处理所设计的数据库,
它是将不同来源的事务处理数据库中对决策有用的数据提取出来而
建立。
数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以
在数据仓库中进行,也可以在传统的事务型数据库中进行。
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘和数据仓库
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘和在线分析处理
•在线分析处理(OLAP,On-Lineanalyticalprocessing)是一种增强
的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。
•传统的查询和报表工具是告诉你数据库中都有什么(what
happened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)>
和如果我采取这样的措施又会怎么样(Whatif)。用户首先建立一
个假设,然后用OLAP检索数据库来验证这个假设是否正确。
5/1/2021
数据挖掘的定义
数据挖掘和在线分析处理
比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始
的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果
这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也
许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘与0LAP不同的地方是,数据挖掘不是用于验
证某个假定的模式(模型)的正确性,而是在数据库中自己
寻找模型。他在本质上是一个归纳的过程。
比如,一个用数据挖掘工具的分析师想找到引起贷款拖
欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入
是引起这个问题的因素,甚至还可能发现一些分析师从来没
有想过或试过的其他因素,比如年龄。
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘,机器学习和统计分析
5/1/2021
数据挖掘的定义2022年-2023年最新
数据挖掘,机器学习和统计分析
5/1/2021
数据挖掘的定义2022年-2023年最新
软硬件发展对数据挖掘的影响
存贮性能的提高
计算能力的提高
并行处理技术
5/1/2021
数据挖掘应用2022年-2023年最新
欺诈侦测
•AT&T使用根据数据挖掘开发的东统来侦测盗打国际电话的行
为。
•由HNC公司开发的队LCON欺诈评估系统用于提示可能存在的
盗用信用卡的交易。
•金融犯罪执法网络A1系统(FAIS)使用包括数据挖掘在内
的儿种技主,识别大型现金交易中可能存在的洗钱行为。
•个人通讯高级安全(AdvancedsecurityforPersonal
communications)欧洲研究组织己经利用无指导聚类侦测移
动电话网络中的欺诈。对每个用户,系统储存用户的历史和
使用特征文件。在当前使用与用户的历史情况有明显区别时,
怀疑为欺诈行为。
5/1/2021
数据挖掘应用2022年-2023年最新
卫生保健
•Merck-MedcoManagedcare,Merck的一1个医药保险和处方
电邮订购单位,使用数据挖掘来帮助找出对某种类型的病人
减少费用但疗效相同的治疗方法。
•生物信息或基因数据挖掘则完全属于另外一个领域,在商业
上很难讲有多大的价值,但对于人类却受益非浅。例如,基
因的组合千变万化,得某种病的人的基因和正常人的基因到
底差别多大?能否找出其中不同的地方,进而对其不同之处
加以改变,使之成为正常基因,这都需要数据挖掘技术的支持。
5/1/2021
数据挖掘应用2022年-2023年最新
商业和金融
•Farmer'sGroup有限勖TT何使用数据7^有跑车的人不具
有高事故风险的假设。
・美国银行(BankofAmerica)使用数据挖掘侦测哪个客户正在使用美国
银行的哪种产品,以便他们能够提供正确的产品和服务组合,更好地满足
客户的需求。
•美国西部通信(USWestCommunications)根据诸如家庭的大小、家庭成
员的平均年龄和所在地这些特征,使用数据挖掘和数据仓库来确定客户的
倾向和需要。
•20世纪Fox公司分析票房收入来确定哪个演员、情节和电影在各市场环境
中更容易为观众接受。
5/1/2021
数据挖掘应用2022年-2023年最新
科学应用
丫射线爆是短暂的伽玛射线反射,它来源于
我们太阳系之外。有关事件的记录已经超过1000
次。科学界普遍认为存在两种丫射线爆。
Mukherjee等人使用统计聚类分析法(一种数据挖
掘方法)发现了第3类丫射线爆。
5/1/2021
数据挖掘应用2022年-2023年最新
运动和游戏
•大约20个NBA球队使用了IBM公司开发的数据挖掘应
用软件AdvancedScout系统来优化他们的战术组合°
例如Scout就因为研究了魔术队队员不同的布阵安排,
在与迈阿密热队的比赛中找到了获胜的机会。
•博彩产业将客户赌博方式的历史模型结合起来,确
定客户在光顾他们喜欢的赌场时,会花(输)多少
钱。
5/1/2021
数据挖掘的基本技术2022年-2023年最新
我们用归纳形成基本概念定义。我们看到代表动物、
植物、建筑物和诸如此类的概念实例后,我们听到为这些
个别实例做的标记,并选择我们认定的定义概念的特性
(属性)形成我们自己的分类模型。这以后,我们使用模
型帮助我们进一步来区分结构相似的对象。这种类型的学
习称为基于归纳的有指导的概念学习,或简称有指导的学
习(supervisedlearning)
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
发烧淋巴肿充血头
1YesYesYes---Yes链球菌感染喉炎
2NoNoNoYesYes敏感症
3YesYesNoYesNo感冒
4YesNoYesNoNo链球菌感染喉炎
5NoYesNoYesNo感冒
6NoNoNoYesNo敏感症
7NoNoYesNoNo链球菌感染喉炎
8YesNoNoYesYes敏感症
9NoYesNoYesYes感冒
10YesYesNoYesYes感冒
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
淋巴肿
Yes
诊断二链球菌感染喉炎
No
诊断二敏感症
诊断数据决策树
5/1/2021
数据挖掘的基本技术L2023年最新
•如果病人淋巴肿,诊断为链球菌感染性咽炎。
•如果病人没有淋巴肿的症状,但发烧,诊断为感冒。
•如果病人没有淋巴肿,也不发烧,诊断为敏感症。
5/1/2021
数据挖掘的基本技术
有指导的数据挖掘技术——有指导的学习
(1)IF淋巴肿=Yes
THEN诊断二链球菌感染性咽炎
(2)IF淋巴肿=No&发烧=Yes
THEN诊断二感冒
(3)IF淋巴肿=N。&发烧=No
THEN诊断二敏感症
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
ID喉咙痛发烧淋巴肿充血头痛诊断
11NoNoYesYesYes?(链球菌感染喉炎)
12YesYesNoNoYes?(感冒)
13NoNoNoNoYes?(敏感症)
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术一一有指导的学习
准确度
在检验集中符合产生式规则条件的实例正确显示规则所指
定结果的比率。
覆盖率
在苣验集中显示规则所指定结果的实例符合产生式规则条
件的比
5/1/2021
分类
•学习是有指导的。
•因变量是分类的。
•重点在于建立模型,将新的实例指派给一组定义明确的类
中的一个。
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
分类任务的例子
•确定用于区分患过心脏病的人和从未患过心脏病的人的特
征。
•开发一个“成功”人士的特征文件。
•确定一次信用卡购物是否为盗用。
•将一次购车贷款申请归类为具备良好的或者不良的信用风
险。
•开发一个特征文件来区别女性与男性中风患者。
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
估计
与分类模型相似,估计模型的目的在于确定一个未知
输出属性的值。然而,不同于分类模型的是,对一个估计问
题,其输出属性值(一个或多个)是数值的而不是分类的。
5/1/2021
估计任务的例子
•估计暴风雨到达某个给定地点所需要的分钟数。
・估计拥有一辆跑车的人的收入。
•估计信用卡已被盗的可能性。
•估计伽马射线爆的长度。
5/1/2021
预测
与分类模型和估计模型不同,预测模型的目的在于确
定未来的输出结果而不是当前的行为。预测模型的输出属性
(一个或多个)可以是分类的或数值型的。
5/1/2021
预测任务的例子
•预测2002年全美橄榄球联盟(NFL)赛季中跑卫的触地总
得分。
•确定一个信用卡客户是否可使用其信用卡账单提供的优惠。
•预测下周道琼斯工业指数的收盘价格。
•预测在未来的3个月内,哪些电话用户最有可能改变他们
的供应商。
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
Acme信用卡公司信用卡促销数据库
收入范围杂志促销一手表促销寿险促销信用卡保险性别年龄
40-50,000YesNoNoNoMale45
30-40,000YesYesYesNoFemale40
40-50,000NoNoNoNoMale42
30-40,000YesYesYesYesMale43
50-60,000YesNoYesNoFemale38
20-30,000NoNoNoNoFemale55
30-40,000YesNoYesYesMale35
20-30,000NoYesNoNoMale27
30-40,000YesNoNoNoMale43
30-40,000YesYesYesNoFemale41
40-50,000NoYesYesNoFemale43
20-30,000NoYesYesNoMale29
50-60,000YesYesYesNoFemale39
40-50,000NoYesNoNoMale55
州狗勖0NoNoYesYesFemale19
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
假设Acme信用卡公司己经批准了一个与上表所列的以前的
促销相似的新的寿险促销活动。这个促销材料将作为信用
卡账单的一部分发送给非零余额的所有信用卡持有者。我
们将使用数据挖掘来帮助我们把账单发送到选定的一组客
户手中,他们当前没有信用卡余额,但有可能利用促销机
会。
我们的问题要求有指导数据挖掘使用寿险促销作为输出属
性。我们的目的是开发一个可能利用寿险促销的客户的特
征文件,该寿险促销是通过该客户下一次信用卡结算表来
宣传的。
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的学习
IF性别=Female&19<=Age<=43THEN寿险促销=丫€$
规则准确度:100.00%
规则覆盖率:66.67%
IFSex=Male&IncomeRange=40-50KTHEN寿险促销二岫
规则准确度:100・00%
规则覆盖率:50.00%
5/1/2021
数据挖掘的基本技术2022年-2023年最新
有指导的数据挖掘技术——有指导的学习
IF信用卡保险=YesTHEN寿险促销=Yes
规则准确度:100.00%
规则覆盖率:33.33%
IF收入=30-40K&手表促销=丫35THEN寿险促销=丫6$
规则准确度:100・00%
规则覆盖率:33.33%
5/1/2021
数据挖掘的基本技术2022年-2023年最新
与有指导学习不同,无指导聚类(unsupervised
clustering)为无预定义类数据建立模型。数据实例根据
聚类系统定义的相似分类机制进行分组,在一种或多种评
估技术的支持下,最终由我们确定所构造聚类的含义。
5/1/2021
数据挖掘的基本技术2022年-2023年最新
无指导数据挖掘技术—无指导聚类
Acme投资有限公司代理帐户数据
客户编号帐户类型保证金帐户交易方式月交易量性别年龄爱好收入
1005JointNoOnline1.25F30Tennis40-50K
1013CustodialNoBroker0.5F50Skiing80-99K
1246JointNoOnline3.6M20Golf20-39K
2110IndividualYesBroker22.3M30Fishing
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《呼兰河传》考试题(含答案)
- 关于父母感恩演讲稿资料15篇
- 2026年北京市高职单招职业技能测试真题及参考答案
- 2026年湖南湘潭市高职单招数学考试真题及答案
- 2026年保密教育测试题及参考答案(考试直接用)
- 2026年安徽省池州中小学教师招聘考试试题题库(答案+解析)
- Unit 9 I like sunny days but Idon't like rainy days.教学设计-2025-2026学年小学英语二级下剑桥少儿英语
- 红领巾在行动教学设计小学综合实践活动一年级下册浙科技版
- 第一节 生命的基础能源-糖类教学设计高中化学人教版选修1化学与生活-人教版2004
- 第4课 我的课桌最结实教学设计小学劳动一年级下册湘教版《劳动教育》
- 四年级语文 铁杵成针 优质课比赛一等奖
- 油气集输概论天然气处理与轻烃回收课件
- 社会责任培训精
- 新视野大学英语(第四版)读写教程2(思政智慧版) 课件 Unit3 The young generation making a difference Section A
- (完整word版)中医病证诊断疗效标准
- 部编版语文二年级下册第2单元核心素养教案
- 初中语文八年级下册第二单元作业设计 科技之光《大自然的语言》 《阿西莫夫短文两篇》《大雁归来》 《时间的脚印》 单元作业设计
- 人教版道德与法治五年级下册全册课件【完整版】
- 城镇污水处理工艺比选及运行效果分析
- 《卢氏字辈总汇》
- 建筑工程施工BIM技术应用指南
评论
0/150
提交评论