版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.数据库与数据仓库从数据库到数据仓库什么是数据仓库数据仓库中的数据组织数据仓库体系化环境从数据库到数据仓库传统的数据库技术——以单一的数据资源为中心,着重事务处理,竞争环境要求科学、准确、快速的决策。传统数据库不适宜DSS:处理的性能特性不同事务处理:数据的存取操作频繁,响应要求高、并发性好分析处理:占用系统资源多,运行速度慢,用户少数据集成问题事务处理:只需与自己相关的数据分析处理:要求数据全面数据动态集成问题分析处理:需要数据动态集成事务处理:只具备静态集成、无法动态集成历史数据问题事务处理:只处理当前数据分析处理:必须对历史数据进行详细分析数据的综合问题事务处理:涉及数据细节过多分析处理:需对数据进行各种综合从数据库到数据仓库20世纪中后期开始出现数据仓库思想的萌芽1992年W.H.Inmon在BuildingtheDataWarehouse一书中提出数据仓库的概念。1992年,E.F.Codd提出数据仓库多维分析的概念,和12条OLAP的准则各大数据库厂商纷纷推出自己的产品IBMOracleInformixSybase操作型数据与分析型数据的区别操作型数据分析型数据细节的综合的、或提炼的在存取瞬间是准确的代表过去的数据可更新不可更新预先知道操作需求预先不知道生命周期符合SDLC声明周期不同对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求数据仓库的四个基本特征数据是面向主题的什么是主题(是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象)面向主题的数据组织方式(是在较高层次上对分析对象的数据的完整、一致的描述,能完整、统一地刻画各个分析对象所涉及地企业的各项数据以及数据之间的联系)数据是集成的数据不可更新数据随时间不断变化面向应用进行数据组织的特点对相关组织、部门进行调查,收集数据库的基础数据及其处理过程,重点在于数据和处理反映一个部门内数据的动态特征,即表达数据流程数据库中的数据模式与实际业务中的数据有很好的对应关系数据的组织方式没有体现数据库的原本意图——数据与处理的分离。大纲
什么是数据挖掘数据挖掘的标准流程:CRISP-DM
数据挖掘工具——SPSSClementine简介第一部分:什么是数据挖掘?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的成本发现欺诈现象电信
:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析
(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:
欺诈探测,细分电子商务:
网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:
医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)(BigBank&CreditCardCompany)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000第二部分:数据挖掘标准流程
——CRISP-DMCRISP-DM
商业理解数据理解数据准备建立模型模型评估模型发布商业理解(BusinessUnderstanding)
找问题-确定商业目标对现有资源的评估确定问题是否能够通过数据挖掘来解决确定数据挖掘的目标制定数据挖掘计划建立模型(Modeling)对各个模型进行评价选择数据挖掘模型建立模型模型评估(Evaluation)
评估数据挖掘的结果对整个数据挖掘过程的前面步骤进行评估确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布(Deployment)把数据挖掘模型的结果送到相应的管理人员手中对模型进行日常的监测和维护定期更新数据挖掘模型数据挖掘和数据仓库的关系数据源数据仓库数据集市数据挖掘集市数据仓库和数据挖掘的区别数据挖掘大部分需要把数据从数据仓库中抽出数据挖掘也可以通过把几个事务数据库导入一个只读数据库中进行数据挖掘数据挖掘和在线分析处理(OLAP)的关系OLAP是先建立一个假设,然后证实或者推翻这个假设,是演绎推理的过程数据挖掘通过探索和寻找模型,是归纳的过程二者具有互不性,OLAP通过对数据的深层分析使数据挖掘更为有效数据挖掘的基本方法数据挖掘技术和算法数理统计方法决策树:分类神经网络:聚集,偏差分析…归纳逻辑程序遗传算法模糊逻辑约略集roughsetconceptlearning概念学习简单的基于规则的推理数理统计与数据挖掘数据挖掘的本质是很偶然的发现非预期但很有价值的信息,其过程本质上是实验性的数据挖掘是几门学科的综合,当然包括数理统计数理统计的核心问题就是在观察了样本的情况下如何去推断总体数理统计的几个常用的方法回归分析聚类分析主成分分析回归分析数据挖掘的软件实现第三部分:数据挖掘工具—SPSSClementine简介Makeadifferencewiththepredictivepowerofdatamining应用Clementine达到你数据挖掘的目标
图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身开放式的技术是更好的保护您的投资的保障高度的扩展性保证对数据库中大量的数据进行挖掘业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中把你的商业经验溶入数据挖掘过程是数据挖掘成功的关键Better
dataminingresults!InsightBusinessproblem?What
youknow丰富的数据挖掘算法Prediction
Neuralnet,C5.0Classification
Neuralnet,C5.0Segmentation
Kohonen,Kmeans,C5.0Association
Apriori,GRI,WebgraphSequence
CaprI,NeuralNet,Regression与SPSS及AnswerTree无缝集成提供更多的算法LogisticRegressionDiscriminantAnalysisFactorAnalysisManymore...C&RTCHAIDExhaustiveCHAIDQUEST使你在数据仓库上的投资得到最大的回报SybaseDB2InformixOpenIngressOracleSQLServer+ODBCdriversforothers+ODBCsocketfornativedrivers开放的建模性能在Clementine中通过CEMI加入新的算法Clementine的系统结构
1.Performmany
operationsin
thedatabase.2.Performtherest
onapowerful
server.3.Usetheclient
processorfor
viewingresults.ClementineServerdelivershugeperformancegainsGeneratinga
distributiongraph995secondswhenprocessedonthedesktop69secondswhenprocessedontheserver19secondswhenpushedbackintothedatabase
In-databaseprocessingdeliversbetterperformanceasdatasetsgetlargerShedatabaseClementineServercuts
modelbuildingtimeupto90%Modelbuildingtimeneededforbuildingmodelsontheserverasapercen
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村经济振兴路径
- 2025 高中信息技术数据与计算之数据挖掘的回归算法的贝叶斯岭回归课件
- swot分析模型企业培训课件
- 2025 高中信息技术数据与计算之数据在在线娱乐用户 UGC 内容分析中的应用课件
- 2026年智能网联汽车与智慧城市基础设施协同
- 2026年复制型病毒检测定量限与阴性确认规范
- 2026年深海生物合成与代谢工程产业化路径手册
- 2026年新型建筑工业化产业集群集聚区打造与全产业链协同发展指南
- 2026年量子比特相干时间提升与操控精度优化实践
- 2026年数据资产入表对上市公司财务报表影响分析
- 2025四川成都新都投资集团有限公司招聘党建文书岗等岗位13人笔试参考题库附带答案详解(3卷)
- 大学生英语四级核心1500词
- 2025年招银理财笔试题库及答案
- 萌宠乐园招商方案
- 产后抑郁症典型案例分析与心理干预报告
- 压力性损伤的健康宣教
- 电梯钢丝绳更替作业方案
- 初创科技企业股权激励方案解析
- 校园周边安全风险隐患排查台账
- 汽车维修合同范本(2025年版)
- 校园安全教育每天一句话(3篇)
评论
0/150
提交评论