




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘与智能决策技术简介 背景 二十世纪末以来 全球信息量以惊人的速度急剧增长 据估计 每二十个月将增加一倍 许多组织机构的IT系统中都收集了大量的数据 信息 目前的数据库系统虽然可以高效地实现数据的录入 查询 统计等功能 但无法发现数据中存在的关系和规则 无法根据现有的数据预测未来的发展趋势 为了充分利用现有信息资源 从海量数据中找出隐藏的知识 数据挖掘技术应运而生并显示出强大的生命力 背景 数据挖掘是八十年代投资AI研究项目失败后 AI转入实际应用时提出的 它是一个新兴的 面向商业应用的AI研究 AI ArtificialIntelligence 人工智能 1989年8月 在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现 KnowledgeDiscoveryinDatabase KDD 这一术语 随后 在1991年 1993年和1994年都举行KDD专题讨论会 汇集来自各个领域的研究人员和应用开发者 集中讨论数据统计 海量数据分析算法 知识表示 知识运用等问题 最初 数据挖掘是作为KDD中利用算法处理数据的一个步骤 其后逐渐演变成KDD的同义词 数据挖掘定义 技术角度的定义数据挖掘 DataMining 是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 与数据挖掘相近的同义词包括 数据融合 数据分析和决策支持等 这一定义包括好几层含义 数据源必须是真实的 海量的 含噪声的 发现的是用户感兴趣的知识 发现的知识要可接受 可理解 可运用 并不要求发现放之四海皆准的知识 仅支持特定的发现问题 数据挖掘定义 商业角度的定义数据挖掘是一种新的商业信息处理技术 其主要特点是对商业数据库中的大量业务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策的关键性信息 简言之 数据挖掘其实是一类深层次的数据分析方法 因此 数据挖掘可以描述为 按企业既定业务目标 对大量的企业数据进行探索和分析 揭示隐藏的 未知的或验证己知的规律性 并进一步将其模型化的有效方法 数据仓库的定义 数据仓库是在企业管理和决策中面向主题的 集成的 与时间相关的 不可修改的数据集合 此定义由最为权威的 被称为 数据仓库之父 的WilliamH Inmon先生给出 数据内容数据库名 数据库内容描述 注意 信息的完整性 相关业务人员达成共识 业务人员确定 IT人员确定 数据结构 计算机内 主题数据库 数据标准化 决策支持 从数据库到数据仓库到数据集市到 数据仓库的定义 数据仓库是决策支持系统 DecisionSupportSystem DSS DSS 的基础 在数据仓库中只有单一集成的数据源 并且数据是可访问的 所以与传统数据库相比 在数据仓库环境中DSS分析员的工作将较为容易 数据仓库的组成 一个数据仓库的大小一般都是在100GB以上通常 数据仓库系统应该包含下列程序 1 抽取数据与加载数据 2 整理并转换数据 采用一种数据仓库适用的数据格式 3 备份与备存数据 4 管理所有查询 即将查询导向适当的数据源 数据仓库的组成 OLAP的定义 特点 60年代 关系数据库之父E F Codd提出了关系模型 促进了联机事务处理 OLTP 的发展 数据以表格的形式而非文件方式存储 1993年 E F Codd提出了OLAP概念 认为OLTP已不能满足终端客户对数据库查询分析的需要 SQL对大型数据库的简单查询也不能满足终端客户分析的要求 客户的决策分析需要对关系数据库进行大量计算才能获得结果 而查询的结果并不能满足决策者提出的需求 因此 E F Codd提出了多维数据库和多维分析的概念 即OLAP OLAP的定义 特点 OLAP On LineAnalysisProcessing 定义是数据仓库上的分析展示工具 它建立在数据多维视图的基础上 OLAP的主要特点一是在线性 OnLine 体现为对用户请求的快速响应和交互式操作 二是多维分析 Multi Analysis 这是OLAP技术的核心所在 OLAP的定义和特点 OLAP与OLTP的区别 1 OLTP主要面向公司职员 OLAP则主要面向公司领导者 2 OLTP应用主要是用来完成客户的事务处理 其数据基础是操作型数据库 如民航订票系统 银行储蓄系统等等 通常需要进行大量的更新操作 同时对响应时间要求较高 而OLAP是以数据仓库或数据多维视图为基础的数据分析处理 是针对特定问题的联机数据访问和分析 它一般不对仓库数据作修改处理 而只是查询 其应用主要是对客户当前及历史数据进行分析 辅助领导决策 其典型的应用有对银行信用卡风险的分析与预测 公司市场营销策略的制定等 主要是进行大量的查询操作 对时间的要求不太严格 多维数据 Salesvolumeasafunctionofproduct month andregion Product Region Month Dimensions Product Location TimeHierarchicalsummarizationpaths IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay 立方体实例 TotalannualsalesofTVinU S A 数据立方体的浏览 VisualizationOLAPcapabilitiesInteractivemanipulation 可能受益的商业活动 数据挖掘解决方案 历史数据 预测模型 新申请者 信用等级评价预测模型 用过去的客户数据预测未来 理解商业问题 性别 父亲的教育程度 被访者教育程度 工作类型 城市 当前收入水平 性别 父亲的教育程度 被访者教育程度 工作类型 城市 当前收入水平 当前财政状况 未来信用风险 Time1 Time2 家庭收入 销售数量 喜欢流行音乐 数据挖掘解决方案 PreprocessedData Data TranslatedData Patterns Models Results Preprocessing Analysis Input Output 数据挖掘解决方案 主要数据挖掘技术 分类Classification 预测Prediction 细分Segmentation 关联Association 序列Sequence 将您的顾客和客户分类 预测未来的销量和欺诈 流失 将市场 顾客细分 发现那些商品会在一起销售或购买 找出时间进程中的模式或趋势 决策树规则侦测回归分析聚类分析神经网络序列模式 DecisionTreesNeuralNetworksRuleInductionNearestNeighborGeneticAlgorithms 数据挖掘主要新技术 决策树神经网络规则侦测序列规则基因算法 基于层次的聚类方法 这类方法不需要预先给定参数 聚类数 但需要终止条件 CURE算法 DataPartitioningandClustering s 50p 2s p 25 x x s pq 5 CHAMELEON算法 ConstructSparseGraph PartitiontheGraph MergePartition FinalClusters DataSet 分类决策树 Attributes Outlook Temperature Humidity Wind PlayTennis yes no 打高尔夫球的决策树实例 自顶向下 根据加薪百分比 工作时长 法定节假日 及医疗保险三个属性来判断一个企业的福利状况 good或bad 对象 关系 网络 网络分析 强弱 路径 自我 小群体 缺失 角色 网络分析 神经网络 线性回归 Logistics回归 多层神经网络 细胞繁殖 3 2 2 6神经网络算法 人工神经网 ArtificialNeuralNetwork ANN 是20世纪80年代后期迅速发展起来的人工智能技术 它对噪声数据具有很高的承受能力 对未经训练的数据具有分类模拟的能力 因此在网站信息 生物信息和基因以及文本的数据挖掘等领域得到了越来越广泛的应用 在多种ANN模型中 反向传播 BackPropagation BP 网络是应用最广的一种 神经元 通过非线性函数n维的输入向量x被映射为变量y 神经网络的组成 输出节点 输入节点 隐层节点 输入矢量 输入矢量 xi wij 基本的BP网络由输入层 输出层和隐层组成 神经网络的拓扑结构 神经网络训练之前 需要设计网络拓扑结构 设计网络拓扑的关键是 确定隐层的神经元个数及各神经元初始权值和阈值 偏差 理论上讲 隐层的神经元数越多 逼近越精确 但实际上 隐层神经元数不宜过多 否则会极大加长训练时间 并造成网络容错能力下降 经训练后的神经网络若其准确性不能被接受 则必须重新进行拓扑设计或改用不同的初始权值和阈值 偏差 神经网络的训练 训练的终止条件获得一组权重值 使得训练集中几乎所有样本都分类正确训练步骤利用随机值对权值进行初始化将训练样本逐一地输入给神经网络 进行训练对于每个神经元将其所有的输入值进行线性求和计算得到总的输入利用激励函数计算其输出值计算误差修正网络权值和阈值 偏差 BP神经网络 BP神经网络通过迭代处理一组训练样本 将各样本的网络预测与实际已知类标号进行比较实现学习训练 反向修改网络的权值 使得网络预测与实际类之间的误差平方最小 BP神经网络按照最优训练准则反复迭代 确定并不断调整神经网络结构 通过迭代修改 当误差收敛时学习过程终止 因此 具有分类准确 收敛性好 动态性好和鲁棒性强等优点 BP神经网络存在的问题 收敛速度问题BP分类器最大的弱点是其训练速度非常缓慢 难以收敛 尤其是当网络的训练达到一定程度后 收敛更为缓慢 局部极小点问题BP算法采用的是梯度下降法 对一个复杂的网络而言 其误差曲面是一个高维空间中的曲面 其中分布着许多局部极小点 一旦陷入了局部极小点则算法很难逃离出来 BP神经网络存在的问题 网络瘫痪问题在训练过程中 权值可能变得很大 这会使神经元的网络输入变得更大 从而使得其激励函数的一阶导函数在此点上的取值很小 此时的训练步长会变得非常小 最终导致网络停止收敛 这种现象即是所谓的网络瘫痪现象 关联规则挖掘实例 通过发现顾客放入其购物篮中不同商品之间的联系 分析顾客的购买习惯 通过了解哪些商品频繁地被顾客同时购买 这种关联的发现可以帮助零售商制定营销策略 例如 在同一次购物中 如果顾客购买牛奶的同时 也购买面包 和什么类型的面包 的可能性有多大 这种信息可以引导销售 可以帮助零售商有选择地经销和安排货架 例如 将牛奶和面包尽可能放近一些 可以进一步刺激一次去商店同时购买这些商品 关联规则挖掘实例 购物篮关联分析实例图 3 3 1基本概念 Customerbuysdiaper Customerbuysboth Customerbuysbeer 啤酒与尿布 的关联规则 ForruleA Csupport support A C 50 confidence support A C support A 66 6 ForC A 50 100 TheAprioriprinciple Anysubsetofafrequentitemsetmustbefrequent Min support50 Min confidence50 关联挖掘实例 3 5数据挖掘的可视化 以可视化的方式展示数据挖掘获取的相关知识 例如 散点图和盒图 obtainedfromdescriptivedatamining 决策树 关联规则 聚类 异常点 规则 SASEnterpriseMiner的散点图 关联规则的可视化 MineSet3 0 决策树的可视化 MineSet3 0 聚类的可视化 IntelligentMiner 问题描述 如何决定超市中商品的摆放来增加销售额结果描述 Web图 数据挖掘的典型结果 交叉销售 数据挖掘不能作的事情 如何定义要数据挖掘的商业问题隐含解决企业问题的有用数据识别数据质量 搜集初始数据精加工并整合数据 使其满足挖掘建模要求数据变换 使得数据库仅包含建模输入变量根据模型制订行动计划 并付诸实施评价行动结构 反馈信息输入数据库 进一步挖掘 计算机及数据处理软件 统计软件的发展使得我们做数据挖掘和统计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年注册验船师资格考试(A级船舶检验法律法规)考前模拟试题及答案二
- 2025年殡仪服务职业认证考试面试要点及模拟题集
- 桃花心木课件教学
- 公务员应变面试题及答案
- 2025年艺术设计领域招聘考试试题预测及备考策略
- 2025年国家历史局选拔考试复习题目与答案详解
- 公务员面试题及答案最佳
- 公务员面试题及答案扶贫
- 莫言小说中的民俗元素呈现及其意义
- 2025年环境科学与管理专业高级考试题库及答案
- 2025年浙江省杭州市西湖区九年级中考一模科学试卷
- 苯乙酮项目可行性研究报告
- 卫星遥感技术在军事目标识别中的应用-洞察阐释
- T/CIE 166-2023企业级固态硬盘测试规范第2部分:性能测试
- 《医疗机构工作人员廉洁从业九项准则》解读
- 《金融衍生品交易课件:股指期货入门教程》
- 正规按摩店劳动合同协议
- 成年女性压力性尿失禁护理干预
- 教师沟通技巧培训
- 医院消防知识培训课件
- DB11∕T500-2024城市道路城市家具设置与管理规范
评论
0/150
提交评论