




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
复习 数据仓库与数据挖掘 1 数据仓库 数据仓库基本原理 OLAP基本原理数据仓库的模型设计和OLAP建模数据仓库的规划和开发SQLServer2005与数据仓库的实现 2 数据挖掘 数据挖掘概念数据挖掘基础数据挖掘支柱 数据 技术 模型数据挖掘的应用 3 概念 W H Inmon对数据仓库所下的定义 数据仓库是面向主题的 集成的 稳定的 随时间变化的数据集合 用以支持管理决策的过程 数据挖掘 企业角度指从数据库的大量数据中提取隐含 目前未知 潜在有用和最终可理解的模式 如知识规则 限制条件和规律等 的非平凡过程 4 概念 数据挖掘 商业角度是一种新的商业信息处理技术 其主要特点是对商业数据库中的大量业务数据进行抽取 转换 分析和其它模型化处理 从中提取辅助商业决策的关键性数据 模式定义 模式是一个用语言L表示的表达式E 它可用来描述数据集F中的数据的特征 E所描述的数据是集合F的一个子集FE 5 概念 清洗 就是将错误的 不一致的数据在进入数据仓库之前予以更正或删除 以免影响DSS决策的正确性 元数据 是用来描述数据的数据 它描述和定位数据组件 它们的起源及它们在数据仓库进程中的活动 关于数据和操作的相关描述 输入 计算和输出 元数据可用文件存在元数据库中 6 概念 OLAP 粒度就是对数据仓库中数据综合程度的一个度量 它既影响数据仓库中的数据量的多少 也影响数据仓库所能回答询问的种类 DM 粒度的第二种形式是指抽样率 即以一定的抽样率对数据仓库中的数据进行抽样后得到一个样本数据库 数据挖掘将在这个样本数据库上进行 7 概念 维代表了用户观察数据的特定视角 如时间维 地区维 产品维等 度量是数据的实际意义 描述数据 是什么 即一个数值的测量指标 如人数 单价 销售量等 数据切片 切块 上卷 下钻 转轴数据钻取就是从较高的维度层次下降到较低的维度层次上来观察多维数据 8 概念 数据挖掘 相关属性挖掘过程中要考虑的感兴趣的属性模式模板 给定挖掘任务 除说明要挖掘的知识类型 可进一步说明和提供所发现模式匹配的元模式 元规则 元查询 可以用于指导发现过程概念分层 定义一个映射序列 将低层概念映射到更一般的高层概念 Schemahierarchy模式分层Set groupinghierarchy集合分组分层Operation derivedhierarchy操作导出的分层Rule basedhierarchy基于规则的分层 9 概念 数据挖掘 强关联规则 strongassociationrule 同时满足用户定义的最小置信度阈值和最小支持度阈值的关联规则 10 数据仓库部分 要解决 蜘蛛网 问题 必须将用于事务处理的数据环境和用于数据分析的环境分离 这样 数据处理被分为两大类 操作型处理 事务型处理 操作型处理以传统的数据库为中心进行企业的日常业务处理 分析型处理分析型处理以数据仓库为中心分析数据背后的关联和规律 为企业决策提供可靠有效的依据 11 数据仓库体系结构 12 数据仓库的数据组织结构 不同于一般的数据库系统 需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别 在数据仓库中 采用分级的方式进行组织 13 星型结构和雪花型结构 星型结构通过将事实表和维表进行连接 我们就可以得到 星型结构 Star Scheme 14 雪花型结构实际应用需求并不像标准星型结构描述的那么简单 当问题涉及的维度很多时 事实表中的条目数将迅速增长 假定原来的事实表条目数为m 增加一个具有n个条目的维表 通常 事实表的条目数将变成m n条 这样事实表所占用的存储空间将迅速增大 在这种情况下 可以考虑使用 雪花型 的结构 15 16 总的来讲 ROLAP在大数据量的存储上有绝对的优势 因此拥有巨型数据量的系统可以选择ROLAP MOLAP在响应速度 预运算和多维计算方面具有优势 中小型系统可以考虑使用MOLAP 但是ROLAP和MOLAP之间的技术差异不是绝对的 现在MOLAP和ROLAP厂商正在相互借鉴 相互学习对方的技术优势 HOLAP就是对MOLAP和ROLAP的良好折中 17 数据仓库设计的基本过程 建立企业模型 概念模型设计 逻辑模型设计 物理模型设计以及数据装载接口的设计 18 19 收集应用需求 分析应用需求 构建数据库 数据仓库建模 数据获取与集成 构建数据仓库 系统实施 应用编程 系统测试 DSS应用编程 系统测试 理解需求 DB 应用B 应用A DB DB 外部数据 DW SDLC方法 CLDS方法 20 数据仓库的开发方法 瀑布式开发螺旋式开发 21 22 23 数据仓库 应用OLAPDM 24 OLAP 25 26 DM 在何种数据上进行数据挖掘Relationaldatabase关系数据库Datawarehouse数据仓库Transactionaldatabase事务数据库AdvanceddatabaseandinformationrepositoryObject relationaldatabase对象关系数据库Spatialandtemporaldata空间和时间数据Time seriesdata时间系列数据Streamdata流数据Multimediadatabase多媒体数据库Heterogeneousandlegacydatabase异类和遗留数据库Textdatabases WWW文本数据库和WWW 27 数据挖掘功能 Conceptdescription概念描述 Characterizationanddiscrimination特征化和区分Generalize归纳 summarize汇总 andcontrastdatacharacteristics e g dryvs wetregionsAssociation关联 correlationandcausality相关性和因果关系 Diaper Beer 0 5 75 ClassificationandPrediction分类和预测分类 找出描述或区分数据类或概念的模型 或函数 以便能够使用模型预测类标记未知的对象类 E g classifycountriesbasedonclimate orclassifycarsbasedongasmileage英里里程Presentation decision tree classificationrule neuralnetworkPredictsomeunknownormissingnumericalvalues 28 Clusteranalysis聚类分析Classlabel类标记isunknown Groupdatatoformnewclasses e g clusterhousestofinddistributionpatternsMaximizingintra class类内similarity minimizinginterclass类间similarityOutlieranalysis孤立点分析孤立点 与数据的一般行为或模型不一致的数据对象 Noiseorexception 噪声或例外No usefulinfrauddetection rareeventsanalysisTrendandevolutionanalysis趋势和演变分析Trendanddeviation regressionanalysisSequentialpatternmining periodicityanalysisSimilarity basedanalysisOtherpattern directedorstatisticalanalyses 29 分类 Generalfunctionality一般功能性Predictivedatamining预测式Descriptivedatamining描述式Differentviews differentclassificationsKindsofdatatobemined挖掘的数据类型Kindsofknowledgetobediscovered发现的知识类型Kindsoftechniquesutilized根据使用的技术Kindsofapplicationsadapted根据应用 30 数据挖掘实施控制self 挖掘环境得以成功的要素五个要素 由一人来专职负责 建立团队团队由各个学科的人员组成分成技术的和商业的范围广 企业用户到数据所有者 从统计人员到经理各个事业单位一开始就参与进来数据挖掘的目的 是将结果发布给各事业单位去执行 一开始参与进来 可以从商业角度推动这项工作 信息技术部门一开始也要参与进来数据挖掘是一项技术 与组织内的其它技术应协调 一致 因为用于挖掘的数据可能来自任何其它不同的系统 示范项目可以展现数据挖掘的能力示范项目的成功 推动数据挖掘的开展 此项目需要数据挖掘团队精心挑选 并与软件供应商和拥有丰富经验的顾问门亲密合作 31 数据挖掘过程 数据挖掘的互动循环过程将数据挖掘定位于企业的需求 包括下面几个阶段 MichaelJ A Berry的四阶段过程A 理解业务问题数据挖掘人员广泛听取业内专家意见 确定关键业务问题 明确所需数据 另一方面 业内专家意见需要通过数据验证 B 将数据转换成可执行的结果构建模型是一个反复循环的过程 需要知道结果被如何使用 C 结果实施过程挖掘目的是将生成的决策付诸行动 存在不同的表现方式 如有的结果帮助企业深入了解自己 有的结果只能使用一次 有的需要保存 放进数据仓库D 评价结果的实施评测结果将给数据挖掘互动循环系统提出新的问题和新的数据 同时 指出数据挖掘的努力方向 32 数据挖掘过程 B 将数据转换成可执行的结果 33 DataMining AKDDProcess Datamining coreofknowledgediscoveryprocess DataCleaning DataIntegration Databases DataWarehouse Knowledge Task relevantData Selection DataMining PatternEvaluation A5 34 预处理 对数据列的基本处理 对于数据挖掘十分重要的一些特例的分布情况 只有一种值的列缺乏任何信息内容 忽略 例如 1 null no 02 如建立一个模型预测新泽西州的汽车客户损失率 关于州名将都是 NJ 忽略这个字段几乎只含一种值的列一般规则 如果某一列中95 99 的值相同 这一列很可能没用列的值各不相同 无法进行预测如 客户身份证号码忽略与目标同义的列某一列与目标列相关度很高时 可能意味着这一列是目标列的同义列 如 判断是否流失 非空的流失日期与已经流失同义 35 数据预处理的主要任务 Datacleaning数据清洗Fillinmissingvalues smoothnoisydata identifyorremoveoutliers andresolveinconsistencies填充空缺值 平滑噪声数据 识别或移走孤立点 解决不一致Dataintegration数据集成Integrationofmultipledatabases datacubes orfiles集成到多个数据库 数据立方体或文件Datatransformation数据变换Normalizationandaggregation规范化和聚集Datareduction数据规约Obtainsreducedrepresentationinvolumebutproducesthesameorsimilaranalyticalresults获得数据集的压缩表示 产生同样的或几乎同样的分析结果Datadiscretization数据离散化Partofdatareductionbutwithparticularimportance especiallyfornumericaldata 减少数据 特别是数值数据 如 概念分层 36 挖掘方法 概念描述 重点学习方法 1 面向属性的归纳 泛化方法 37 概念描述 一般概念描述分类概念描述 特征化 面向属性归纳方法 比较类特征化 解析特征化 用到面向属性归纳和属性相关分析方法 类比较 解析比较 特征化 类特征化 解析特征化 t 权的量化特征规则 比较 类比较 解析比较 d 权的量化区分规则 量化描述规则 38 Attribute OrientedInduction 通过概化实现一般性概念描述 Howitisdone 基本思想 使用关系数据库查询收集任务相关的数据 initialrelation 考察任务相关的数据中每个属性的不同值的个数 进行泛化 通过属性删除或属性泛化进行 通过合并相等的广义元组 并累计它们对应的计数值进行聚集 压缩泛化后的数据集合 结果的广义关系可以映射到不同形式 如图表 规则 39 关联规则挖掘 重点 在事务数据库中挖掘单维布尔关联规则miningofsingle dimensionalBooleanassociationrulesintransactionaldatabases 40 1 找出所有频繁项集使用候选项集找频繁项集 由Apriori算法实现 2 由频繁项集产生强关联规则 41 单维布尔关联规则挖掘 Associationrulemining 过程 1 1 使用候选项集找出所有频繁项集 由Apriori算法实现Apriori算法基本思想 使用逐层搜索的迭代方法 k 项集用于搜索 k 1 项集 过程 D C1 L1 C2 L2 C3 L3 Ck Lk Cm 1 Lm 1如此下去 直到不能找到频繁m 项集 其中 Ck 候选k 项集的集合 k 1 m 1 由Lk 1产生 Lk 频繁k 项集的集合 k 1 m 1 Lk满足最小支持度 即最小事务支持计数 D 待挖掘的事务数据库 找每个Lk需要扫描整个数据库D 关键 Lk 1 Ck 连接步 剪枝步 A152 42 Apriori ACandidateGeneration and testApproach Apriori性质 Anysubsetofafrequentitemsetmustbefrequent任何频繁项集的非空子集都是频繁的 if beer diaper nuts isfrequent sois beer diaper Everytransactionhaving beer diaper nuts alsocontains beer diaper 即 子集不是频繁的 其超集也不是频繁的 如果 A 不是频繁集 则超集 A B 不是频繁集超集 A B 包含AHowtoapplyintheApriorialgorithm A152 43 单维布尔关联规则挖掘 Associationrulemining 过程 2 2 由频繁项集产生关联规则规则X Y在事务集中的置信度 confidence 是指包含X和Y的事务数与包含X的事务数之比 即项集的支持度计数表示 记为confidence X Y 即confidence X Y T X Y T T D T X T T D n X Y n X 根据该式 关联规则可以如下产生 对于每个频繁项集L 产生L的所有非空子集 对于L的每个非空子集s 如果则输出规则 s L s 其中 min conf是最小置信度阈值 A156 44 TheAprioriAlgorithm AnExample DatabaseTDB 1stscan C1 L1 L2 C2 C2 2ndscan C3 L3 3rdscan A153 剪枝 剪枝 联接 联接 用性质 45 由频繁项集产生关联规则 实例 例如 L3 频繁3 项集的集合 包含项集L B C E 可以由L产生那些关联规则 L的非空子集s有 B C B E C E B C E 输出关联规则结果 s L s 如下 如果最小置信度阈值为70 则只有1 3规则可以输出 因为1 3为产生的强规则 L3 DatabaseTDB 46 Classificationvs Prediction 数据挖掘界广泛接受的观点 分类 用预测法预测类标号 对离散数据的分类 预测 用预测法预测连续值 对数值数据的分类 如 回归方法 A186B46 47 Classification ATwo StepProcess 1 构造模型Modelconstruction 描述一个预定的数据集或类集 describingasetofpredeterminedclasses2 使用模型Modelusage forclassifyingfutureorunknownobjects A185 48 ClassificationProcess 2 UsetheModelinPrediction Classifier TestingData UnseenData Jeff Professor 4 Tenured A185 49 ID3算法 Quinlan sID3是国际上最有影响和最为典型的决策树学习方法 获取信息时 将不肯定的内容转为肯定的内容 因此信息伴随着不肯定性 一般来讲 小概率事件比大概率事件信息量大 如果某事 闻所未闻 或 百年不遇 则肯定比 习以为常 的事更具有信息量 如何度量信息量 根据Shannon于1948年提出的信息论理论 选择信息量较多的属性 B42 50 Classificationbydecisiontreeinduction 基本思想 利用信息论中的信息增益理论寻找数据集中具有最大信息量的字段 建立决策树的一个节点 再根据字段的不同取值建立树的分支 在每个分支子集中重复建树的下层节点和分支的过程 即可建立决策树 B38 51 RoughSetApproach 粗糙集用于近似地或粗糙地定义等价类给定类C的粗糙集的两种情况 下近似 肯定包含在类C中上近似 不能说不属于类C A210 每个矩形代表一个等价类 52 RoughSetApproach 对于从数据库中发现分类规则 其基本思想 将数据库中的属性分为条件和结论属性 对数据库中的元组根据各个属性的不同属性值分成相应的子集 然后基于条件属性划分的子集与结论属性划分的子集间的上下近似关系生成关联规则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 强化训练公务员考试《常识》同步测评练习题(含答案详解)
- 教师招聘之《中学教师招聘》提分评估复习含完整答案详解(易错题)
- 2025项目管理委托合同范文
- 2025汽车交易合同(一次性付款方式)
- 咖啡连锁品牌2025年市场布局策略与扩张战略实施效果研究报告
- 2025年中国工程反光安全服行业市场全景分析及前景机遇研判报告
- 2025混凝土浇筑劳务承包合同
- 离婚协议书中车辆处理方案及权益分配细则
- 完善子女权益保障的离婚协议书范本
- 2025年新能源电动汽车智能化车载操作系统技术创新产品调整报告
- GB 10343-2008食用酒精
- 新员工入职安全培训ppt
- 房产证模板表格
- 小粒咖啡栽培技术措施课件
- 曲顶柱体的体积市公开课金奖市赛课一等奖课件
- 2022年东台市城市建设投资发展集团有限公司招聘笔试题库及答案解析
- 民法典侵权责任编课件
- 计量基础知识讲稿课件
- 2022年初中化学新课标测试
- 《教育研究方法》研究生PPT课件
- 四年级上册英语阅读理解练习20751
评论
0/150
提交评论