




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-3-8史忠植 高级人工智能1高级人工智能高级人工智能第十三章第十三章 知识发现知识发现(二)(二) 史忠植史忠植 中国科学院计算技术所2022-3-8史忠植 高级人工智能2主要内容主要内容n研究背景nMSMiner体系结构n元数据n数据仓库平台n数据采掘集成工具2022-3-8史忠植 高级人工智能3典型的知识发现系统典型的知识发现系统 SAS公司的SAS Enterprise Miner IBM公司的Intelligent Miner Solution公司的Clementine 加拿大Simon Fraser Univ.的DBMiner 中科院计算技术研究所的MSMiner 等202
2、2-3-8史忠植 高级人工智能4 知识发现工具知识发现工具SASSAS SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。2022-3-8史忠植 高级人工智能5 知识发现工具知识发现工具SASSAS SAS Enterprise Miner提供抽样-探索-转换-建模-评估(SEMMA)的处理流程。数据挖掘算法有: 聚类分析,SOM/KOHONEN神经网络分类算法 关联模式/
3、序列模式分析 多元回归模型 决策树模型(C45, CHAID, CART) 神经网络模型(MLP, RBF) SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。2022-3-8史忠植 高级人工智能6 知识发现工具知识发现工具Intelligent MinerIntelligent Miner IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。2022-3-8史忠植 高
4、级人工智能7 知识发现工具知识发现工具Clementine Solution公司的Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。2022-3-8史忠植 高级人工智能8数据挖掘工具数据挖掘工具: : 公用系统公用系统nMLC+nMatlabnWeka20
5、22-3-8史忠植 高级人工智能9 知识发现工具知识发现工具MSMiner 中科院计算技术研究所智能信息处理开放实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。 MSMiner具有下列特点: .基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。 .数据的抽取、转换、装载等预处理方便,支持OLAP查询。 2022-3-8史忠植 高级人工智能10MSMinerMSMiner的特点的特点n提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预
6、测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能。n实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务。 n可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。 n容易进行二次开发。 2022-3-8史忠植 高级人工智能11数据仓库数据仓库: : 特征特征n面向主题n集成性n稳定性n随时间变化2022-3-8史忠植 高级人工智能12数据仓库数据仓库: : OLAPOLAPnROLAP: Relational OLAPnMOLAP: Multidimension
7、al OLAPnHOLAP: Hybrid OLAP2022-3-8史忠植 高级人工智能13数据挖掘和数据仓库的结合数据挖掘和数据仓库的结合n数据仓库为数据挖掘提供经良好处理的数据源n数据挖掘为数据仓库提供深层数据分析手段2022-3-8史忠植 高级人工智能14MSMiner体系结构体系结构设计目标:提供快捷有效的数据挖掘解决方案。设计要求:n开放性n可扩展性n效率n易用性2022-3-8史忠植 高级人工智能15MSMiner体系结构体系结构MSMiner体系结构示意图客户端服务器端元数据模块执行数据采掘任务编辑数据采掘任务数据采掘集成工具数据抽取和集成主题组织OLAP可视化数据仓库管理器数据
8、仓库OLE DB for ODBC2022-3-8史忠植 高级人工智能16元数据的内容元数据的内容关于外部数据源的关于内部数据的(包括数据库、表、字段的信息)关于数据仓库的(包括事实表、维表、立方以及其它的中间表)关于用户信息的数据采掘算法(包括算法的参数信息)关于采掘任务的(包括采掘步骤、每个步骤的所用的参数)2022-3-8史忠植 高级人工智能17元数据:元数据库元数据:元数据库2022-3-8史忠植 高级人工智能18元数据:元数据对象模型元数据:元数据对象模型设计思路n一致性n完备性n易维护性2022-3-8史忠植 高级人工智能19元数据是层次的嵌套的封装的互相联系的采用面向对象的方法共
9、有60多个类元数据的结构元数据的结构2022-3-8史忠植 高级人工智能20数据仓库平台:结构数据仓库平台:结构MSMiner数据仓库结构示意图外部数据数据仓库元 数 据数据抽取、清洗、聚集、转换主题2主题1主题nOLAP及可视化工具数据采掘集成工具.2022-3-8史忠植 高级人工智能21数据仓库平台:数据抽取和集成数据仓库平台:数据抽取和集成n数据的简单抽取和集成n数据的复杂处理n面向数据挖掘的数据预处理2022-3-8史忠植 高级人工智能22数据抽取和集成数据抽取和集成: : MSETLMSETL nMSETL系统作为MSMiner数据挖掘平台的一个重要组成部分,主要完成从业务数据源到分
10、析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库2022-3-8史忠植 高级人工智能23数据抽取和集成数据抽取和集成: MSETL 用户界面(ETL转换函数和ETL任务)逻辑处理元数据管理数据库服务器2022-3-8史忠植 高级人工智能24数据抽取和集成数据抽取和集成: : MSETLMSETLn支持多种数据源和目的数据库n良好的可扩充性n高效率的调度执行功能n增量更新功能2022-3-8史忠植 高级人工智能25数据抽取和集成数据抽取和集成: : MSETLMSETL2022-3-8史忠植 高级人工智能26数据
11、抽取和集成数据抽取和集成: : MSETLMSETL2022-3-8史忠植 高级人工智能27数据仓库平台:数据仓库建模数据仓库平台:数据仓库建模产品号产品名称产品目录产品维表订单号订货日期订货维表客户号客户名称客户地址客户维表产品号客户号订单号时间标识地区名称产品数量总价事实表时间标识月季度年时间维表地区名称省别地区维表星型模型2022-3-8史忠植 高级人工智能28OLAPMOLAP, ROLAP, HOLAPOLAP 的操作Slice (切片)Dice (切块)Roll up (上卷)Drill down (下钻)Pivot (旋转)OLAP方案采用了自主开发的 OLAP Server20
12、22-3-8史忠植 高级人工智能29数据立方体数据立方体2022-3-8史忠植 高级人工智能30数据仓库平台:数据仓库平台:OLAPOLAP的实现的实现2022-3-8史忠植 高级人工智能31数据挖掘集成工具:结构数据挖掘集成工具:结构数据挖掘集成工具结构示意图数据仓库平台任务编辑任务规划和执行算法库算法管理元数据任务模型库、算法描述2022-3-8史忠植 高级人工智能32数据挖掘集成工具:数据挖掘集成工具:数据挖掘任务模型数据挖掘任务模型Step1Step2Step4Step3Step5DMTask = (V, R)V = x | x StepObjectsR = | P(x, y) x,
13、yV2022-3-8史忠植 高级人工智能33数据挖掘集成工具:数据挖掘集成工具:数据挖掘任务模型数据挖掘任务模型步骤对象BNF语法定义: := ; := |; := , := |; := , := | := | := *2022-3-8史忠植 高级人工智能34数据挖掘集成工具:编辑任务模型数据挖掘集成工具:编辑任务模型n任务向导2022-3-8史忠植 高级人工智能35数据挖掘集成工具:数据挖掘集成工具:编辑任务模型编辑任务模型n任务编辑图板2022-3-8史忠植 高级人工智能36数据挖掘集成工具:数据挖掘集成工具:处理任务模型处理任务模型人机界面主控模块规划器解释器缓存函数库黑板任务模型库数据
14、采掘任务处理引擎的结构2022-3-8史忠植 高级人工智能37数据挖掘集成工具:数据挖掘集成工具:处理任务模型处理任务模型任务规划和解释执行S1S3S2S4S5S1 - S2 - S3 - S4 - S52022-3-8史忠植 高级人工智能38数据挖掘集成工具:数据挖掘集成工具:DMLDML语言语言DML函数n人机交互和控制台输入/输出n数值计算n字符串处理n图形、图表展示n文件操作n数据库访问n网络通讯n对象访问n消息处理和流程控制n黑板操作n外部功能调用n其它辅助功能2022-3-8史忠植 高级人工智能39数据挖掘集成工具:内嵌数据挖掘集成工具:内嵌n决策树nSOM神经网络n粗糙集n关联规
15、则2022-3-8史忠植 高级人工智能40决策树决策树2022-3-8史忠植 高级人工智能41知识约简知识约简知识约简在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识冗余知识资源的浪费;干扰人们作出正确而简洁的决策Rough Set把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak ) 知识约简是粗糙集的核心内容之一 2022-3-8史忠植 高级人工智能42Rough Set约简约简2022-3-8史忠植 高级人工智能43数据挖掘集成工具:外联数据挖掘集成工具:外联nBP神经网络n统计分析n模糊聚类n超曲面分类nSVM
16、n贝叶斯网络n基于范例推理(CBR)n隐马尔科夫模型(HMM)2022-3-8史忠植 高级人工智能44BP用于预测用于预测2022-3-8史忠植 高级人工智能45统计工具统计工具线性回归模型一元线性回归、多元线性回归、逐步回归 非线性回归模型二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型 确定型时间序列模型指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线 )、季节指数法随机型时间序列模型(自回归移动平均模型ARMA)相关分析 2022-3-8史忠植 高级人工智能46自回归移动平均自回归移动平均( ARMA)2022-3-8史忠植 高级人工智能47模糊聚类模糊聚类基于传递闭包的模糊聚类计算模糊相似矩阵的传递闭包,从而获得传递闭包法的模糊聚类基于摄动的模糊聚类参数系相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类2022-3-8史忠植 高级人工智能48数据挖掘集成工具:数据挖掘集成工具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年广告设计师创意广告评估试题及答案
- 盘点2024年纺织设计师考试新变化及试题及答案
- 广告设计师设计方案考题及答案
- 标准厂房混凝土预制构件的防火设计
- 电动综合手术台企业ESG实践与创新战略研究报告
- 智能激光对射报警器企业制定与实施新质生产力战略研究报告
- 智能模板与脚手架系统企业制定与实施新质生产力战略研究报告
- 微卫星技术支持的生态系统灾害预警系统-洞察阐释
- 基于大数据的音乐制作培训分析-洞察阐释
- 云边端融合安全架构-洞察阐释
- 2025年广告设计师(高级)职业资格认定参考试题库(含答案)
- 2025年军队文职-收发员兼通信员技术考点精练必做300题(含答案)
- 2025年高中语文高考作文押题预测十篇
- 学生心理健康一生一策档案表
- 外研版(三起)(2024)三年级下册英语Unit 5 单元测试卷(含答案)
- 国家义务教育质量监测八年级美术样卷
- 畜牧业人才培养的新机遇与发展路径
- 环境监测信息化建设-深度研究
- 植物蛋白资源利用-深度研究
- 知识产权法律风险防范与应对
- 教学课件-金融学概论(第2版-盖锐)
评论
0/150
提交评论