




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
科学数据挖掘应用系统的研究与初步设计,周园春2006年9月3日,目录,背景数据挖掘系统的发展现状科学数据挖掘应用系统,科学数据库,中国科学院作为中国自然科学的研究中心,在长期的科学研究实践中,通过观测、考察、试验、计算等多种途径产生和积累了大量具有重要科学价值和实用意义的科学数据和资料科学数据的用途科研人员研究的成果和积累支持他们做更为复杂的创新研究不可替代的资源科学数据库始建于1983年,45个研究所,几百个专业数据库,几十几百TB的数据量数据库的内容覆盖了化学、生物、天文、材料、高能物理、光学机械、自然资源、生态、遥感、大气等数据,科学数据库系统平台,各领域的专业人员可能还开发了各种不同的专业数据库数学模型和专家系统,形成了不同专业的专业咨询系统、科研过程和生产过程模拟系统缺点:独立的、分散的学科的交叉融合、新型交叉学科的出现和跨学科领域的大型科学问题的研究:共享和集成运用先进信息技术来支撑科学数据库的发展和应用的软硬件综合平台其总体目标是:硬件上满足科学数据库的需求的存储、计算、通信和服务能力;软件上实现对科学数据库中大规模、分布式、异构的海量数据进行整合,实现科学数据资源的共享,存在的问题,只是对数据的共享和协同,还没有对数据进行深加工或者分析随着科学数据库中数据的不断积累,数据的加工处理,从数据中获取有用的知识,充分挖掘数据资源的价值,变得越来越重要数据量大而且复杂,完全人工去分析或者查看是不现实也是不可能的科学数据库中开发数据挖掘应用的问题首先,数据挖掘过程往往与数据挖掘模型、具体挖掘算法紧密关联,这就带来了技术上和应用推广上的困难其次,数据挖掘与具体应用结合,就会导致应用范围窄,灵活性差,增加数据挖掘应用开发的难度,能否建立一个科学数据挖掘应用系统?,目录,背景数据挖掘系统的发展现状科学数据挖掘应用系统,什么是数据挖掘?,数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程,数据挖掘的过程,数据挖掘到数据挖掘系统,研究重点的转移从发现方法到系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。理论和应用的结合数据挖掘是面向应用的多学科交叉领域,应用推动了数据挖掘技术和理论的研究。而数据挖掘系统是数据挖掘研究和应用的桥梁,对数据挖掘技术的推广起到很大的作用,数据挖掘系统,数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。,数据挖掘系统,如何将现有的算法集中在一个统一的框架下,并且与特定的领域相结合,构造出能被各种层次的用户所接受的数据挖掘应用系统,是数据挖掘系统研究需要迫切解决的问题之一分类:横向的数据挖掘工具纵向的数据挖掘工具,横向的数据挖掘工具,数据挖掘软件需要和以下三个方面紧密结合数据库和数据仓库多种类型的数据挖掘算法数据清洗、转换等预处理工作“工具集”的数据挖掘软件(1995年)对各个领域提供多种数据挖掘算法包括数据的转换和可视化并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具。典型的系统有IBM的IntelligentMiner、SASEnterpriseMiner、SPSSClmentine、SGI的MineSet、OracleDarwin等缺点只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,纵向的数据挖掘工具,1999年开始就出现纵向的数据挖掘解决方案,即基于工具集,针对特定的应用提供完整的数据挖掘方案典型应用KDI(主要用于零售业)、Options&Choice(主要用于保险业)、HNC(欺诈行为侦测)和UnicaModel(主要用于市场)特点很强的针对性,能够满足特定的应用需求用户能专注于具体的应用问题,对具体算法无须了解。缺点应用范围是纵向的,过于狭窄,灵活性不够。比如为某个银行定制的信用卡数据挖掘方案可能不适合其他银行。,数据挖掘系统,纵向的还是横向的数据挖据应用系统,都很少考虑到科学数据挖掘,大多都是应用于商业、金融等领域,目录,背景数据挖掘系统的发展现状科学数据挖掘应用系统,科学数据挖掘应用系统的目标,希望在“十五”的基础上形成的大规模的科学数据资源上,结合现有的元数据定义的规范,为各个建库单位提供统一的、良好可扩展性和灵活性的科学数据挖掘平台各建库单位根据自身数据的特征来定制领域模型,平台根据这些业务模型来实现对科学数据进行分析和挖掘,最后以可视化的形式把结果呈现给科研人员和科研管理人员,使得科研人员能够从数据的背后进行更加深入科研的活动,同时也为科研管理人员提供决策的资料来源,科学数据挖掘应用系统的目标,使科学家可以从桌面电脑上访问大量的数据和计算资源符合e-Science的首要的挑战从数据的“雪崩”中有效地抽取、集成、探测、分析和表达知识使得科学家能够利用数据的潜能引发的不同领域的需求数据资源集成到一起的计算基础设施软件工程师数据挖掘算法计算机科学家定义元数据标准和提出挖掘的目标各个领域的专家,科学数据挖掘系统的设计目标,从多种数据存贮资源中抽取数据,以及跨数据源的集成功能;管理和维护数据库和数据仓库,包括数据存储的优化及数据的增量维护;支持多种数据访问接口,包括ODBC、JDBC、OLEDB、WebService等;集成多种数据挖掘算法,通过灵活的科学数据挖掘网格服务的方式,提供处理各种数据挖掘任务的功能;并提供开放的接口,提供扩展用户自定义算法的功能。提供多种可视化方法显示各种数据和数据挖掘结果的功能。,科学数据挖掘系统的体系结构,各层主要功能,数据选择层数据选择层的功能是把预处理后的数据表示成多维模型的形式简单的查询,比如SQL语言的条件选择或分组操作;基于联机分析处理的数据立方体模型;无监督的数据分割技术,比如聚类数据挖掘层:从数据选择层获取数据,执行数据挖掘任务,产生数据挖掘模型。算法参数和算法执行数据和模式表示层多维数据的可视化、多维数据挖掘任务的可视化、模式可视化、模式比较和趋势分析可视化。,科学数据挖掘应用系统的系统框架,科学数据挖掘系统的具体流程,1)利用通用数据预处理工具对需要挖掘的数据进行预处理;2)基于系统领域模型,进行简单定制或进一步开发,完成领域模型的定制;3)执行数据挖掘,并将挖掘结果进行可视化显示;4)评价挖掘结果,如果有必要,可重复2)、3)步,重新定制领域模型参数,进行再次挖掘。,科学数据的预处理,科学数据的预处理就是按照科学数据的规律把各种形式的科学数据(关系数据库/XML/空间格式数据等)经过一定的处理转化成数据挖掘的标准化形式,科学数据的预处理,异常数据空缺数据冗余或者重复数据格式标准化数据归约/压缩,领域模型库,各建库单位都有一些各自典型的数学模型或者业务逻辑,把这些数学模型或者业务逻辑综合起来组成一个领域模型库,作为科研人员定制领域模型的来源,它是一个开放的库,随时可以补充新领域模型需要各个领域的专家参与,数据挖掘算法库,科学数据挖掘应用系统的核心主要包含一些具体的数据挖掘算法,如关联规则、序列模式发现、决策树、聚类、神经元网络、异常检测等,而且还可以增加开发人员针对不同应用改进的一些挖掘算法目的是供领域模型所调用,数据挖掘算法库,数据挖掘模块,该模块主要包括挖掘算法的选择和具体的数据挖掘过程挖掘算法的选择:现有很多数据挖掘系统都是需要用户自己选择挖掘算法,在该系统中,挖掘算法的选择是根据科研人员选择的领域模型和预处理后的数据来自动选择挖掘算法数据挖掘:利用选择好的算法对预处理后的科学数据进行分析和挖掘,并产生结果信息,科学数据挖掘信息的可视化,科学数据挖掘信息的可视化技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质以及规律性起到很强的作用目的是让用户能够交互浏览数据、挖掘过程等数据挖掘结果的可视化,将数据挖掘后得到的知识和结果用可视化的形式表示出来,比如二维的(圆、表格、树等)或者三维的(立方体等)数据挖掘过程的可视化,用可视化的形式描述挖掘过程,从中用户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以及怎样预处理,怎样挖掘等,科学数据挖掘系统的具体应用,它是科学数据挖掘系统应用的具体实施层,它根据挖掘后的信息和各个建库单位提供的相关背景知识,能够对下一步的科研活动和决策咨询提供一些参考性的建议。比如说根据对黄河流水的水土流失数据的挖掘,能够为这一地区的植树的密度提供一些数据上的参考等,科学数据挖掘系统的具体应用,“黄河流域水文泥沙数据库”和“黄土高原地区数据库”黄河流域水文泥沙数据库数据库介绍来源:黄河流域水文泥沙监测站数据的时间范围:50年代初80年代末数据的空间范围:黄河流域的主要水文观测站数据项目:逐日流量(133个站的资料)、逐日泥沙含量(128个站的资料)、逐日降雨量(177个站的资料)、逐日蒸发量(70个站的资料)、逐月河流悬移质颗粒级配(70个站的资料)。,科学数据挖掘系统的具体应用,黄土高原地区数据库介绍来源:国家气象局时间范围:1950年2000年数据的空间范围:黄土高原地区/黄河流域9个省市自治区以县气象站为单元的气候数据数据项目:气压、气温(平均、最高、最低)、相对湿度、风速、降水量、蒸发量、日照时数、0厘米地温和辐射(总、净、直)的日值资料以及分层地温的月值资料。,科学数据挖掘系统的具体应用,统计功能关于时间的统计计算某一时间,不同观测站观测值的算术平均值、最大值、最小值计算一个时间段内,不同观测站观测值的算术平均值、最大值、最小值关于地点的统计按照流域界限划分,既计算某流域界限之内各观测站观测值的算术平均值、最大值、最小值按照行政界限划分,既计算某行政界限之内各观测站观测值的算术平均值、最大值、最小值按照生态类型区界限划分,既计算某生态类型区界限之内各观测站观测值的算术平均值、最大值、最小值,科学数据挖掘系统的具体应用,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 船闸及升船机运管员流程标准化考核试卷及答案
- 十年竞业协议书
- 飞机钣金工客户需求挖掘能力考核试卷及答案
- 2025建筑材料采购合同模板
- 2026届浙江省乐清市数学九上期末教学质量检测模拟试题含解析
- 2026届江苏省扬州市部分区、县数学九上期末质量检测模拟试题含解析
- 2026届江西省赣州市赣县数学七年级第一学期期末预测试题含解析
- 2025质量检测工程技术人员劳动合同
- 2025销售经理用工合同
- 专职消防员理论知识培训课件
- 2025年安徽萧县县直事业单位招聘115人笔试备考题库附答案详解
- 风险分级管控和隐患排查治理体系培训考试试题(附答案)
- 新质生产力区域经济发展
- 质量信得过班组知识培训课件
- 2026年高考数学一轮复习三维设计创新-微拓展 圆锥曲线中的二级结论
- 医学研究生中期研究进展汇报
- 江苏省低空空域协同管理办法(试行)
- 以镜为笔:体育新闻摄影对新闻内涵的深度开掘与多元表现
- (二模)2025年5月济南市高三高考针对性训练英语试卷(含答案解析)
- 中国当代知名作家鲁迅生平介绍课件
- 《资治通鉴》与为将之道知到课后答案智慧树章节测试答案2025年春武警指挥学院
评论
0/150
提交评论