大数据分析、挖掘与应用21_第1页
大数据分析、挖掘与应用21_第2页
大数据分析、挖掘与应用21_第3页
大数据分析、挖掘与应用21_第4页
大数据分析、挖掘与应用21_第5页
已阅读5页,还剩16页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 太原科技大学计算机科学与技术学院太原科技大学计算机科学与技术学院 大数据分析、挖掘与应用大数据分析、挖掘与应用张继福、张素兰张继福、张素兰Email: 2013年年11月月数据挖掘与智能信息系统实验数据挖掘与智能信息系统实验室室 一、大数据分析与挖掘一、大数据分析与挖掘 n大数据的基本概念大数据的基本概念 比较有代表性:比较有代表性: 1) 3V 定义,即认为大数据需满足定义,即认为大数据需满足3 个特点:规模性个特点:规模性(Volume)、多样性、多样性(Variety)和高速性和高速性(Velocity)。 2) 4V 定义,即尝试在定义,即尝试在3V 的基础上增加一个新的特性。的基础

2、上增加一个新的特性。关于第四个关于第四个V 的说法并不统一,的说法并不统一,IDC 认为大数据还应当具认为大数据还应当具有价值性有价值性(Value),大数据的价值往往呈现出稀疏性的特,大数据的价值往往呈现出稀疏性的特点。而点。而IBM 认为大数据必然具有真实性认为大数据必然具有真实性(Veracity)。 3) 维基百科对大数据的定义则简单明了:大数据是指利用维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。时间的数据集。二、大数据处理架构二、大数据处理架构n大数据处理模式大数据处

3、理模式 1)流处理流处理(Stream Processing),即直接处理,即直接处理 流处理的基本理念是数据的价值会随着时间的流流处理的基本理念是数据的价值会随着时间的流逝而不断减少。因此,尽可能快地对最新的数据做出逝而不断减少。因此,尽可能快地对最新的数据做出分析并给出结果是所有流数据处理模式的共同目标。分析并给出结果是所有流数据处理模式的共同目标。 2)批处理批处理(Batch Processing),即先存储后处理,即先存储后处理 Google 公司在公司在2004 年提出的年提出的MapReduce编程编程模型是最具代表性的批处理模式。模型是最具代表性的批处理模式。 MapReduc

4、e执行流程图 MapReduce模型首先将用户的原始数据源进行分模型首先将用户的原始数据源进行分块,然后分别交给不同的块,然后分别交给不同的Map任务区处理。任务区处理。Map任务任务从输入中解析出从输入中解析出Key/Value对集合,然后对这些集合对集合,然后对这些集合执行用户自行定义的执行用户自行定义的Map函数得到中间结果,并将该函数得到中间结果,并将该结果写入本地硬盘。结果写入本地硬盘。Reduce任务从硬盘上读取数据任务从硬盘上读取数据之后,会根据之后,会根据key 值进行排序,将具有相同值进行排序,将具有相同key 值的值的组织在一起。最后用户自定义的组织在一起。最后用户自定义的

5、Reduce函数会作用函数会作用于这些排好序的结果并输出最终结果于这些排好序的结果并输出最终结果。 MapReduce的核心设计思想的核心设计思想: 1)将问题分而治之;将问题分而治之; 2)把计算推到数据而不是把数据推到计算,有效的把计算推到数据而不是把数据推到计算,有效的避免数据传输过程中产生的大量通讯开销。避免数据传输过程中产生的大量通讯开销。 MapReduce模型简单,且现实中很多问题都可模型简单,且现实中很多问题都可用用MapReduce模型来表示。因此该模型公开后,立模型来表示。因此该模型公开后,立刻受到极大的关注,并在生物信息学、文本挖掘等领刻受到极大的关注,并在生物信息学、文

6、本挖掘等领域得到广泛的应用域得到广泛的应用。n大数据处理的基本流程大数据处理的基本流程 1)数据抽取与集成数据抽取与集成 2)数据分析数据分析 面临着一些新的挑战:数据量大并不一定意味着面临着一些新的挑战:数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多数据价值的增加,相反这往往意味着数据噪音的增多;大数据时代的算法需要进行调整,准确率不再是大数大数据时代的算法需要进行调整,准确率不再是大数据应用的最主要指标据应用的最主要指标;数据结果好坏的衡量。数据结果好坏的衡量。 3)数据解释)数据解释(可视化技术可视化技术)三、天体光谱大数据分析与挖掘三、天体光谱大数据分析与挖掘 我

7、国已建造一台大天区面积多目标光纤光谱望远镜我国已建造一台大天区面积多目标光纤光谱望远镜(LAMOST),是国家重大科学工程项目,也是世界上光),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。预计谱获取率最高的望远镜。预计LAMOST所观测到的光谱数所观测到的光谱数据容量将有可能达到据容量将有可能达到4TB;巡天所覆盖的波段为;巡天所覆盖的波段为3700埃至埃至9000埃,即其观测属性可达数千维,是典型的高维数据;埃,即其观测属性可达数千维,是典型的高维数据;数据类型:图像和数据类型:图像和FITS文件等。文件等。 科学目标科学目标: “星系红移巡天星系红移巡天”、“恒星和银河系的结

8、恒星和银河系的结构构 特征特征”和和“多波段认证多波段认证” 。 天体光谱大数据分析处理主要内容天体光谱大数据分析处理主要内容:预处理预处理(去噪、归一去噪、归一化等化等)、分类与识别分类与识别、测量(红移等参数)测量(红移等参数)等。等。 一条一条Seyfert 2 光谱数据图光谱数据图(红移为红移为0) 天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转度以及天体的视向运动和自

9、转。天文学家和天体物理学家通过分析天体天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题形成和随时间的演化等重大科学问题。 由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数光谱数据中发现未知的、特殊

10、的天体及天体规律是数据挖掘值得研究和探索的新应用领域。据挖掘值得研究和探索的新应用领域。 面向特定任务的数据挖掘是当前数据挖掘领域发面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以展的趋势之一。以LAMOST项目为背景,对天体光谱项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到的理论价值,而且可直接应用到LAMOST中,为国家中,为国家重大科学工程提供技术支撑。重大科学工程提供技术支撑。近年来主持承担的部分课题近年来主持承担的部分课题1 海量高维天体光谱数据挖掘及其并行化研究(海量高维天体光

11、谱数据挖掘及其并行化研究(61272263),国家),国家自然科学基金,自然科学基金,2013.1-2016.12,(在研)(在研)2 面向面向LAMOST 天文光谱特征线的数据挖掘方法研究(天文光谱特征线的数据挖掘方法研究(61073145),),国家自然科学基金,国家自然科学基金,2011.1-2013.12,(在研)(在研)3 面向天文光谱的数据挖掘算法性能分析与并行化研究面向天文光谱的数据挖掘算法性能分析与并行化研究(61111120317),国家自然科学基金委国际合作与交流项目,),国家自然科学基金委国际合作与交流项目,2011.6-2011.12,(结题)(结题)4 基于加权和约束

12、概念格的数据挖掘方法与天体光谱数据挖掘技术基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术(60773014),国家自然科学基金,),国家自然科学基金,2008.1-2010.12,(结题)(结题)5 基于数据网格的分布式数据挖掘方法研究(基于数据网格的分布式数据挖掘方法研究(60911120478),国),国家自然科学基金委国际合作与交流项目,家自然科学基金委国际合作与交流项目,2009.9-2010.3,(结题)(结题)6 基于背景知识的数据挖掘方法及其在基于背景知识的数据挖掘方法及其在LAMOST中的应用中的应用(60573075),国家自然科学基金,),国家自然科学基金,200

13、6.1-2008.12,(结题)(结题)7 海量天体光谱数据挖掘算法研究与实现海量天体光谱数据挖掘算法研究与实现(2003AA133060) ,国家,国家“863”高技术计划子课题,高技术计划子课题,2003.8-2005.8(结题)(结题)主要成果之一:主要成果之一:基于概念格的天体光谱离群数据挖掘系统基于概念格的天体光谱离群数据挖掘系统 将概念格中每个概念节点内涵描述为天体光谱数将概念格中每个概念节点内涵描述为天体光谱数据特征子空间,提出了一种天体光谱离群数据识别方据特征子空间,提出了一种天体光谱离群数据识别方法。首先将概念节点的内涵缩减看作天体光谱特征子法。首先将概念节点的内涵缩减看作天

14、体光谱特征子空间,并依据稀疏度系数阈值确定稀疏子空间;其次空间,并依据稀疏度系数阈值确定稀疏子空间;其次对于稀疏子空间,依据稠密度系数判定祖先概念节点对于稀疏子空间,依据稠密度系数判定祖先概念节点内涵是否为稠密子空间,进而判断出概念节点外延中内涵是否为稠密子空间,进而判断出概念节点外延中包含的数据对象是否为天体光谱离群数据;最后以离包含的数据对象是否为天体光谱离群数据;最后以离散化天体光谱数据作为形式背景,实验验证了利用该散化天体光谱数据作为形式背景,实验验证了利用该方法识别出的天体光谱离群数据是准确的、完备的和方法识别出的天体光谱离群数据是准确的、完备的和有效的。有效的。典型论文典型论文1

15、Jifu Zhang, Sulan Zhang, Kai H. Chang, and Xiao Qin. An Outlier Mining Algorithm Based on Constrained Concept Lattice, International Journal of Systems Science(accept)2 Sulan Zhang, Ping Guo, Jifu Zhang, Xinxin Wang, and Witold Pedrycz. A Completeness Analysis of Frequent Weighted Concept Lattices a

16、nd Their Algebraic Properties,Data & Knowledge Engineering,8182 (2012) :104117 3 Jifu Zhang,Yiyong Jiang, Kai H. Chang et al. A Concept Lattice Based Outlier Mining Method in Low Dimensional Subspaces. Pattern Recognition Letters,2009,30 (15) : 1434-1439 4 张继福;张素兰;蒋义勇. 基于约束概念格的天体光谱局部离群数据挖掘系统,光谱学与光谱分

17、析,2009,29(2):551-555 5 张继福等. 基于概念格的天体光谱离群数据识别方法,自动化学报,2008,34(9):1060-1066 6 Jianghui Cai;Jifu Zhang;Zhao Xujun. A Star Spectrum Outlier Mining System Based on Simulated Annealing, International Journal of Innovative Computing, Information and Control,2008,4(9):2263-2271 主要成果之二:主要成果之二:天体光谱数据相关性分析系统天

18、体光谱数据相关性分析系统 以国家重大科学工程以国家重大科学工程LAMOST项目为背景,项目为背景,利用一阶谓词逻辑作为天体光谱知识表示技术,利用一阶谓词逻辑作为天体光谱知识表示技术,提出了一种约束提出了一种约束FP树及其构造算法,从而有效树及其构造算法,从而有效地提高了天体光谱数据相关性分析的针对性和地提高了天体光谱数据相关性分析的针对性和效率,并在此基础上,提出了一种基于约束效率,并在此基础上,提出了一种基于约束FP树的天体光谱数据相关性分析方法。实验结果树的天体光谱数据相关性分析方法。实验结果分析表明,利用该相关性分析方法挖掘天体光分析表明,利用该相关性分析方法挖掘天体光谱数据特征和物理化

19、学性质之间存在的相关性,谱数据特征和物理化学性质之间存在的相关性,是可行的和有价值的。是可行的和有价值的。典型论文典型论文1 Jifu Zhang, Xujun Zhao, Sulan Zhang, Shu Yin, and Xiao Qin. Interrelation Analysis of Celestial Spectra Data using Constrained Frequent Pattern Trees,Knowledge-Based Systems 41 (2013): 77-88. 2 Jianghui Cai, Xujun Zhao, Shiwei Sun, Jifu Zhang, Haifeng Yang.Stellar spectra association rule mining method based on weighted frequent pattern tree. Research in Astronomy and Astrophysics,2013,13(3):):334-342 3 张继福;赵旭俊张继福;赵旭俊. 一种基于约束一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论