大数据分析、挖掘与应用课件_第1页
大数据分析、挖掘与应用课件_第2页
大数据分析、挖掘与应用课件_第3页
大数据分析、挖掘与应用课件_第4页
大数据分析、挖掘与应用课件_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原科技大学计算机科学与技术学院

大数据分析、挖掘与应用张继福、张素兰Email:jifuzh@zjf@

2013年11月数据挖掘与智能信息系统实验室

一、大数据分析与挖掘

大数据的基本概念比较有代表性:1)3V定义,即认为大数据需满足3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。2)4V定义,即尝试在3V的基础上增加一个新的特性。关于第四个V的说法并不统一,IDC认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(Veracity)。3)维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。二、大数据处理架构大数据处理模式

1)流处理(StreamProcessing),即直接处理

流处理的基本理念是数据的价值会随着时间的流逝而不断减少。因此,尽可能快地对最新的数据做出分析并给出结果是所有流数据处理模式的共同目标。2)批处理(BatchProcessing),即先存储后处理Google公司在2004年提出的MapReduce编程模型是最具代表性的批处理模式。

MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出Key/Value对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后,会根据key值进行排序,将具有相同key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。

MapReduce的核心设计思想:1)将问题分而治之;2)把计算推到数据而不是把数据推到计算,有效的避免数据传输过程中产生的大量通讯开销。MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后,立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛的应用。大数据处理的基本流程1)数据抽取与集成2)数据分析面临着一些新的挑战:数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多;大数据时代的算法需要进行调整,准确率不再是大数据应用的最主要指标;数据结果好坏的衡量。3)数据解释(可视化技术)一条Seyfert2光谱数据图(红移为0)

天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题。近年来主持承担的部分课题[1]海量高维天体光谱数据挖掘及其并行化研究(61272263),国家自然科学基金,2013.1-2016.12,(在研)[2]面向LAMOST天文光谱特征线的数据挖掘方法研究(61073145),国家自然科学基金,2011.1-2013.12,(在研)[3]面向天文光谱的数据挖掘算法性能分析与并行化研究(61111120317),国家自然科学基金委国际合作与交流项目,2011.6-2011.12,(结题)[4]基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术(60773014),国家自然科学基金,2008.1-2010.12,(结题)[5]基于数据网格的分布式数据挖掘方法研究(60911120478),国家自然科学基金委国际合作与交流项目,2009.9-2010.3,(结题)[6]基于背景知识的数据挖掘方法及其在LAMOST中的应用(60573075),国家自然科学基金,2006.1-2008.12,(结题)[7]海量天体光谱数据挖掘算法研究与实现(2003AA133060),国家“863”高技术计划子课题,2003.8-2005.8(结题)典型论文[1]JifuZhang,SulanZhang,KaiH.Chang,andXiaoQin.AnOutlierMiningAlgorithmBasedonConstrainedConceptLattice,InternationalJournalofSystemsScience(accept)[2]SulanZhang,PingGuo,JifuZhang,XinxinWang,andWitoldPedrycz.ACompletenessAnalysisofFrequentWeightedConceptLatticesandTheirAlgebraicProperties,Data&KnowledgeEngineering,81–82(2012):104–117[3]JifuZhang,YiyongJiang,KaiH.Changetal.AConceptLatticeBasedOutlierMiningMethodinLowDimensionalSubspaces.PatternRecognitionLetters,2009,30(15):1434-1439[4]张继福;张素兰;蒋义勇.基于约束概念格的天体光谱局部离群数据挖掘系统,光谱学与光谱分析,2009,29(2):551-555[5]张继福等.基于概念格的天体光谱离群数据识别方法,自动化学报,2008,34(9):1060-1066[6]JianghuiCai;JifuZhang;ZhaoXujun.AStarSpectrumOutlierMiningSystemBasedonSimulatedAnnealing,InternationalJournalofInnovativeComputing,InformationandControl,2008,4(9):2263-2271主要成果之二:

天体光谱数据相关性分析系统以国家重大科学工程LAMOST项目为背景,利用一阶谓词逻辑作为天体光谱知识表示技术,提出了一种约束FP树及其构造算法,从而有效地提高了天体光谱数据相关性分析的针对性和效率,并在此基础上,提出了一种基于约束FP树的天体光谱数据相关性分析方法。实验结果分析表明,利用该相关性分析方法挖掘天体光谱数据特征和物理化学性质之间存在的相关性,是可行的和有价值的。典型论文[1]JifuZhang,XujunZhao,SulanZhang,ShuYin,andXiaoQin.InterrelationAnalysisofCelestialSpectraDatausingConstrainedFrequentPatternTrees,Knowledge-BasedSystems41(2013):77-88.[2]JianghuiCai,XujunZhao,ShiweiSun,JifuZhang,HaifengYang.Stellarspectraassociationruleminingmethodbasedonweightedfrequentpatterntree.ResearchinAstronomyandAstrophysics,2013,13(3):334-342[3]张继福;赵旭俊.一种基于约束FP树的天体光谱数据相关性分析方法,模式识别与人工智能,2009,22(4):639-646[4]赵旭俊;张继福.基于约束FP树的天体光谱数据相关性分析系统研究,光谱学与光谱分析,2008,28(12):2996

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论