版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 大数据分析、挖掘与应用数据挖掘与智能信息系统实验室 一、大数数据分析析与挖掘掘大数据的的基本概概念比较有代代表性:1)3V定义,即即认为大大数据需需满足3个特点:规模性性(Volume)、多样性性(Variety)和高速性性(Velocity)。2)4V定义,即即尝试在在3V的基础上上增加一一个新的的特性。关于第第四个V的说法并并不统一一,IDC认为大数数据还应应当具有有价值性性(Value),大数据据的价值值往往呈呈现出稀稀疏性的的特点。而IBM认为大数数据必然然具有真真实性(Veracity)。3)维基百科科对大数数据的定定义则简简单明了了:大数数据是指指利用常常用软件件工具捕捕获、管管
2、理和处处理数据据所耗时时间超过过可容忍忍时间的的数据集集。二、大数数据处理理架构大数据处处理模式式1)流处理理(Stream Processing),即直接接处理流处理的的基本理理念是数数据的价价值会随随着时间间的流逝逝而不断断减少。因此,尽可能能快地对对最新的的数据做做出分析析并给出出结果是是所有流流数据处处理模式式的共同同目标。2)批处理理(BatchProcessing),即先存存储后处处理Google公司在2004年提出的的MapReduce编程模型型是最具具代表性性的批处处理模式式。MAPREDUCE执行流程程图MapReduce模模型首先先将用户户的原始始数据源源进行分分块,然然后
3、分别别交给不不同的Map任任务区处处理。Map任任务从输输入中解解析出Key/Value对对集合,然后对对这些集集合执行行用户自自行定义义的Map函数数得到中中间结果果,并将将该结果果写入本本地硬盘盘。Reduce任务务从硬盘盘上读取取数据之之后,会会根据key值值进行行排序,将具有有相同key值值的组组织在一一起。最最后用户户自定义义的Reduce函数数会作用用于这些些排好序序的结果果并输出出最终结结果。MapReduce的的核心设设计思想想:1)将问问题分而而治之;2)把计计算推到到数据而而不是把把数据推推到计算算,有效效的避免免数据传传输过程程中产生生的大量量通讯开开销。MapReduc
4、e模模型简单单,且现现实中很很多问题题都可用用MapReduce模型来来表示。因此该该模型公公开后,立刻受受到极大大的关注注,并在在生物信信息学、文本挖挖掘等领领域得到到广泛的的应用。大数据处处理的基基本流程程1)数据抽取取与集成成2)数据分析析面临着一一些新的的挑战:数据量量大并不不一定意意味着数数据价值值的增加加,相反反这往往往意味着着数据噪噪音的增增多;大数据时时代的算算法需要要进行调调整,准准确率不不再是大大数据应应用的最最主要指指标;数据结果果好坏的的衡量。3)数据解解释(可视化技技术)三、天体体光谱大大数据分分析与挖挖掘我国已建建造一台台大天区区面积多多目标光光纤光谱谱望远镜镜(L
5、AMOST),是国国家重大大科学工工程项目目,也是是世界上上光谱获获取率最最高的望望远镜。预计LAMOST所观测到到的光谱谱数据容容量将有有可能达达到4TB;巡天所所覆盖的的波段为为3700埃至9000埃,即其其观测属属性可达达数千维维,是典典型的高高维数据据;数据据类型:图像和和FITS文件等。科学目标标:“星系红移移巡天”、“恒星和银银河系的的结构特特征”和“多波段认认证”。天体光谱谱大数据据分析处处理主要要内容:预处理(去噪、归归一化等等)、分类与识识别、测量(红红移等参参数)等。一条SEYFERT 2光谱数据据图(红移为0)天体光谱谱是天体体电磁辐辐射按照照波长的的有序排排列,蕴蕴含着
6、天天体的重重要物理理信息,例如:天体的的化学成成份、天天体的表表面温度度、直径径、质量量、光度度以及天天体的视视向运动动和自转转。天文学家家和天体体物理学学家通过过分析天天体光谱谱的信息息,不仅仅可以研研究宇宙宙中物质质的分布布特征,还可以以研究天天体的形形成和随随时间的的演化等等重大科科学问题题。由于天文文界对宇宇宙的认认识还比比较有限限,LAMOST巡天计划划的一个个重要任任务是要要发现一一些新的的、特殊殊类型的的天体,因此,如何利利用数据据挖掘技技术从海海量天体体光谱数数据中发发现未知知的、特特殊的天天体及天天体规律律是数据据挖掘值值得研究究和探索索的新应应用领域域。面向特定定任务的的数
7、据挖挖掘是当当前数据据挖掘领领域发展展的趋势势之一。以LAMOST项目为背背景,对对天体光光谱数据据挖掘技技术进行行了研究究,其研研究成果果不仅具具有重要要的理论论价值,而且可可直接应应用到LAMOST中,为国国家重大大科学工工程提供供技术支支撑。近年来主主持承担担的部分分课题1海量高维维天体光光谱数据据挖掘及及其并行行化研究究(61272263),国家家自然科科学基金金,2013.1-2016.12,(在研)2面向LAMOST天文光谱谱特征线线的数据据挖掘方方法研究究(61073145),国家家自然科科学基金金,2011.1-2013.12,(在研)3面向天文文光谱的的数据挖挖掘算法法性能分
8、分析与并并行化研研究(61111120317),国家家自然科科学基金金委国际际合作与与交流项项目,2011.6-2011.12,(结题)4基于加权权和约束束概念格格的数据据挖掘方方法与天天体光谱谱数据挖挖掘技术术(60773014),国家家自然科科学基金金,2008.1-2010.12,(结题)5基于数据据网格的的分布式式数据挖挖掘方法法研究(60911120478),国家家自然科科学基金金委国际际合作与与交流项项目,2009.9-2010.3,(结题)6基于背景景知识的的数据挖挖掘方法法及其在在LAMOST中的应用用(60573075),国家家自然科科学基金金,2006.1-2008.12,
9、(结题)7海量天体体光谱数数据挖掘掘算法研研究与实实现(2003AA133060),国家“863”高技术计计划子课课题,2003.8-2005.8(结题)主要成果果之一:基于于概念格格的天体体光谱离离群数据据挖掘系系统将概念格格中每个个概念节节点内涵涵描述为为天体光光谱数据据特征子子空间,提出了了一种天天体光谱谱离群数数据识别别方法。首先将将概念节节点的内内涵缩减减看作天天体光谱谱特征子子空间,并依据据稀疏度度系数阈阈值确定定稀疏子子空间;其次对对于稀疏疏子空间间,依据据稠密度度系数判判定祖先先概念节节点内涵涵是否为为稠密子子空间,进而判判断出概概念节点点外延中中包含的的数据对对象是否否为天体
10、体光谱离离群数据据;最后后以离散散化天体体光谱数数据作为为形式背背景,实实验验证证了利用用该方法法识别出出的天体体光谱离离群数据据是准确确的、完完备的和和有效的的。典型论文文1JifuZhang,SulanZhang, KaiH.Chang,and XiaoQin.AnOutlier MiningAlgorithmBasedonConstrainedConceptLattice,International JournalofSystemsScience(accept)2SulanZhang, PingGuo,Jifu Zhang,XinxinWang,and WitoldPedrycz.A C
11、ompletenessAnalysisofFrequentWeightedConcept Lattices andTheirAlgebraicProperties,Data &Knowledge Engineering,8182(2012):1041173JifuZhang,YiyongJiang, KaiH.Changetal.AConcept LatticeBasedOutlierMiningMethod in LowDimensionalSubspaces. PatternRecognitionLetters,2009,30 (15):1434-14394张继福;张素兰兰;蒋义义勇.基于
12、约束束概念格格的天体体光谱局局部离群群数据挖挖掘系统统,光谱谱学与光光谱分析析,2009,29(2):551-5555张继福等等.基于概念念格的天天体光谱谱离群数数据识别别方法,自动化化学报,2008,34(9):1060-10666JianghuiCai;Jifu Zhang;Zhao Xujun.A StarSpectrumOutlierMiningSystem Based on SimulatedAnnealing, InternationalJournalofInnovative Computing,Informationand Control,2008,4(9):2263-2271主
13、要成果果之二:天体体光谱数数据相关关性分析析系统以国家重重大科学学工程LAMOST项目为背背景,利利用一阶阶谓词逻逻辑作为为天体光光谱知识识表示技技术,提提出了一一种约束束FP树及其构构造算法法,从而而有效地地提高了了天体光光谱数据据相关性性分析的的针对性性和效率率,并在在此基础础上,提提出了一一种基于于约束FP树的天体体光谱数数据相关关性分析析方法。实验结结果分析析表明,利用该该相关性性分析方方法挖掘掘天体光光谱数据据特征和和物理化化学性质质之间存存在的相相关性,是可行行的和有有价值的的。典型论文文1JifuZhang,XujunZhao,SulanZhang, ShuYin, andXia
14、o Qin.InterrelationAnalysisofCelestialSpectraData using Constrained Frequent PatternTrees,Knowledge-BasedSystems41(2013): 77-88.2JianghuiCai,XujunZhao,ShiweiSun,Jifu Zhang,Haifeng Yang.Stellarspectra association rulemining methodbasedonweightedfrequentpattern tree. Research in AstronomyandAstrophysics,2013,13(3):334-3423张继福;赵旭俊俊.一种基于于约束FP树的天体体光谱数数据相关关性分析析方法,模式识识别与人人工智能能,2009,22(4):639-6464赵旭俊;张继福福.基于约束束FP树的天体体光谱数数据相关关性分析析系统研研究,光光谱学与与光谱分分析,2008,28(12):2996-29995张继福;赵旭俊俊.基于关联联规则的的恒星光光谱数据据相关性性分析,高技术术通讯,2006,16(6):575-579其他成果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学 安全考核制度
- 选修课教师考核制度
- 小区物业绿化考核制度
- 内部控制工作考核制度
- 殡仪馆绩效考核制度
- 物业项目内部考核制度
- 养老机构康复师岗位培训考试专项练习含答案
- 输血安全知识培训试题(+答案解析)
- 中学《中学生守则》与《中学生日常行为规范》测试题答案急急急急急
- 高频零售业场景面试题及答案
- 老年患者的尊严护理与人文关怀
- 传染病的流行病学特点及防控措施
- 仲裁法课件教学课件
- 2025年及未来5年市场数据中国观光旅游船市场供需现状及投资战略数据分析研究报告
- 博物馆讲解员面试题目集
- 2025乍得矿产勘探行业现状调研与资源资本配置规划
- 旅游景区客流预测模型构建分析方案
- 漂流安全管理制度
- 文物建筑勘查设计取费标准(2020年版)
- 福建省中小学幼儿园教师职务申报表
- 有机电子材料与器件
评论
0/150
提交评论