版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天文中的数据挖掘技术DataMining&KnowledgeDiscovery形势发展的需要
各个领域在近二十年来取得突破性的研究进展
计算机技术,网络技术和传感技术的飞速发展
来自各个巡天计划和天文台的“数据雪崩”
科学家,工程师和领域专家的缺乏必要性技术是一个驱动因素更大,更便宜的存储器--磁盘密度以Moore’slaw增长“每次18个月增长一倍”--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术巨大的数据组特征:--以Tebyte甚至Pebyte计量--不均匀性--动力学性--高维性(加上时间维可达13维甚至更高维)区别四个概念数据:原始的,未解释的信号或者符号,如:1信息:有一定解释或意义的数据,如:S.O.S知识:综合信息形成的观点和普适性的理论智慧:能够综合知识和经验用以生存计划的人类思维的结晶数据挖掘的定义定义:半自动或自动地从海量数据中发现模式,相关性,变化,反常规律性,统计上的重要结构和事件.在天文上,就是从海量数据中发现稀有的天体或现象,或者发现以前未知种类的天体或新天文现象.特点:半自动或自动提取预测大数据库
数据挖掘不同于传统上的统计学前者:发现驱动(数据驱动)数据研究后者:假设驱动(人为驱动)研究数据数据挖掘依赖的基础
统计学机器学习数据库高效率的计算统计学Gauss,Fisher,和--最小二乘法,最大似然法--一些基本原理的发展数学时代--1950`s:Neyman等数学家独领风骚计算时代--自从1960`s平稳增长--1970`s:EDA,Bayesianestimation,flexiblemodels,EM,etc--逐渐意识到计算机在数据分析中的能力和作用
计算机科学模式识别和人工智能(AI)--集中于感官问题,如:语言识别,图像识别--1960`s:统计方法与非统计方法的分流--应用统计学与工程学的交叉如:统计图像分析机器学习和神经网络--1980`s非统计学习方法的失败--flexiblemodels的出现,如:树,网络--应用统计学与学习方法的交叉数据挖掘技术的出现直接演化的结果:--AI和机器学习*1989KDD工作组2000ACMSIGKDD工作组*集中于自动发现--数据库研究*大型数据组*SIGMMODassociationrules,scalablealgorithms--数据管理者*如何处理数据*面向客户*工业占主导的,面向应用必然性数据挖掘模型的分类描述性模型:描述数据中的模式,用以创建有意义的群或子群预测性模型:在从已知条件中确定的模式基础上,预测一些现象或数值数据挖掘的分类事件驱动性数据挖掘相关驱动性数据挖掘事件驱动性数据挖掘
已知事件/已知算法:用已有的物理模型去确定数据中存在的人们感兴趣的已知现象,无论空间上或时间上已知事件/未知算法:用模式识别或数据的聚类特性来发现在已知现象中存在新的观测相关性未知事件/已知算法:以天文现象的观测参数中存在着预期的相关性来预测数据中存在着以前未知的事件未知事件/未知算法:用临界值确定瞬时事件或独特事件,从而发现新现象相关驱动性数据挖掘空间相关:在天空中的同一位置证认天体时间相关:证认发生在相同时间或相关时间的事件或现象一致相关:用聚类方法证认存在于同一多维参数空间的现象天文数据挖掘的科学要求天体的交叉证认天体的交叉相关最近邻规则证认系统的数据探索天体的交叉证认原理:以源的位置为参量,将存在于不同数据库中的源联系起来,用以加深对证认源的新的天文理解例子:gamma-ray暴的对应体问题:多波段数据库的交叉证认会产生一对一,一对多,多对一,多对多,甚至多对无,对于除一对一的情况,有时需要用概率方法处理天体的交叉相关原理:用假定分析方法处理数据中的所有参数例子:在HDF巡天中,通过双色图中作为U波段的“dropouts”证认远距离星系
在DPOSS和SDSS巡天中,通过双色图中远离正常恒星区的特性发现高红移类星体最近邻规则证认原理:在多维空间中运用聚类算法证认天体或现象例子:在TW长蛇座中过通过天体具有相似的运动学特征,X射线发射,Hα和Li丰度,发现了人们最熟悉的年轻恒星族系统的数据探索原理:在数据库中广泛地应用事件驱动性和相关驱动性数据挖掘技术以偶然发现一种新天体或新类型天体例子:新类型变星的发现,如:在MACHO数据中发现的“bumpers”数据挖掘在天文中的具体应用
主分量分析方法人工神经网络
EM算法决策树&…主分量分析方法(一)应用举例:
利用光谱将K矮星从K巨星中区分出来恒星,星系和类星体的光谱分类星系的形态分类自动的红移确定通过将发射线分解为几个独立量来研究发射区的发射线的变化及其结构和动力学特征在观测基平面,即p维参数空间的一个子空间中,依据星系的形态,测光和动力学分类来研究低红移星系和高红移星系主分量分析方法(二)特点和优点:非监督性线性分析
PCA通过寻找变量最大投影轴,判断有多少独立变量,并将相关量组合成新量,这大大可以减少计算的复杂性,同时保证尽可能小地丢失信息,即降维可以用以分解变量为几个独立分量相比于反射映射或交叉相关方法,PCA对样品要求不高对数据预处理,去掉一些不重要或无关量人工神经网络(一)应用举例:
未分辩双星的光谱分类恒星光谱分类
APM星系的形态分类区分恒星和星系将恒星光谱物理参数化区别不同活动星系核的光谱人工神经网络(二)特点和优点:监督性训练性非线性难理解性受训练样本限制输入量一般要先用PCA预处理若采用傅里叶变换,不需知红移就可以对光谱分类但在信噪比低时,提高分类的效率,红移可以确定与传统方法相比,其具有的优点:不需预先对试验样本的统计分布做假设,对各类不需要直观判断,该方法可用于处理各种问题EM算法(一)应用举例:两种情形密度估计:星系在红移空间的聚类恒星在色空间的聚类
EM算法提供了星系在红移空间的平滑分布,准确地描述了数据库中数据的大小范围特征,同时,提供了一种证认多维色空间中的远离正常恒星的天体的方法,例如:高红移类星体的证认
EM算法(二)特点和优点:利用AIC&BIC变坏的概率评价符合程度优于最好的带核的密度估计方法对分布的估计,同时,对输入参数的要求并不严格优于标准的色选择技巧,在于其证认天体是建立在概率理论基础上概率密度分布要受到维数的限制,而EM算法的维数可具方便而定其描述了数据的正常分布,从而可以在高维空间中证认出远离者贝叶斯分析(一):应用举例:
分析有关大尺度结构和微波背景辐射的大尺度巡天
分析巡天的径向速度,如:MarkIIISFI&ENEAR巡天贝叶斯分析(二):特点和优点:基础:最大概率分析方法估计参数维纳滤波器重建基底场蒙特卡罗方法对基底场取样辅助方法:拟合良好性分析方法将重建速度场分解成局部量和外延量的方法约束N-body和氢动力学的模拟提供优化工具,可以分析有噪声的,不完备的,不均匀的高斯分布的随机场巡天,如:密度场和速度场混合模型混合模型/LatentVariablemodels--主要思想是基于数据的提取或分类--概率模型考虑系统方法*许多模型可以用图表格式表示*参数可由EM算法获得*模型结构可自动选择--在机器学习/神经网络学习中,对这些模型进行了许多特大的调整--隐含变量的学习发现结构天文中常遇问题及处理(一):分类问题(1):天体分类:恒星/星系分类,类星体等方法类型:监督分类和非监督分类常用方法:主分量分析(PCA)
最小距离方法(MDM)
高斯概率模型(GPM)神经网(NN)
决策树天文中常遇问题及处理(一):分类问题(2):图像分类:数字底片巡天中恒星/星系区别常用方法:聚类算法最近邻规则模糊集合理论自组织映射神经网络决策树流行软件包:DAOPhot,FOCAS,Sextractor天文中常遇问题及处理(二):数据压缩与分类:
光谱压缩与分类:大红移巡天的星系光谱大型光谱巡天常用方法:主分量分析(PCA)
独立分量分析(ICA)信息瓶颈(IB)FisherMatrix(FM)小波变换
KL变换
方法对比:PCA&FM线性分析
ICA&IB非线性分析异于FM,PCA&IB模型独立
IB监督的波长群在概念上接近FMICA在计算上比PCA复杂,数据压缩效率弱于PCA,但可以较好地分离混合变量,相反于PCA,ICA对位置,方向,带通选择的特征量敏感
天文中常用问题及处理(三):大尺度结构分析:例子:分析有关大尺度结构和微波背景辐射的大尺度巡天方法:贝叶斯分析(BayesianAnalysis)天文中常遇问题及处理(四):重建方法:例子:大尺度巡天中的速度场重建在all-skymaps中,从输入的
maps重建独立分量及其频率大小方法:维纳滤波器最大熵方法主分量分析方法
FastICA神经网络小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自觉落实防控责任制度
- 农业生产人员责任制度
- 养老机构赔偿责任制度
- 幼儿园法人主体责任制度
- 物业环境保洁责任制度
- 医院信息化管理责任制度
- 班组如何落实责任制度
- 越野基地安全责任制度
- 水土保持三重责任制度
- 法制宣传员岗位责任制度
- 2026江苏徐州丰县综合检验检测中心招聘编外工作人员10人笔试备考题库及答案解析
- 2026年微机电系统(MEMS)设计原理
- 2026年黑龙江艺术职业学院单招综合素质考试题库含答案解析
- 2026年春季开学收心大会校长讲话:马年春风送暖奋楫逐梦启新程
- 深圳爆破证考试题库及答案
- 宁夏德渊集团招聘笔试题库2026
- 安全启航逐梦新学期2026年寒假开学第一课
- 高速护栏施工培训课件
- 庐山课件教学
- 2026年江西工商职业技术学院单招综合素质考试题库及完整答案详解1套
- (新版)ISO37301-2021合规管理体系全套管理手册及程序文件(可编辑!)
评论
0/150
提交评论