




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本文档下载自文库下载网,内容可能不完整,您可以点击以下网址继续阅读或下载HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTMLSDSSDR8中激变变星候选体的数据挖掘第卷,第期年月光谱学与光谱分析,曲,中激变变星候选体的数据挖掘姜斌,潘景昌,王为山东大学(威海)机电与信息工程学院,山东威海摘要提出一套适用于在海量光谱中快速发现激变变星的方法。针对发布的数据,尝试流型学习方法在海量光谱数据挖掘中的应用。首先使用非线性局部线性嵌入方法()对海量光谱数据进行降维,然后使用人工神经网络对低维数据进行分类,最后对较少数量的候选体进行人工证认。实验共发现了个新的激变变星候选体,并与传统的方法进行了比较,验证了正方法在天文数据挖掘中的可行性。关键词激变变星;数据挖掘;光谱中图分类号文献标识码叫儿()一一维处理中的应用。引言斯隆数字巡天(局部线性嵌入(,)是一项宏,)打破了以为主的传统线性降维方法的框架,是目前最有竞争力的非线性降维方法之一。其基本思想是将全局非线性转化为局部线性,用相互重叠的局部邻域提供全局结构的信息。对每个局部进行线性降维后,再按照某种规则将结果组合在一起,得到低维坐标表示。年发布了最新的数据引,本研究以的伟的巡天计划。它对四分之一的天区进行观测,对一亿个以上的天体测定位置和亮度,对一百万颗以上的星系和类星体测定距离,其巡天得到的数据量是空前的,大约为。的一虽然对每一条光谱都进行了初步处理,给出了分类结果,但其分类方法基于模板匹配,对于一些稀/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTMLPAR条光谱为实验数据,以激变变星为目标,少的特殊天体,因为模板数量少、信噪比差等原因,造成分类准确率低。以激变变星(在使用降维后,使用人工神经网络(伽,)为例,对潞光谱数据分类定些特殊天体进行研究。如何在海量数据中准确、快速发现特殊天体对模式识别,)对降维后的数据进行分类,最后对较少的结果人工检验,共发现了个激变变星候选体,其中个是新的候选体。相对于传统的方法,方法虽然计算量大,但准确度和处于同一量级,而且在低维空间对光谱特征的描述更准确。本文通过实验验证了方法的可行性,探讨了非线性降维方法在天文数据挖掘中的应用,为流型学习方法在天文数据处理中的应用进行了有益的尝试。义为的条光谱进行人工检验,发现其分类错误率高达,因此无法根据的分类结果直接挑选某技术提出了挑战。本工作分别尝试使用了主分量分析(,)支持向量机(,、,)和随机森林的方法对的也数据及预处理的海量光谱进行了针对激变变星的数据挖掘。实验结果表明,使用模式识别方法对海量光谱数据针对某类天体的光谱特点,进行数据挖掘是完全可行的。对于高维的光谱数据,为减少处理时间,在进行分类或者聚类处理前,需要对高维光谱进行降维处理。目前对高维的天文光谱数据进行降维主要使用传统的线性方法如等。实践发现海量光谱数据在投影到特征空间后往往呈现非线性的特点HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML,因此有必要探讨非线性方法在高维光谱降收稿日期一。修订日期基金项目国家自然科学基金项目()资助作者简介姜斌,年生,山东大学(威海)机电与信息工程学院讲师实验数据来自潞,共包含光谱数据进行预处理()去除所有信噪比的数据;()将所有的流量统一插值到个天区的条光谱。在进行降维和分类之前,通过以下几步对;()使用式()将流量归一化到一,万方数据第期光谱学与光谱分析五刊姜彳间。为了能直观看到降维后的效果,将上述条混合后的光谱投影到维空间,如图(图一图的坐标均为维其中五为谱线流量,为采样点数。度,没有单位)。图中星号为激变变星光谱,加号为随机选择的训练数据为已知的激变变星和随机选取光谱的的光谱(下同),可以看出在维空间里,激变变星光谱与随混合,其中激变变星光谱为从年开始,使用机光谱已经有较为清楚的分界面。为了和方法对比,将测光选源加卜方法发现的个激变变星,去掉信同样的数据使用降维后也投影到维特征空间,见图噪比低和分类可疑后余下的条光谱。将这些激变变星光。可以看到,相对于正方法,降维后的两类数据大谱与条随机选取的光谱进行混合,随机光谱选自部分混在一起,用简单的基于距离或密度的方法无法区分。,例如天区(HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML,在投影到维空间后,从图一(、投影图中可以看出,两类),包括各种类型的天体,如恒星、星系、类样本点在特征空间上开始体现出差别;而从图一投影图星体等。通过训练数据训练神经网络后对上述条可以看出,尽管维空间里的两类样本相对于二维空间里的光谱进行自动分类,找出其中的激变变星。之算法及实现方法能够使降维后的数据保持原有拓扑结构,其基本思想是假设每个数据点与其邻近点位于流形的一个线性或近似线性区域里,将全局非线性转换为局部线性,而相互重口口目一。叠的局部邻域能够提供全局结构的信息。整个问题最终被转化为两个二次规划问题,涉及参数较少。具体操作可以总结为以下四步()求出任意两点之间的距离(本实验使用欧式距离),得到距离矩阵;()找出离每个样本最近的个点,通常是一个预先昏蚰眦给定的经验值,试验中,将值设置为;()根据式(),计算()最小时,样本点的局部重建权值矩阵瞅()一眠础()其中为光谱数,为第条光谱,弼。表示离。最近的第条光谱,表示第条光谱与其最近的第条光谱的权值,可以根据式(HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML)和式()来计算一声)漉一对)矾等()、,()乞土式()中且五,对于每一条光谱,都有一个的对称矩阵。式()中,。表示光谱对应的的第昏一瑚行元素之和;。表示。对应的的所有元素之和。()根据公式(),计算,()最小时,对应的低维向量,()一一眠()售量在计算时,可以令量一(如)(洲)求的特征值并排序,其前个特征值所对应的特征向量除去特征值。所对应的向量,形成的矩阵转置后第行即为所对应的维向量。以的样本为例,将随机选择的条光谱加上条激变变星光谱混合后,经过降维映射到维空昏帆瑚万方数据光谱学与光谱分析体,见表。第卷样本更容易区分,但两类样本在二维空间里已经有了较为明显的区分,维数增加的边际效果没有体现出来。因此在低维空间上,的降维效果要优于。在处理海量光谱的时候,这种优势将极大减少计算量。幅咖出蚂/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML弘舢暑方法比较为与进行对比,研究中选取万条数据,同时使用和方法进行试验,对两种晷一方法的筛选率和时间对比,结果如图,其中筛选率定义为最终证认的数量方法判定为数量从图可以看出随着待处理的光谱数量增加,正方法实验部分在经过降维后,使用对降维后的数据进行分类,整个实验流程如下()选择条激变变星光谱和条随机光谱混合,构成训练集;使用方法降维后将其中的激变变星光谱标为一,将条随机标为一一,进行训练;()将待分类的在计算时间上超过,而且在实际使用时,特征转换矩阵可以一次计算,多次使用。而压则每次都要进行距离矩阵等的计算,在光谱数量增长较快的时候,计算效率上逊于;但在低维空间上的准确性略优于,因此可以间接弥补计算效率上的不足。条海量样本光谱与激变变星光谱混合构成光谱矩阵,使用方法映射到维空间。将激变变星光谱标定为,将定为一一;()利用()训练好的模型进行分类;()统计海量样本光谱中改变的光谱,这些光谱即为激变变星候选体;()对较少数量的候选体使用和激变变星总表进行证认。对于参数的设置如下()输入、HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML输出层神经元数目输入层神经元数目即经过降维后的数据,输出层节点数设置为,代表和非两类。()网络的层次对于网络,对于任何在闭区间内的一个连续函数都可以用单隐层的网络逼近,因而一个三层网络就可以完成任意的竹维到维的映射。实验中采用三层网络。()隐含层神经元数目隐含层的神经元数目设置没有固定方式,需要根据经验和多次实验来确定。隐单元数目太多会导致训练时间过长、误差较大、容错性差等。本实验中,根据经验将隐含层神经元个数设置为。经筛选后,共获得了个候选体,经过、总表证认后,最终有个样本被识别为新的候选条海量样本光谱标虮蚰蛐(的唔釉妇叫阳鹏点也【、。姗哺胁伽岬皿诵认恤唧删删)万方数据第期光谱学与光谱分析大,数量过多,涉及到的稀疏矩阵太大时,在处理时不结论如。而且方法在处理稀疏矩阵的失效问题至今没有一个完善的解决方案,HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML在实际计算时,如果出现矩阵因为工作侧重于研究非线性降低维方法在海量天文数据挖掘非奇异无法分解的时候可加上若干个单位矩阵然后乘以某个中的可行性,研究如何提高海量光谱数据处理效率。实验表常数,但这些都依赖于编程者的经验。如何减少的计算明方法能够解决非线性映射,在低维空间上,相对于量,提高算法的鲁棒性,使算法可实际嵌人到软件包等仍需方法具有更强的降维能力。但是,当光谱数据维数过要深入研究。越,叽,锄豫访,。,工。,【,【,/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTMLR,加,;,哼)HTTP/WWWWENKUXIAZAICOM/DOC/EFED20DF9B89680203D825A9HTML朗,“;(,;,)万方数据SDSSDR8中激变变星候选体的数据挖掘作者作者单位刊名英文刊名年,卷期姜斌,潘景昌,王为,JIANGBIN,PANJINGCHANG,WANGWEI山东大学威海机电与信息工程学院,山东威海,264209光谱学与光谱分析SPECTROSCOPYANDSPECTRALANALYSIS2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丹东市中石油2025秋招笔试模拟题含答案电气仪控技术岗
- 中国广电通化市2025秋招行业解决方案岗位专业追问清单及参考回答
- 大唐电力朔州市2025秋招自动化与测控专业面试追问及参考回答
- 国家能源绍兴市2025秋招面试专业追问及参考交通运输岗位
- 达州市中石油2025秋招笔试模拟题含答案油气储运与管道岗
- 白银市中石化2025秋招笔试性格测评专练题库及答案
- 延安市中储粮2025秋招面试专业追问题库战略研究博士岗
- 2025年喜报内容考试题及答案
- 中国联通防城港市2025秋招行业常识50题速记
- 国家能源甘南藏族自治州2025秋招笔试逻辑推理题专练及答案
- 严格人员进口管理制度
- 爱护花草教学课件
- 激素与子宫内膜容受性-洞察及研究
- NX-空间系统热简介
- CJ/T 325-2010公共浴池水质标准
- 音乐节舞台搭建及拆除施工方案
- 2025年江苏省农业融资担保有限责任公司招聘笔试参考题库附带答案详解
- 《慢性硬膜下血肿》课件
- PRP治疗注意事项
- 2025年泰和县工投建设集团有限公司及子公司招聘笔试参考题库含答案解析
- 企业事业部制信息化与数字化转型
评论
0/150
提交评论