




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于神经网络的模板匹配方法求正常星系红移*) 本课题受国家863项目计划(2003AA133060)和国家自然科学基金(60202013)资助 许馨1¨许馨,1974年生。中科院自动化所国家模式识别实验室博士生。TEL Email:xxu 罗阿理2 吴福朝1 赵永恒2 1中科院自动化所国家模式识别实验室机器人视觉组 100080 北京2728信箱2中国科学院国家天文台 100012 北京摘 要 星系通常分为正常星系(NG)与活动星系(AG)两类,本文提出了一种自动获取NG红移的快速有效方法: (1) 由NG模板根据红移范围:0.0-0.3与:0.3-0.5
2、模拟得到两类星系样本,进行PCA变换获得样本特征向量; (2) 利用概率神经网络设计两类样本特征向量的Bayes分类器; (3) 对于实际NG光谱数据,利用Bayes分类器进行分类确定其红移的范围,然后在这个范围内进行模板匹配得到红移的准确值。与在整个红移范围内的模板匹配方法相比,此方法不但节省了50%的模板匹配运算量,而且还大大提高了红移值测量的精度。本文研究结果对于大型光谱巡天所产生的海量数据的自动处理具有重要意义。关 键 词 正常星系 主分量分析 概率神经网络 红移分类 模板匹配中图分类号TP291 引言星系是宇宙天体中非常重要并且数量众多的一种,它对于研究宇宙的大尺度结构起着核心作用。
3、因此在许多大型的光谱巡天项目中,例如UK-Australian基于Anglo-Australian Telescope的南天Two Degrees Field(2dF) Galaxy Redshift Survey,和美国在北银极附近一万平方度的Sloan Digital Sky Survey (SDSS) ,都是对星系进行的巡天观测。我国的大天区面积多目标光纤光谱天文望远镜(LAMOST)项目计划建设一架卧式中星仪式反射施密特天文望远镜1,同时可以得到4000个天体目标的光谱,巡天完成后将提供107的星系的数据和105的类星体的数据,以更高的精度来研究宇宙的拓扑结构和宇宙的大尺度结构。对于在
4、每个观测夜获得的近万条光谱数据,我们需要从中得到每条光谱的红移、温度及其它物理参量,其中以红移参量为最基本的参数。天文上红移自动测量的传统方法是用观测得到的光谱和已有的光谱模板进行交叉相关2。后来,Glazerbrook利用PCA方法对模板进行了修改,用正交模板的线性组合的方式代替单个模板,交叉相关求红移。这种方法被称为PCAZ方法3。此方法的计算量很大。国内的文献4利用伪三角法求红移,该方法利用最强的三根谱线的波长信息构造“三角形”,通过将最大角的“余弦”与已知模板的“余弦”表相匹配,反推得到相应的标准谱线波长,并进而得到红移值,但是这种方法只对发射线光谱有效。文献21利用光谱4000埃跳变
5、点进行谱线证认,通过已证认的谱线计算出红移。对于大量低信噪比的吸收线的正常星系,还没有有效的自动方法测量红移。针对在将来的LAMOST星系巡天中存在大量的吸收线星系,我们提出了基于PCA和神经网络结合的方法来解决正常星系的红移测量问题。我们将光谱按照红移范围分为两类:I. 00.3,II. 0.30.5。用自动方法可以将观测光谱快速分成2类,然后针对每一类的红移范围,进行模板匹配,求其红移值。这种方法比在大红移范围内模板匹配精度更高,并节省大量时间。本文第二部分介绍使用的模板和数据集;第三部分介绍PCA算法;第四部分介绍本文使用的概率神经网络PNN;第五部分介绍模板匹配算法;第六部分是实验结果
6、;第七部分是分析和结论。2 模板和数据本文使用的模板来自Kinney5在其文章中构造的星系的模板,长度从1200埃10000埃,覆盖了从紫外到近红外的波长范围。选取其中的四个静止模板(E0,Sa,Sb,So)做为正常星系模板。如图1所示:EllipticalsSoSaSb图1. 四个静止模板 Fig 1. The four spectra of quiescent by Kinney由红移公式: ,得到: (1)其中,z为红移值,为静止波长,为观测波长。给定一定的红移范围,利用公式(1)对四个模板进行红移模拟,得到各个红移值下的模拟光谱。我们设定红移的范围为00.5,红移模拟的步长为0.01,
7、光谱共计2004条。另外,我们从SDSS的数据库中得到02660280的天区中的正常星系的观测数据共4782个作为测试数据集。3 主分量分析方法(PCA)主分量分析方法的基础是Karhunen-Loeve变换6,是模式识别中的非参数方法,用较少数量的特征对样本进行描述以达到降低特征空间的维数。该方法在天文信号处理上得到成功应用。例如,Storrie-Lombardi7和Bailer-Jones8分别在PCA的基础上使用神经网络方法对恒星进行分类;Connolly和Szalay9按照星系的形态用PCA进行星系的分类;Folkes10等用PCA将2dF红移巡天的光谱分成5个光谱类型,对应于哈勃分类
8、的E/So,Sa,Sb,Scd和Irr;Darren11等人将PCA用于DEEP2红移巡天。K-L变换表述如下6:令uj | j=1,2,n是Rn中的单位正交基,随机向量x在这组正交基下的展开式为: x= 。假设用展开式中的前d有限项来估计x,即: ,则截断均方误差为: 。令是随机向量x的相关矩阵(协方差矩阵),由于是半正定的,因此它的单位特征向量的全体uj构成一个单位正交基,并且用的前d个特征向量uj(j=1,2,d)来逼近x时,其截断均方误差为: , 其中是矩阵的相应的特征值。可以证明,当取矩阵的前d个最大特征值对应的特征向量来展开x时,其截断均方误差和在所有其他正交坐标系情况下用d个坐标
9、展开x时所引起的均方误差相比为最小。d个特征向量组成的正交坐标系称作x的d维K-L变换坐标系,x在K-L坐标系上的展开系数向量称作x的K-L变换,这种变换也称为PCA变换。将光谱看作一个随机向量x,由观测光谱数据估计相关矩阵,经过PCA变换后,就可以用较少量的特征对光谱数据进行描述,从而达到降低样本矩阵维数的目的。采用主分量分析构造特征光谱的具体步骤如下:(1) 每一条光谱记为x(xi1,xi2,.,xiN)(i1M,M条光谱),首先进行流量标准化处理,截取相等的波长范围,并把流量归一到相同的数量级上。经过标准化处理的光谱数据记为:xi。(2)由天体光谱数据矩阵估计相关矩阵; (3)将相关矩阵
10、对角化,得:,其中,Uu1,u2,. uN,diag是矩阵的特征值对角矩阵,其中, 。选取前k个最大的特征值对应的特征向量构造特征矩阵AN×K= (u1,u2,. uK),使得: ,式中取95。这说明样本集在前k个轴上的能量能占到整个能量的95以上。(4)特征光谱矩阵为: 。4 神经网络12用于分类神经网络模型是从人脑的神经元结构发展而来的,虽然在数学上还缺少完美的证明,但在一些科学研究和工程实际应用中,已显示出很大的威力。近十年来,神经网络也成功的应用在天文领域的信息处理中。Hippel13用BP网络来对恒星进行分类;Mahonen和Hakala14用自组织神经网络实现星表图像中的
11、点源和面源的区分;Rawson15用两层BP网络把AGN分为Seyfert I和II;Folkes16用神经网络将星系按照形态进行分类;Andrew17和Tagliaferri18分别用不同的神经网络对测光红移进行估计。19提出的概率神经网络(PNN)。PNN属于前馈神经网络,有2个隐层,主要用于分类。它用高斯核的PAZEN窗函数计算给定样本的分类后验概率,实现Bayes分类。其基本结构如图4所示20:X1XnO1OC输入单元输出单元求和单元模式单元图4. 概率神经网络的结构Fig 4. A typical Probabilistic Neural Network各模式单元有相同的输入,一般模
12、式单元的个数等于训练样本的个数,求和单元的个数等于类别数。每个模式单元先求输入的向量与权向量的距离,用高斯核函数实现非线性映射, k=1,2,c选择不同的方差可以得到不同的分类器。例如:时接近线性分类器;0时趋近近邻分类器。求和单元根据多元正态核函数的混合估计出类条件概率密度, k=1,2,c其中,为混合百分比,1,k=1,2,c 输出单元代表了属于某类的最大概率,从而实现Bayes基于最小风险估计的特点:,k=1,2,c,其中,是每类的先验概率,为错分时的损失函数。当基于最小风险决策时,选择的类别应使:。5 模板匹配模板匹配的基本原理是信号的相关原理。设x(n),y(n)是两个不确切?有限的
13、确定性信号,则定义它们的互相关函数23为:上式表示,rxy(m)在m时刻的值,等于y(n)左移m个采样周期后所得的信号与x(n)的内积。rxy(m)可用来描述信号x(n)和 y(n)之间的相似程度。利用上述原理,通过模板光谱和观测光谱的相似性度量可以求得红移值。设x(n)为模板光谱经连续谱归一化后的谱线数据,y(n)为观测光谱经连续谱归一化的谱线数据,rxy(m)为x(n)与y(n)的相关值。则rxy(m)最大值的位置为y(n)平移m后与x(n) 最相关的位置,如图2所示。由此,可确定观测光谱的红移值。n(b) 归一化后的观测光谱n(a) 归一化后的模板m(c) x(n),y(n)相关后的波形
14、(截取了有用波段)图2 模板匹配图示fig2 Example of template matching(a) Normalized template ; (b)Normalized test spectrum ; (c) Correlation of x(n) and y(n)6 实验结果我们在实验中,采用的训练样本如第2部分所述,共有2004条模拟光谱。波长范围为3800埃7420埃。红移值从00.3为第一类,红移值从0.30.5为第二类。对训练样本进行PCA变换,选取PCA的前3个主分量来描述样本特征,从而得到观测样本在主分量空间的投影。我们利用2004个训练数据根据第3节的步骤得到的前3
15、个最大主分量,如图3所示,它们的方差贡献率达到了95.86。 图3. 正常星系的最大的3个主分量(从上向下) Fig 3. The biggest three main components of normal galaxy测试样本是SDSS在02660280天区中的4782个正常星系的观测光谱,将它们投影到3维PCA空间,得到的投影如图4所示。图4. 观测样本在主分量空间的投影Fig 4. The projection of some normal galaxy samples on the main components space以特征光谱做为PNN的输入,输出为类别。在这里,我们使用的
16、是matlab6.1中神经网络工具箱来建立的PNN网络22。可调参数为方差。考虑到神经网络的泛化性能,我们取0.4时,训练样本数据集的正确识别率为88.97。用SDSS实际观测的这些正常星系数据做测试,测试结果如表1所示。 表1. 15个天区的正常星系的红移分类识别率Table 1. The redshift classification statistics of normal galaxy in fifteen sky squares 天区识别率天区识别率天区识别率026698.47027198.73027699.26026799.00027299.66027796.40026899.44
17、027397.61027898.65026999.02027498.71027998.75027099.12027598.78028098.56图5 在I和II段分别模板匹配的红移值与SDSS红移值比较Fig 5 SDSS redshift z versus Test redshift z using template matching on the segment I and II从图中可以看出,我们得到的测试数据的红移值基本与SDSS给出的红移值相吻合,大多数测试数据的红移值与SDSS给出的红移值的比值约为1。经过统计,4782个数据的平均误差为0.003125,4782个数据与SDSS给
18、出的红移值差值的RMS为0.0296;红移值误差大于0.003125的光谱有88个,占整个数据集的0.0184,也就是说我们的红移分类模板匹配方法得到的红移值有98.16%是较为准确的。同时,我们也检验了不进行分类而直接在整个红移范围的模板匹配方法。即在红移范围00.5进行模板匹配,得到的测试红移值和SDSS给出的红移值的如图6所示:图6 在00.5红移范围内模板匹配的红移值与SDSS红移值的比较Fig 6 SDSS redshift z versus Test redshift z using template matching within the range of redshift fr
19、om 0 to 0.5统计的4782个数据的红移误差的平均值为0.022816,是分段模板匹配误差的7.3倍;4782个数据与SDSS给出的红移值差值的RMS为0.0870;红移值大于0.022816的光谱有343条。由此可见,按照红移范围先分类,在分段进行模板匹配的方法在精度上要高于在整个红移范围上进行模板匹配的方法。7 分析与结论在本文中选定的红移范围取的是00.5,这是因为我们得到的实际观测的正常星系光谱数据红移值主要集中在00.5中,而大于这个范围的数据由于其信噪比较低,导致红移值的可信度也较低,所以没有采用。我们考虑用主分量分析方法的目的主要是用来降低维数,同时又可以保留光谱的主要信
20、息特征。每一条光谱的原始点数是2726个点,抽样后变为725个点,对于大量的样本来说,计算量仍是很大的。经过PCA变换后特征光谱数据空间是的3维,这明显提高了运行速度。所以,针对海量数据采用PCA降维方法来加快处理速度是可行的。我们工作的创新点在于使用模式识别的方法按照红移对光谱数据进行分类,而不是按照传统哈勃序列进行分类。这种方法从两个方面提高了海量数据的处理速度,一是利用PCA降维后处理数据,带来速度的提升;二是给出了红移的大致范围,减小了模板匹配的搜索波段,从而大大提高了处理速度。实验也验证了这种方法求得的红移值有较高精确度,相对于SDSS的误差的RMS只有0.0296。虽然我们的方法取
21、得了较高的精确度,但是仍然有一些数据有较大偏差。分析导致其误差的原因如下:1)在进行红移粗分类时,有极少部分数据被错分,导致模板匹配产生错误的结果;2)由于连续谱拟合不够准确,使谱线的提取出现较大偏差,导致模板匹配时出现错误的结果;3)由于我们的数据集是实测数据,有些光谱中某段会有数据缺失,也影响了试验结果。我们的下一步工作是继续研究提高模板匹配的精度。另外,怎样更加合理的选择红移范围进行分类和提高分类精度,包括怎样更好的对于观测光谱进行预处理,以及对于更大红移范围内的红移进行分类,也是我们要进一步研究的内容。参考文献1 Chinese Academy of Science(中国科学院),LA
22、MOST Project( LAMOST项目计划建议书). 1995.92 Tonry J., Davis M., A survey of galaxy redshifts. I - Data reduction techniques, AJ, 84, 1511 ,19793 Karl Glazebrook,Alison R.Offer, Kathryn Deeley, Automatic Redshift Determination by Use of Principal Component Analysis. I. Fundamentals, Astronomical Physics, 1
23、: 98-105,19984 Bo QIU et al (邱波等). A Pseudo-Triangle Technique for Redshift Identification of Celestial Spectrums (一种快速求红移和证认谱线的新方法-伪三角法).Spectroscopy and Spectral Analysis(光谱学与光谱分析), 22(4),695699, 20025 Kinney A.L.,Calzetti D.,Bohlin R.C.,McQuade K.,Storchi-Bergmann,T., Template Ultraviolet to Near
24、-Infrared Spectra of Star-Forming Galaxies and Their Application to K-Corrections, Astrophysical Journal,467,38-60,19966 Zhaoqi BIAN, Xuegong Zhang(边肇祺,张学工).Pattern Recognition( 模式识别). Tsinghua University Press(清华大学出版社).7 Storrie-Lombardi M. C., Irwin M. J., von Hippel T., S
25、torrie-Lombardi L. J., Spectral classification with principal component analysis and artificial neural networks, Vistas in Astronomy, 38(3), 331-340,199410 Simon Folkes,Shai Ronen,11 Darren S.Madgwick, Alison L.Coil,The Deep2 Galaxy Redshift Survey: Spectral Classification of Galaxies at Z
26、1, arXiv:astro-ph/0305587 v2 12 Sep 200312 Pingfan YAN, Changshui Zhang(阎平凡,张长水).Artificial Neural Networks and Evolutionary Computation(人工神经网络与模拟进化计算). Tsinghua University Press(清华大学出版社).200015 Daya M.Rawson, Jeremy Bailey, Paul J.Francis, Neural Networks and the Classification of Active Galactic N
27、ucleus Spectra, arXiv:astro-ph/9607148 v1 199617 Andrew E.Firth, Ofer Lahav, Rachel S.Somerville, Estimating Photometric Redshifts with Artificial Neural Networks, arXiv:astro-ph/0203250 v2 200218 R.Tagliaferri, G.Longo, S.Andreon, S.Capozziello, C.Donalek, G.Giordano, Neural Networks and Photometri
28、c Redshifts, Astronomy and Astrophysics19 Donald F.Specht, Probabilistic Neural Networks for Classification, Mapping, or Associative Memory, IEEE ICNN San Dieg CA, I525-532,1988.20 Michael R.Berthold, Jay Diamond, Constructive Training of Probabilistic Neural Networks, Neurocomputing,19,167-183,1998
29、21 Ali LUO(罗阿理).Pattern Recognition Technique on Auto processing LAMOST spectra(光谱自动处理的模式识别方法);Doctors degree dissertation博士学位论文.National Astronomical Observatories, Chinese Academy of Science(中国科学院国家天文台),200122 Dong XU, Zheng Wu( 许东,吴铮).System Analysis and Design Based on MATLAB6.x (基于MATLAB6.x的系统分
30、析与设计). Xidian University Press(西安电子科技大学出版社).23 Guangshu HU(胡广书). Digital Signal Processing(数字信号处理). Tsinghua University Press(清华大学出版社).Using neural networks based template matching method to obtain redshifts of normal galaxiesXin XU1 Ali Luo2 Fuchao WU1 Yongheng ZHAO21 National Laboratory of Pattern
31、 Recognition, Institute of Automation, Chinese Academy of Sciences, 100080 Beijing 2728 Mail Box2 National Astronomical Observatories, Chinese Academy of Science, 100012 Beijing ABSTRACT Galaxies can be divided into two classes: normal galaxy (NG) and active galaxy (AG). In order to determine NG redshifts, an automatic effective method is proposed in this paper, which consists of the following three main steps: (1): From the template of norm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生课件结尾
- 医生素质面试题及答案
- 2024年助理广告师考试详尽介绍试题及答案
- 2024广告设计师沟通能力考核试题及答案
- 诚信演讲面试题目及答案
- 材料质检面试题目及答案
- 澳航面试题目及答案
- 曼谷广告面试题及答案
- 检验员职业素养提升的建议试题及答案
- 2024年广告设计师行业规范试题及答案
- 2022年河北省高中学业水平合格性考试语文试卷真题(答案详解)
- 建设工程项目管理4建设工程项目质量控制
- 建设工程施工现场安全管理内业标准
- 《互联网金融基础》第四章互联网基金
- 不间断电源装置(UPS)试验及运行质量检查表
- 学术型硕士学位(毕业)论文评阅意见书
- 心脏超声切面示意
- 2022年1月浙江高考英语应用文与读后续写范文汇总(素材)
- DB37∕T 4281-2020 场(厂)内专用机动车辆使用安全风险分级管控和事故隐患排查治理体系建设实施指南
- 保洁服务详细方案(完整版)
- 孔明灯(Lantern)3.4使用指南课件
评论
0/150
提交评论