基于BP神经网络(自编码)的恒星大气物理参数估计.pdf_第1页
基于BP神经网络(自编码)的恒星大气物理参数估计.pdf_第2页
基于BP神经网络(自编码)的恒星大气物理参数估计.pdf_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于B P 神经网络 白编码 的恒星大气物理参数估计韩帅 等 基于B P 神经网络 自编码 的恒星大气物理参数估计 韩帅 李悦 辽宁石油化工大学信息与控制工程学院辽宁抚顺 1 1 3 0 0 1 摘要 恒星大气物理参数估计 有效温度T e f f 表面重力加速度l o gg 化学丰度 F e H 是探索恒星本质的首要任务 斯 隆数字巡天 S D S S 和郭守敬望远镜 L A M 0 s T 等大规模巡天望远镜正以前所未有的速度获取海量的恒星光谱数据 这为星系 研究带来了新的机遇和挑战 传统的方法已不能适应如此庞大的数据量 直接从光谱中估计估计大气参数变得非常必要 提 出了一种新的从恒星光谱中自动估计大气参数的回归模型B P 神经网络 自编码 在2 0 0 0 0 条斯隆数字巡天 s D s s 实测光谱 上做了实验研究 实验结果用平均绝对误差来描述 三个恒星大气物理参数的精度分别为I o gT e f f 0 0 0 7 9 l o gg 0 2 4 0 8 F e H 0 1 7 7 3 关键词 自编码 恒星光谱 B P 神经网络 参数估计 特征提取 中图分类号 T P 2 1 2文献标识码 BD O I 编码 1 0 1 4 0 1 6 j cnk i 1 0 0 1 9 2 2 7 2 0 1 6 0 9 2 3 0 A b s t r a ct S t e l l a ra t m o s p h e r ep h y s ica lp a r a m e t e re s t im a t io n e f f e ct iv et e m p e m t u r e s u r a ceg r a v it y ch e m ica la b u n d a n ce s isp r im a r y t a s kt oe x p l o r et h ee s s e n ceo ft h es t a r s S l o a nD ig it a lS k yS u e y S D S S a n dG u o s h o u j in gT e l e s co p e L A M O S T a n do t h e rl a 唱e s ca l e s k y s u r v e yt e l e s co p ea r eo b t a in in gs t e l l a rs p e ct r a ld a t aa ta n u n p r e ce d e n t e ds p e e d w h ichb m u g h tn e wo p p o n u n it ie sa n dch a l l e n g e sf b rt h es t u d y o fg a l a x ie s T r a d it io n a lm e t h o d sca nn o ta d a p t s u chal a 曙es ca l ed a t a I fisn e ce s s a r yt h a te s t im a t ea t m o s p h e r icp 锄m e t e r sd ir e ct l yf r o mt h e s p e ct l l l m W ep r e s e n t e dan e ws ch e m eB P N e w o r k A u t o E n co d e r f o re s t im a t in gs t e U a ra t m o s p h e 打cp h y s ica lp 锄m e t e r sf 而ms t e l l a rs p e ct m a n dd ide x p e r im e n t so n2 0 0 0 0s p e ct r af 南mt h eS l o a nD i西t a lS k yS u n e y S D S S T h ee x p e r im e n t a lr e s u l t sb ed e s cr ib e db yt h ea v e m g e a b s 0 1 u t ee r m r m e a s u r e m e n ta ccu m cyo fs t e l l a ra t m o s p h e r e sp h y s ica lp a r a m e t e r sw e r el o gT e f f o 0 0 7 9 l o gg o 2 4 0 8 F e H o 1 7 7 3 K e yw o r d s a u t o e n co d e r s t e l l a rs p e ct r a B P N e t w o r k p a r a m e t e r se s t im a t io n f e a t u r ee x t r a ct 0引言 大规模深度巡天任务 例如美国的斯隆数字化巡天 s D s s 1 j 中国的郭守敬望远镜 I A M O S T 一 等 正在高 速收集大量的恒星光谱数据 如何准确 高效对海量天体光 谱参数 e g 恒星表面有效温度T e f f 重力加速度l o gg 化学 丰度 F e H 自动估计成为一个重要课题 本论文研究了关于恒星光谱的代表性问题一一叵星大气 物理参数估计 在模式识别中被称为特征提取的过程是本论 文进行恒星大气物理参数估计的关键环节 在物理参数估计 中 一条光谱可以由所观测到的光谱 1 纠正后光谱 一些典 型线的描述 统计描述所代表 特征提取过程决定了数据分 析系统的应用范围 准确度 有效性 对噪声和测定错误而导 致的数据特征扭曲的鲁棒性 另外 特征维数过高将导致计 算的复杂度增加和空间复杂度升高 高维特征集数据往往存 在高相关性和高冗余 会影响到参数估计 模型稳定性 扩大 模型的误差 所以 有必要在建立回归模型估计恒星大气物 理参数之前 对原始高维光谱数据进行特征提取 降低数据相 关性和冗余度 建立稳定 预测精度高的回归模型 本文提出使用自编码算法 一种神经网络降维方法曲 作为恒星光谱的特征提取方案 这个特征提取方案的基本思 想是设计一个三层的神经网络拓扑结构 输入层与中间层的 网络称为编码层 中间层与输出层的网络称为解码层 编码 层编码输入的光谱数据 解码层解码输入的编码数据 通过使 用反向传播算法调整编码层和解码层的权重达到输入数据重 构误差最小 即解码数据复现输入的光谱数据误差最小 编 码数据即为我们提取到的光谱特征 即编码数据是原始数据 的非线性重构 在本次研究中 为了估计恒星大气参数 该方 案从3 8 2 1 维的光谱数据中分三次提取了1 0 2 5 5 0 维的光谱 收稿日期 2 0 1 6 一0 4 一0 5 2 3 0 数据特征 为了评估提取到的特征的有效性 我们用B P 神经网 络纠和提取到的特征来研究大气参数估计问题 在一个由斯 隆数字巡天 s D S S 提供的包含2 0 0 0 0 条恒星光谱数据的子 样本上的实验结果显示 我们方案的估计结果和s D s S s E G U Es p e ct m s c叩ic P a r a m e t e r P ip e l in e S S P P 提供的结果具 有很好的一致性 1 数据 在这篇论文中 使用第九次发布的斯隆数据中的2 0 0 0 0 条s D s s s E G u E 实测恒星光谱和他们之前计算出的对应物理 参数 我们的方案属于统计学习方法 这种方案的基本方法 是基于经验恒星光谱和对应的大气参数发现潜在的预测关 系 换句话说就是需要一个训练集来寻找潜在的预测关系 同时发现的潜在预测关系需要被客观的评价 因此 需要一 个独立的恒星光谱集合来评价发现的预测关系 在模式识别 中这个集合通常被成为测试集 因此 我们使用的光谱被分 成两个子集 训练集 测试集 两个子集分别包含1 0 0 0 0 条光 谱数据 2 特征提取 由于实测光谱维数高 存在高冗余和高相关性 回归预测 阶段将导致计算的复杂度增加和空间复杂度升高 影响到参 数估计 模型稳定性 扩大模型的误差 所以 本文首先使用 自编码来进行光谱的特征提取 2 1 数据预处理 为了使用自编码算法进行特征提取 本文先对光谱数据 做如下预处理 1 使用l o 盯e f f 取代T e f f 减小动态范围 更好的表达光 谱数据的不确定性 2 使用逐样本归一化的方式把数据归一化到 o 1 之 自动化与仪器仪表 2 0 1 6 年第9 期 总第2 0 3 期 问 归一化的作用是把尺度不统一的数据规整到一个小的范 围内 统一到一个参考系下 2 2 特征提取 自编码算法的基本思想是构造一个多层神经网络 神经 网络拓扑结构设计输入层神经元个数等于原始输入数据特征 维数 设置较少的隐层神经元数 令输出层神经元数等于输入 层神经元数 为了求得可以最好的压缩和复现原始输入数据 的自编码网络最优权值 设计优化网络权值的目标函数 使用 反向传播算法反向传播自编码网络输出值与输入值之间的差 异 运用优化算法L B F cS 法 寻找自编码网络最佳权值 尝 试让输出层输出值接近或等于输入值 原始数据 由于隐 层神经元个数少 维数低 这就迫使自编码去学习原始输入数 据的压缩表示 为了更加生动的描述自编码器 我们绘制的如下自编码 的拓扑图 包含一个输入层 一个隐层 一个输出层 层与层 之间的权重 L a y e rL 1 L a y e rL 2L a y e rL 3 图1 h 蝴f x 表l 数据在它内部前向传播的计算过程如下 本文设计了单隐层自编码 令自编码隐层神经元数分别 为l O 2 5 5 0 提取到原始光谱数据的1 0 2 5 5 0 维特征 3 恒星参数估计回归模型一B P 神经网络 B P 神经网络算法具有结构简单 易于实现的特点 在模 式识别中得到广泛的应用 1 9 8 9 年R o b e r tH e ch t N ie l s o n 证 明对于任何在闭区间的一个连续函数都可以用单隐层的B P 网络来逼近 因而一个3 层的B P 网络可以完成任意N 维到 M 维的映射 所以 我们在实验中使用单隐层结构的B P 神 经网络来构建回归模型做参数估计 其中 激活函数使用 s ig m o id 函数 网络初始权值使用接近零的随机数 B P 神经网络隐含层神经元数目选择不存在一个理想的 解析式 本文选取隐层神经元数目的方法是的先采用足够多 数目的隐层神经元 通过学习训练逐渐降低神经元数量 寻找 最优预测精度 直到神经元数量不可再删除 4 结果与讨论 为了验证我们提出的方案的可行性或效果如何 我们使 用斯隆数字巡天 S D s s 项目提供的2 0 0 0 0 条恒星光谱数据 来进行实验研究 光谱随机分为1 0 0 0 0 条训练样本和1 0 0 0 0 条测试样本 用平均绝对误差 M A E 和标准差 S D 两个指标 检验我们用B P 神经网络 自编码 建立的模型的精度 得到 的结果如下表1 所示 表1 样本使用B P 神经网络 自编码 方法进行恒星大气 物理参数估计 比较提取不同维数特征对应的参数l o gT e f f l o gg 和 F e H 的估计误差 测量结果如表1 所示 1 0 9T e f fl o gg F e H 提取的特征维数 M A ES DM A ES DM A ES D l O0 0 1 2 20 0 1 9 7O 2 5 9 5O 4 0 1 4 3O 2 7 9 8O 3 6 1 2 2 5O 0 0 8 10 0 1 6 30 2 3 9 0O 3 7 1 4O 1 9 9 3O 2 9 1 5 5 0O 0 0 7 90 0 1 4 50 2 4 0 8O 3 6 1 00 1 7 7 30 2 6 1 2 为了衡量我们所使用的B P 神经网络在恒星大气物理参 数估计中的建模能力 我们使用相同的光谱数据 相同的特征 提取方法自编码 A u t o e n co d e r 即使用相同的特征集 在这里 使用了之前用自编码从原始光谱中提取到的5 0 维的特征 建 模方法分别换作回归树 线性回归两种方法 进行恒星光谱大 表2 气物理参数估计 测量结果如表2 所示 表2 使用自编码从原始光谱提取到的5 0 维特征 分别用 回归树 线性回归 B P 神经网络三种方法估计恒星大气物理 参数l o gT e f f l o gg F e H 得到的估计误差 恒星大气物理 1 0 9T e f fl o gg F e H 参数估计方法M A ES D M A E S DM A ES D 回归树 自编码 O 0 1 3 0O 0 1 9 0O 3 2 5 0O 4 9 0 0O3 2 0 30 4 3 1 1 线性回归 自编码 O 0 1 1 2O 0 1 6 2 0 2 6 7 7 O 3 9 0 7O 2 6 0 1O 3 5 9 B p 神经网络 自编码 O 0 0 7 9O 0 1 4 50 2 4 0 8O 3 6 1 0O 1 7 7 302 6 1 2 三种建模方法在恒星大气物理参数估计中的应用结果比 较可得 B P 神经网络使用自编码提取到的特征建立的模型在 估计恒星大气物理参数恒星表面有效温度 1 0 9T e f f 重力加 速度 1 0 9g 化学丰度 F e H 的效果要优于回归树 线性 回归使用同样的特征集建立的模型 也就是说与回归树 自 编码 线性回归 自编码 两种恒星大气物理参数估计方法 相比 B P 神经网络 自编码 在估计恒星大气物理参数时有 更好的准确度 5 总结 提出了基于B P 神经网络 自编码 的恒星大气物理参数 下转第2 3 4 页 2 3 1 一 一 X X 基于数据挖掘的A 埘o r i算法研究与改进董宁 A 曲o r i算法采用循序渐进的方法 找出事务数据库中数 据项之间的关系并形成规则 其过程可以分解为以下两个子 问题 1 找出所有频繁项集 A 曲o r i算法采用逐层搜索的迭 代方法从事务数据库或数据仓库中获取频繁项集 用K 一项集 搜索 K 1 一项集 先找出频繁l 一项集的集合 将该集合记 为 L 1 用L 找出频繁2 一项集的集合L 2 再用L 2 找出k 如此 下去直到不能找到频繁K 一项集为止 4o 每找一个L 需要对 事务数据库做一次扫描 根据定义 这些项集出现的频繁性 至少和预先定义的最小支持计数一样垆 2 由频繁项集产生规则 根据定义 这些规则必须满 足最小支持度和最小置信度 3 3 A p d o r i算法存在的不足 A 曲o r i算法产生K 一项频繁项集时需要对事务数据库扫 描K 次 特别是对大型数据库操作时 多次扫描数据库会将 大量时间用在L O 操作上 给L 0 系统造成巨大的压力 另 外 频繁K 一项集进行自连接可能产生大量的候选项集 这种 空间复杂度以指数形式增长 即当频繁1 一项集L 有1 0 0 0 个 时 候选项集将会超过1 0 0 万个 造成这种现象的主要原因 是产生候选项集的同时循环产生的组合过多 没有排除不应 参与组合的元素 致使参与数据挖掘的对象可能达到G B 甚 至T B 级 相对于内存容量来说 内存显然是不够用的 这些 不足直接影响到A p r io r i算法的执行效率 4 A p r io d 算法的改进 在内存一定的情况下 如何减少读取数据库的L 0 次数 以及如何减少对数据库的扫描次数 达到提高扫描效率 节省 系统开销目的的问题作如下研究 1 改进的A p r j o r i算法首先逐个扫描事务数据库D 产 生候选1 一项集C 由于在扫描每个事务的同时记录了每个 项出现的次数 因此事务数据库被扫描一遍后得到的候选项 集C 中对应的事务数即为该项的支持度计数 在确定频繁l 一项集的同时将不满足最小支持度的条件项从数据库D 中删 除后产生新的数据库D 由D 产生候选2 一项集c 这样就 可以有效地缩小事务数据库D 并减少K 一项集中c 的数量 进而提高数据库扫描效率 2 改进的A 曲o r i算法扫描事务数据库D 产生候选1 一 项集c 后 若在扫描每个事务并对每个项出现次数计数的同 时 还记录该项的事务编号 这样当数据库被扫描一遍后得到 的候选项集C 中就包含了事务编号列表和对应的事务数 从c 中删除不满足最小支持度计数项集就得到了频繁1 一项 集的集合L 对于2 一项集的生成无需扫描事务数据库 只要 扫描事务编号列表中第i j k 行相同元素个数 6o 就可以了 5结束语 通过对以上四个方面的分析研究可以看出 数据库挖掘 技术能使现有的计算机软 硬件在应用上更加自动化 当数 据挖掘工具运行在高性能的并行处理系统时 能在短时间内 完成对一个超大型数据库的分析工作 这就意味着用户有更 多机会来分析数据 让分析的结果更加准确可靠且易于理解 以往 使用数据库管理系统进行较复杂数据分析时 限于时 间 空间因素不得不对参与运算的数据和数量加以限制 岂不 知那些被丢弃的数据有可能包含着一些不为人知的有用信 息H 目前 高性能的数据挖掘工具解决了这一系列问题 数据挖掘技术还是一个兴起不久且充满希望的领域 在 商业利益和计算机技术不断发展的驱动下会促进它的发展 人们对它的研究会日益广泛和深入 参考文献 1 h e e t y ir iq in g cn b l 0 9 8 co m 2 常松 中国股市价格波动特征及其预测技术研究 博士学位论 文 江苏 东南大学 2 0 0 2 3 牛丽敏 A p o r i算法分析与改进综述 J 广西 桂林电子科技大学 学报 2 0 0 7 年2 月第2 期 4 郭崇惠 田凤占 靳晓月译 M a 唱a r e tHD u nH a r n 数据库挖掘教程 M 北京 清华大学出版社 2 0 0 5 5 冯兴杰 周谆 A p r i耐算法的改进 J 广州 计算机工程 2 0 0 5 年 7 月 6 叶福兰 施忠兴 A p o r i算法的改进及应用 J 广东 现代计算机 2 0 0 9 年第9 期 7 王亚平 数据库系统工程师教程 M 北京 清华大学出版社 2 0 0 4 年7 月 8 李德仁 张良培 夏桂松 遥感大数据自动分析与数据挖掘 J 测 绘学报 2 0 1 4 1 2 1 2 1 1 1 2 1 6 9 刘大有 陈慧灵 齐红 杨博 时空数据挖掘研究进展 J 计算机研 究与发展 2 0 1 3 0 2 2 2 5 2 3 9 上接第2 3 l 页 测量的方法 比较提取不同维数特征下对应的参数l o gT e f f l o gg 和 F e H 的估计误差 比较了回归树 自编码 线性 树 自编码 B P 神经网络 自编码 三种模型在恒星大气物 理参数估计中的应用 比较可得 提出的B P 神经网络 自编 码 模型优于回归树 自编码 线性回归 自编码 模型 适用 于高维大样本的光谱物理参数的测量 采用该模型对S l o a n D i殍a lS k yS u r v e y S D S S 采集来的光谱数据进行测量 获得了 非常好的实验结果 参考文献 1 Y o r kD A d e l m a nJ A n d e r s o nJ e ta 1 T h es l o a nd i西t a ls k ys u e y T e ch n ica ls u m m a r y A s t r o nJ 2 0 0 0 1 2 0 1 5 7 9 1 5 8 7 2 M a d r idJP M a cch e t t oD H ig h im p a cta s t r o n o m j ca lo b s e r v a I o 打e s B u U A mA s t m nS o c 2 0 0 9 4 1 9 1 3 9 1 4 2 3 4 3 cu ixQ z h a 0YH ch uYQ e ta 1 T h el a r g es k ya r e am I l I t i o b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论