已阅读5页,还剩78页未读, 继续免费阅读
(计算机系统结构专业论文)气象数据管理与预报系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
at h e s i sf o rt h ed e g r e eo fm a s t e ri nc o m p u t e ra r c h i t e c t u r e d e s i g na n di m p l e m e n t a t i o no fm e t e o r o l o g o c a l d a t a m a n a n g e m e n t a n df o r e c a s ts y s t e m b yg u o x u s u p e r v i s o r :p r o f e s s o rg a of u x i a n g n o r t h e a s t e r nu n i v e r s i t y m a y 2 0 0 8 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: l 。 学位论文作者签名:磊池导师签名:完久 签字日期:扣听7 m 鼠 签字日期: 列7 。1 ( l j 东北大学硕士学位论文摘要 气象数据管理与预报系统的设计与实现 摘要 气象事业是我国的公益事业,为国家安全、防灾减灾提供重要保障,因而受到了党 和政府的高度重视。随着气象部门各种气象观测工具的不断使用,积累了大量的数据, 涵盖天气、气候、雷电、农业与生态、大气成分等诸多方面。对气象数据进行分析、管 理,实现天气预报业务自动化、智能化具有重要的现实意义。 气象数据管理与预报系统实现了气象数据的有效存储、及时准确地进行天气预报。 本系统主要包括气象数据管理、天气预报和预报评分三部分,使用m i c r o s o f tv i s u a l s t u d i o n e t 作为开发平台,c 拌作为开发语言。气象数据管理采用数据仓库与e t l 技术, 实现气象数据的按主题存储,提高了系统的查询速度,为天气预报提供数据基础。天气 预报分为简单模型预报和数据统计预报,引入了s v m 算法,使用p s o 算法对其参数进 行优化,并应用于常规天气预报、灾害性天气预报和气象环境预报中。预报评分是对预 报数据与实际天气情况的比较,包括单站评分,区域评分,指导预报评分功能。 本文首先介绍了气象数据管理与预报系统的开发背景和相关技术,包括数据仓库、 e t l 和支持向量机等技术。接着分析了系统的功能及性能,提出了系统的总体架构和功 能模块。然后详细阐述了数据仓库主题分析、多维表的设计,天气预报算法和预报评分 表结构,并重点描述了数据抽取模块、清洗模块、转换模块、装载模块、天气预报模块 和预报评分模块的具体实现过程。最后分别从界面测试、单元测试、集成测试和系统测 试方面给出测试结果。 关键词:气象数据仓库;e t l ;天气预报模块;预报评分;p s o s v m 算法 一i i v 。 “3 j 尊- l - q 、o d e s i g na n di m p l e m e n t a t i o no fm e t e o r o l o g i c a ld a t a m a n a g e m e n t a n df o r e c a s ts y s t e m a b s t r a c t m e t e o r o l o g i c a le n t e r p r i s ei sp u b l i cw e l f a r eu n d e r t a k i n g si no u rc o u n t r y , a n di tp r o v i d e s g u a r a n t e et on a t i o n a ls e c u r i t y , d i s a s t e rp r e v e n t i o na n dr e d u c t i o n ,s om e t e o r o l o g i c a le n t e r p r i s e i sp a i dh i g ha t t e n t i o nt ot h eg o v e r n m e n t w i t ht h ec o n t i n u o u su s a g eo fw e a t h e ro b s e r v a t i o n t o o l s i nm e t e o r o l o g i c a l d e p a r t m e n t s ,al a r g en u m b e ro fd a t aa r ea c c u m u l a t e d ,c o v e r i n g w e a t h e r , c l i m a t e ,l i g h t n i n g ,a g r i c u l t u r ee c o l o g y , a t m o s p h e r i cc o m p o s i t i o na n ds oo n i th a s i m p o r t a n tp r a c t i c a ls i g n i f i c a n c et oa n a l y z ea n dm a n a g et h ed a t ai no r d e rt om a k ew e a t h e r f o r e c a s tm o r ea u t o m a t i ca n di n t e l l i g e n t m e t e o r o l o g i c a ld a t am a n a g e m e n ta n df o r e c a s ts y s t e m ( m d m f s ) i m p l e m e n t se f f e c t i v e s t o r a g eo fm e t e o r o l o g i c a ld a t a ,a n da c c u r a t ew e a t h e rf o r e c a s t t h em d m f s i n c l u d e st h r e e m a j o rp a r t s :m e t e o r o l o g i c a l d a t a m a n a g e m e n tm o d u l e ,w e a t h e r f o r e c a s tm o d u l ea n d e v a l u a t i o nm o d u l e m e a n w h i l e ,t h es y s t e mu s e sm i c r o s o f tv i s u a ls t u d i o n e ta sd e v e l o p m e n t p l a t f o r ma n dc 存a sd e v e l o p m e n tt 0 0 1 m e t e o r o l o g i c a ld a t am a n a g e m e n tm o d u l eu s e sd a t a w a r e h o u s ea n de t lt e c h n o l o g y , a n da c h i e v e sm e t e o r o l o g i c a ld a t as t o r a g eb yt h et h e m e , w h i c hi m p r o v e st h es e a r c h i n gs p e e do ft h es y s t e ma n dp r o v i d e st h ed a t af o rw e a t h e rf o r e c a s t a n da n a l y s i s t h ew e a t h e rf o r e c a s tm o d u l ei n c l u d e ss i m p l ef o r e c a s tm o d e l sa n ds t a t i s t i c s f o r e c a s tm o d e l s i nt h es t a t i s t i c sf o r e c a s tm o d e l ,s v ma l g o r i t h mi si n t r o d u c e d ,w i t ht h e p a r a m e t e r so p t i m i z e db yp s oa l g o r i t h m ,w h i c hi sa p p l i e dt oc o n v e n t i o n a lw e a t h e rf o r c a s t , w e a t h e r - r e l a t e dd i s a s t e r sf o r e c a s ta n dw e a t h e rc o n d i t i o n sf o r e c a s t t h ee v a l u a t i o nm o d u l e i n c l u d e se v a l u a t i o n so ft h es t a t i o n ,t h er e g i o na n dt h eg u i d a n c ef o r e c a s t f i r s t ,i nt h i st h e s i s ,t h eb a c k g r o u n da n dr e l a t e dt e c h n o l o g y a r ei n t r o d u c e d ,w h i c h i n c l u d e sd a t aw a r e h o u s e e t la n ds u p p o r tv e c t o rm a c h i n e s a n dt h e n ,t h ea r c h i t e c t u r eo f s y s t e ma n df u n c t i o nm o d u l ea r eg i v e nb ya n a l y s i so ff u n c t i o na n dp e r f o r m a n c e t h et h e s i s f o c u s e so nt h et h e m ea n a l y s i si nd a t aw a r e h o u s e ,m u l t i d i m e n s i o n a lt a b l ed e s i g n ,a l g o r i t h mo f w e a t h e rf o r e c a s ta n de v a l u a t i o nt a b l ed e s i g n a l s ot h ei m p l e m e n t a t i o np r o c e s so ft h ed a t a e x t r a c t i o nm o d u l e ,c l e a n i n gm o d u l e ,c o n v e r s i o nm o d u l e ,l o a d i n gm o d u l e ,w e a t h e rf o r e c a s t m o d u l ea n de v a l u a t i o nm o d u l ea r eg i v e ni nd e t a i l f i n a l l y , t h em d m f s i st e s t e dw i t ht h e p o i n to fv i e wo ft h ei n t e r f a c et e s t i n g ,u n i tt e s t i n g ,i n t e g r a t i o nt e s t i n ga n ds y s t e mt e s t i n g k e y w o r d s :m e t e o r o l o g i c a ld a t aw a r e h o u s e ;e t l ;w e a t h e rf o r e c a s tm o d u l e ;f o r e c a s ta n d e v a l u a t i o n ;p s o s v ma l g o r i t h m - - i i i r 1 j 。 埘 叁 东北大学硕士学位论文 目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第l 章绪论1 1 1 研究背景和意义1 1 2 目前发展状况2 1 3 论文的研究内容3 1 4 论文的组织和安排4 第2 章相关技术介绍5 2 1 数据仓库与e t l ,5 2 1 1 数据仓库的含义和特点5 2 1 2 数据仓库的体系结构7 2 1 3e t l 技术概述9 2 2 支持向量机s v m 1 1 2 3 本章小结1 4 第3 章系统分析1 5 3 1 需求分析1 5 3 1 1 功能分析1 5 3 1 2 用例分析l6 3 1 3 性能分析1 7 3 2 系统总体架构l 8 3 3 系统运行环境2 l 3 4 系统的开发环境2 l 3 5 源数据结构分析2 l 3 6 本章小结2 4 第4 章系统设计2 5 4 1 总体设计2 5 4 2 气象数据仓库设计2 7 4 2 1 主题设计2 7 4 2 2 多维表的设计2 8 4 3 天气预报模块设计3 2 4 3 1 时间序列预报模型的建立3 2 4 3 2s v m 算法的优化原理3 3 一i v 东北大学硕士学位论文目 录 4 3 3 基于p s o 算法的s v m 算法参数的优化3 4 4 4 评分模块的表设计3 6 4 5 本章小结3 8 第5 章系统实现3 9 5 1 数据仓库模块的实现3 9 5 1 1 数据对象化3 9 5 1 2 数据抽取模块4 1 5 1 3 数据清洗4 3 5 1 4 数据转换一4 6 5 1 5 数据装载4 9 5 2 天气预报模块实现5 0 5 2 1 简单预报5 0 5 2 2 数据统计预报5l 5 3 预报评分的实现5 3 5 3 1 预报评分模块流程5 3 5 3 2 单站日评分5 4 5 3 3 单站月、季、年评分5 4 5 4 本章小结5 8 第6 章系统测试5 9 6 1 界面测试5 9 6 2 单元测试6 0 6 3 集成测试6 2 6 4 系统测试6 4 6 5 本章小结6 5 第7 章结论6 7 7 1 本文工作总结_ 6 7 7 2 进一步工作展望6 8 参考文献6 9 致i 射7 3 一v 一 i 5 , 东北大学硕士学位论丈第1 章绪论 第1 章绪论 1 1 研究背景和意义 气象资料是我国历史年代最长、保存最完整、最系统的地球信息资源之一。气象资 料来源复杂、种类繁多、格式多样、表现形式各异、数据量巨大。随着气象部门各种气 象观测工具的不断使用,如地面自动观测站,雷达观测站等,积累了大量的数据信息; 而且不同观测工具所观测到的数据结构不同,都以各自原始的格式存储着,如:数据文 件、数据集合等。这样一来就无法实现数据的集成和共享,无法使大量的气象数据得到 有效的利用。因此如何从这些种类多样,格式复杂的大量数据资料中快速得到格式统一、 模式一致的信息用于分析和决策,以及更好地参与信息交换,是一个亟待解决的问题。 气象数据管理与预报系统的建立可以很好的解决这个问题,具有重要的现实意义。气象 数据是气象业务工作的重要基础,在开展天气预报、气象服务和气象科学研究中,对气 象数据提出的应用需求是各种各样的。随着技术的进步和事业的发展,气象数据的种类 和数量急剧增加,气象部门逐步建立了各种类型的数据存储和管理系统,包括历史资料 数据库、实时资料数据库、雷电数据库、农业气象与生态监测数据库、气象灾情数据库 和预报产品数据库等。沈阳气象综合业务系统是一个综合的气象数据管理系统,用以实 现气象业务、服务,其涵盖天气、气候、雷电、人工影响天气、农业与生态、大气成分 等气象业务的综合信息分析、预报制作、产品分发等功能,具有数据存储、传输、信息 显示、日志、权限管理、报表输出、多种文件格式、图形格式的相互转换等功能,具备 自动、灵活、稳定、可靠、可用、方便、实用、模块化、可升级、信息共享、信息表达 多样化等特点,以改变目前资料存放分散、数据表达不够实用、为预报人员、管理人员、 社会公众、政府决策机构提供支持不及时且不全面和不到位的不利局面,达到全局气象 基础业务的自动化、准智能化,更好地为领导决策服务和业务人员提供技术手段。 以需求为导向,以应用促发展,全局规划是该系统设计的总原则。据此,设计方案 既要与气象局目前的需求相匹配,又要有前瞻性,要考虑到气象局信息化建设中未来的 需求,保证主体结构可平滑升级改造,接e l 采用灵活的配置文件方式,以满足未来业务 变化时尽可能不改代码或少改代码。 ( 1 ) 先进性 必须保证技术上的先进性和用户投资的持久性。 ( 2 ) 安全可靠 通过各种手段,如认证、权限控制等保证数据的安全性和保密性。对于只允许范围 内的人进行的操作和浏览的信息,必须有安全的手段来进行权限控制。对于来自病毒、 东北大学硕士学位论文第1 章绪论 恶意攻击者等的破坏,建议必须有相应的防范措施。对于数据遭破坏后的恢复,也建议 需要有相应的办法等。 ( 3 ) 开放互连 系统应使有关业务系统、数据库系统、操作系统、通信协议等具有通用的或可定制 的接口策略和连接方法。 ( 4 ) 可靠性、规范性。 开发过程控制、开发技术、系统编码、文档应规范化,并遵循相应的国内外标准。 t 保证系统的可靠运行和在升级过程中的方便快捷。开发结束,需要提供必要的文档资料。 刍 ( 5 ) 可扩充性 系统应当可以根据需求的变化,方便地进行功能的调整、增减,模块的升级和系统 架构的逐步完善。要求提供相应的技术培训和技术支持,提供必要的丌发工具,提交相 应的系统规范文档,允许应用单位进行必要的二次开发。 ( 6 ) 界面友好、操作方便 操作界面要直观、简单、贴近实际,操作过程尽量简化,符合实际过程。身份认证 过程即保证安全,也尽量简化认证过程。系统维护简单,无须投入大量精力就可保证系 统的萨常运行。 ( 7 ) 层次化 系统采用层次化技术进行设计。 ( 8 ) 权限设置与个性化结合 通过相应的权限设置和方便的身份认证,确保系统使用的合法性和可控性。权限应 当包括部门权限和个人权限,权限类型应当包括数种内容。 1 2 目前发展状况 随着数据库技术及网络技术的快速发展及广泛应用,数据仓库技术紧跟而上,辅助 信息社会中各行业获得竞争优势。据美国m e t a g r o u p 市场调查机构的资料表明,全球 2 0 0 0 家大公司中己有9 0 将互联网和数据仓库这两项技术列入其企业发展规划中或己q 经率先采用。目前,国内外有许多专门从事研究与开发数据整合及分析平台的软件公司, 神 - 凭借数据仓库、数据挖掘等方面雄厚的技术实力和丰富的实施经验为各行业客户比如电 、 信、金融、政府机关及企业等,提供基于各种平台的数据整合及分析解决方案。在我国, 数据仓库在银行、保险业及证券业等领域已有成功案例。数据仓库技术的出现使得操作 型环境分析型环境进行了分离,从而由以单一数据库为中心的数据环境发展为以数据库 为中心的一种新的体系化环境,侧重于决策支持【l 】。数据仓库以改进后的数据库技术作 为整合数据和管理资源的基本手段,以统计分析技术作为分析数据和提耿信息的有效方 法,通过o l a p 技术及数据挖掘技术来多维度多层次地展现数据以及发现数据背后隐藏 东北大学硕士学位论文第l 章绪论 的规律1 2 】,有效地利用数据,实现了从“数据到信息再到知识”的过程,为行业提供不同 层次的决策支持。 目前数据仓库领域研究的热点课题包括构建数据仓库的e t l 工具开发【3 j 、数据仓库 数据清洗算法【4 ,5 1 、数据仓库模型设计 6 1 ( 管理和存储数据) 、数据仓库前端数据展现工 具开发f 7 1 、点击流数据仓库嗍、r f i d ( 无线射频识别技术) 数据仓库【9 1 等。 e t l 是数据抽取( e x t r a c t ) 、清洗( c l e a n s i n g ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 的过程。用户从数据源抽取出所需的数据,经过数据清洗( 排除噪声、于数据仓库、o l a p 和数据挖掘技术的数据分析、展现与预测减少冗余、填补空缺数据、排除异常数据等一 系列的转换、结构转变以及聚集处理等) ,最终按照预先定义好的数据仓库模型,将数 据加载到数据仓库中去。在数据仓库实施中,人们逐渐认识到了e t l 工具的重要性, 于是相关的e t l 工具也纷纷出台i l 叭,其中比较著名的是i b m 的v i s u a lw a r e h o u s e 、a r d e n t 公司的d a t as t a g e 、o r a c l e 公司的o r a c l ew a r e h o u s eb u i l d e r 、m i c r o s o f t 公司的m s s q l s e r v e r2 0 0 0d t s 等1 。 支持向量机( s u p p o r tv e c t o r m a c h i n e ,s v m ) 1 2 】是近几年出现的一种优秀的机器学 习算法,也成为目前机器学习和数据挖掘领域的标准工具。它的基本思想是基于结构风 险最小原则( s r m ) 根据有限的样本信息在模型的复杂性和学习能力之问寻求最佳折中, 以期获得最好的推广能力。而且只要定义不同的核函数,就可以实现其它现有的学习算 法。支持向量机不仅结构简单,而且技术性能尤其是推广能力明显提高,具有很强的学 习能力和泛化性能,能够较好地解决小样本、高维数、非线性、局部极小等问题,可以 有效地进行分类、回归、密度估计等。由于能够解决好大量现实的小样本学习问题,而 且在应用到文本分类时取得了很好的结果,在时间序列分析、文本自动分类、遥感图像 分析、手写体数字识别、蛋白质结构预测等诸多方面取得了成功的应用。 1 3 论文的研究内容 作者主要参与了气象管理与预报系统的设计与实现,完成系统数据仓库的建立,以 及天气预报、预报评分等几方面的工作。本文的内容也围绕这几个方面展开,主要的研 究内容包括: ( 1 ) 对气象数据管理与预报系统进行了详细的需求分析和设计; ( 2 ) 描述了气象数据仓库的建立过程,确定了分析主题,建立多维表; ( 3 ) 给出了气象数据管理与预报系统的各个组成模块的详细设计和实现; ( 4 ) 天气预报中,实现了简单模型预报和数据统计预报; ( 5 ) 针对降水和气温对预报结果进行预报评分; ( 6 ) 对系统进行了详细的测试。 一3 一 东北大学硕士学位论文第1 章绪论 1 4 论文的组织和安排 本文的结构安排如下: 第1 章为绪论,介绍了论文的研究背景和意义,阐述了数据仓库、e t l 发展状况, 给出了论文的研究内容和组织安排。 第2 章介绍了本文涉及的关键技术,包括数据仓库的含义、特点和体系结构,以及 e t l 技术的内容,简单描述了支持向量机算法。 第3 章对气象数据管理与预报系统进行需求分析,包括系统功能分析、系统性能分 析、系统用例分析等,给出了系统的总体架构,同时介绍了系统的运行环境和开发工具, 对数据源数据结构进行了分析。 第4 章阐述了系统总体模块设计,详细给出了系统中数据仓库的建立过程,包括主 题的设计、数据仓库多维表的设计等;介绍了天气预报模块中时间序列模型、支持向量 机s v m 算法和基于p s o 算法的s v m 算法参数的优化;对预报评分模块设计了表的结 构。 第5 章介绍了系统的具体实现,详细的阐述了数据抽取模块、数据清沈模块、数据 转换模块、数据装载模块、天气预报模块和预报评分模块的实现细节。 第6 章是系统测试,从界面测试、单元测试、集成测试、系统测试等几个方面对系 统进行测试,并给出了测试结论。 第7 章为本文的结论和展望。 一4 一 , - 、 东北大学硕士学位论文第2 章相关技术介绍 第2 章相关技术介绍 2 1 数据仓库与e t l 2 0 世纪8 0 年代随着计算机技术的迅猛发展社会的信息化程度越来越强信息量急聚 增长,大量的信息来不及组织和处理。原有的数据库系统只停留在查询、检索和统计等 几个方面,远远没有发现大量数据中所隐含的作用和价值,以便于决策支持。正如奈斯 比特在大趋势中所说的:我们正在被信息所淹没,但我们却由于“缺乏知识而感到 饥饿。”为决策提供依据的需求既要求联机服务,又涉及大量用于决策的数据,而传统 的数据库系统己无法满足这种需求。具体表现在三方面: ( 1 ) 决策所需历史数据量很大,而传统数据库一般只存储短期数据。 ( 2 ) 辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成。 ( 3 ) 由于访问数据的能力不足,对大量数据的访问性能明显下降。 从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策 目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,9 0 年代初出现的支持 决策的、特殊的数据存储即被称为数据仓库( d a t aw a r e h o u s e ,d w ) 。我们现在称之为 “数据仓库”的这一技术,最早发轫于2 0 世纪8 0 年代初w h i n m o n 的研究中,并存在 于其“记录系统”、“本原数据( a t o m i cd a t a ) ”、“决策支持数据库”等研究专题中i l 引。 随着这几年对数据仓库的广泛研究,数据仓库的概念逐渐清晰。数据仓库是企业管理和 决策中面向主题的、集成的、与时间相关的、不可修改的集合,用于支持经营管理中的 决策过程。 2 1 1 数据仓库的含义和特点 数据仓库的概念是w h i n m o n 在其( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中提出的, 目前它被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫 乏这种不正常现象的综合解决放方案f 1 4 1 。数据仓库概念的创始人w h n l m n o 对数据仓 库的定义是:数据仓库是面向主题的、集成的、稳定的、随时间变更的数据集合,用以 支持经营管理中的决策制定过程。 数据仓库并不是一个新的平台,它仍然建立在数据库管理系统基础之上,只是一个 新的概念。从用户的角度看,数据仓库是一些数据、过程、工具和设施,它能够完备的、 及时的、准确的和可理解的管理业务信息,并把这种信息提交给授权的个人,以便他们 做出正确有效的决定。 数据仓库收集存储于不同数据源中的数据,将数据集中到一个更大的库中,最终用 户从数据仓库中进行查询和数据分析。数据仓库中的数据是良好定义的、一致的、不变 一s 一 东北大学硕士学位论文 第2 章相关技术介绍 的,数据量也应足够支持数据分析、查询、报表生成和与长期积累的历史数据的对比。 数据仓库的体系结构。 根据数据仓库概念的含义,我们可以知道,数据仓库与传统的联机事务处理领域的 数据库技术相比,具有以下四个特征: ( 1 ) 面向主题( s u b j e c t o r i e n t e d ) 传统的信息系统中的数据组织方式是面向应用的,数据库模式与实际业务处理流程 中所设计的单据或文档有较好的对应关系,如物资仓库管理中的进仓单、出仓单,在物 资仓库管理信息系统的数据库模式中具有直接的对应部分。但这种方式使数据围绕着业 务处理过程,不便于对数据作高层抽象的分析。 数据仓库中数据以面向主题方式组织。主题是某一分析领域所涉及的分析对象,例 如商场销售分析系统中“商品”是一个主题分析对象,有关“商品”分析需要的数据围 绕着这一主题组织,包括商品的基本信息、采购信息、销售信息、库存信息等。面向主 题的数据组织方式就是在较高层次上对分析对象的数据作一个完整、一致的描述,能有 效地刻画出分析对象所涉及的各项数据及数据间的联系。这种数据组织方式更适合于较 高层次的数据分析,便于发现数据中蕴涵的模式和规律。 ( 2 ) 集成的( i n t e g r i t y ) 数据仓库的数据是从原有的、分散的事务处理系统数据库中抽取得来。联机事务处 理系统中的操作型数据和决策支持系统中的分析型数据有着较大的差别。数据仓库中每 一主题对应的源数据在原有的各分散数据库中可能是重复出现的、不一致的,数据仓库 中的数据不能从原有数据库系统直接得到,事务处理系统中的操作型数据在进入数据仓 库之前,必须经过统一和综合,演变为分析型数据。这是数据仓库建设中最复杂的一步, 需要完成的工作包括:统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单 位不统一、长度不一致等;对源数据进行综合和计算,生成面向主题分析的高层、综合 的数据,例如根据商品销售原始数据,计算生成每天、每月的销售综合数据等。 ( 3 ) 相对稳定的( n o n v o l a t i l e ) 数据仓库中存放的是供分析决策用的历史数据,而不是联机处理的当前数据,涉及 的数据操作主要是数据查询,一般不进行数据的增、删、改操作,业务系统中的数据经 集成进入数据仓库之后极少或根本不再更新。如果对数据仓库中的数据进行了修改,就 失去了统计分析正确性的基础数据的真实性。由于数据仓库中的数据量往往很大, 因此数据仓库系统要采用各种复杂的索引技术,以提高数据查询的性能。 ( 4 ) 随时间变化的( t i m ev a r i a n t ) 数据仓库的数据不可更新是对数据仓库的应用而言,即数据仓库的用户在进行分析 处理时不进行数据更新操作,但这不是说数据仓库数据是永远不变的。数据仓库数据是 一6 一 、 : - , , 办 东北大学硕士学位论文 第2 章相关技术介绍 随时间变化的,数据仓库系统需要不断获取联机事务处理( o l t p ) 系统不同时刻点的 数据,经集成后追加到数据仓库中,因此数据仓库中数据的码( 键) 都包含时间项,以 表明数据的历史时期,并可在时间维度上对数据进行分析;另外,数据仓库中的数据也 有时间期限,在新数据不断进入的同时,过期的数据也要从数据仓库中排除出去。 2 1 2 数据仓库的体系结构 从总体上讲,数据仓库的技术体系结构包括前台和后台两大部分内容l l5 。后台负责 分析型应用的数据准备工作,完成从数据源向数据仓库主题数据的数据变换:前台是面 向数据仓库的最终用户,提供表述清晰、易于理解的分析结果,并且使用方便、快速、 灵活。数据仓库体的技术体系结构中还有一部分非常重要的内容元数据。人们习惯 称其为“关于数据的数据”,它本身也是一种数据存储,但其实质发挥的是进行数据定 义与管理的作用。因此,元数据有别于一般的数据存储,实质是一种数据管理。 ( 1 ) 数据源:数据仓库系统的基础,整个系统的数据来源。通常包括企业内部信息 和外部信息。内部信息主要包括存放于现有的操作型系统中的各种业务数据。一个数据 仓库系统可以包含多个数据源,这些数据源可以有多种不同的数据结构类型,可以是大 型数据库如d b 2 、o r a c l e 等,也可以是中小型数据库如s q ls e r v e r 、a c c e s s 等,也可以 是各种数据文件如e x c e l 、w o r d 等。 ( 2 ) 数据抽取集成:在数据仓库系统中占有非常重要的地位,其目的是从关系数据 库、外部数据文件等外部数据源中抽取数据,并进行各种清洗、转换和整合处理,将数 据集成到数据仓库中并按照己经设计的主题组织起来。这项工作通常要占到整个数据仓 库系统建设工作量的8 0 之多。一个完整的数据集成过程包括数据抽取、数据清洗、数 据转换、数据加载和数据刷新五个方面。 ( 3 ) 数据的存储与管理:整个数据仓库系统的核心。经过对源数据进行抽取集成后 得到的数据要按照主题进行重新组织,并最终按照确定的数据仓库的物理存储模型存储 管理起来,同时也要存储管理元数据。对数据仓库的管理包括数据的安全、归档、备份、 维护、恢复等。数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它 特殊的存储方式。数据的存储要保证数据的安全性、完整性、一致性,同时还要具有复 杂的分析查询的高效性。 ( 4 ) 数据集市:数据集市也可叫做“小数据仓库”。如果说数据仓库是建立在企业级 的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门 级业务,并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的 瓶颈。数据集市的特征包括规模小;有特定的应用;面向部门;由业务部门定义、设计 和开发;业务部门管理和维护;能快速实现;购买较便宜;投资快速回收;工具集的紧 密集成;提供更详细的、预先存在的、数据仓库的摘要子集;可升级到完整的数据仓库。 一7 一 东北大学硕士学位论文第2 章相关技术介绍 ( 5 ) 前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、 数据挖掘工具以及各种基于数据仓库的应用。 数据仓库的体系结构如图2 1 所示。 刖 厶 r n 后 台 t 可视化分析结果 。、 o l a p 芯包撇一| 掘f :具一生成器 - 其他专具 0 为l a g r a n g e 系数。分别对0 3 和b 求偏导并令其等于0 ,就可以将上述 问题转化为简单的问题并加以解决。 ( 3 ) 非线性分类 当训练样本集为非线性时,通过一个非线性函数必将训练样本x 映射到一个高维线 性特征空间,如图2 3 所示,在这个维数可能为无穷大的线性空间中构造最优超平面, 并得到分类器的决策函数。 ji 【x 2 o 0 爻 7 、o + + )o 奄。 ?v 。 。 o ( 争串 u 图2 3 低维空间下的非线性分类函数映射为高维空间下的线性分类函数 f i g 2 3n o n l i n e a rc l a s s i f i c a t i o nf u n c t i o ni nl o w d i m e n s i o n a ls p a c em a p p e dt ol i n e a rc l a s s i f i c a t i o nf u n c t i o n i nh i g h d i m e n s i o n a ls p a c e ( 4 ) 核函数及其选择 支持向量机的关键在于核函数。核函数的核心内容是:对于输入空间中非线性可分 问题,选择一个适当的映射,将输入空间中的样本点映射到一个高维特征空间,使得对 应的样本点在该空间线性可分,在求解决策函数的过程中的计算仍在原空间进行,大大 降低了在映射后的高维特征空间计算的复杂性。只要选用适当的核函数,就可以得到高 维空间的分类函数。支持向量机由训练样本集和核函数完全描述,因此采用不同核函数 k ( x ,x ,) 就可以构造实现输入空间中不同类型的非线性决策面的学习机,导致不同的支 持向量机算法,而且很多支持向量机的改进算法就是针对核函数的参数进行优化,从而 提高分离器的分类性能。 核函数方法的实施步骤,可以具体的描述为: ( 1 ) 收集和整理样本,并进行标准化; ( 2 ) 选择或构造核函数; ( 3 ) 用核函数将样本变换成为核函数矩阵,这一步相当于将输入数据通过非线性函 数映射到高维特征空间; 一1 3 一 东北大学硕士学位论文 第2 章相关技术介绍 ( 4 ) 在特征空间对核函数矩阵实施各种线性算法; ( 5 ) 得到输入空间中的非线性模型。 显然,将样本数据核化成核函数矩阵是核函数方法中的关键。注意到核函数矩阵是 ,的对称矩阵,其中,为样本数。 由于核函数的重要性,如何去构造、选择核函数及参数成为人们关注的问题。一旦 核函数确定,对于支持向量机分类器则只有一个参数可调整( 误差惩罚参数c ) 。通常 的做法是找出样本集分布特点与最优分类器之间可能的对应关系,根据一些先验知识选 择分类器类型和参数或直接构造新的类型,可以预先确定或在训练过程中逐步优化。 2 3 本章小结 本章介绍了系统丌发涉及的相关技术,主要涵盖了数据仓库技术、e t l 技术和支持 向量机s v m 算法。阐述了数据仓库的含义、特点和体系结构以及e t l 技术。介绍了 s v m 的回归模型。 一1 4 东北大学硕士学位论文第3 章系统分析 第3 章系统分析 3 1 需求分析 需求分析阶段的主要工作是建立待开发系统的模型,而需求获取可能是软件开发中 最困难、最关键、最易出错及最需要沟通交流的活动【2 7 1 。在数据仓库中,用户的需求是 唯一的也是最重要的驱动力。数据仓库开发过程中每一个阶段的每一项任务都是由需求 决定的。用户必须能够从数据仓库中找到他们所需要的所有战略信息,必须能够方便地 访问数据仓库,运行查询,得到结果,并且毫无障碍地进行结果的分析。系统最终是面 向用户的。本系统需求分析采用的主要方式是与沈阳市气象局的有关领导和其工程师反 复地交流、沟通,详细询问有关事宜,掌握第一手资料。 3 1 1 功能分析 ( 1 ) 综合查询 气象业务工作因其涉及的范围广,所以需要来自多方面的数据,涵盖雷达扫描数据 资料、卫星云图图像数据、地面自动站监测数据、雷电和电场数据、数值产品数据等。 因此,在大量的数据中查询到需要的数据,响应时问是我们重点考虑的因素。所以本系 统中的查询功能不同于普通意义上的查询,它是利用数据的多维概念视图,使用户能从 多角度、多侧面、多层次去考察来自气象数据仓库中的数据。在用户可以接受的响应时 间内提供一种快速、一致、交互的查询。 ( 2 ) 制作天气预报 系统要实现预报功能,这包括对每天指导预报的查询,对上一班预报的查询,并且 要保存预报结果。天气预报的2 1 项内容要实现可定制化。预报的内容包括常规天气预 报、灾害性天气与气象相关灾害预报、中期预报、长期预报和农业与生态预报。 常规天气预报和灾害性天气与气象相关灾害预报 常规预报项目包括天空状况、天气现象、降水量、降水等级( 1 2 、2 4 小时预报) 、 降水概率、风向j x l 速、最高气温、最低气温、定时气温、相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理技能操作培训
- (2026年)压力性损伤的预防和护理课件
- 中医护理中的经络运动疗法
- 产后刮宫术的护理干预措施
- 2026年企业人力资源管理师考前冲刺测试卷附参考答案详解【培优B卷】
- 2026年消防设施操作员之消防设备中级技能模拟题带答案详解(新)
- 2026年一级建造师之一建民航机场工程实务通关练习题附参考答案详解(巩固)
- 2026年商务管理考试模拟试卷(真题汇编)附答案详解
- 2026年国开电大化工设备使用与维护形考综合提升测试卷及完整答案详解【夺冠】
- 2026年消防设施操作员之消防设备初级技能测试卷附答案详解(能力提升)
- 成都市河湖水生态综合治理技术导则
- 职业技术学校《直播运营实务》课程标准
- NB-T42011-2013往复式内燃燃气发电机组气体燃料分类、组分及处理技术要求
- NB-T+10488-2021水电工程砂石加工系统设计规范
- 合理用药知识健康讲座(完美版)课件
- 多格列艾汀使用指南2024课件
- 中考必备1600个词汇核心
- 安监部门加油站重点检查内容
- 《论语》知识考试参考题库(含答案)
- 院前急救诊疗常规和技术操作规范2022版
- 英语答题卡2023年全国小学生英语能力测评(NEPTP)低年级组
评论
0/150
提交评论