MIFA 需求分析.doc_第1页
MIFA 需求分析.doc_第2页
MIFA 需求分析.doc_第3页
MIFA 需求分析.doc_第4页
MIFA 需求分析.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MIFA需求分析一、顶级流程数据收集历史数据库数据融合数据聚集本地数据中心预报量数据准备挖掘数据准备WEKA数据挖掘预报产品生成预报理由解释实时数据库历史数据实时数据LAPS分析结果MICAPS4数据返回聚集结果非LAPS实时数据非LAPS历史数据解释请求返回解释数据预报产品数据降水量风温数据返回预报量数据MICAPS4数据返回挖掘数据挖掘准备数据返回挖掘结果数据挖掘结果数据返回预报产品数据其中:实线模块为MIFA系统处理模块,虚线模块为挖掘系统模块实线箭头为数据流,虚线箭头为模块启动顺序图1 顶层数据流程功能子系统和流程:1. 多源气象数据经过数据收集系统,进入本地历史数据库(数据挖掘模式)和实时数据库(业务应用模式)。同时进入本地数据中心。2. LAPS数据融合系统从本地历史数据库和实时数据库读取数据,将原始数据进行数据融合处理,得到规范的三维网格点数据。变换为MICAPS格式数据,放入本地数据中心。3. 数据聚集变换处理系统从本地数据中心读取融合后的数据,首先根据配置文件进行指数的计算,放入本地数据中心;然后从本地数据中心读取融合和指数计算后的数据,根据配置文件对选择的数据进行区域统计计算,放入本地数据中心;最后从本地数据中心读取融合、指数计算和区域统计后的数据,根据配置文件对其中选择的数据进行天气系统识别计算,放入本地数据中心。4. 预报量数据准备系统,根据配置文件从本地数据中心收集预报量数据,并转换为最终预报量形式。5. 挖掘数据准备系统根据配置文件,将数据离散化。并根据配置文件,针对不同挖掘任务将该任务需要的数据转换为WEKA格式,存储于入本地数据中心中对应该任务的挖掘数据库中。6. 数据挖掘系统根据配置文件中各挖掘任务的参数,调用相应的WEKA模块,进行数据挖掘计算。结果放入本地数据中心中对应该任务的挖掘数据库。7. 预报产品生成系统根据配置文件从实时数据库中读取数据,与各数据挖掘任务的挖掘结果进行匹配,并根据配置文件进行取舍,生成实时预报产品。8. 预报理由解释系统,根据显示系统的请求,寻找有关挖掘结果,并将这些结果按显示系统的需求格式放入其指定的位置。9. 本地数据中心:是整个系统的数据核心。各子系统的所有数据库都在本地数据中心集中管理,成为本地数据中心的一部分。以上,15就是MIFA系统,为了全面了解MIFA系统的用途,及整个数据挖掘系统的完整性,增加68,即数据挖掘部分。其中数据融合系统LAPS和数据挖掘系统WEKA均为网络免费资源,将作为暗盒处理。但此两个系统要经过系统功能的严格测试,无误后方可使用。整个数据挖掘系统设置两种工作模式,数据挖掘模式和业务应用模式。数据挖掘模式时只取历史数据库的数据,业务应用模式时只取实时数据库的数据。数据说明:1. 历史数据:LAPS分析区域内最近5年各时次的常规地面(MICAPS第一类格式)、高空(MICAPS第5类格式),地面自动站(MICAPS第一类格式),地基遥感探空(Profiler、RASS、GPS、微波辐射仪,均按北京市气象局格式),雷达产品(LEVEL2基数据、NCAR格式的ANC产品,mdv格式转换为MICAPS4格式)、卫星产品(AWX格式图像产品、AWX格式数值产品)、数值预报产品(RUC、欧洲、日本、美国、德国、T639、GRAPES,均采用MICAPS4格式)。2. 实时数据:最近时次的数据,数据种类和格式均与上同。3. LAPS分析结果:地面:气温、温度平流、地表温度、位温、位温平流、相当位温;水汽类-露点、相对湿度、混合比、混合比平流、混合比辐合、风场、全风速、散度、涡度、垂直速度;高空:各层高度、温度、比湿、露点、相对湿度、风场、涡度、散度、垂直速度、位温、相当位温、温度平流;热力学参数:对流有效位能、对流抑制能量、K指数、凝结高度、螺旋度、抬升指数、沙氏指数、总指数、零度层高度;云分析产品:总云量、云底高度、云顶高度产品。均采用MICAPS4格式。4. 指数数据:LAPS外附加指数包括:理查森数、对流理查森数、粗理查森数、粗理查森数切变、简化粗理查森数、击穿CIN垂直速度、涡生参数等。均采用MICAPS4格式。5. 区域统计数据:14中所有MICAPS4格式数据进行空间划分,各尺度划分子网格的平均、最大、最小、方差、傅里叶变换系数的矩阵。均采用MICAPS4格式。6. 天气系统数据:15中所有MICAPS4格式数据进行天气系统识别,产生的5元组参数。均采用XML格式,格式见附录1.1。7. 预报量数据:降水量、地面风速和地面温度,分别按暴雨、大风和高温标准离散化后的数据。均为MICAPS4格式。8. 挖掘数据:17中所有离散化后的数据,区域统计和天气系统属性的连续数据,根据配置文件按各挖掘任务组成的数据集。均采用WEKA格式。9. 数据挖掘结果:数据挖掘得到的聚类类型各维的要素、标准值、分散程度等参数,关联规则各维的要素。均采用XML格式,格式见附录1.2。以及对应各类型和各规则的每个格点预报量的概率矩阵。均采用MICAPS4格式。10. 实时匹配数据:实时数据与各类型的匹配程度,与各关联规则的匹配程度。均用XML格式,格式见附录1.3。匹配程度超过临界值的类型和关联规则对应的预报量概率矩阵。11. 显示系统需要的预报产品数据:将10中的数据转换为显示系统需要的格式。12. 显示系统需要的解释数据:将9和10中的数据换换为显示系统需要的格式。二、各子系统一级流程1、数据收集系统略图 2.1 数据收集系统流程模块和流程:1.1. 历史数据服务器:收集储存最近5年所有数据。1.2. 实时数据源MICAPS数据服务器:获取MICAPS常规地面高空、地面自动站、卫星产品和各种数值预报产品的实时数据1.3. 实时数据源雷达数据服务器:获取雷达基数据和产品实时数据1.4. 实时数据源地基遥感数据服务器:获取风廓线雷达、RASS、GPS、微波辐射仪实时数据1.5. 本地历史数据库:储存历史数据的文件系统1.6. 本地实时数据库:储存实时数据的文件系统1.7. 数据配置文件:用XML语言。定义数据源位置、文件名定义、文件数据格式、历史数据特征和实时数据特征等。具体格式见附录F1.1。数据说明:1.8. 本地历史数据库文件系统结构:见附录F1.21.9. 本地实时数据库文件系统结构:见附录F1.32、数据融合系统LAPS(暗盒)略图2.2 数据融合流程模块和流程:略。数据说明:与顶级数据流程中数据说明的13相同。3、数据聚集变换图2.3 数据聚集变换流程模块和流程:3.1. 指数计算:根据指数计算配置文件,在已有数据基础上计算数据分析可能需要的指数。目前包括理查森数、对流理查森数、粗理查森数、粗理查森数切变、简化粗理查森数、击穿CIN垂直速度、涡生参数等。3.2. 区域统计:根据区域统计配置文件,对所有MICAPS4格式数据分析区域进行5X5、10X10、20X20、40X40、100X100划分。对每个划分区域计算该区域的平均、最大、最小、标准差、傅里叶变换系数。3.3. 天气系统识别:根据天气系统识别配置文件,对所有MICAPS4格式数据分析区域内的天气系统进行识别。填充五元组。重点填充:位置点集、中心坐标、极值、平均值、纵横比等。3.4. 聚集变换配置模块:提供界面,用户可以通过人机交互定义一个或一批灾害天气。生成指数计算配置文件、区域统计配置文件和天气系统识别配置文件(用XML语言)。界面中应包括:对指数计算有指数名称编辑、指数描述编辑、已有指数计算列表和选择功能;对区域统计有区域选择(每个区域划分的规则网格划分子网格格点数或按地形高度划分的临界值或按landuse值划分的临界值等)、支持的统计计算的列表选择;对天气系统识别有一般要素的上临界值和下临界值的编辑和选择、特殊要素的列表选择及该要素的上临界值和下临界值的编辑和选择(除选择的特殊要素,其他要素均采用一般要素的临界值)。界面图见图2.3.1数据说明:3.5. 本地数据中心中指数部分文件系统结构和文件格式:见附录F3.13.6. 本地数据中心中区域统计部分文件系统结构和文件格式:见附录F3.23.7. 本地数据中心中天气系统部分文件系统结构和文件格式:见附录F3.33.8. 指数计算配置文件:使用XML语言,格式见附录F3.43.9. 区域统计配置文件:使用XML语言,格式见附录F3.53.10. 天气系统识别配置文件:使用XML语言,格式见附录F3.64、预报量数据准备图2.4 预报量数据准备流程模块和流程:4.1. 暴雨数据准备:对12小时预报,12小时降水量大于30mm(?);对2小时预报,1小时降水量大于10mm(?)。对所有历史和实时降水量数据:1)生成未来12小时降水量场和未来2小时内最大1小时降水量场,用MICAPS4格式储存;2)对生成的降水量场按上述临界值生成0/1化的暴雨事件场,用MICAPS4格式储存。4.2. 大风数据准备:对12小时预报,2分钟平均风速大于10m/s(?);对2小时预报,2分钟平均风速大于10m/s(?)或瞬时风速大于15m/s(?)。对所有历史和实时全风速数据:1)生成未来12小时最大风速场和未来2小时最大风速场,用MICAPS4格式储存;2)对生成的最大风速场按上述临界值生成0/1化的大风事件场,用MICAPS4格式储存。4.3. 高温数据准备:对12小时预报,最高气温大于35度;对2小时预报不用。对所有历史和实时全风速数据:1)生成未来12小时内最高地面温度场,用MICAPS4格式储存;2)对生成的最高地面温度场按上述临界值生成0/1化的高温事件场,用MICAPS4格式储存。4.4. 一般降水数据准备:对12小时预报,12小时降水量大于5mm(?);对2小时预报,1小时降水量大于1mm(?)。对2.4.1生成的降水量场按上述临界值生成0/1化的一般降水事件场,用MICAPS4格式储存。4.5. 灾害天气配置模块:提供界面,用户可以通过人机交互定义一个或一批灾害天气。生成灾害天气配置文件(用XML语言)。界面中应包括:灾害天气名称编辑、灾害天气描述编辑、灾害天气临界值输入和选择等功能。界面图见图2.4.1数据说明:4.6. 本地数据中心中暴雨预报量部分文件系统结构和文件格式:见附录F4.14.7. 本地数据中心中大风预报量部分文件系统结构和文件格式:见附录F4.24.8. 本地数据中心中高温预报量部分文件系统结构和文件格式:见附录F4.34.9. 灾害天气配置文件:使用XML语言,格式见附录F4.45、挖掘数据准备图2.5 挖掘数据准备流程模块和流程:5.1. 挖掘任务配置文件解析器:负责解析挖掘任务配置文件(XML语言),产生该任务需要的基本数据(即本地数据中心中已有的数据)清单、每个数据需要的处理代码等。5.2. 任务数据收集模块:根据该任务的基本数据清单,从本地数据中心中把数据复制到该挖掘任务的挖掘数据库。5.3. 挖掘数据处理模块:根据该任务中每个数据的处理代码,对挖掘数据库中的每个基本数据进行处理,并转换为WEKA格式,储存到挖掘数据库中。可接受的处理代码包括:归一化(和相应的归一化参数)、标准化(和相应的标准化参数)、离散化(和相应的临界值集合)、聚类离散化(和相应的聚类参数),离散数据0/1化(和相应的0/1化策略)。可进行多重处理。5.4. 挖掘任务配置模块:提供界面,用户可以通过人机交互定义一个或一批挖掘任务。生成挖掘任务配置文件(用XML语言)。界面中应包括:挖掘算法选择、基本数据检索选择、处理代码及其参数选择以及一个系统初始化按钮等功能。用户结束配置后,模块将自动扫描已定义的挖掘任务,生成挖掘任务总表。界面图见图2.5.15.5. 初始任务生成器:在系统第一次运行或重新初始化后运行,自动生成对应注2中描述的所有挖掘任务的配置文件和挖掘任务总表。注1:挖掘数据各处理算法的描述1、 归一化:根据归一化参数(最大值、最小值),将数据变换到01之间。即数据减最小值,除以最大值与最小值之差2、 标准化:根据标准化参数(平均值、标准差),将数据标准化。即数据减去平均值,除以标准差3、 离散化:根据离散化参数(临界值列表),将连续数据离散化。即将连续数据根据临界值列表进行分级4、 聚类离散化:根据聚类参数(判断是否属于同一类型的临界值),将连续数据进行聚类离散化。即对连续数据进行聚类分析,把连续数据分到不同的类里。5、 离散数据0/1化:根据0/1化策略,将离散的数据转换为一系列0/1数据。可用的策略有:A、 将每个数据转换为一个0/1系列。每个可能的级别(或类)占一个0/1位,该数据属于哪个级别(或类),则系列中该级别(或类)为对应的数为1,其他级别(或类)对应的数均为0B、 将每个分级数据转换为一个0或1的值。确定一个临界级别,高于临界级别的给1,否则给0C、 将每个分类数据转换为一个0或1的值。将所有数据再次聚类,只分成两类,一类给0,一类给1.注2:系统第一次运行或重新初始化后,将自动设置初始挖掘任务,包括:1、 对所有区域统计数值数据的聚类分析挖掘。设全场划分有N个区域,对1N个区域的所有组合进行聚类分析挖掘。例如:对单个区域进行单区域的聚类,将单个区域的样本数据送入WEKA,得到单区域的聚类结果;然后对区域的两两组合的样本数据送入WEKA,进行聚类;然后对3个区域的多有组合的样本数据送入WEKA进行聚类。2、 对于所有区域统计谱分析数据进行聚类分析挖掘,但只对50X50以上的区域划分进行聚类分析。挖掘任务与上相同,是N各区域的所有组合,但是输入谱系数。3、 对高低值区(天气系统)数据进行聚类分析,但只50X50以上区域划分进行聚类分析。挖掘任务与上相同,是N各区域的所有组合,但是输入天气系统五元组数据(变为WEKA格式)。4、 对将原点移到每个天气系统为中心的高低值区(天气系统)数据进行聚类分析,重复上述聚类分析。5、 上述14的聚类分析挖掘任务对所有MICPAS4格式的单要素场和单要素场、预报量组合进行;地面和高空850、700、500所有要素的组合和层间组合、高空地面组合进行。但要求所有参与同一个聚类分析任务的数据具有同样的X、Y方向格点数,格点中物理意义上应该对应。6、 在上述15描述的聚类分析任务中,不是送样本的具体数据而是送0/1化后的量,则进入WEKA的关联规则挖掘。但此时不需要参与同一个关联规则挖掘任务的数据具有同样的X、Y方向格点数。因此,还要包括不同格点数的场之间的组合。7、 15描述的聚类分析挖掘的结果0/1化后,也将与其他关联规则挖掘任务组合,形成新的挖掘任务。数据说明:5.6. 挖掘任务配置文件:使用XML语言,格式见附录F5.15.7. 挖掘任务总表:文本文件。每个挖掘任务占一行,包括:挖掘任务名称、挖掘任务配置文件路径等5.8. 挖掘数据库:针对每个挖掘任务建立相应的挖掘数据库,使用文件系统,系统结构和文件名定义见附录F5.2,源数据的格式保持原有格式,处理后的数据文件格式为WEKA格式。6、数据挖掘图2.6 数据挖掘系统流程模块和流程:6.1. 数据挖掘任务调度模块:根据挖掘任务总表,逐个解析挖掘任务配置文件,调用WEKA相应的模块,完成挖掘任务。6.2. 挖掘数据库:储存挖掘数据准备系统按挖掘任务准备的数据。文件系统。6.3. 挖掘结果管理:对挖掘结果进行扫描,对挖掘结果自动评价、自动建立挖掘结果之间的逻辑关系等,具体算法见附录F6.1。生成挖掘结果总表和生成挖掘结果解释代码。6.4. 挖掘结果数据库:把WEKA生成的挖掘结果移动到储存挖掘结果的文件系统中。挖掘结果文件应包括:使用该结果所需要的数据(数据的要素、空间位置点集、预处理及有关参数等)、结果的内容(聚类得到的各类中心值和分散程度、关联规则各成员及其支持度与可信度),挖掘结果的评价、挖掘结果之间的逻辑关系、挖掘结果解释代码。可接收的挖掘结果解释代码包括:显示分类图形(大于距离临界值)、显示推理树(大于可信度临界值)、显示分类列表(大于距离临界值)、显示规则列表(大于可信度临界值)、显示决策树等。解释代码与显示类型见附录F6.2。数据说明:6.5. 挖掘结果数据库:文件系统,结构和文件名定义见附录F6.3。将每个挖掘结果储存于一个XML语言的挖掘结果文件中,格式见附录F6.4。6.6. 挖掘结果总表:文本文件。每个挖掘结果占一行,包括:挖掘结果名称、挖掘结果文件路径等7、预报产品生成图2.7 预报产品生成流程模块和流程:7.1. 预报产品配置模块:提供界面,用户可以通过人机交互定义一个或一批预报产品。生成每个预报产品配置文件(用XML语言),内容应包括该产品需要的挖掘结果列表、预报产品的类型、预报产品的显示方式等。界面中应包括:挖掘结果选择、预报产品类型选择、预报产品显示方式选择等功能。用户结束配置后,模块将自动扫描已定义的预报产品,生成预报产品总表。7.2. 预报产品生成调度模块:根据预报产品总表,逐个解析预报产品配置文件,调度实时数据获取、实时数据预处理、挖掘结果匹配、预报产品制作等模块,生成每个预报产品。7.3. 实时数据获取:根据预报产品配置文件中的挖掘结果列表中每个挖掘结果需要的数据,从本地实时数据库获取实时数据。7.4. 实时数据预处理:根据预报产品配置文件中的挖掘结果列表中每个挖掘结果需要的预处理及相应参数,对实时数据进行预处理。预处理包括35中的各项处理。7.5. 挖掘结果匹配:将实时数据预处理后的结果,对每个预报产品,根据该产品预报产品配置文件中的挖掘结果列表中每个挖掘结果进行匹配,得到匹配的结果。结果包括与各分类的距离,与各规则匹配的可信度等。7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论