第二章数据分析_第1页
第二章数据分析_第2页
第二章数据分析_第3页
第二章数据分析_第4页
第二章数据分析_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析及产品加工

--第二章数据分析安徽省气候中心2011.9第三章数据分析第一节概述第二节数据差异性分析第三节数据代表性分析第四节数据突变检测第一节概述—概念数据是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。第一节概述--分析步骤确定分析选题现实中常常是问题已经发生,需要寻找解决问题的方法搜集素材、数据加工统计数据不同的问题采用不同的分析方法撰写分析报告二手资料分析:通过已有的资料、数据、调查报告、已发表的文章等有关二手信息,加以整理和分析数据搜集:取得第一手的详实的准确的数据在数据分析的基础上归纳观点、结论分析报告要简洁明了,最重要的是能解决问题第一节概述—主要研究文献数据差异性分析--地面平行观测、对比观测资料(气温、湿度、风速、降水量等)胡玉峰.自动与人工观测数据的差异.应用气象学报,2004王颖,刘小宁,等。自动站与人工观测气温的对比分析.应用气象学报,2004王颖,刘小宁,鞠晓慧.自动观测与人工观测差异的初步分析.应用气象学报,2007

沈艳、任芝花,等,我国自动与人工蒸发量观测资料的对比分析.应用气象学报,2008刘小宁,任芝花,王颖.自动观测与人工观测地面温度的差异及其分析.应用气象学报,2008第一节概述—主要研究文献数据代表性分析—地面资料的均一性、区域一致性曹丽娟,严中伟,地面气候资料均一性研究进展,气候变化研究进展,2011年3月李庆祥,刘小宁等,定点观测气候序列的均一性研究,气象科技,2003年2月吴必文,温华洋等,基于γ分布的气压序列非均一性检验初探,应用气象学报,2008年9月第一节概述—相关报告全省人工站与自动站观测对比评估双套站资料评估蒙城安庆等10余个台站址变动分析报告全省区域站降水量资料评估天柱山融冰风速仪对比评估全省电线积冰对比评估第三章数据分析一、数字特征及分布二、数据差异性三、数据代表性一、数字特征及分布平均值平均状况的量,表示数据的集中位置AVERAGE(number1,number2,...)一、数字特征及分布—方差方差是描述数据取值分散性的一个度量,它衡量数据围绕平均值的平均变化幅度,它是数据相对于均值的偏差平方的平均。VAR(number1,number2,...)一、数字特征及分布—标准差方差的开方称为标准差,也称为均方差“内陆台站气温日变化较沿海地区要大”,这个日变化的大小比较就是用标准差来比较的。要说明的是方差的量纲与数据的量纲不一致的,它是数据量纲的平方,而标准差的量纲与数据的量纲一致。STDEV(number1,number2,...)一、数字特征及分布—变异系数变异系数是刻画数据的相对分散性的度量一、数字特征及分布—偏度偏度是刻画数据对称性的指标,关于均值对称的数据其偏度为0,右侧更分散的数据偏度

左偏,左侧更分散的数据偏度

右偏一、数字特征及分布—偏度SKEW(number1,number2,...)一、数字特征及分布—峰度峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标。数据的总体分布为正态分布时,峰度近似为0;当分布的尾部更为分散时,峰度为正,此时两侧极端数据较多,分布较为尖锐,否则峰度为负,两侧的极端数据较少,分布较为平坦一、数字特征及分布—峰度KURT(number1,number2,...)一、数字特征及分布—中位数中位数是描述数据中心位置的数字特征,大体上比中位数大或小的数据个数为整个数据个数的一半,对于对称分布的数据均值和中位数较为接近;对于偏态分布的数据,均值和中位数不同。中位数的显著特点是不受异常值的影响,具有稳健性。一、数字特征及分布—中位数Median(num1,num2,…,)一、数字特征及分布—极差极差是描述数据分散性的数字特征,数据越分散,极差越大。一、数字特征及分布—极差max(umber1,number2,...),min(umber1,number2,...)一、数字特征及分布—众数一般来说,一组数据中,出现次数最多的数就叫这组数据的众数。众数可以不存在,也可以和平均数、中位数相同。Mode(num1,num2,…,)第二节数据差异性分析差异性差值均值标准差差值频率及分布超差率风向相符率一致率相关系数粗差率降水量相对差值差异性—差值频率及分布若则拒绝原假设,认为差值不服从状态分布。其中差异性—差值频率及分布COUNTIF用途:计算区域中满足给定条件的单元格的个数。语法:COUNTIF(range,criteria)参数:Range为需要计算其中满足条件的单元格数目的单元格区域。Criteria为确定哪些单元格将被计算在内的条件,其形式可以为数字、表达式或文本。差异性—差值频率及分布扩展工具SPSS原名为社会科学统计软件包,2000年后更名为“统计产品与服务解决方案”软件。1968年开始开发,1975年成立SPSS公司。操作简单,好学易懂,功能强大,主要可以实现:数据录入、编辑、管理、统计计算、报表制作以及图形绘制扩展工具-spss扩展工具-spss扩展工具-spss差异性—超差率根据自动气象站部分要素测量性能要求定义超差率。其表征仪器超出了测量性能要求的最大允许误差次数。有效观测次数指除缺测以外的观测数据差异性—超差率测量要素范围分辨力最大允许误差气压500hPa~1100hPa0.1hPa±0.3hPa气温-50℃~50℃0.1℃±0.2℃相对湿度5%~100%RH1%±3%(≤80%)±5%(>80%)风向0~360°3°±5°风速0~60m/s0.1m/s±(0.5+0.03V)m/s降水量翻斗:雨强0~4mm/min0.1mm±0.4mm(≤10mm)±4%(>10mm)地表温度-50℃~80℃0.1℃-50~50℃:±0.2℃50~80℃:±0.5℃浅层地温-40℃~60℃0.1℃±0.3℃深层地温-30℃~40℃0.1℃±0.3℃蒸发量0~100mm0.1mm±0.2mm(≤10mm)±2%(>10mm)备注:以上数据源自《新型自动站功能规格书》差异性—一致率表示两套仪器相一致的程度,主要对逐小时数据进行评估一致率的范围按要素对比差值标准差的2倍考虑。有效总次数指除缺测以外的观测数据。差异性—一致率a)计算对比差值的月平均值(24时次)计算月一致率;b)给出一致率随时间变化的柱状图(曲线图);c)给出相关结论。差异性—粗差率粗差率表示两套仪器异常差值的多寡,主要对逐小时数据进行评估当视为粗差差异性—粗差率粗差次数:若,在差值剔除其中一个最大者,再重新计算σ,若还有差值大于3σ,再剔除其中的一个最大者,又计算新的σ,直到没有数据需要剔除为止。剔除的总个数即为粗差次数有效观测次数统计指除去缺测以外的观测次数。实习操作用本站平行观测资料,对气温差值进行分析分别给出一致率、粗差率、超差率差异性—风向相符率对于风向则利用相符率指标对整月逐小时值进行评估相符次数定义为两套仪器风向相差不大于22.5°的次数。有效总次数指参加对比的仪器风速均大于0.5m/s时的次数差异性—风向相符率差异性—相符率差异性—相对差值特别地,对降水量要根据雨强不同进行不同评估。雨量(小时、日、月)≤10mm时,利用差值进行评估。雨量(小时、日、月)>10mm时,降水量利用相对差值进行评估。实习操作用本站平行观测资料,计算风向相符率、雨量的差值、相对差值差异性--相关系数著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。差异性--相关系数相关系数计算公式其值–1≤r≤+1。其性质如下:当r>0时,表示两变量正相关,r<0时,两变量为负相关。当|r|=1时,表示两变量为完全线性相关,即为函数关系。当r=0时,表示两变量间无线性相关关系。相关系数是否通过相关系数检验,表明了其关系的强弱,一般需通过信度0.05的检验相关系数CORREL用途:返回单元格区域array1和array2之间的相关系数。它可以确定两个不同事物之间的关系,例如检测学生的物理与数学学习成绩之间是否关联。语法:CORREL(array1,array2)参数:Array1第一组数值单元格区域。Array2第二组数值单元格区域。差异性--相关系数差异性--相关系数实习操作用本站平行观测资料,计算个要素相关系数,并进行相关性检验。SPSS-数据探索SPSS-数据探索SPSS-数据探索SPSS-数据探索差异性—双套站数据分析要素站台样本数均值标准差一致率%粗差率%偏度系数峰度系数正态分布相对湿度%安庆43241.693.4199.31.214.1235.9否祁门43090.151.4798.23.2-16.4387.6否黄山区43441.821.2175.10.00.3-0.2否黟县4206-0.963.2999.01.9-11.1151.7否歙县4308-2.163.3899.51.8-17.3368.9否休宁4344-1.430.9751.70.0-5.8171.3否2分钟风速m/s安庆4324-0.030.2695.86.92.431.3否祁门4309-0.030.2992.314.2-0.313.0否黄山区43440.010.1198.31.7-4.083.2否黟县42060.010.2495.47.31.539.8否歙县43080.010.3195.46.5-0.222.0否休宁4344-0.010.0992.91.4-0.17.2否均值小,标准差小,一致率高,粗差率低,陡峭型分布较多差异性—双套站数据分析自动站总体上接近或略大于人工站,无明显区域特征标准差较小即差值较为稳定

平行观测第二年日平均气温差值年均值(左图),年标准差(右图)(℃)空间分布气温-差值均值、标准差空间分布差异性--自动站与人工站对比偏差主要集中在-0.1℃到0.2℃之间。年偏差超过合理波动范围以外的仅2个台站气温—差值频率分布差异性--自动站与人工站对比自动站没有通过显著性检验的台站有50%的人工站通过了检验,表明观测仪器的改变,对一些台站月数据的连续性产生了影响

气温—显著性检验(t检验)差异性--自动站与人工站对比平均气温观测时间不同步。自动站是在正点采集,人工站的观测时间为正点前15min至正点,两者存在着10min左右的时间偏差。观测仪器的精度不同。自动站温度传感器的精度为0.1℃,而水银温度表为0.2℃。数据采集中存在误差。自动站传感器由于灰尘等原因存在环境误差,而人工观测有可能出现误读和错读。早期一般站,在台站管理、仪器维护、资料审核等某些环节可能存在问题。最低温度的感应液为酒精,其稳定性和精度均较差,导致人工站最低温偏低。气温—误差原因分析差异性--自动站与人工站对比全省年平均气压表现为自动站略低于人工站。最低气压偏低较多,最高气压自动站与人工站资料基本一致。气压差值具有一定的季节性变化规律气压—差值月变化差异性--自动站与人工站对比大多数台站尤其“双基站”平均气压的差值平均值在合理范围内标准差以小于0.2为主,即差值相对稳定气压-差值均值、标准差空间分布差异性--自动站与人工站对比总体上大多数台站也表现为负偏差,即自动站小于人工站气压—差值频率分布差异性--自动站与人工站对比人工站的水银气压表在手工调节过程以及读数中容易产生误差。人工观测(正点前的56一58分)与自动站的资料采集(正点)存在时间差。仪器灵敏度不同。人工站最高最低气压获取来自气压自记纸,自动站由由传感器的分钟值获取,其感应元件分别为金属弹性膜盒组和电容真空膜盒,前者的灵敏度和精度都弱于后者,从而造成有一定误差。气压—误差原因分析差异性--自动站与人工站对比夏季差值偏大,冬季偏差较小,存在一定的季节性规律

相对湿度—差值月变化差异性--自动站与人工站对比大多数台站自动站明显小于人工站,且差值不稳定,振幅较大。相对湿度-差值均值、标准差空间分布差异性--自动站与人工站对比偏差-4%的台站较多,偏差主要集中在-5%到0之间相对湿度—差值频率分布差异性--自动站与人工站对比在人工观测中,气温在-10.0℃以下,使用毛发表进行观测,系统误差较大。在自动气象站中,用湿敏电容测量,其测量原理与人工观测差别很大。相关文献指出湿敏电容在相对湿度为80%以下时,线性度好,测湿性能较好。但湿敏电容在相对湿度为80%以上时,开始出现非线性,使用时应予以校正。而在相对湿度接近100%时,出现明显的失真,这种情况在高温、高湿下更为明显。观测时间上存在一定的差别,大约相差10分钟。相对湿度—误差原因分析差异性--自动站与人工站对比从月变化上看,夏季偏差最小,秋冬季节则较大平均风速—差值月变化差异性--自动站与人工站对比平均风速有较为明显的区域特征,即皖南山区呈现自动站偏大于人工站;月年淮北西部地区,沿江地区两者较为接近;而大多数基准基本站,以及沿淮地区自动站偏小于人工站。差值标准差较大,即差值振幅较大平均风速-差值均值、标准差空间分布差异性--自动站与人工站对比,偏差0.3m/s的台站较多,偏差主要集中在-0.4m/s到0.4m/s之间

平均风速—差值频率分布差异性--自动站与人工站对比仪器灵敏度不同。自动站为轻质金属风杯,具有启动灵敏,惯性小等特点,而人工站启动风速要求高,对小风不敏感,风杯大,惯性也大,精度低。仪器高度不同。人工站一般在办公室楼顶,高出自动站5-10米,造成人工站大风时会略偏大。仪器周边环境不同。人工站和自动站相距30-80米,人工站受周围遮挡物影响更多,造成风向风速和自动站均有所不同;观测时间不同,存在2-4分钟的差异。对最大可能有影响。平均风速—误差原因分析差异性--自动站与人工站对比累计雨量相对差值最大正相对差值最大负相对差值平均相对差值4月15.33%-2.03%3.88%5月19.91%-0.62%4.00%6月12.12%-1.06%3.12%7月14.82%-1.37%2.30%8月13.65%-2.44%2.88%9月20.11%-4.87%3.48%10月20.39%-4.21%3.70%4-10月合计14.30%-0.37%1.90%降雨量—相对差值月变化差异性--自动站与人工站对比我省年降水量主要呈现“南多北少”的空间分布状态,即雨量越大,自动站的雨量可能偏高越大

降水量-相对差值空间分布差异性--自动站与人工站对比以自动站偏大为主,个别台站年降雨量差值超过15%降雨量—差值频率分布差异性--自动站与人工站对比自动站数据没有对数据的连续性产生影响。而自动站没有通过检验的台站,对应的人工站也没有通过检验,说明这种观测方式的转变对数据一致性没有产生明显影响。降雨量—显著性检验(t检验)差异性--自动站与人工站对比自动站降水量随降随记,而人工站一天只观测2次,间隔时间比较长,气温较高时,蒸发而使得人工站偏小;自动站雨量采集器是靠翻斗计数,每次翻动为0.1mm,降水较大时候,快速翻动,翻斗的水可能还没有倒干净又已经翻动了,造成自动站比实测明显偏大;人工站和自动站相距5米左右,雨量筒口径也不同,从而在某些天气条件下强降水的落取不同,造成两者有所差异。人工站雨量筒刻度密集,观测时容易误读;由于人工站要分次量取雨量,在换储水瓶的过程中,降水强度大的话,也会造成很大的误差。降雨量—误差原因分析差异性--自动站与人工站对比第三节数据代表性分析完整性一致性均一性代表性综合结论数据完整性如何?是否会影响使用?和周边数据差值是否有变化趋势?相关系数是否通过检验数据是否连续?仪器更换、探测环境改变对数据是否有影响?完整性

资料各要素按照月值(日值、定时值)来统计缺测率及数据缺测年月分布状况分类1类2类3类4类总缺测率(%)0<0.5%0.5%~3%>3%完整性评估序列完整完整性较好完整性一般完整性较差完整性—铜陵站址变动分析要素缺测率(%)缺测年月完整性分类平均气温0.351967年8、9月2最高气温0.691967年8、9月、1979年1月

2008年10月3最低气温0.521967年8、9月、2008年10月3降水量0.351967年8、9月2平均相对湿度0.351967年8、9月2平均风速(2分钟)1.221967年8、9月、2002年4、9月、2003年6、10、12月3其中平均气温、降水量、相对湿度三个要素属于2类,序列完整性较好。而最高气温、最低气温以及平均风速(2分钟)属于3类,序列完整性一般。总体上看,铜陵站现址观测资料序列较为完整。第三节数据代表性分析(一)完整性(二)一致性(三)均一性第三节一致性差值比较—查看差值的变化趋势趋势比较—进行相关系数检验,比较趋势系数区域一致性--参考站选取1,与拟迁台站序列平行年代长,环境变化少,拔海高度相差较小,长年代没有迁址或其迁址时间与分析时段没有重合的2~3个台站2,应尽量选取乡村站或小城镇站作为参考站;3,参考站应进行完整性分析,尽可能选用序列完整性较好的资料序列观测员轮训课件\安徽迁站情况统计.XLS区域一致性—差值比较1,计算拟迁台站观测资料序列与参考站序列的差值,并绘制逐年差值随时间变化的曲线图;2,分段计算拟迁台站观测资料序列和参考站资料序列每5年和10年的平均差值,绘制分段平均差值随时间变化的曲线图;3,结合图形分析安庆站区域一致性—差值比较

安庆站与参考站的年平均气温序列自1977年以后一致性开始变较差,1994年后更为明显。这种不一致产生的原因是安庆站受城市化影响以及现址探测环境改变引起的,而不是观测仪器和气候变化导致的。

安庆站现址建站初期虽地处北郊,四周多菜地,但由于城市工业化发展迅速,现址周边逐渐形成居民生活区、企业生产区以及教学区,安庆站所处地段很快成为主城区,尤其是1994年后,观测场东北、东、南面先后建成企事业办公、教学楼房,探测环境恶化。安庆站气象要素数据明显受城市化影响。区域一致性—差值比较

时间要素安庆与庐江安庆与黟县安庆与祁门1977-1993年1994-2009年差值1977-1993年1994-2009年差值1977-1993年1994-2009年差值年平均气温(℃)0.91.20.30.81.30.51.01.30.3可以看出,安庆站降水量大多数年份少于参考站,与参考站的年降水量差值序列无明显趋势,由于降水局地性较强,可以认为安庆站与参考站的年降水变化基本一致。安庆站迁现址到2001年相对湿度开始有减小趋势。初步分析与城市的发展有关,现址由地处城市的北郊,发展成为主城区,相对湿度差值自迁现址到2001年逐渐变小,再加上仪器换型原因,因此可以认为,安庆站与参考站的年平均相对湿度自迁现址后一致性较差。

安庆站与参考站的年平均风速差值有3处异常,分别是1967年前后,1977年前后,1992年前后,其余年份基本保持减小的趋势。差异较大年份差值达到2m/s,而差值较小的年份仅0.5m/s,振幅较大。查询历史沿革文件发现:1967年测风仪器由维尔德测风器换型为EL型电接风向风速计;1977年迁站到现址;1992年测风仪器高度发生变化,由地面观测场安装到五楼平台,高度增加近15米,且1992年测风仪器安装到楼顶的原因就是因为地面风速过小,常年没有大风记录。综合上述原因,可以认为安庆站风速受城市化以及探测环境影响有明显减小的趋势,与参考站的一致性较差。区域一致性—趋势比较1,对拟迁台站观测资料序列和参考站序列分别求取线性趋势2,并绘制拟迁台站观测资料序列与参考站序列趋势变化曲线图3,分析拟迁台站资料序列与参考站序列的趋势变化差异。趋势比较—气温安庆站与参考站气温随时间变化均为上升趋势,增温速率分别为0.38℃/10a、0.19℃/10a,上升速率是周边站的2倍。安庆站与参考站的趋势线偏差逐渐增大,逐年变化曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论