PMF正交矩阵因子分解软件翻译_第1页
PMF正交矩阵因子分解软件翻译_第2页
PMF正交矩阵因子分解软件翻译_第3页
PMF正交矩阵因子分解软件翻译_第4页
PMF正交矩阵因子分解软件翻译_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PMF是一个多变量因素分析工具,它把采样数据矩阵分解成两个矩阵:系数的贡献(G)和因字数(F),这些因子情况需要用户利用测得的源配置文件信息,以及排放或排放清单进行解释,以识别对样品有贡献的的源类型 。该方法在这里简要回顾,在其他地方更详细地描述。结果使用约束:没有样品可以有显著负贡献。PMF的使用样品的浓度和用户提供的不确定度进行各个点加权。 此功能允许分析人员占信心在测量。例如,检测限下面的数据可以被保留用于该模型中,与相关联的调整的不确定度,以便这些数据点比测量高于检测限的数据点,对解决方案有较小的影响。因子贡献和因字数使PMF模型目标函数Q最小化。Q是PMF的一个关键参数,两个版本的Q

2、显示在模型运行。Q(真)计算是包括所有点的拟合优度参数。Q(鲁棒)是计算排除不符合模型的点(定义为样品的量的不确定度残差大于4)的拟合优度参数。Q(真)和Q(鲁棒)的区别在于测试残差高的数据的影响。这些数据点可能与来自源的峰值影响相关联EPA PMF需要底层多线性多次迭代(ME),以帮助识别最优化的因子贡献和因字数。这是由于在ME算法的性质 ,用随机生成的因子数开始搜索因子配置文件。这一因素配置文件使用梯度的方法来绘制的到最佳的解决方案的最优路径。在空间方面,该模型利用观察构建多维空间,然后使用梯度的方法来遍历空间 沿着这条道路找到最佳解决方案。最佳的解决方案通常是由沿着路径的最低Q(稳健)值

3、(即最小Q)所识别,可以被想象成一个槽的底部在一个多维的空间中。由于起点的随机性(由种子值和它表示的路径来确定),不能保证该梯度方法总能找到多维空间(全球最低)的最深点; 它可能找到一个局部的最低水平。为了最大限度地达到全局最小,该模型应为一个开发的解决方案运行20次和100次对一个最终的解决方案,每次以不同的起点。因为Q(鲁棒)不被那些没有被PMF拟合的点影响,它被用作一个关键参数从多个运行选择最佳的运行。此外,可变性 Q(稳健)提供了一个指示(初始运行结果是否有显著变化),因为用来启动梯度算法的随机种子在不同的位置。如果数据提供稳定的路径到最小,则间Q(可靠)的值在不同运行之间将会变化很小

4、(判据)。在其他情况下,该起始点和由数据定义的空间的组合会影响到最小值的路径,导致Q(鲁棒)的值变化;最低Q(健壮) 值默认使用,因为它代表了最优化的解决方案。应当注意的是 Q值的微小的变化并不一定表示该不同的运行具有的小的差异在源成分之间。由于化学成分变化或过程变化引起的变异可能会造成因子配置的显著差异在PMF运行中。提供两个诊断去评估不同运行间的差异:内部运行残差分析和物种分布的因素总结相比那些最低的Q(稳健)运行。用户必须评估PMF中的所有的错误估计去理解模型结果的稳定性;算法和ME输出 在Paatero等人进行了描述。 (2014年)。PMF的解决方案的差异可以使用三种方法估计:1、

5、自举(BS)分析用于确定是否有一个小的观察组可以不成比例地影响解决方案 。BS误差区间包括随机误差和部分包括旋转歧义的影响。旋转歧义是由PMF产生的在许多方面相似的无限的解决方案引起。也就是说,对于任意一对矩阵,可以通过简单的旋转一对矩阵可产生无限变化。只有一个源的贡献非负的约束,不可能限制这个空间旋转。BS错误估计通常是坚固的和不被用户指定的样品的不确定度影响。2、 替换(DISP)是一种分析方法,它可以帮助用户了解解决方案的更详细的细节,包括其对微小变化的敏感性。DISP误差区间包括旋转歧义的影响,但不包括数据中的随机误差的影响。数据的不确定度将直接影响DISP误差估计。因此,向下加权的物

6、种的误差区间很可能大3、 BS-DISP(混合方式)的误差区间包括随机误差和旋转歧义的影响。 BS-DISP结果比DISP结果更加可靠,因为BS-DISP的DISP相不像DISP本身那样强烈的置换。这些方法在三个空气污染数据集中被应用在Brown等人。 (2014年)。本文提供了基于环保局误差估计应用的解释。Paatero等人(2014)和布朗等人(2014年)文献是美国环保署的PMF的重要参考,两者都提供了错误估计的详细信息和他们的解释,这只简要介绍在本指南中。1.2多线性发动机如上所述,两种常见的方案解决了PMF的问题,最初, PMF2解决方案(Paatero,1997)被使用。在PMF2

7、,非负约束可能被加在因子元素和最小二乘拟合时,测量将会被单独进行基于不确定度。有了这些功能,PMF2是环境数据的受体模型的显著改进对以前的主成分分析(PCA)技术。然而,PMF2是有局限的,因为它被设计来解决一个非常具体的PMF问题。在20世纪90年代后期,ME,一个更灵活的方案,开发出来(Paatero,1999)。这个方案,目前在它的第二个版本,并称为ME-2中,包括与PMF2许多相同的特征(例如,用户能够进行单独的加权测量,并提供非负约束条件);然而,不像PMF2,ME-2的结构使得它可以用来解决各种多线性问题,包括双线性,三线性和混合模型ME-2是通过将两个单独的步骤结合来解决PMF问

8、题。首先,用户定义感兴趣的PMF模型的表。然后,一个自动化的二次程序读取表格模型参数,并计算该解决方案。当采用EPA PMF解决 PMF问题,第一步是通过由所述EPA PMF的用户界面产生的输入文件取得。一旦指定了模型,数据和用户规格由EPA PMF送入二次ME-2程序。 ME-2解决了PMF的迭代公式, 最小化求和-平方对象函数,Q,通过一系列的步骤,如图1。 一个稳定的解决方案已经达到,当额外的迭代用来降低提供的Q值递减。通过以上三个层次的迭代,寻求解决方案从粗到细规模。迭代的第一级识别空间解决方案的整体区域。在这个水平上,Q的变化(DQ)需要小于0.1超过20个连续的步骤且不到800步。

9、第二个水平识别的最终解决方案的附近。这里,dQ的要求小于0.005超过50个连续的步骤且不到2000的步骤。第三级收敛到最佳的Q值(Paatero,2000),其中dQ的应该小于0.0003超过100个连续的步骤且小于5000的步骤。ME-2通常需要小数据集(小于300的观察)的几百次迭代和高达2000对于大型数据集(Paatero,2000)。如果没有找到一个解决方案,满足三个层次任何一个的要求,那么解决方案是不收敛的(Paatero,2000年)。从ME-2的输出由EPA PMF读取,然后格式化由用户解释。此外, EPA PMF具有通过ME-2和EPA PMF实现的三个错误估计方法。ME-

10、2和PMF2模型的结果之间的差异已通过相同的数据集各模型的,其结果的比较应用研究在几个研究中。总的来说,这些研究显示了主要成分的相似的结果,但在PMF2溶液中的更大的不确定度(斋戒等人,2003),并使用ME-2更好。盲源分离(Kim等人,2007)。在最近的两个出版物,要素配置文件限制由ME-2的应用导致了发现的来源数量较多(阿马托等人,2009;阿马托和Hopke,2012)。EPA PMF5版本采用了最新版本的ME-2和PMF的脚本文件,该文件 通过Pentti Paatero在赫尔辛基和雪莱埃伯利大学几何被开发 工具(2014年3月3日;me2gfP4_1345c4.exePMF_bs

11、_6f8xx_sealed_GUI.ini)2 PMF的使用PMF已应用于多种范围的数据,包括24小时分辨率的PM 2.5数据,气溶胶粒度分辨,沉降物,有毒气体,高时间分辨率的测量,从气溶胶谱仪(AMS)得到的和挥发性有机化合物(VOC)的数据。参考部分(第9部分)提供了PMF引用的众多参考。关于PMF应用的更多讨论可在多元受体建模工作簿中见到(Brown等,2007)。我们鼓励用户阅读与他们的数据有关的论文以及源解析论文。用于PMF分析的方法已经改变了,例如限制已提供。重要引用总结于表1中。PMF需要一个数据集通过多个样品检测得到的一组参数。例如,PMF常用于100个样品以上包含1020个物

12、种的PM2.5数据集。不确定度数据集,分配了每个种类和样品的不确定度值。不确定度计算使用以往的不确定度或其他可用信息例如采样精度。3、 PMF5.0安装4、特点通过PMF5.0可获得以下特征1整理数据 列在表中可以通过左键点击列标题进行排序。点击一次会以递增顺序对项目进行排序,点击两次将降序排序。如果列已排序,箭头会出现在标题显示在它的排序方向2保存图像所有图形输出可以通过右键单击图像以各种格式保存。可用的格式是.GIF及.BMP,.png和.TIFF。在同一个菜单中,用户可以选择复印或打印图形。一种堆叠图形选项也可以把因子或者时间序列结合在一个页面。当“复制”时,图形将被复制到剪贴板。在“打

13、印”时,图形将自动发送到本地机器上的默认打印机。当保存一个图形,会出现一个对话框,以便用户可以改变文件的路径和文件的输出文件的名称3出图任何图形可以在新窗口中打开通过右键单击图,并选择浮动窗口。根据需要,用户可以打开多个窗口。但是,当模型参数和输出改变时,浮动窗口的图形不更新。 4调整表内部分许多标签都用灰线分隔成多个部分(图2,红色箭头指向的灰色条使用户可以调整高度和宽度)。这些部分可以通过点击灰色的线并将其拖动到所需的位置调整大小。 5显示选定的数据点当用户移动光标到一个散点图或时间序列图的一个点,点用虚线正方形括住,状态栏上显示的信息是该点的信息。6在列表和表中使用箭头键选择(点击或Ta

14、b键)一个菜单或表,键盘上的箭头键可用于改变所选择的行。7访问帮助文件。大多数屏幕的左下角有一个“帮助”快捷方式 提供用户访问的帮助文件与当前屏幕有关的主要功能8使用状态栏大多数屏幕都在窗口底部的状态栏提供了额外的信息给用户。根据所选择的选项卡,这些信息在变动。各个选项卡的详细信息将在本指南后面的章节中讨论。浓度屏幕上散点图的状态栏的例子显示在图2的底部。5开始启动每次PMF5.0程序启动时,有关该软件的各种版权的发展信息的闪屏将显示。用户必须单击OK按钮或按空格键或回车键继续。EPA PMF的第一窗口是数据模型选项卡下的数据文件,如图3,在该屏幕上,用户可以提供文件的位置信息,并进行所需的选

15、择。这个屏幕具有三个部分:输入文件(图3,1),输出文件(图3,2),和配置文件(图3,3),每一个在下面有详细描述。 EPA PMF5.0可以读取多个站点的数据; 物种浓度的时间序列图或源的贡献在将显示以相同的顺序像用户提供数据那样,PMF显示垂直线区别不同的站点。在数据文件屏幕底部的状态栏显示该项目的哪部分已经完成。在数据文件屏幕底部的状态栏显示该项目的部分已经完成。在任何用户输入数据文件之前,屏幕上状态栏红色显示“NO浓度数据,没有不确定度的数据,没有基础的结果,无自举结果,无BSDISP结果,和NO DISP结果”。当任务完成后,“否”替换为“有”,颜色变为绿色。在图3的例子中,浓度和

16、不确定度的文件已经提供给程序,所以前两个项目上的状态栏是绿色的。基本运行,BS运行, BS-DISP运行,DISP运行尚未完成,因此最后的四个项目是红色的。巴尔的摩pm文件(数据集巴尔的摩背景和数据set_Baltimore_unc.txt)是安装包的一部分,可以在被发现在“C:文件 EPA PMF Data”文件夹,如果用户使用的是默认安装模式 安装设置。5.1输入文件PMF所需的两个输入文件:(1)样品的物种的浓度值和(2)样品的物种的不确定度,或用于计算不确定度的参数。 EPA PMF接受制表符分隔(.txt),逗号分隔值(CSV),和Excel工作簿(.xls或.XLSX)文件。每个文

17、件可以被加载通过输入路径进入“数据文件”框中输入或浏览到相应的文件。如果文件包含多个工作表或命名区域,用户将被要求选择他们想要使用的一个。浓度的文件具有物种如行所示和日期,样品编号如列所示,都有一个标题(图4)。所有标准的日期和时间被接受,他们被列在日期格式下拉列表中。四个可能的输入选项被接受:(1)只用样本ID,(2)只有日期/时间,(3)样品ID和日期/时间,(4)不带ID或日期/时间。单位可被包括作为浓度文件中的第二标题行,但不做要求,单位不包括在不确定度文件。如果单位是由用户提供的,它们仅被用于图形用户界面(GUI)的轴标签,不会被所用的模型使用。空白单元不被接受;用户将被提示检查数据

18、,然后再试一次;品种名称不能包含逗号。如果小于-999的值被发现在数据集,程序会给出一个警告信息,但将继续进行。如果这些值并不是真值或指示是缺失值,用户应该修改程序之外的数据文件,并重新加载数据集。此外,每个品种的名称必须是唯一的。用户必须指定日期/时间和ID/站点列假如它们包含在输入数据里。基本PMF功能展示了使用单一站点的数据和多站点的数据的例子示于第8.1节。多个站点的数据应当把站点和日期/时间加载到PMF之前进行排序。线划定样品ID将不会被显示出来如果缺失值是出现在样品ID之间的过渡和 “排除缺失样本”选项将会被选择;缺失过渡的样本应该被移除或“用样品中位数代替缺失的样本”的将会入选。

19、图中输入文件画面的例3。样品种类的不确定度应该包括错误,如取样和分析误差。对于某些数据集,分析实验室或报告机构提供了每个值的一个不确定度估计。然而,不确定度并不总是报告,当它们不可用时,误差必须由用户进行估计。不确定度的的计算讨论在文献等人提供的。 (2007年)。EPA PMF5.0接受两种形式的不确定度的文件:基于观察和基于方程。观察为基础的不确定度文件提供每个样品中的物种的不确定度的估算。它应该与浓度文件具有相同的尺寸和第一列仍然是日期,日期时间或样本号;然而,不确定度 文件中不包括单位。如果浓度文件中有包含单位的行,该不确定度的文件将比浓度文件少一行。如果浓度和不确定度的列和行标题不相

20、符,用户将得到通知,但该程序将继续进行。此外,该程序将检查以查看在浓度和不确定度的文件中的日期或样本数是否一致。如果有一个不匹配的数据,程序将不会允许进行评估。如果表头是不同的,由于命名,但实际上具有相同的顺序,用户可以继续进行下一个步骤。如果不是,用户应纠正GUI以外的问题,并重新加载这些文件。负值和零不能作为不确定度值; EPA PMF将提供一个错误信息,并且用户必须从EPA PMF中删除这些值,并重新加载该不确定度文件。以方程为基础计算不确定度提供EPA PMF5.0用于计算每个样品不确定度的特异性参数。这个文件应该具有的物种分隔的行,与物种的名称(图5)。下一行应该是物种特异性的方法检

21、出限(MDL(方法检出限),随后是不确定度的行(物种特异性)。任一检测限或不确定度百分数都不允许零和负值。如果浓度小于或等于所提供的MDL(方法检出限),不确定度(UNC)的计算使用MDL(方法检出限)的固定部分(公式5-1; Polissar等,1998)。Unc =5/6.MDL(方法检出限) =如果浓度大于提供的MDL(方法检出限),该计算是基于用户提供的浓度分数和MDL(方法检出限)(方程5-2)基于方程的样本不确定度文件(数据集巴尔的摩等式)已在C:文档 EPA PMF Data文件夹中提供了。该方程为基础的不确定度是有用的,如果仅MDL(方法检出限)和误差百分比可用;然而,这种方法

22、不会捕获与特定样品相关联的错误。由方程为基础的方法计算出的不确定度,由于简化,不与巴尔的摩unc.txt匹配。用户可以在屏幕上的输入文件中指定一个缺失值指标(可以是任何数值)的数据文件。用户不应该选择一个数字指标那可能是一个真正的浓度。例如,如果用户指定的“-999”作为缺失值指示符,以及选择要替换该物种用中位数,程序将找到的数据文件中的“-999”的所有实例,并将它们用物种特异性中位数替代。该程序将取代所有相关的不确定度值,用一个比物种特异性中位数4倍高的不确定度。如果所有样本的一个物种的丢失,该物种被自动归类为“坏”,并排除进一步分析。缺少的值指示符被用在输出的文件。如果显示一条消息,浓度

23、和不确定度的文件中的日期/时间不相匹配,用户需要检查文件的日期/时间,并能够在评估PMF中的数据之前,重新加载数据。如果日期/时间在这两个文件是相同的,尝试以不同格式保存的浓度和数据文件,如.csv或.txt。5.2输出文件用户可以指定输出目录(“输出文件夹”),选择环保局PMF输出文件类型(“输出文件类型”单选按钮),并定义一个输出文件的前缀(“输出文件前缀”),前缀将被添加到每个文件的开头;例如在图3的例子中,文件将被保存为Balt_profile.xls。对于在用户指南中的示例中,前缀用星号(*)。“输出文件类型”包括制表符分隔的文本(。txt),逗号分隔值(。CSV)或Excel工作簿

24、(的.xls)。 “输出文件前缀”是将被作为任何输出文件的第一部分;该前缀可以包含任何字母和/或数字(例如其它字符 “ - ”和“_”是不允许的)。如果在启动一个新的运行前不改变这个前缀,警告将被显示。如果输出为Excel工作簿被选择,两个输出文件将自动被创建由EPA PMF在基础运行期间,并保存在由用户选择的我的文档 EPA PMF输出文件夹:*_base.xls和* diagnostics.xls.每一个文件有标签和PMF结果。*_base.xls 轮廓,贡献值,残差,运行比较 *- diagnostics.xls 总结,输入,基本运行如果选择分隔的输出,在基本运行选项卡上的相应的信息将作

25、为单独的文件提供并且诊断选项卡上的信息将合并到一个文件中。以下列表提供关于被保存在Excel中输出文件中的数据的细节。进行引导后,附加文件被创建和保存:(*_profile_boot),DISP (*_DISPres1,*_DISPres2,*_DISPres3,*_DISPres4),BS-DISP(*_BSDISP1,*_BSDISP2,*_BSDISP3,*_BSDISP4),FPEAK(*_fpeak),和/或约束的模型运行(*_Constrained)。DISP和BS-DISP的这四个文件输出为是为每个dQmax;使用了最低dQmax的运行在图形和输出文件总结中使用了。文件 *_Er

26、rorEstimationSummary提供了使用BS,DISP,和BS-DISP错误估计已经完成的基本运行和错误总结。文件*_profile_boot包含了BS映射到每个基础运行的次数,每一个被映射到基础轮廓的BS轮廓,和由GUI生成的所有的引导统计。该文件*_fpeak包含轮廓和每次FPEAK运行的贡献。当多个基础模型运行完成后,默认情况下,只有以最低Q(robust) 值运行的运行保存到输出端,但用户可以选择在输出中包含的所有运行通过取消选择“只有选定的运行输出。 5.3配置文件EPA PMF提供了在一个配置文件中保存优先运行和输入参数的选择。用户必须对屏幕输入文件上的配置文件提供一个名

27、称来创建一个配置文件。保存在配置文件中的信息包括数据文件屏幕的一些信息 (如,输入文件,输出文件的位置和输出文件类型),浓度/不确定度屏幕上的物种分类,基础模型屏幕上的所有运行规范,FPEAK旋转屏幕,约束模型运行画面。模型输出不保存为配置文件的一部分;然而,如果随机开始按钮被选中,模型随机起点或种子数目将被保存。为了选择一个配置文件,用户可以点击“浏览”,浏览到正确的路径或键入一个路径和名称。用户也可以按“加载上次”按钮或直接按键盘上的“Enter”键加载最近使用的配置文件。 “保存”和“另存为”按钮可用于将当前设置保存到现有的或新的配置文件。配置文件可以被用在多台计算机或与合作者共享,从而

28、避免喜好一长串复制结果。使用“浏览”按钮找到并加载配置文件。浓度和不确定度的文件的位置必须在下一步确定。 PMF不存储过去的运行数据;然而,相同结果可以很容易地通过PMF计算只要使用相同的因子数,运行,以及固定的种子(随机开始没有被选中)。5.4建议的操作顺序图形用户界面被设计当运行PMF模型时给用户尽可能多的灵活性。但是,某些步骤必须完成以利用所提供的工具的潜能。操作的顺序主要基于标签和功能在程序中怎样安排(从左至右)(图6,图7,图8);本用户指南中的部分也按照这个顺序。开始使用该程序时,在其他操作可用之前,用户必须提供输入文件通过数据文件屏幕。在第一次,PMF对数据集执行时,用户应通过浓

29、缩/不确定度,浓度散点图,浓度时间序列和数据异常画面分析输入数据。这一步通常后跟基本模型选项卡下的基本模型运行和基本模型结果;根据需要,这些步骤应重复,直到用户达到一个合理的解决方案。该解决方案使用误差估计进行评估,以DISP开始,和进展到BS与BS-DISP;来自误差估计方法(DISP,BS和BS-DISP)的输出提供了关于该方案的稳定性的关键信息。所有这三种错误估计方法都需要了解与解决方案相关的不确定度。 高级用户可能希望启动以一个选定的基础运行为基础的FPEAK运行或限制的模型; 在旋转工具选项卡下,这两个选项都可用。5.5分析输入数据运行模型前有几个工具可以帮助用户分析浓度和不确定度的

30、数据。这些工具可帮助用户决定某些物种是否应被排除或向下加权(例,由于增加了不确定度或低信号噪声比),或者某些样本是否应排除在外(例如由于一个异常事件)。所有更改和删除应报告的在最终解决方案。四个屏幕用于分析输入数据如下所述。5.5.1浓度/不确定度输入数据的统计和浓度/不确定散点图呈现在浓度/不确定度画面,如图9所示。以下统计计算每个物种和显示在屏幕左边的表中(图9中,1):其中,n表示所选择的变量的非缺失值的数目; p是感兴趣的百分位; I是L(N,P)的整数部分; F表示L(N,P)的小数部分; W1, W2和W3是权重; P是在p 个百分点;和X1,X2. XN表示感兴趣的变量的有序值。

31、EPA PMF的S / N的计算在新的版本已经进行了修订。先前,在给定物种的S / N基本上是由不确定度值的总和除以该浓度值的总和。而事实上,这可能导致在某些特定情况下不同的问题。虚高的S / N值将从物种屈指可数的高浓度事件获得,导致一个S / N实际上可能比另一个更稳定的信号的物种的S / N更高。更为严重的是,人为的低S / N值可能出现在有几个遗漏值的物种上。缺失值通常由非常大的不确定度值降低权重,通常(远)高于物种中的最大浓度值。如果先于摄取到EPA PMF之前对数据做这一步,这种膨胀的不确定度值就会在S / N的计算中膨胀N,从而导致S / N足够小,以使一个分类完美的“强”变为“

32、弱”。后一个问题已多次在实际工作中观察到。此外,小的负浓度值的存在,在环境数据中并不罕见,可以人为地降低S以致一个物种的S / N。 在修改后的计算中,仅超过了不确定度的浓度值对S / N计算的信号部分有作用,因为浓度值基本上等于信号和噪声的总和,因此,信号是浓度和不确定度之间的区别。两个计算执行来确定S / N,其中,低于不确定度的浓度值被确定为没有信号,并且高于不确定度的浓度:浓度()和不确定度(SI)之间的差值被用作信号(公式5-3):这个新的S / N的计算结果是浓度总是低于其不确定度的物种S / N为0.与浓度是不确定度值两倍的, S / N为1,S/ N大于1的通常表示一个物种“好

33、”的信号,虽然这取决于不确定度如何进行测定。负浓度值对S / N无贡献,和有屈指可数的高浓度的事件的物种将不会有虚高的S / N。虽然有许多方法来确定S / N,在EPA PMF新版本所选择的一个可能会环境数据分析中更有益,与之前的版本相比,但需要提醒的是S / N只是许多筛选数据的分析之一。基于这些统计和分析和取样问题的认识,用户可以把一个物种分类为“强”,“弱”或“坏”,通过选择该品种在输入统计数据表中(图9,1),并按桌面下相应的按钮(图9,2)。此外,ALT + W,Alt + B键和Alt+ G可以用来改变一个物种类别,弱,差, 或不错。所有物种的默认值是“强”。 分类为“弱”的物种

34、三倍其所提供的不确定度,分类为“坏”的,在余下的分析中全部排除。如果一个物种被标记为“弱”,该行显示为橙色;如果一个物种被标记为“坏”的,行高亮显示为粉色。当为每个物种选择种类,用户应该考虑的是,源的存在可能对物种有贡献根据测得的文件,点源的示踪元素可能有罕见的影响,缺失或低于检测限的样品的数目,关于物种的收集或分析的众所周知的问题,以及物种的反应。关于这些考虑的讨论在R等的文献中提供。来源,取样和不确定度分析的详细知识是决定物种类别的最佳方式。如果对数据集的详细信息不可用,S/ N比可以被用于一种或多种物质的分类。保守地使用S/ N比来进行分类,如果S / N比小于0.5,该品种分类为“差”

35、,如果S / N比大于0.5,但小于1,为“弱”。对于样本提供的安装包(数据集,Baltimore_con.txt和数据集中,Baltimore_unc.txt)的巴尔的摩的数据集,这些准则将铝,砷,钡,氯,铬,锰和硒分类为“坏”和铅,镍,钛和钒为“弱”。 通过改变物种类别为“弱”或通过添加额外的模型不确定度引起用户提供的不确定的任何改变应该由用户记录并报告最终的解决方案。对于熟悉EPA PMF的用户,表2显示了巴尔的摩输入信息的总结,它应用在第5及6部分演示PMF。本总结信息将呈递给当学习美国环保署的PMF5.0的新功能和结构时愿意来运行软件的用户。浓度/不确定度散点图被显示在屏幕的右侧(图

36、9,3),图中显示的浓度和用户提供或PMF计算的不确定度之间的关系。输入数据统计表格中的被绘制的因素被选择,通过点击物种行或向上和向下滚动,一次只能显示一个物种。每个种类的统计示于表:S/ N;最小值(MIN),第25,第50,和第75 百分位;最大值(Max),模型样品(由与所选物种匹配的非缺失的样本的数目除以输入样本的总数),和原始试样(由非缺失的输入样本数目除以输入样本的总数量)。例如,如果四个位点有相等的数据点数目和没有缺失数据被摄入,且只有四个位点中的一个位点被列入建模,“模型样本”=25,而“原始样本”为100,因为有当摄取时没有数据直接减少。如果在摄入数据中有丢失的数据,而对缺失

37、数据进行“排除整个样本”选择,包括模拟和原料将会降低。最后两个值是重要的,因为PMF要求所有的好或弱类物种对被包括在PMF运行中的样品是不可缺少的。在模型样品和原样品可用于鉴定物种,该物种可用于限制在一个运行中使用的样本的总数 X轴是浓度,Y轴是不确定度,并且该图表标题是物种绘制名。如果用户改变一个物种分类为“弱,该物种”浓度/不确定散点图将被更新以三倍原来的不确定度,数据点会变为橙色正方形。如果用户改变一个物种分类为“坏”,该物种图将不会显示。典型的浓度和不确定度的关系是曲棍球棒的形状当在低浓度下MDL(方法检出限)占主导地位的不确定度,成为线性当浓度的百分比占主导地位的不确定度。不按数据的

38、总趋势的不确定度的点,应该通过读取可用的采样和分析报告进行进一步评估。用户还可以增加“额外模型不确定度(0-100)”施加到所有物种,通过在屏幕的右下角的框中输入一个值(图9,4)。此值包括各种误差,不考虑测量或分析误差和这两个误差被包括在用户提供的不确定度文件中。可能导致模型误差的事件包括的源配置文件变化和大气中的化学变化。该模型使用“额外模型不确定度”变量来计算“sigma西格玛”,这相当于总的不确定度(模型的不确定度加上物种/特定样品的不确定度)。如果用户指定额外的模型不确定度,所有的浓度/不确定度的图将被更新以反映增加的不确定度。如公式1-2所示,不确定度值是PMF模型的重要输入。在该

39、屏幕上,用户还可以指定“总变量”(图9,2),后期,程序将用它处理结果。例如,如果所使用的数据是PM2.5组分的,总的变量将是PM2.5质量。用户通过指定种类选择总变量和按输入数据统计表格下方的“总变量”按钮。由于一个总变量对解决方案应该不会有一个大的影响,因此它应该给予高的不确定度。因此,当一个物种被选为总变量,它的分类是自动设定为“弱”,如果用户已经在PMF之外调整了总变量的不确定度,并希望把它归类为“强”, 默认特性可被覆盖通过选择“强”为变量在选择“总变量”后。指定的“坏”一个物种不能选择作为一个整体变量,总变量也不能指定为“坏”。在浓度/不确定度屏幕的状态栏显示每一类物种的数量以及用

40、户排除样本的百分数。热键可以用来指定“强”(ALT-S),“弱”(ALT-W),“坏”(ALT-B)和“总变”(ALT-T)。用户同时可以通过单击列标题对输入的数据进行排序。点击“物种”和“种类”列对输入的数据将按照字母进行排序或反向字母顺序排列。点击其余各列按升序或降序对数据进行排序。返回到原来的种排列顺序(其对应于数据文件屏所输入的浓度数据文件中列出的顺序),用户可以选择“不排序”(图9,2),或者使用热键(ALT-U)。5.5.2浓度散点图物种之间的散点图是一个有用的PMF预分析工具;物种之间的相关关系表示了类似的源类型或源位置。用户应检查散点图寻找预期的关系,以及寻找其他关系,可能表示

41、源或源类别。此浓度散点图屏幕显示两个用户指定的物种(图10)之间的散点图。用户在相应的“Y轴”或“X轴”列表为每个轴选择物种。每个轴只能选择一个物种。一个一对一的线(蓝色)和线性回归线(虚线红色)显示在图上。轴标签是物种名称和单位(如有提供)及图的标题是“Y轴物种/ X轴的物种。” 物种之间线性关系的一些例子指明源的影响:铁和锌的来源钢铁生产和硫酸铵的硫酸根和铵离子来自燃煤电厂。当用户将鼠标放在该点,在窗口底部的状态栏中显示日期,y值,x值,以及回归方程。5.5.3浓度时间序列物种浓度的时间序列图(图11)是有用的,以确定预期的时间模式是否存在于该数据中,以及是否有任何不寻常的事件。通过叠加多

42、个品种,用户可以查看是否有任何不寻常的事件是通过一组物种可能表明一个共同源存在。用户也应当检查应被排除模型的时间序列极端事件(例如,升高的钾浓度在七月四日来自烟花。烟花影响可能在七月四日之前和之后以及除夕(浓度升高对1月1日采样)。用户可以选择多达10种物种名称在浓度时间序列表中通过选中每一个物种名称的旁的复选框(图11中的1)。所选的物种将被以不同颜色显示。要从图中清除所有物种,用户应选择列表下面的“清除选择”。垂直橙色线表示每年的1月1日(如适用)作为参考。带有物种名称和单位的(如果有的话)的一个说明在图顶部提供。该说明对每一个选择自动更新。状态栏显示选择的样品的日期和时间,如果提供了样品

43、的ID,样品的数目包括了总样排除的数目,以及用户排除的样品的百分数。图下面的箭头按钮,或键盘上的左,右键,箭头键,可用于滚动样品。如果一组样品被选择,箭头将指向第一个选择的样品,前进/后退一个样。样品可以从分析中移除通过选择单个数据点用鼠标单击或拖动鼠标移到某个日期范围中。按图下面的“排除样品”按钮将删除样本以及从所有物种中移除(图11中的2)。排除样品可以再次包括进来,通过选择数据点/范围上任何物种的时间序列图和按“还原样品”按钮。”如果一个样品从分析中移除,也不会被包含在由EPA PMF生成的统计信息或图中或者任何模型的输出中,但它不会从原始的用户输入文件中删除。热键可以用来排除(ALT-

44、E)或恢复(ALT-R)选择的样品。一些受烟花爆竹影响的样品被排除在外:02年7月4日,02年7月7日,02年7月8日,02年12月31日,03年7月5日,01/01/05,07/ 03 / 05,07/01/06,而06年7月4日。影响如烟花的影响,对PMF和多变量模型是一个挑战,因为他们是罕见持续时间短的高浓度事件。5.5.4数据异常由GUI引起的输入数据的变化在数据异常画面有详细描述。这些变化包括指定一个物种“弱”或“坏”, 排除一个样本通过浓度时间序列图,或者排除一个样本使用“缺失值指标”在数据文件屏幕的“输入文件”对话框。点击鼠标右键,保存数据异常信息。5.6基本模型运行基本模型运行

45、产生主要的PMF因子和贡献输出。基本模型运行采用一个新的随机种子或出发点用于迭代如果选择了“随机启动”选项。用户可以测试该解决方案是否是局部或全局最小通过使用许多随机种子并检查Q(稳健)值是否稳定。恒定的种子可以通过取消选择“随机启动”对话框进行设置。因子数相同,运行相同的恒定的种子将产生同样的PMF结果,种子也被保存在配置文件中。该配置文件可以被重新加载为PMF解决方案额外的评价,也可以发送给合作者进行PMF解决方案的评价。5.6.1启动基本运行基本模型运行在基本模型标签下的基本模型屏幕启动。下面的参数需要指定:“运行次数”-要执行的模型的运行次数,;这个数字必须是介于1和999之间的整数。

46、运行的推荐数量是20,这将允许评估Q的变化。“因子数”-模型应该选择的适合的因子数目;这个数目必须介于1和999之间的整数。因子数的选择将取决于用户对影响样品的源因素,样品的数目,采样时间分辨率,物种特性的理解。“种子”- ME-2每次迭代的起点,默认是随机启动,这告诉GUI每次运行随机选择一个起点。随机种子数会显示在“种子数”对话框(图12,1)。为了再现结果,取消选择“随机开始”选项,以使所用的种子数目将被保存为.cfg文件的一部分,并因此相同的解决方案创建利用相同的.cfg文件(图12,2)。指定上述参数后,用户应该按基本模型上的“运行”按钮启动基本运行。一旦运行被启动,在屏幕的右下角的

47、“运行进度”框激活。基本模型运行可以随时终止通过按下“运行进度”对话框下的“停止”按钮。在这个对话框中的进度条充满当该运行完成。当运行停止,有关运行的信息将不会被保存或者显示。在基本模型运行屏幕的状态栏与数据文件屏幕一样显示相同的信息。5.6.2基本模型运行总结当基本运行完成后,每次运行的总结出现在基本模型运行画面中的右侧部分在基本模型运行总结表中(图13中的红色框)。 Q值是用公式1-2计算的拟合优度参数,是对模型拟合输入数据进行的很好评估。用最低的Q(鲁棒)的运行被高亮显示,并且只有融合解决方案应进行审查。不收敛表明该模型没有找到任何极小。有几种情况可能导致不收敛,包括不确定度过低或指定不

48、正确或不恰当的输入参数。Q(稳健)和Q(真)值提供了运行的拟合的比较,通过比较残差提供更详细的比较。内运行残差计算与基本模型间的残差相比通过增加每一对基本运行缩放残差的不确定度之间的平方(公式5-5):其中,r是经缩放的残差,i为样品,j是变量,而k和l是两个不同的运行。这些结果显示在一个矩阵中,并且可以用于识别具有显著不同拟合度的运行。此外,对于每个运行一对物种值可以通过增加d值(公式5-6)进行比较。D值在一个基础运行对矩阵里被报告。用户应该检查这个矩阵大的变化,这表明两个运行分导致真正的不同的解决方案,而不仅仅是彼此旋转。如果不同的解决方案被看到,用户应检查d值,这将表明,个别物种在整个

49、运行中具有不同的拟合度。这些因子中的每个因子的物质的浓度分布和种类总和百分比结果也被评估:最低的Q值,最小值(MIN),第25百分位,第50百分位数,第75百分位数,最大值(MAX),平均值,标准差(SD),相对标准偏差(SD* 100 /平均值),和RSD最低Q。物种分布的大的变化可表示因子信息正在改变,由于处理变化,反应性,或测量的问题。这些内部运行变化的结果都记录在*诊断文件,并可以查看通过GUI通过选择诊断选项卡并滚动查看“规模化残差分析。”此外,该相对于最低Q(强大的)运行的物种分布的因子的总结记录在*_run比较文件,并可以通过GUI选择诊断选项卡和窗口下的“运行比较统计查看。5.

50、6.3基本模型结果基本模型运行结果的详细信息在基本模型结果选项卡下的屏幕中提供。以最低Q(稳健)值运行的结果会自动显示。用户可以改变运行次数,通过高亮显示在基础模型运行屏幕的基础模型运行总结表,或在基本模型结果屏幕底部选择运行数目。残差分析残差分析画面(图14)对于选定的运行以多种格式显示缩放残差的不确定度。在屏幕的左侧(图14中的1),用户可以选择一个物种,这将被显示在屏幕中央的直方图中(图14中的2)。直方图显示了在一个给定的箱图中所有缩放的残差(每个箱等于0.5)的百分数。这些图是有用的,对确定模型是否很好的拟合每个物种。如果一个物种有许多规模较大的残差或显示不正常的曲线,它可能是一个很

51、差的不合适的指示。在图14中的物种(硫酸盐)是模拟较好;所有的残差在3和-3之间,且他们是正态分布的。在3和-3之间提供灰线供参考。选择“自动调整直方图”对话框设置y轴最大范围为每个物种最大箱图值的+10。如果选中该复选框,y轴最大值固定为100。残差超过+3和-3的物种需要在OBS/预测散点图和时间序列的屏幕中进行评估。大的正缩放残差可能表明PMF未嵌合该物种或物种的存在于一个罕见源。该屏幕还显示缩放残差大于用户指定值的样品(图14中的3)。默认值是3.0。残差可通过选择上表中相应的选项显示为“日期物种”或“物种日期”。当在左边的列表中选择了一个物种(图14,1),右边的表(图14,3)自动

52、滚动到该物种。观察/预测散点图观察(输入数据)值和预测(模拟)值之间的比较是非常有用的,以确定该模型能很好地适合每个品种。观察值和预测值之间没有强相关性的物种应该由用户进行评估,以确定它们是否应当向下降低权重或排除出模型在观测/预测松散点图屏幕的表显示每个物种相应的基础运行统计(图15,1)。这些数字是用观察和预测的浓度进行计算来表示每个物种与模型适合度。统计数据显示相关系数(R2),截距,截距SE(标准误差),斜率,斜率SE,SE和普通残差(正常残差)的系数。该表还显示残差是否是正态分布的,如通过柯尔莫哥洛夫 - 斯米尔诺夫检验。如果测试结果表明残差不是正态分布的,用户应目视检查直方图外围残

53、差。如果不是所有的统计数据都是可见的,用户可以在表的底部和侧面使用滚动条以显示更多的数据。这些统计数据中还提供在*诊断输出文件。观测/预测散点图(图15中2)示出了对于选定的物种的观察到的(x轴)和预测的(y轴)的浓度。提供一个蓝色的一对一的线以供参考(一个完美的结合会完全一致的在这条线上),和回归线显示为红色虚线。该屏幕(图15)状态栏上显示日期,x值,y值和预测和观察数据之间的回归方程,当滑动鼠标在数据点(图15,3)。观察/预测时间序列该观测/预测散点图屏幕上显示的数据与OB/预测时间序列界面(图16)的数据是相同的。当一个物种由用户选择,种类所观察到的(用户输入)的数据显示为蓝色和预测

54、的(模型)的数据被显示为红色。用户可以查看此屏幕来确定何时模型很好拟合观测数据。如果一个物种的峰值不是由模型产生的,他可能建议排除该物种或改变物种类别至薄弱。该屏幕上状态栏显示时间,样品观察和预测的浓度最接近的黑色垂直点的参考线。配置文件/贡献通过PMF解决的因子都显示在配置文件/贡献屏幕。每个因子显示两个图,一个显示因子文件和另一个显示每个因子对每个样本的贡献(图17)。该因子图,在上面显示出来(图17,1),显示分配到因子的各物质的浓度,为淡蓝色的条纹和红色框中的分摊到每个因子的每个物种的百分比。浓度栏对应左边的y轴,这是一个对数标度。物种的百分比对应于右边的y轴。底部图显示了各因素对总质

55、量的贡献(图17中的2)。此图是正态化的,使得所有贡献对每个因子的贡献平均值为1。在此屏幕上的状态栏(图17中的红色框)显示数据点的日期和贡献,当滑动鼠标在因子贡献图上配置文件/贡献屏幕的底部的下拉菜单使用户可以轻松地比较运行和因子。在左下角开始,每次运行时可通过切换并点击相应的运行数量来选择。用户可以快速比较运行以评估该解决方案的稳定性或确定什么,如果有的话,单个物种或因子在不同的运行之间是变化的。用户可以在PMF产生的因子中间切换,通过使用从左侧的下拉菜单中的左数第二个。因子1是当前选定的。用户可以创建一个因子或时间序列的叠放图通过首先选择因子分布图或因子浓度图解,右键单击查看菜单,选择“

56、叠放图。“如果一个总变量被选择,用户可以选择配置文件/贡献屏幕左下角的“浓度单位”, 以同一个单位显示浓度对总质量的贡献(图18)。如果此选项选择,GUI乘以在那个因子中的总变量质量的贡献。状态栏显示日期,因子贡献,入选总变量,该物种的因子,当滑动鼠标在要素贡献图上(图18中的红色框)。如果没有总变质量被分摊到该因子中,图形不显示,GUI显示“总变量质量为0对此运行/因子。”用户可以在配置文件贡献/屏幕上给一个因子命名,右键点击鼠标查看菜单,选择“因子的名称”键入一个唯一的名称,然后按“Apply(应用)因子名称。”新的因子名称将出现在指纹因子,G-空间叠加,要素贡献,诊断画面。因子1具有高浓

57、度的硫酸盐和铵离子,它代表煤电厂的燃烧二次硫酸盐的形成。从PMF因素识别,需要检讨衡量物种的关系。一些源也很容易识别;工业源,例如,可以通过在锌浓度的峰占主导地位。其它来源可能更加难以识别。该物种Q /预期(Q / Qexp)可以通过配置文件/贡献选项卡(图19)上选择“Q / Qexp”切换显示。Q预期等于(X中非弱数据值的数目) - (数字中,G和F的元素数目加在一起)。例如,五个因子,642的样品,和19个强的物种,这等于(642* 19) - (5 *642)+(5 *19),或8893。.对于每个物种,一个物种的Q/ Qexp是物种经缩放的残差的平方和除以所有Qexp除以强物种数。对

58、于每个样品,Q / Qexp是所有物种经缩放的残差的平方和,除以物种的数量。检查Q / Qexp图是了解PMF解决方案的残差的有效途径,特别是,什么样本和/或物种并没有得到很好建模(即,具有大于2的值)。种类的结果的比较表明,EC和OC具有高的Q / Qexp值,这可能表示机动车贡献可以通过加入其它来源得到更好的解释(图19中的1)。此外, Q/ Qexp值的时间序列示出了两天的物种的浓度与其他天相比适合的不怎么好,(图19,2)。这几天可能有特别的来源影响,应进一步调查。因子指纹每一个物种对每个因子的贡献(百分比)在因子指纹屏幕显示为堆积条形图(图20)。此图可用于确认因子名称和确定个体物种的因素分布。该图仅显示当前选定的运行。要改变运行时,用户可以选择不同的运行次数在残差分析,观测/预测散点图,观测/预测时间序列,或配置文件/屏幕底部左侧角落。G - 空间图G-空间图画面(图21)显示一个因子与另一个因子的散点图,它可以用来评估旋转歧义以及源的贡献之间的关系。一个更稳定的解决方案,将有许多样品在两个轴上的贡献为零,它提供了以更少的旋转歧义更大的稳定性的PMF的解决方案。一个解决方案或源组合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论