




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1. 问题重述我国是一个拥有13亿人口的发展中国家,每天都在消费大量的各种食品,这批食品是由成千上万的食品加工厂、不可计数的小作坊、几亿农民生产出来的,并且经过较多的中间环节和长途运输后才为广大群众所消费,加之近年来我国经济发展迅速而环境治理没有能够完全跟上,以至环境污染形势十分严峻;而且随着我国进出口贸易的迅速增加,加上某些国外媒体的炒作,对外食品贸易中的矛盾也开始尖锐起来,因此建立包括食品卫生安全保障体系在内的公共安全应急机制是关系国计民生和对外贸易的重大而迫切的任务。如何根据有关的调查或检测数据对当时的公共食品卫生安全做出评估是一个关键问题,也就是要求我们根据一些抽样调查数据来建立膳食暴露评估数学模型,具体可分为以下几个问题: 1. 建立人群食物摄入量模型(膳食模型),用于估计不同地区、不同年龄、不同季节、不同劳动强度、不同经济收入的人群每天各类食品的摄入量。2. 建立污染物分布模型,根据食品卫生监测部门日常对市场上的食物的检测数据、食品的流通量以及进出口口岸的检测数据来估计各类食物中各种污染物的分布。3. 建立风险评估模型,根据前两个模型所提供的数据计算得出全国或某地区人群某些污染物每天摄入量的99.999%的右分位点,从而能对全国、某个地区、某类食品的安全状况做出评价,而且能对可能出现的食品安全事件做出预警。2. 模型假设1. 假设各类污染物之间相互独立。2. 假设每人每天的污染物摄入量均来自食品,不考虑其他渠道进入人体的污染量。3. 每人每天的污染物摄入量近似看成是日平均食物摄入量与食物中污染量的乘积。4. 假设所有地区的人对污染物的吸收功能相同。3. 符号说明符号表示符号意义市场上食物的检测数据集进出口口岸的食物检测数据集市场上各类食品的流通量食品的污染量匹配因子地区p、某人i每天摄入食品m的量地区q、食品n含有污染物j的量地区r、某人i摄入污染物j的量第i种蔬菜的平均含铅量第i种蔬菜的平均含砷量STD国家标准初始数据检测性数据符合性数据4. 问题分析本题要求建立一个适合中国情况的膳食评估数学模型,通过这个模型,对某一时刻食品安全风险做出评估,从而反应食品卫生状况的安全性。具体分析如下:对于第一个问题,即建立人群食物摄入量模型,要求估计不同地区、不同年龄、不同季节、不同劳动强度、不同经济收入的人群每天各类食品的摄入量,首先需要获得我国的膳食数据。这批数据本可由调查人员入户调查获得,但由于工作量巨大,所以不便操作,因此我们考虑使用分层多目标抽样方法去获得调查数据。此外,对于我国居民消费的食品种类繁多而引起的调查困难的问题,需要对食品种类进行合理分类,因此我们在国家统计的大类基础上对各大类食品进一步细分,这样既不会影响调查精度,又不会使调查工作量太大。对于第二个问题,即建立污染物分布模型。由于本题未提供抽样调查数据,且网上不易查到,同时在有限时间内不可能亲自去实施调查,为此,我们采用数据挖掘技术生成数据,以模拟调查数据。又由于污染物分布并不是正态的,而且不知道样本应满足的分布,所以一般的参数估计方法不能从样本中得到分布模型,于是我们考虑使用非参数估计的有关理论建立污染物分布模型。对于第三个问题,即建立风险评估模型。该问题的核心就是计算全国或者某地区人群某些污染物每天摄入量的99.999%的右分位点,关键就是根据前面两个模型的结果来建立获取合理风险性数据的模型。获得该数据集后,用统计软件或其他算法易求得其右分位点,从而达到了食品安全评估的目的。5. 模型准备本题从模型建立到最后的模型检验,都离不开大量的可靠的调查统计数据,但目前由于数据寻找困难、调查数据面太广、工作量大等原因,使得数据源的获取成为模型建立中的一个难题。当然,我们也可以用其他领域的调查结果作为本模型的模拟数据,但是会引来很大误差。因此我们采用一种数据挖掘方法来生成模拟数据。.1 生成数据源思想通常产生数据的方法都是在已知分布的情况下模拟产生,但是我们需要的数据并不清楚其分布,因此常规方法不能满足我们的要求。通过查找资料,我们得到2000年和2001年食品中金属污染物监测质量控制结果,它提供了一些主要食品所含污染物量的统计表。但是它只提供污染物含量的平均值及范围,所以我们要从该有限数据来挖掘我们需要的数据,用以建立一个准确完善的模型。为此,我们采用基于云模型的数据挖掘方法,利用云模型中随机性与模糊性的特点,使得构造的数据源隐含了许多潜在知识,这种数据刚好适合我们的要求。以下是我们在数据源生成方法及程序实现上的基本思想:1根据模型需要及经验,人为确定食品数量和食品种类。2根据各类食品的平均含污染物量,用云模型对其进行刻画,然后利用云发生器从概念中随机生成所需的数据。3根据属性间的内在联系给出用规则表示的先验知识,并将这些先验知识进行组合编写出包含这些先验知识的多个数据生成函数,使得利用这些数据生成函数生成的每一条记录能够暗含这些先验知识。接下来,本文首先介绍云模型的基本概念以及基于云模型的数据的生成算法,最后结合我们的实例来说明模拟数据的有效性。5.2 云模型概念模糊集概念有较广泛的应用,但其隶属函数的实质及具体确定方法一直没有得到根本解决,隶属函数一旦被“硬化”成精确数值表达后,在概念定义、不确定性推理等过程中,就不再有丝毫模糊性。而云模型的提出将不确定推理等过程中的模糊性与随机性集成到了一起,较好地解决了以上的问题。定义1 设X是一个普通集合,称为论域。关于论域X中的模糊集合A,是指对于任意元素x都存在一个有稳定倾向的随机数,叫做x对A的隶属度。隶属度在基础变量上的分布称为云。在对模糊集的处理过程中,论域中某一点到它的隶属度之间的映射是一对多的转换,不是一条明晰的隶属曲线,从而产生了云的概念。在云模型中,经过映射,属于一个定性语言值的数值是不确定的,而是始终在细微变化着,并且这种变化不影响到云的整体特征。云的一个特定云滴可能是不重要的,云可伸缩、无边沿、有弹性,云滴的分布特性反映了映射的模糊性和随机性,其整体形状才是最重要的。5.3 云的数字特征正态云模型是表征语言原子最重要最有力的工具,而云的数字特征则反映了定性知识的定量特性。更为简单方便的是,一个基本正态云只需要用期望值,熵,超熵三个数字特征就可以完整地表征出来。期望值:普通正态云的论域X中,对应于隶属度最大值的基础变量x 称为云的期望,它标定了云对象在论域中的位置,即云的重心位置,换句话说,反映了相应的模糊概念的信息中心值。熵:概念模糊度的度量,熵的大小直接决定了在论域中可被模糊概念所接受的范围。由期望和熵便可确定具有正态分布形式的云期望曲线方程:令,有 可见,对于某一模糊概念,其相应的云对象中位于处的元素均可忽略。实际运用中,不难找出类似的元素,所以容易得到。超熵:即熵的熵,反映了云的离散程度。超熵的大小间接地反映了云的厚度。从上面可以看出,云定义的独特之处在于仅仅用3个数值就可以勾画出由成千上万的云滴构成的整个云来,把定性表示的语言值中的模糊性和随机性完全集成到一起。对模糊集A而言,重要的是云的形状反映出的整体特性,以及大量使用时隶属度呈现的规律性。5.4 数据生成算法根据各类食品所含污染物的平均量及含量范围的不同,首先将其属性划分为多个基于云的概念,再利用云发生器生成数据。定义2 给定云的三个数字特征、和,产生满足具有上述特征的正态云分布的若干二维点称为云滴。基本云发生器的示意图如图1所示:云发生器图 1 基本正态云发生器云发生器实际上表达了从定性到定量之间的一个转换。利用云发生器,每一次都给、和输入相同的值,可以得到不同的云滴,虽然这些云滴各不相同,但它们从总体上反映了所要表达的概念,而这些云滴正是我们需要生成的测试数据源中的数据。我们以这些数据作为模拟真实调查数据的来源。设数据库T中存在n个属性,每个属性的数字特征为、和, 。则我们的数据生成算法流程如下: 产生个以为期望,为方差的正态随机数产生个以为期望,为方差的正态随机数输出:测试数据生成云滴输入:数字特征、和及云滴数图2, 基于云模型的数据生成流程图由该算法可以看出,是云的中心位置,的大小和是相关的,它们之间的比例反映了云的概念范围,因而也直接影响云滴的整体形状。由和生成的反映了语言原子的亦此亦彼性,它的大小决定了语言原子表示的定性概念所对应的定量值隶属于此概念的程度及整个云的离散程度。我们以卷心菜和鸡肉的含铅量数据为例,用matlab代码(请见附录四)实现的初始数据集及相应的隶属度如图3所示:(a)卷心菜含铅量的生成数据(b)鸡肉含铅量的生成数据图3, 基于云模型生成的测试数据及隶属度5.5 样本数据生成本实验中,我们根据实际需求以及所获取的有限数据,在数据库中定义四个目标变量:铅、砷、镉、有机磷。并根据2001年国家统计局统计的六类蔬菜的污染物含量范围和平均值调查结果(请见附录一),用该算法生成我们需要的六类蔬菜含铅量和含砷量的初始数据集。由于初始数据集并不是符合性检验数据和监测性检验数据,所以我们需要对初始数据进行处理,具体如下:符合性检验数据=,其中。监测性检验数据,其中。于是我们产生的样本数据。为了验证我们所获取的样本数据的有效性,我们对六种蔬菜的含铅平均量与含砷平均量及最后所剩下的试验数量与国家统计局统计的数据集进行比较(见表1)。从表中可以看出,在云模型数据生成方法基础上获得的样本数据相应的数字特征和试验数量与国家统计得到的结果相近,虽然像黄瓜的含铅平均量相差较大,但是相对于国家标准0.2mg/kg来说已经很小了。这充分说明这种数据生成方法有很切合实际的效果。表1,2001年国家统计结果与我们代码生成的数据国家统计局的数据依据云模型的数据挖掘原理得到的模拟数据试样种类试样数量含铅平均量(mg/kg)试样数量含铅平均量(mg/kg)卷心(白)菜180.019170.042韭菜180.031300.035黄瓜180.006180.013番茄180.01090.036青(辣)椒180.035200.035茄子180.015120.053注释:1. 国家统计局的数据来源于2001年我国部分蔬菜和肉类污染状况调查及分析。 2. 含铅平均量的国家标准为0.2mg/kg。6. 模型建立与求解本文建立和求解三个模型:人群食物摄入量模型,污染物分布模型,风险评估模型。考虑到人群食物摄入量模型需要在污染物分布模型的基础上完成,所以本文的描述顺序为:污染物分布模型,人群食物摄入量模型,风险评估模型。6.1 污染物分布模型6.1.1 数据来源污染物分布模型中我们主要利用三类数据:(1)食品卫生监测部门日常对市场上食品的检测数据X(包括例行监测数据和偶然抽查数据,符合性检验和监测性检验数据,前者的结果可能只是定性的,而后者检测的结果精度高);(2)市场上各类食品的流通量Y;(3)进出口口岸的检测数据W。由于市场上食品的检测数据集和进出口口岸的检测数据集并不具有相同的分布。不仅数据的多少不同,而且数据的形式也不同(可能是监测性数据,而是符合性数据,反之亦然),因为我们把食品流通量W考虑到人群食物摄入量模型中,所以这里不必重复考虑W对Z的影响,于是我们采用线性抽样的方法从这X和Y这两类数据中得到我们需要的数据集:.这个过程相当于我们把两个集合中的数据看成是粒子,因此要获取食品的污染量数据,就是从和两堆粒子中重抽样得到的一定数量的粒子集合。6.1.2 . 模型建立由于污染物含量的分布不可能是正态分布,所以我们根据食品污染量数据Z,采用非参数估计的方法来确定污染量这个随机变量的总体分布,这里我们采用parzen核估计的非参数估计方法。设K为R上的一个给定的核函数,为窗宽度,则其中n为样本数目,且该数目包括随机变量取值大于国家标准的大部分样本和取值不大于国家标准的小部分样本,为总体未知密度的一个核函数。核函数的形状和值域控制着用来估计在点z的值时所用数据点的个数和利用的程度,我们选取高斯函数作为核函数,即。由的表达式可以看出,如果离z越近,则越接近于零,这时正态密度的值越大。因为正态密度的值域为整个实轴,所以所有的数据都来估计的值,只不过离x点越近的点对估计的影响越大。当h值小时只有接近x的点作用大,h值越大,则远一些的点的作用也增加。这里我们做以下说明:(1)对每个观察限制在高位,宽为的窗内,而估计值为n个这种窗之和。因而正是这n个窗的公共窗宽参数。(2)在给定样本之后,一个核估计性能的好坏,取决于核及窗宽的选取是否适当。从直观上看,核估计在每观察点有一“碰撞”,估计量是这些“碰撞”的宽度,当选得过大,由于z经过平移压缩之后使分布的主要部分的某些特征(如多峰性)被掩盖起来了,估计量有较大偏差;如太小,整个估计特别是尾部出现较大的干扰,从而有增大方差的趋势。因而在实际使用核估计时,如何选取适当的宽度是一项很细致的工作。(3)从理论上讲,关于核K的要求尚可适当放宽。即不一定要求K为密度,甚至也不必要求它为非负。但从实用上看,要求K为概率密度函数是合适的。这是因为待估的f是密度,最好是估计量本身也是密度函数。当K为密度时,容易验证满足这个条件。而且当K满足某些光滑条件时,作为x的函数,同样继承这些光滑性质。选择核K是否适当,同样要影响估计的精度。原则上,我们可对K施加一定的限制,使得估计量与待估函数的偏差在一定意义下尽可能地小。例如可以要求K有对称性,有一阶矩(关于密度K)为零,具有有界性、连续性等等。6.1.3. 模型求解与分析我们还是以卷心菜的含铅量数据为例,在数据生成过程中已经最终产生了n=17个样本数据,我们取=0.001,并且选取高斯函数作为核函数,即。最终的非参数模型所得到的卷心菜含铅污染量的分布如图4所示。图4,核估计产生的卷心菜含铅量分布图从图中可以看出,卷心菜的含铅量并不是一个正态分布,而近似是一个偏态分布,根据样本数据计算可得,偏度,峰度。同理,用该算法来估计韭菜含砷量的分布,得到的分布图如图5所示。根据样本数据计算得到的偏度和峰度分别为:,峰度。图5,核估计产生的韭菜含砷量分布图鸡肉含铅量的分布图如图6所示。根据样本数据计算得到的偏度和峰度分别为:,峰度。图6,核估计产生的鸡肉含铅量分布图其他食品的污染物分布也如有类似的结果。 从实验结果来看,食品污染物的分布基本上都呈偏态,而且蔬菜类有正的峰度,而鸡肉的峰度为负。由此可见,我们生成的数据完全可以模拟实际的调查或检测数据。6.2 人群食物摄入量模型人群食物摄入量模型(膳食模型)是用于估计不同地区、不同性别、不同年龄、不同季节、不同劳动强度、不同经济收入的人群各类食品的一天摄入量,但是在有限时间内不可能对中国居民消费的食品种类和所有地区都进行调查,为了简化问题,我们把人群食物摄入量模型分为两个部分来解决:食品种类分类和抽样调查方案。6.2.1. 食品分类中国居民消费的食品种类比其他国家居民消费的食品种类复杂得多,包括:主食、肉类、蔬菜、水果、水、饮料、各种调味剂和经过加工的食品,细分将达数千种以上,在实际调查过程中进行如此详细地分类,其调查工作量太大,而如果随意粗糙进行分类,则将影响调查的精度。因此我们需要在两者之间取折中,根据食品中污染物分布模型的结果对食品进行有效分类。 分类标准和分类方法确定我们的分类在国家传统分类的基础上进行。通常国家对于食品的分类包括:主食、肉类、蔬菜、水果、水、饮料、调味剂等大类,但是这样分类太粗糙,同一大类中包含的食品种类还是很多,而且相互之间的关联性很小,里面的一种食品并不能精确代表它所在的类,我们仍旧以2001年我国部分蔬菜和肉类污染状况调查及分析中各类蔬菜中铅和砷的检测结果为例,我们可以看出六类蔬菜的平均含铅量和含砷量差别很大,这些平均值所形成的数据集方差很大,所以从这种大类中选择一类蔬菜作为代表,并不能精确反映整个大类的情况。为提高精度,我们对每个大类中的食品再进行自动分类,这里我们以调查表的各种蔬菜的平均含铅量和平均含砷量为观测数据,以蔬菜为例,设有n种蔬菜,每种蔬菜的平均含铅量和平均含砷量分别为和,(),构造二元观测。这时,每个样品可看成二元空间的一个点,n种蔬菜组成二元空间的n个点。我们用各点之间的距离来衡量各种蔬菜之间的相似性程度。这里我们选择最常用的欧式距离:分类方法采用k-means的聚类算法。 分类算法实现实现分类的k-means算法的工作过程如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的距离,分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。具体的聚类流程如图7所示:图7,k均值聚类算法流程图k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 分类结果及分析我们用2001年我国部分蔬菜和肉类污染状况调查及分析中各类蔬菜中铅和砷的检测结果为例,国家统计局对六种蔬菜的平均含铅量和平均含砷量参见附录一中图表一。我们要把卷心菜、韭菜、黄瓜、番茄、青椒、茄子分为两类,则聚类方法的输入和k分别为:,k=2。用matlab(代码请见附录四)实现,输出得到的分类结果为:卷心菜、黄瓜、番茄、茄子为第一类,韭菜、青椒为第二类。同理,我们可以把其他肉类、水果等大类进行细分。这样,可以根据不同需要,对食品划分成一定数量的类,既避免了由于过度细分所引起的调查工作量的增大,又提高了调查的精度。每个类中的食品都具有差不多程度的污染量,而且类的中心可以典型的表示该类。6.2.2 抽样调查方案虽然我们可以让调查人员事先进入被确定为调查对象的家庭,对居民家里的大米、面粉、食油、食盐,糖等全部食品进行称重并加以记录,几天后再来到这户居民家中并将他们家里的以上食品全部称重,将两次结果相减就可以得出这户居民在这几天中所消费的各类食品的总量,并对没有称重的食品,如蔬菜、水等的消费情况也进行登记;再将调查所得的全部统计数据汇总就得到我国总膳食数据的抽样结果。但是这种调查工作量太大,故而只可能在全国几亿户家庭中随机抽取几千户,至多几万户进行一次性调查。因此如何设计抽样调查方案使调查结果能尽量反映全国的实际情况,调查结果的数据使用起来效果比较理想,同时使调查的全部工作量在可以承受的范围内,是建立人群食物摄入量模型的一项重要任务。我们设计的抽样调查方案分为两个方面:一是调查方法的选择;二是确定样本容量。具体过程如下:1、 选择调查方法首先,我们要遵守随机的抽样原则,使被检验的对象个体有同等机会被抽中或不抽中,当抽取足够多的单位个体时,才能使被抽中单位的次数分布类型与调查对象相同,从而增强抽中单位对总体的代表性;同时,只有遵守随机原则,才能计算抽样误差,达到有效推断总体的目的。显然,高估计精度的抽样对总体的代表性更强,即对整体估计更加的准确,因此这是抽样时必须考虑的因素。其次,考虑到各渠道得到的检测数据对目标估计影响程度的不同,我们采用分层的抽样组织形式。针对多目标抽样调查中调查项目设计的调查表由于指标繁多、数目庞大、被调查单位负担沉重,容易产生错登、漏登现象,调查周期长,费用消耗高等问题,我们提出了以分层抽样方法为基础的解决方案:1). 总体与抽样框的确定总体是我们研究或调查对象的全体,即我国的人群食物摄入量,但要考虑到目前并不具备总体的全部资料。抽样框的获取由检测单位的行政属性所确定,不考虑其地理位置。其中,检测单位指进行抽样调查的国家专门的行政机构。2). 层的划分与抽样设计层的划分有二种方法:第一种方法,直接按检测单位的行政属性分层。第一层为国家的检测机构,第二层为省级的检测机构,第三层为市级的检测机构,第四层为区级的检测机构,第五层为县级的检测机构。这样设计的优点是:首先,由于按各级行政属性分层,因此各层样本除汇总后可用于总体参数的估计外,还可用来对每层的参数进行估计,以适合各级单位的需要。且计算公式简单,可对总体的多项指标进行估计。其次,分层抽样实施起来灵活方便。由于抽样是在各层独立进行,因此它允许根据不同层的具体情况采用不同的抽样方法。例如:国家级的检测机构,对我国整体人群食物摄入量的研究影响作用很大,故可作估计精度较高的抽样调查,并采用样本轮换来解决固定样本“老化”问题,同时兼顾调查资料的连续性和可比性。而县级检测机构正好相反,作用小故可采用简单随机抽样。最后,也是最重要的是分层抽样可使分层样本在总体的分布更均匀,能较大的提高抽样调查的精度。其主要缺点是抽样框的确定比较麻烦,需首先将各级资料汇总才能分层。第二种方法,考虑到检测机构已有的资料大部分来源于国家行政部门的检测,且行政级别越高已有资料越全,所以他们对待解决的问题影响不同,级别越高影响越大。为了有效体现这种影响,我们在分层的基础上引入分段,如下图所示:图8, 分层结构图具体操作过程是:首先分层:第一层为市级检测机构,第二层为省级检测机构,第三层为国家级监测机构。因考虑到后两层对我国整体的人体摄入量分析的影响最大,各层可采用高精度的抽样方法。然后分段:第一阶段:市级检测机构进行抽样调查。又分为两层,第一层为县级检测机构进行抽样调查,第二层为区级检测机构进行抽样调查。段内各层可采用按比例分配抽样,层内可采用简单随机抽样或不放回不等概率抽样等方法。这样设计的优点是:首先,可以充分利用现有的资料构建抽样框,且抽样框可以分级进行准备。其次,抽样框的结构与现有统计资料的结构相似。易于收集资料,可作定期的统计分析。以便使用计算机操作。最后,各阶段各层的资料可分别适应各级单位的需要。其缺点是误差估计较复杂,比分层抽样的误差稍大。其理论证明可参见文献18。总之,这两种分层方法各有利弊,对于具体问题可根据目的及经验选择。2、 确定样本容量我们考虑到当采用分层随机抽样对多个目标进行调查时,样本容量对于一个调查指标来说是最优的分配,对另一个调查指标来说一般就未必是最优的分配,因此我们必须采用某种折衷方案。本文中,我们采用了Jesson.R.J于1942年提出的一种样本容量分配的折衷方案,该方案能兼顾到各个较为重要的指标。为了讨论问题及公式表述的方便我们采用以下的记号。以大写字母表示总体指标, 小写字母表示样本指标。结合本文我们设总体分为4层,以表示层的编号,=1,2,3,4。第层的单元数为,且。调查指标共有个(依据污染物分布模型聚类而得的调查指标),第个指标的第层方差为,;。第个指标的样本容量最优分配为 其中为第层的权数。第个指标总体均值的估计量其中为第个指标第层的样本均值,的方差为, 各指标的最优分配数一般是不同的,Jesson折衷分配方法就是对各指标的最优分配进行折衷,得到共同的分配上式中各指标分配的权数相同,实际上隐含了将各指标同等看待。而结合本文中的模型,各个指标重要性相同,因此该方法是合适的。此外,该模型在一定程度上提高了调查的精度。6.2.3 调查数据的处理我们用上述方法获取数据后,从题目中难点要求可以看到,解决该问题的很多困难都是由于抽样数据本身所造成的。因此我们首先对调查获得的数据进行预处理。 残缺数据的处理在我们的调查过程中,由于种种原因难免出现一些数据残缺的情况,如果舍去这些数据,则造成数据资源的浪费,间接加大了调查工作量。为此我们给出了以下两种处理方法。方法一:此处仅列出处理步骤,理论推导见文献11。1构建样本经验分布函数a) 将响应样本数据分组;b) 将响应样本数据分到上述分组中;c) 列出总体的经验分布函数;2确定次序统计量及其概率密度函数3样本缺失数据的均值和方差的估计4响应样本数据的均值和方差5总体均值和方差的估计 方法二:此处仅列出处理步骤,理论推导见文献19。1 增大调查样本含量;2 采用替代和二级抽样,其中替代可分为均值替代和随机替代。借助上述成熟的方法,我们将会大大提高估计的精度,更好的呈现总体的原貌。不同分类标准调查数据间的转化本题中由于同一地区不同历史条件下分类标准的不同,造成了该问题的出现。 这个问题更一般的表现为在较早的历史条件下,由于人们对生活质量要求不高,制定的污染物警戒含量标准难免偏高,造成过去符合性检验中能够通过标准的某些较高含量值在现在的检验标准下不能通过。因而简单的合并处理数据,相当于丢掉了一些介于现在标准和过去标准之间的污染物含量值,造成模型的精确度降低。但由于样本采自同一地区,我们可认为数据对应的分布应该是同分布的。这里我们采取的方法是:(1)首先依据现在的检测数据,估计数字特征和大致分布情况,进而计算介于现在标准和过去标准之间的样本占现在检测数据样本的比例(2)依据上述比例和现在的检测数据,在过去的数据中添加介于现在标准和过去标准之间的样本(3)合并样本,估计整体的数字特征和密度分布。通过上述方法,我们合理且充分地利用了过去的观测样本,等效于增大了观测样本的数目,从而提高了分析的精度。 不匹配数据的处理在风险评估模型中,我们会遇到人群食品摄入量模型中的调查对象极大可能不是污染物分布模型中被调查食品的消费者的问题。我们构造匹配因子并引入模型成功的解决了该问题(详细介绍参见本文的6.3.2)。6.3 风险评估模型为了对全国、某个地区、某类食品的安全状况做出评价,对有可能出现的食品安全事件给出预警,我们需要建立风险评估模型。6.3.1. 模型建立在人群食品摄入量模型中,我们得到了某地区、某人每天的食物摄入量数据,在污染物分布模型中,我们得到了某地区某类食品所含的污染量数据。其中i表示人的编号(),m,n表示食品类别(),p,q表示地区编号(),j表示污染物编号()。I、和J分别为被调查的总人数、食品类别总数、地区的总数和我们考虑的污染物类别数。则我们的目标函数:某地区某人某种污染物的摄入量为。但是考虑到人群食品摄入量模型中的调查对象和污染物分布模型中被调查食品的消费者不在同一地区,我们引入匹配因子,来解决数据不配套的问题,的定义为:可见,同一地区内的调查,不考虑人群食品摄入量模型中的调查对象和污染物分布模型中被调查食品的消费者是否相同,即不考虑数据匹配问题;而对于不同地区的调查数据,如果地区之间距离越大(即差异大),则越小。因此,我们的风险评估模型可以描述为如下数学表达式:已知:地区p某人i每天的食品m的摄入量,地区q某类食品n所含污染物j的量,要求:在全国范围内得到地区r某人i每天的污染物j摄入量为。当知道、和的数据以后,就可以很容易计算得到目标模型的分布,这为我们评估风险提供了基础。所以我们要知道某类污染物对人的危害,可采用顺序统计量的方法,用样本中位数作为总体均值的估计量,用样本极差作为总体标准差的估计量,进而借助spss软件求得全体居民某项污染物摄入量的99.999%的右分位点。(人群食品摄入量模型)在问题二中已经详细阐述,在本实验过程中,我们采用复合分层的抽样方法直接采集得到。(污染物分布模型)在问题一中已经解决,而且以各个污染量作为随机变量,已经得到了污染物的整体分布,所以我们可以从分布中获取所需的数据。由对污染物分布模型的探讨,我们得到了各类食品中污染物变量的分布特征,因此它的采用在一定程度上消除了奇异样本的影响,提高了精度。所以匹配因子的确定是完成本模型的关键。6.3.2. 匹配因子计算匹配因子是根据区域p和q的距离来获得,这里的区域距离不是两地的实际路程距离,而是根据中国气候特征、人口分布、纬度经度的不同所分区域的基础上计算所得的区域距离。我们根据中国的区域划分图(如图8所示),将8个区域分别编号为1到8,区域的距离Distance(p,q)我们人为设定权系数为(1,2,4,10),具体的实现方法为:以该地区为中心做圆,圆心处的权值为1,相邻的第一个圆的权值为2,向外依次权值为4,10。依据这种方法所得到的区域之间的距离标记结果如表2所示。图9,中国区域划分图表2,区域距离的矩阵pq地区1地区2地区3地区4地区5地区6地区7地区8地区112242244地区221410441010地区324124242地区4410214222地区5244412210地区624222124地区74104222110地区841022104101因为同一区域内的食品往往具有相同的特性,即相同食品所含的污染量相当,所以没有必要考虑相同区域内的两批数据不配套的问题;对于不同区域的情况,引入了区域匹配因子,来解决数据不配套的问题。6.3.3. 模型实现为了验证我们模型的有效性和实用性,我们已经查到表“中国四大区12类膳食中铅、镉含量”和北京、浙江、广西三地2002年的人群食物摄入量统计表(请见附录一)。我们要从这些有限的数据来对全国的食品安全状况做出评价,并将我们模型得到的结果与我们查到的结果进行比较以验证我们的模型。为了简化问题,我们先考虑一类食品(蔬菜=深色蔬菜+浅色蔬菜),已知北京地区、浙江地区和广西地区的人群每天各类食物的平均摄入量(请见表3)。我们以这些平均值为基础,产生100个正态分布的样本粒子,并从中随机选择10个数据模拟我们的抽样数据,于是得到了三个地区的人群食物摄入量模型的数据(见附录二)。表3 三地居民食物摄入量(克/标准人日)蔬菜水果奶类主食畜禽类豆制品鱼虾类北京338114104256.882.235.516.3浙江255.792.228.2372.8116.321.5105.9广西320.7121.128.5362.6199.710.559.6在污染物分布模型中,我们可以得到三个地区某类食品所含的污染量数据:注释:该表来源于2000年中国总膳食研究膳食铅、镉摄入量对于匹配因子,根据我们所建的模型,北京、浙江和广西的区域编号分别是1,3,7,所以根据表3可得北京和浙江的匹配因子,北京和广西的匹配因子,浙江和广西的匹配因子。现在数据已经足够,代入我们的风险评估模型式子,得到三个地区每人每天的平均摄入的含铅量(数据请见附录三)。利用SPSS软件计算出全国的99.999%的右分位点为:0.0502(mg/人)。与国家标准相比,该值低于现有的国家卫生安全标准,表明现在食品是安全的,这与实际的大环境是相符的。6.4风险评估模型扩展建议为了能够建立一套更科学合理的食品安全综合评价指标体系,我们从另外一个角度设计了在所完成的模型基础上进一步扩展的方案。该方案的评价依据没有采用题目的评价方法,我们采用了一种更加易懂、更加全面的评价体系。6.4.1食品卫生安全保障评价指标体系的建立根据我国食品安全概念,并从目标实际出发,除了要遵循科学性、合理性、可行性等一般性原则之外,还应遵循可持续性、完备性、动态性、可测性、重要性等食品安全评价指标设置的原则,制定出能尽量准确评判我国食品安全现状的指标。食品安全综合评价指标体系具有明显的层次结构,其层次结构从上到下由目标层、准则层和指标层组成。第1层为目标层:用来表示我国、某个地区、某类食品安全总体水平状况,该层是衡量食品安全水平高低的综合指标,用01之间数值表示。数值越接近1,说明食品安全的综合水平越高,反之越低。它的取值由下一层(第2层)指标计算确定。第2层为准则层:由人群食物摄入量指数和污染物分布指数组成。前者反映了食物的需求量,后者则反映了食品安全不同组成部分的安全状况。该层是支持食品安全综合水平的指数,可以用01之间的数值表示,越接近1,表示食品安全在质量方面水平越高,反之越劣。这两个准则指标的高低受下一层(第3层)指标值的影响。第3层为指标层:由基本指标组成。这一层指标是综合评价指标体系中最基础性的评价指标,可以从本质上反映食品安全在集体某环节中的状况,具有可测性、可比性、可获得性的特点。食品安全综合评价指标体系层次分析模型如图10所示:国家食品安全总体水平状况污染物分布指标人群食物摄入量指标指标1进出口岸检测数据市场检测数据指标2指标m图10,食品安全综合评价指标层次分析模型6.4.2灰色关联分析模型的建立通过观察食品卫生安全综合保障评价的指标值可以发现在不同时期食品安全存在的问题。食品卫生安全综合保障评价的指标中的各项基本指数又是随着自然条件、经济发展以及农业发展等多种不确定因素的影响而发生明显的变化。研究如何在现实中通过科学、高效的技术方法判断哪些主要指标严重影响着食品安全的某个方面,哪些指标对食品安全影响程度较大,为食品安全职能部门决策提供准确的数据意义非常重大。灰色系统理论是从小样本、贫信息的不确定系统中寻求规律,着重研究外延明确、内涵不明确的对象,采用从系统内部去发掘信息并充分利用信息的建模方法。确定各层次指标权重由于食品安全状况涉及人体食物摄入量、污染物分布等综合指标,且它们之间没有明确的定量关系。同时,食品安全影响因素具有明显的层次性。因此采用模糊数学理论中关于模糊指标权重的确定方法计算权重。.1构造判断矩阵首先用一系列指标相对于上层指标的相对重要性,按“19比率标度法”构造这些指标之间的两两比较判断矩阵。如设隶属于上层的某一指标的下层指标的数目为n,则由此得到n个指标的比较判断矩阵QQ=..2层次排序及其一致性检验计算判断矩阵Q每行元素的乘积:,计算的次方根:,归一化得Q的特征向量.计算最大特征根的近似值.根据数理统计理论,对判断矩阵进行一致性检验,求得一致性指标 .当时,认为建立的判断矩阵是合理的。只要矩阵与其特征向量之间经检验具有随机一致性,那么即为所求的个指标的权重分配向量。其中的元素()代表了各个指标相对于其上层隶属指标的权重。显然,对于图1所示的多层次指标体系,采用上述方法不难得到第2层(准则层)的指标权重向量,可以用表示,其中表示准则层第j个指标相对总目标的权重。同理可以得到每个准则层其下层(第3层)所隶属指标层的指标的权重分配向量,不妨用表示,其中为指标的下层指标的总数,为第个准则下第个指标的权重。各层指标的灰色关联分析.1 指标值的确定指标层各指标的表示形式有2种:定量指标和定性描述指标。对定性描述指标,首先可采用由各类决策层(群众层、专家层、领导层)的模糊评分(语言化评分)进行综合平均的方法获取各个指标相对于每个备选方案的模糊语言评分,然后根据表3的模糊隶属度进行量化取值。表4模糊隶属度模糊语言很强强较强一般较弱弱很弱隶属度0.8定量指标的指标值可以按照实际给出的具体数据确定大小。如果定量指标存在不同量纲、不同量级时,则需要对指标进行无量纲化处理。.2参考方案指标序列的确定在指标层定量和定性指标量化以后,对同一指标,可以在备选的个方案中确定出该指标就总目标而言的相对最大值,如果以表示指标在方案中的取值,则关于参数方案的相对最大值为.若在同一指标中需要从备选的个方案中确定出该指标就总目标而言的相对最小值,即如果以表示指标在方案中的取值,则关于参数方案的相对最小值.由此得到参考方案的指标序列..3指标层指标值的标准化处理对各个方案在同一指标i处的指标值进行标准化处理.4指标层指标的关联度计算计算参考方案的指标序列与备选方案在各指标处的关联系数 式中:为分辨系数,取值范围为01之间,一般取015,由此得隶属于准则层指标的指标层指标的关联矩阵 式中:为隶属于的指标层指标总数。.5准则层指标的关联度计算设准则层的指标所属的指标层指标为,则指标中各指标之间的综合关联度为 用式(12)计算得到,并可以采用与上述步骤(2)(4)相似的过程将进行标准化处理,由此得准则层指标的关联矩阵式中:为由的准则值与相对应参考序列的指标计算得到的关联系数。备选方案的综合关联分析计算备选方案的综合关联度式中:为方案的综合关联度,显然的大小决定了方案的综合优势程度,排序越靠前方案越优。7. 模型评价与推广由于时间关系未能做详细的结果检验与分析。下面仅从方法的适用性及创新性进行评价。污染物分布模型:我们采用了基于云模型的数据挖掘方法来模拟实际数据,创造性地解决了无数据的难题,并在此基础上利用非参数估计的方法近似求得了污染物分布模型。云模型的引入使得数据源不仅包含了先验知识,又隐含了许多潜在知识,增加了模拟数据与实际数据的相似性,为我们做出正确的判断提供了坚实的基础。同时,无论是调查得到的数据,还是生成的模拟数据,我们都不知道其具体分布,因而使用parzen非参数估计能够快捷准确地求出分布。人群食物摄入量模型:在分类方法上,我们在对普遍认可的食品基本类别保持不变的基础上采用聚类的方法对基本类别进行细化,这样既减轻了调查工作量,又保证了调查的精度,同时与人们的传统知识体系衔接的也很好;在调查方案的设计上,我们采用了分层多目标非返回抽样的调查方法,这样能更好地反映全国的实际情况,并且调查数据使用起来效果会更加理想,因此在某种程度上减少了调查的工作量。风险评估模型:我们引入了考虑我国实际情况的匹配因子,这样使建立的模型更符合我国的实际情况,从而不仅成功地解决了数据不配套的问题,而且还能提高风险评估的准确性,做出更加准确的宏观判断。总之,我们的模型在一定程度上较好的解决了如何建立我国食品卫生安全保障体系的问题。但是由于时间关系,有些方面未列入考虑的范围,深入性有待提高。8. 参考文献1 韩中庚,数学建模方法及其应用,北京,高等教育出版社,2005年6月2 范金城等,数据分析,北京,科学出版社,2004年5月3 沈继红等,数学建模,哈尔滨,哈尔滨工程大学出版社,2003年5月4王学民,多指标分层抽样中样本容量折衷分配的加权方法,2006年第3期,总第209期5 Wu Changchun, Zhang Runchu, Empirical Likelihood Method under Stratified Random Sampling Using Auxiliary Information and the Information in the Strata Population Size , 中国期刊网6 QianHongbing, The Automatic Generation of Test Data, 中国期刊网7 刘於勋 食品安全综合评价指标体系的灰关联分析,中国期刊网8 Verger Ph.,Tressou J.,Clemecon S. Integration of time as a description parameter in risk characterization application to methyl mercury , http:/metarisk.inapg.inra.fr/UserFiles/File/KDEM .pdf9施雨,应用数理统计,西安,西安交通大学出版社,39-4210Joint work with P.Bertail and Stephan Clemencon, Simulation estimators in a dynamic model for food contaminant exposure, http:/adapmc07.enst.fr/Talks/Tresso u.pdf11王天营,抽样调查中数据不完整的一种处理方法,/grid20/detail.aspx?QueryID=8&CurRec=1 12 王学民,多指标分层抽样中样本容量折衷分配的加权方法,/grid20/detail.aspx?QueryID=52&CurRec=113 俞纯权,设计抽样方案时抽样方法和估计量的选择,/grid20/detail.aspx?QueryID=94&CurRec=114 朱嬿,李章,华模糊综合评价的分层抽样方法,/grid20/detail.aspx?QueryID=140&CurRec=115 亓昕,人口抽样调查数据分析中的加权方法,/grid20/detail.aspx?QueryID=186&CurRec=116 刘於勋,食品安全综合评价指标体系的灰关联分析,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 怎么写数学测试题及答案
- 2025年森林环境考试题目及答案
- 燃煤发电环保设施建设方案
- 高级绿化考试试题及答案
- 社会保险基金应收账款质押担保及区块链技术应用合同
- 金融行业员工岗位调整及劳动合同完善协议
- 环保项目环评咨询与实施合同
- 离婚协议书贷款还款及财产分割执行细则合同
- 企业环境管理体系建设与节能减排方案
- 物业让与担保及能源管理系统建设合同范本
- 排球课教案完整版本
- 2024土建工程承包合同范
- 广东高职高考数学题分类
- 掘进支护安全培训课件
- 新概念二单词表
- 《雅思阅读技巧》课件
- 《建筑工程测量》教学教案
- 《影视美学教学》课件
- 小学道德与法治-主动拒绝烟酒与毒品(第一课时)教学设计学情分析教材分析课后反思
- 《工会固定资产管理办法》中华全国总工会办公厅印发
- 单人心肺复苏技术操作考核评分标准
评论
0/150
提交评论