(应用数学专业论文)信息扩散函数的选择及其参数优化.pdf_第1页
(应用数学专业论文)信息扩散函数的选择及其参数优化.pdf_第2页
(应用数学专业论文)信息扩散函数的选择及其参数优化.pdf_第3页
(应用数学专业论文)信息扩散函数的选择及其参数优化.pdf_第4页
(应用数学专业论文)信息扩散函数的选择及其参数优化.pdf_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要y z 6 2 厂 在对数据作统计分析时,经常会遇到信息量不足的情况,即小样本问题。 如何利用有限的样本点,作出比较符合实际情况的估计结果,一直以来都是相 当棘手的问题。模糊数学中提出一种信息扩散方法力求解决这一问题力以前复 旦大学数学系曾用信息分配和二维有限信息扩散方法来分析小样本问题,取得 了比较令人满意的结果。 本文在以上结果的基础上,继续对延吉社区的数据作患病率研究,仍以患 病率与其两个主要危险因素一年龄、b m i 的关系为研究对象,发展信息扩散 方法。本文使用了更为一般的无限信息扩散方法,并引入了带有参数的正态分 布型扩散函数分别作一维、二维优化扩散,最终结果令绝对误差总和有较大幅 度的降低。 ( 以前对小样本问题进行优化信息扩散采用的是使估计值与大样本标准值最 为接近为目标,而事实上在小样本问题中经常不能保证标准值的存在。因此如 何进行参数优化,如何定义最优,都需要另立个标准本文提出一种新的“最 小波动原理”,希望能得到更为光滑平整、波动较小的患病率曲线( 面) ,并以 此为依据定义目标函数,对扩散函数进行了优化,结果比较令人满意。 最后,本文又对现有结果进行了可靠性分析,提出引起所得结果仍有不尽 t 如人意之处的几种可能,并建议了几种改进方案,希望能更好地利用信息扩散 方法,解决小样本问题d 关键字:无限信息扩敞? l f 态分布型扩散函数i 最小波动原理 e 上 t h ec h o i c eo fi n f o r m a t i o nd i f f u s i o nf u n c t i o n w i t ho p t i m u mp a r a m e t e r s a b s t r a c t i nm a n yc a s e sw h e na n a l y z i n gt h es t a t i s t i c a ld a t a ,l a c k i n go fi n f o r m a t i o na l w a y s c o m e so u t w h i c hi sc a l l e dt h es m a l1s a m p l ep r o b l e m h o wt og e tt h er e s u l ta p p r o a c h i n g t h ef a c tw i t hr e l a t i v e l ys c a r c es a m p l ei sav e r yh a r dp r o b l e m t os e t t l et h i sp r o b l e m , a ni n f o r m a t i o nd i f f u s i o nm e t h o d isi n t r o d u c e di n f u z z ym a t h e m a t i a s ,t h ed e p t m a t h e m a t i c so ff u d a nu n i v e r s i t ye v e rd e a l tt h es m a l ls a m p l ep r o b l e mw i t hi n f o r m a t i o n d i s t r i b u t i o nm e t h o da n d 2 - dl i m i t e di n f o r m a t i o nd i f f u s i o nm e t h o d ,t h er e s u l t o b t a i n e di sr e l a t i v e l ys a t is f y i n g t h i sp a p e r ,o nt h eb a s eo ft h er e s u l tm e n t i o n e db e f o r e ,d e v e l o p st h ei n f o r m a t i o n d i f f u s i o nm e t h o d ,s t i l ls t u d yt h ed a t a b a s eo fy a n j ie o m m u n i t ya n dt h er e l a t i o n s h i p s b e t w e e nt h ep r e v a l e n c er a t eo fd i s e a s e sa n dt h et w or i s kf a c t o r s a g ea n db m i t h i s p a p e ru s e sam o r eg e n e r a lu n l i m i t e di n f o r m a t i o nd i f l u s i o nm e t h o da n di n t r o d u c e st h e n o r m a ls t r u c t u r a ld i f f u s i o nf u n c t i o nw i t hp a r a m e t e r st od ot h e1 一da n d2 一do p t i m i z e d d i f f u s i o n m a k i n gt h es u m m a t i o no fa b s o l u t ee r r o r sd e c r e a s el a r g e l y i ti s a l w a y sa d o p t e d a sd e s t i n a t i o nt h a tl e t t h ea n a l y z i n gr e s u l ta p p r o a c ht h e s t a n d a r dv a l u eo fl a r g es a m p l em o s t l y :h o w e v e r t h es t a n d a r dv a l u ed o e sn o ta l w a y s e x is ti ns m a l ls a m p l ep r o b l e m s oi ts h o u l db es e td o w nw h i c hist h eb e s ta n dh o w t oo p t i m i z e t h isp a p e ri n t r o d u c e san e w p r i n c i p l eo fm i n i m u mf l u c t u a t i o n t og e t am o r es m o o t hc u r v e ( s u r f a c e ) o ft h ep r e v a l e n c er a t eo fd i s e a s e s a l s oo nt h eb a s e o ft h i st od e t e r m i n et h ed e s t i n a t i o nf u n c t i o na n do p t i m i z et h ed i f f u s i o nf u n c t i o n h a so b t a i n e das a t i s f y i n gr e s u l t a f t e ra 1 1 ,t h i sp a p e ra n a l y z e st h ec r e d i b i l i t yo ft h er e s u l t ,g i v es o m ep i e c e so f a d v i c ef o rm o d i f y i n gt h er e s u l tt om a k eu s eo ft h ei n f o r m a t i o nd i f f u s i o nm e t h o dm o r e f u l l y ,r e s o l v et h es m a l is a m p l ep r o b l e mb e t t e r k e y w o r d :u n l i m i t e di n f o r m a t i o nd i f f u s i o n ,n o r m a ls t r u c t u r a ld i f f u s i o nf u n c t i o n p r i n c i p l eo fm i n i m u mf l u c t u a t i o n 1 1 问题的提出 第一章引言 当我们用传统的统计方法分析数据的时候,经常会遇到信息量不足的情况, 即所谓的小样本问题。这个时候由于大数定理并不适用,使得统计分析结果不 能体现真实情况,带来实质性的困难。 例如保险公司推出的巨灾险等,由于种种原因,数据掌握不足或者已有数 据不够准确,这就导致精算人员在产品定价的时候常常作一些主观推断或借用 其他地区或国家的数据来厘定费率。但因为各地实际情况的差异,数据借用带 来明显的误差,使得保险公司不能很好地制订进一步的产品策略;而且巨灾的 数据即使经过几十年也未必有实质的增多。这无疑是一个小样本问题,用一些 传统的统计频率等方法进行分析,结果都不能尽如人意。 很自然地,我们希望能够找到一种更好的方法,可以充分利用已有的少量 信息,即使信息量不足也能分析出尽可能精确的结果,或者说其结果更能反映 真实情况。 1 2 既有工作简介 对于小样本的信息不足问题,在数理统计中已经建立了一些小样本分析方 法,如文献 1 ,但是这些方法只是提供判别已有估计值精度的工具,并非对参 数具体数值本身估计的改进;但是在更多的情况下人们感兴趣的是进一步提高 估计精度,所以要改进现有的估计方法,更为有效地利用已有的信息。 近年来有一些文献曾经提出对知识样本点进行模糊划分,从而充分利用有 限的已知信息。黄崇福在文献 2 中,就模糊信息优化处理这一问题,从模糊划 复旦大学硕士学位论文 分出发,发展了信息分配方法,提出了信息扩散方法,并针对地震灾害等实际 问题进行了详细分析,有效利用非常有限的震害历史数据,得n t 比较好的结 果。 复旦大学数学系在对富裕性疾病的患病风险进行研究和分析时,也曾遇到 过小样本问题,当时他们应用了一维信息分配方法( i d m ) ,并对其进行改进和 选择最优参数,得出改进的信息分配方法( i i d m ) ,用此种方法处理所遇到的问 题收到很好的效果( 参见文献 3 ) 。不久后,他们又对其进行了拓展,分析了 二维问题,并引入了“二维信息有限扩散方法”,对扩散函数及其参数都进行 了优化选择,得到比信息分配方法更好的结果( 参见文献 6 ) 。但当时是以患 病率与大样本统计标准值的误差最小为目标进行优化分析。事实上,在许多小 样本问题中缺少用以对照的大样本数据,这时如何找到一个更实际的判别标准 进行优化,以及是否能得到较好的结果,都是值得研究的问题。有鉴于此,本 文提出一种“最小波动原理”,并仍以高血压患病率与其两个主要患病危险因 素一年龄、b m i ( b o d ym a s si n d e x ) 的关系为例,对一维及二维无限信息扩 散方法根据这一原理进行参数优化,试图更加有效地解决小样本信息不足的问 题。 1 3 本文结构简介 本文第二章介绍了小样本问题的一个应用实例,在对原始调查数据( 大样 本) 进行了选择和处理之后,使用统计频率方法计算分别得到了高血压患病率 关于年龄的一维近似客观标准值,以及关于年龄、b m i 的二维近似客观标准值。 随后又分别对一维和二维数据随机抽取5 0 0 和3 0 0 0 条而构成两个小样本,但发 现此时用统计频率方法来处理小样本,得到的结果不能令人满意,并不可靠。 第三章构造了比以前更为一般的正态分布型信息扩散函数,而且应用无限 的信息分配方法分别对一维和二维两个小样本问题进行分析处理,得到优于统 计频率方法的结果。 第四章引入了“最小波动原理”对已有扩散函数进行参数优化选择,使得 复旦大学硕士学位论文 信息扩散后得到的患病率曲线及曲面波动最小,并将其数据与标准值比较来验 证结果,证实其误差更小。 为验证信息扩散方法的可靠性,我们采用各种加权或不加权的误差分析方 法,并与以前的优化方法所得结果进行比较,第五章将给出具体结果。我们还 探讨了一些与信息扩散和最小波动原理相关的可以进一步推广的问题。 本文在处理数据时使用了m a t l a b 数学软件包、v i s u a lf o x p r o 数据库软件 和m j c r o s o f te x c e l 电子表格;文中的曲线图形由e x c e l 生成,曲面图形由m t t l a b 生成。 复旦大学硕士学位论文 2 1 资料来源 第二章问题实例 随着我国社会经济的发展和经济模式的转型,人民生活水平也日益提高, 居民的饮食结构和生活习惯亦产生了相应的变化,因此富裕性疾病( 高血压、 冠心病、糖尿病、高血脂、肥胖症等病症的总称) 的发病率随之逐渐升高而成 常见病,并已经成为影响大众健康的主要原因。为了有效地预防和治疗这些疾 病,在美国大都会人寿保险公司的资助下,复旦大学和上海市延吉街道医院在 上海市延吉社区合作进行了一次有关富裕性疾病的调查,共取得1 8 7 4 9 份调查 数据。 该次调查涵盖了延吉社区1 5 岁以上的大部分人口,调查内容包括姓名、 性别、出生年月、身高、体重、籍贯、职业、四种疾病的患病时阳j 及严重程度、 家族史、吸烟饮酒史、饮食习惯等一系列的内容。 根据调查数据建立了一个5 6 个字段的原始数据库文件,录入后的形式如 表2 1 : 编峙卡号性别 n oc a r d n os e x l2 4 6 4 8m 22 1 3 6 6m 32 0 1 3 2f 体重k g 盹i g h t 6 0 6 5 5 5 高血压患病程度 h b p l e v e l 0 0 表2 1 录入后数据形式 高m 压患病开始时间 h b p t i m e 0 0 9 3 对录入的原始数据,首先进行有效性分析,剔除了其中明显有误的数据条,如 漏填或误填出生年月,身高体重超出可能范围,明显逻辑错误( 高血压患病开始时 间早于出生年月) ,等等。最后得到可供分析的数据记录共1 8 7 3 1 条。 肌融明眈钔眦。嬲z 复旦大学硕士学位论文 2 2 一维数据处理 本文一维情况下以高血压患病率与年龄的关系为考察对象,此处患病率表 示一种静态事件的概率,即处于患病状态人数占总人数的比率。这主要是因为 本次调查中关于发病的时间是通过回忆得到的,而较容易确定的是当时患病与 否( 因为即使患病程度比较模糊,但患不患病总是比较肯定的) ,所以为说明方 法起见,本文采用了患病率这一概念。 就一维数据而言,所需要的数据项包括居民的年龄a g e 和是否患有高血压 两项,所以首先从原始数据库文件中选取所涉及的字段,即年龄、高血压患病 程度,再进行一定的换算便得到本文所需一维工作数据表,其字段组成为:年 龄( 单位:岁) 以及被调查者患高血压与否( 1 表示患有高血压,0 则表示未患) 。 本文考虑先将上面所得的1 8 7 3 1 条调查数据按一定的年龄段划分归类,然 后用传统的统计频率方法来确定每一年龄段所对应的高血压患病率。但是如果 对年龄以1 为步长划分,落在每个年龄段中的数据量较少,统计频率方法的可 信度不高:而且根据文献 4 ,我们知道高血压的患病率关于年龄的变化较为平 缓,相邻年龄的患病率相差不大。所以考虑年龄分档的步长取为3 岁,并且为 简单起见,统一将年龄转化为年龄档次a g e l e v e l ( a g e l e v e l = a g e 3 ) 。这样, 将数据按a g e l e v e l 以步长为1 来归档,把整个所讨论区域分割成长度为1 的予 域。 即便如此,某些子域中的数据量仍然较少,这也说明一些调查数据并不具 备普遍性和代表性,因此本文着重考虑年龄适中的人群,即选取的研究对象是 保险公司承保人群( u n d e r c o v e r a g e ) 中的主要部分,即3 3 岁到7 8 岁( a g e l e v e l 在l l 到2 6 ) 的人群。这样也避免了某些区域数据过少的现象,使得最后的统 计结果更为可靠。 2 2 1 大样本数据分析 在经过上述处理后,从1 8 7 3 1 条数据记录中取出a g e l e v e l 落在 1 1 ,2 6 ) 的 1 5 个子域中的1 4 8 2 7 条调查数据,占了记录总量的7 9 1 6 。1 5 个子域中平均 有9 8 8 条样本数据,最少也有3 2 8 条( 记录分布情况见表2 2 ) 。我们可以认为 这1 4 8 2 7 条数据在区域 1 l ,2 6 ) 上构成了一个大样本。下面就把 1 1 ,2 6 ) 上1 5 个子域作为讨论对象。 a g e l e v e l 患病人数总人数 a g e l e v e l 患病人数总人数 1 1 ,1 2 ) 2 69 9 9 【1 9 ,2 0 ) 1 4 94 9 8 j 2 ,1 3 ) 6 81 6 4 2 2 0 ,2 1 ) 1 9 05 9 8 1 3 ,1 4 ) 1 2 52 1 4 8 2 1 ,2 2 ) 2 6 16 8 7 1 4 ,1 5 ) 1 6 52 1 1 8 2 2 ,2 3 ) 2 7 26 3 l 1 5 ,1 6 ) 1 8 21 6 4 2 2 3 ,2 4 ) 2 0 85 3 5 1 6 ,1 7 ) 1 9 01 2 3 2 2 4 2 5 ) 1 5 83 7 2 1 7 ,1 8 ) 1 6 38 2 7 2 5 ,2 6 ) 1 2 33 2 8 1 8 ,1 9 ) 1 5 8 6 7 0 总计2 4 3 8 1 4 8 2 7 _ 表2 21 4 8 2 7 条记录分布情况 根据表2 2 ,可以计算得出每个子域上的高血压患病率( 各子域中的患病 率= 子域中的患病人数该子域中的总人数) ;进一步地,我们用每个子域的中点 ( 后面称之为控制点) 作为所在的子域代表,并把各子域上的高血压患病率赋 予各自的控制点。结果如表2 3 所示: a g e l e v e l患病率a g e l e v e l患病率 a g e l e v e l患病率 1 l 5 0 0 2 6 0 1 6 52 1 5 0 3 7 9 9o1 5 4 2 1 2 5 0 0 4 4 i 1 7 5 0 1 9 7 1 2 2 5 0 4 3 1 i 1 3 5 0 0 5 8 2 1 8 5 2 3 5 0 2 3 5 8 0 3 8 8 8 1 4 5 0 0 7 7 9 1 9 52 4 5 0 。2 9 9 20 4 2 4 7 1 5 5 o 1 1 0 8 2 0 5 0 3 1 7 7 2 5 5 0 3 7 5 0 表2 3 备控制点患病率 复旦大学硕士学位论文 根据上表可以看出,随着年龄的增长,高血压患病率也基本上呈现逐渐上 升的趋势,这一趋势还是比较符合客观实际的。总的说来4 5 岁以前患病率还是 很低的,但6 0 岁之后患病率就较高了,如年龄在7 4 岁左右,患病率就达到了 0 4 2 4 7 。 由于样本数据足够多,所以使用统计频率方法来计算各子域中高血压的患 病率还是比较准确,可以认为是能反映客观事实的,所以本文就用它作为近似 的客观标准值来与下面的小样本结果进行对照。 2 2 2 构造小样本问题 为了说明处理小样本问题的方法,我们从1 4 8 2 7 条数据记录中随机抽取了 5 0 0 条,得到的样本在【1 1 ,2 6 ) 的1 5 个子域中分布并不均匀,平均只有3 3 条 记录,最少的仅有9 条,可以称为是小样本,如表2 4 所示。 对此小样本直接使用通常的统计频率方法来计算高血压患病率,我们就可 以得到在各子域中心( 控制点) 上的高血压患病率( 见表2 4 ) 。 a g e l e v e l 患病人数总人数患病率a g e l e v e l患病人数总人数患病率 1 1 5 13 40 0 2 9 4 1 9 5 61 70 3 5 2 9 1 2 5 45 30 0 7 5 5 2 0 5 21 8o 1 1 i l 1 3 5 7 3o 0 4 1 l 2 1 5 52 00 2 5 0 03 1 4 5 38 20 0 3 6 6 2 2 5 82 10 3 8 1 0 1 55 65 00 1 2 0 0 2 3 5 1 22 00 6 0 0 0 1 6 5 53 80 1 3 1 6 2 4 5 5g0 5 5 5 6 1 7 5 22 800 7 1 4 2 5 5 21 20 1 5 6 7 1 8 5 42 50 1 6 0 0 总计 6 85 0 00 1 3 6 0 表2 4 小样本数据记录分布情况及相应高血压患病率 根据表2 3 和2 4 ,给出大小样本由统计频率方法得到的患病率折线比较 图( 见图2 1 ) 。 复旦大学硕士学位论文 穗 + 大带赫摊值 j + 小阼栏槲值 。| n 争 彳yv 孓r y 。, i 51 251 3 51 4 - 51 5 51 6 5 1 7 51 51 9 52 0 52 l5z 己52 3 5 驰52 5 5 a g e l e v e l 图2 1 大、小样本统计频率方法所得患病率比较图 从图形上来看,曲线波动非常大,多次穿过标准曲线,已经不能反映高血 压患病率随年龄的增长而逐渐上升的总趋势。可见统计频率方法在小样本情况 下的可靠性较差。 但上面对估计方法的可靠性仅仅是凭一种粗略的直观感觉来进行评价,有 必要进行针对估计方法的误差分析,以便从数量上对估计结果和标准值的吻合 程度进行测量和分析。按照一般的误差分析理论,对每一个控制点均计算其相 对误差删,此处苜,p 分别是高血压病患病率的估计值和客观标准值。但是, p 由于有时p 很小,几乎为0 ,微小的瞄一p | 也会导致很大的误差。就本文而言, 我们不能排除患病率可能为o 或接近0 的情况,所以打算采用一个整体概念, 即绝对误差总和 陋一p i 。本节小样本情况所得高血压患病率与大样本客观 所育i 空制点 标准值在各控制点的绝对误差总和为1 _ 3 1 7 2 ,这是相当大的误差,相当于每个 控制点有0 0 8 7 8 的绝对误差,而真实患病率本身只有0 2 、0 3 之类,很明显 我们对这个结果不能感到满意,所以期望能找到一种方法,能相对提高小样本 情况下的估计精度。 7 6 5 4 3 2 1 0 o n o 0 n 0 n 2 3 二维数据处理 本文再讨论一种二维情况,即考察高血压患病率与其两个主要危险因素一 年龄、b m i ( b o d ym a s si n d e x ) 的关系为考察对象。所需要的数据项包括居民 的年龄档次a g e l e v e l 、b m i 以及是否患有高血压等三项,所以首先从原始数据 库文件中选取可能涉及的字段,譬如年龄、身高、体重、高血压患病程度等, 再进行一定的变换运算( 如从身高和体重可以计算出b m i ,b m i = 体重身高的平 方,a g e l e v e l = a g e 3 ) 。从而得到本文所需二维工作数据表,其字段组成为: a g e l e v e l ( 单位:1 3 岁) 、b m i ( 单位:公斤米2 ) 、被调查者患高血压与否( 1 表示患有高血压,0 则表示未患) 。这样a g e l e v e l 、b m i 均以1 为步长将1 8 7 3 1 条调查数据进行划分归档,因此整个所讨论的平面( a g e l e v e ,b m i ) 被分割为 许多边长为l 的正方形子区域。 类似于一维的情况,某些子区域中的数据量依然较少。因此本文着重考虑 年龄适中、b m i 较为正常的人群,即选取3 3 岁到7 8 岁( a g e l e v e l 在1 1 到2 6 ) 、 b m i 在2 0 到2 6 之间的人群。这样做的目的同样是为了使最后的统计结果更为 可靠。 2 3 1 大样本数据分析 从1 8 7 3 1 条数据记录中取出落在a g e l e v e l 取 1 1 ,2 6 ) ,b m i 取 2 0 ,2 6 ) 的 9 0 个正方形子区域中的1 3 1 9 1 条调查数据,占了记录总量的7 0 4 2 。9 0 个子 区域中平均有1 4 7 条样本数据,最少也有3 2 条( 记录分布情况见表2 5 ) 。我 们基本上可以认为这1 3 1 9 1 条数据在区域 1 1 ,2 6 ) 2 0 ,2 6 ) 上构成了一个大样 本。下面就把 1 1 ,2 6 ) 2 0 ,2 6 ) 上9 0 个正方形子区域作为讨论对象。 分块分块 患病人数总人数患病人数总人数 a g e l e v e l b m i a g e l e v e l f b m i 1 l ,1 2 ) i 2 0 2 1 ) 01 7 3 1 8 ,1 9 ) | 2 3 ,2 4 )2 01 1 9 1 复旦大学硕士学位论文 分块分块 患病人数总人数患病人数总人数 a g e i e v e l b m i a g e l e v e l b m i 1 1 ,1 2 ) 2 1 ,2 2 ) 21 7 4 1 8 ,1 9 ) 2 4 ,2 5 )2 09 2 1 1 1 2 )e 2 2 ,2 3 )31 7 3 1 8 ,1 9 ) 2 5 。2 6 )2 6 5 8 【1 1 ,1 2 ) 2 3 ,2 4 )21 2 4 1 9 ,2 0 ) 2 0 ,2 1 ) 1 65 9 1 1 ,1 2 ) 2 4 ,2 5 )66 8 1 9 ,2 0 ) 2 l ,2 2 )2 27 3 1 1 ,1 2 ) 2 5 ,2 6 )34 l 1 9 ,2 0 ) c 2 2 ,2 3 ) 1 79 9 1 2 ,1 3 ) 2 0 ,2 1 )92 5 3 e 1 9 ,2 0 ) 2 3 ,2 4 ) 3 01 2 0 1 2 ,1 3 ) 2 1 ,2 2 )52 5 8 1 9 ,2 0 ) 2 4 ,2 5 )2 89 1 1 2 ,1 3 ) 2 2 ,2 3 )82 9 4 1 9 ,2 0 ) 2 5 ,2 6 )1 56 7 1 2 ,1 3 ) 2 3 ,2 4 )1 42 1 6 2 0 。2 1 ) 2 0 ,2 1 )3 31 2 9 1 2 ,1 3 ) 2 4 ,2 5 )1 11 3 7 2 0 ,2 1 ) 2 l ,2 2 )2 81 1 4 1 2 ,1 3 ) 2 5 2 6 )66 4 2 0 ,2 1 ) 2 2 ,2 3 ) 3 21 5 9 1 3 ,1 4 )e z o ,2 1 )93 5 0 2 0 ,2 1 ) 2 3 ,2 4 )3 61 5 7 f 1 3 ,1 4 ) 2 l ,2 2 )1 73 3 3c z o 。2 1 ) 2 4 ,2 5 )3 41 2 0 1 3 ,1 4 ) 2 2 ,2 3 )2 34 0 6 2 0 2 1 ) 2 5 ,2 6 ) 2 88 0 1 3 ,1 4 ) 2 3 ,2 4 )2 22 9 9 2 l ,2 2 ) 2 0 ,2 1 )2 4 1 1 7 1 3 ,1 4 ) 2 4 ,2 5 )1 72 0 3 e 2 1 ,2 2 ) 2 l ,2 2 )3 51 3 5 1 3 ,1 4 ) 2 5 ,2 6 )1 21 0 0 2 1 2 2 ) 2 2 。2 3 )5 61 9 3 1 4 ,1 5 ) 2 0 ,2 1 )1 03 1 6 2 1 ,2 2 ) 2 3 ,2 4 )5 71 7 0 1 4 ,1 5 ) 2 l ,2 2 )1 93 6 l 2 l ,2 2 ) 2 4 ,2 5 )4 91 4 4 1 4 ,1 5 ) 2 2 ,2 3 )2 04 2 0 2 】2 2 ) 2 5 ,2 6 )5 01 1 2 1 4 ,1 5 ) 2 3 ,2 4 )2 4 3 0 0 2 2 ,2 3 ) 2 0 ,2 1 ) 3 11 1 8 1 4 ,1 5 ) 2 4 ,2 5 )3 1 2 1 6 2 2 ,2 3 ) 2 1 ,2 2 )4 21 1 5 1 4 ,1 5 ) 2 5 ,2 6 )1 5 1 0 1 2 2 ,2 3 ) 2 2 ,2 3 )6 11 8 9 1 5 ,1 6 ) 2 0 ,2 1 )62 1 5 2 2 ,2 3 ) 2 3 ,2 4 )5 91 5 3 1 5 ,1 6 ) 2 1 ,2 2 )1 9 2 7 1 2 2 ,2 3 ) 2 4 ,2 5 ) 4 51 2 l 1 5 ,1 6 ) 2 2 ,2 3 )3 l2 8 2 2 2 ,2 3 ) 2 5 ,2 6 ) 2 77 7 1 5 ,1 6 ) 2 3 ,2 4 )2 62 6 6 2 3 ,2 4 ) 2 0 2 1 )2 31 0 0 1 5 ,1 6 ) 2 4 ,2 5 )2 71 7 4 2 3 ,2 4 ) 2 l ,2 2 )2 91 0 9 1 5 1 6 ) 2 5 ,2 6 )2 01 1 4 2 3 ,2 4 ) 2 2 ,2 3 )4 41 5 5 1 6 ,1 7 ) 2 0 ,2 1 )1 61 6 7 2 3 ,2 4 ) 2 3 ,2 4 )3 61 0 8 0 复旦大学硕士学位论文 分块分块 患病人数总人数患病人数总人数 a g e l e v e l b m i a g e l e v e l b m i 1 6 ,1 7 ) 2 1 ,2 2 ) 1 81 6 8 2 3 ,2 4 ) 2 4 ,2 5 )4 3 1 0 8 1 6 ,1 7 ) 2 2 ,2 3 ) 2 82 2 2 2 3 ,2 4 ) 2 5 ,2 6 ) 3 46 2 1 6 ,1 7 ) 2 3 ,2 4 ) 3 01 9 4 2 4 ,2 5 ) 2 0 ,2 1 )2 7 6 9 1 6 ,1 7 ) 2 4 ,2 5 ) 2 21 3 6 2 4 ,2 5 ) 2 1 ,2 2 )3 08 6 1 7 ,1 8 ) 2 5 。2 6 )2 38 7 2 4 ,2 5 ) 2 2 ,2 3 )3 9 1 0 8 1 7 ,1 8 ) 2 0 ,2 1 ) 1 39 8 2 4 ,2 5 ) 2 3 ,2 4 )4 09 4 1 7 ,1 8 ) 2 1 ,2 2 ) l l1 1 8 2 4 ,2 5 ) 2 4 ,2 5 )3 5 8 5 1 7 ,1 8 ) 2 2 ,2 3 ) 1 91 4 6 2 4 ,2 5 ) 2 5 ,2 6 )2 l4 6 1 7 ,1 8 ) 2 3 ,2 4 )2 51 1 9 2 5 ,2 6 ) 2 0 ,2 1 )2 l6 2 1 7 ,1 8 ) 2 4 ,2 5 ) 3 11 0 2 2 5 ,2 6 ) 2 1 ,2 2 )2 16 0 1 7 ,1 8 ) 2 5 ,2 6 ) 1 96 5 2 5 ,2 6 ) 2 2 ,2 3 )2 86 5 1 8 ,1 9 ) 2 0 ,2 1 )96 4 2 5 ,2 6 ) 2 3 ,2 4 )1 74 5 1 8 ,1 9 ) 2 1 2 2 ) 1 27 9 2 5 ,2 6 ) 2 4 ,2 5 )1 23 8 1 8 ,1 9 ) 2 2 ,2 3 )2 01 1 1 2 5 2 6 ) 2 5 2 6 )1 83 2 表2 51 3 1 9 1 条记录分布情况 根据表2 5 ,可以计算得出每个子区域上的高血压病患病率( 各分块中的患 病率= 其中的患病人数总人数) :进一步地,我们用每个子区域的中心点( 后面 称之为控制点) 作为所在的子区域代表,并把各子区域上的高血压病患病率赋 予各自的控制点。结果如表2 6 所示: 控制点 控制点 控制点 患病率患病率 患病率 a g e e v e l b m i a g e l e v e l b m i a g e l e v e l8 m i 1 1 52 0 5o1 6 5 2 0 50 0 9 5 82 1 5 2 0 50 2 0 5 l 1 1 52 1 5 o 0 1 1 51 6 52 1 50 1 0 7 12 1 5 2 1 50 2 5 9 3 1 1 52 2 5o 0 1 7 31 6 5 2 2 50 1 2 6 l2 1 52 2 50 2 9 0 2 1 1 52 3 50 0 1 6 11 6 52 3 5 0 1 5 4 62 1 52 3 50 3 3 5 3 1 1 52 4 5 0 0 8 8 21 6 52 4 50 1 6 1 8 2 1 52 4 50 3 4 0 3 1 1 52 5 500 7 3 21 6 5 2 5 50 2 6 4 42 1 5 2 5 50 4 4 6 4 复旦大学硕士学位论文 控制点控制点 控制点 患病率患病率患病率 a g e le v e l b m i a g e l e v e l b m ia g e l e v e lb m i 1 2 52 0 50 0 3 5 61 7 52 0 50 1 3 2 7 2 2 52 0 50 2 6 2 7 1 2 52 1 50 0 1 9 41 7 52 1 50 0 9 3 2 2 2 52 1 50 3 6 5 2 1 2 52 2 50 0 2 7 21 7 52 2 50 1 3 0 1 2 2 52 2 50 3 2 2 8 1 2 52 3 50 0 6 4 81 7 52 3 5o 2 1 0 1 2 2 52 3 50 3 8 5 6 1 2 52 4 50 0 8 0 31 7 52 4 50 3 0 3 9 2 2 52 4 50 3 7 1 9 1 2 52 5 50 0 9 3 81 7 52 5 50 2 9 2 3 2 2 52 5 50 3 5 0 6 1 3 52 0 50 0 2 5 71 8 52 0 50 1 4 0 62 3 52 0 50 2 3 0 0 1 3 52 1 5o 0 5 1 11 852 1 50 1 5 1 92 3 52 1 50 2 6 6 l 1 3 52 2 50 0 5 6 71 8 52 2 50 1 8 0 2 2 3 52 2 50 2 8 3 9 1 3 52 3 50 0 7 3 61 8 52 3 50 1 6 8 12 3 52 3 50 3 3 3 3 1 3 52 4 50 0 8 3 71 8 52 4 50 2 1 7 42 3 52 4 50 3 9 8 1 1 3 52 5 50 1 2 0 01 8 52 5 50 4 4 8 32 3 52 5 50 5 4 8 4 1 4 52 0 50 0 3 1 61 9 52 0 50 2 7 1 22 4 52 0 50 3 9 1 3 1 4 52 1 50 0 5 2 61 9 52 1 50 3 0 1 42 4 52 1 50 3 4 8 8 1 4 52 2 50 0 4 7 61 9 52 2 50 1 7 1 72 4 52 2 50 3 6 l l 1 4 52 3 50 0 8 0 01 9 52 350 2 5 0 02 4 52 3 50 4 2 5 5 1 4 52 4 50 1 4 3 51 9 52 4 50 3 0 7 72 4 52 4 50 4 1 1 8 1 4 52 5 50 1 4 8 51 9 52 5 50 2 2 3 92 4 52 5 50 4 5 6 5 1 5 52 0 50 0 2 7 92 0 52 0 50 2 5 5 82 5 52 0 50 3 3 8 7 1 5 52 1 50 0 7 0 l2 0 52 1 50 2 4 5 62 5 52 1 50 3 5 0 0 1 5 52 2 50 1 0 9 92 0 52 2 5o 2 0 1 32 5 52 2 50 4 3 0 8 1 5 52 3 50 0 9 7 72 0 52 3 50 2 2 9 32 5 52 3 50 3 7 7 8 1 5 52 4 50 1 5 5 22 0 52 4 5 0 2 8 3 32 5 52 4 5o 3 1 5 8 1 5 52 5 50 1 7 5 42 0 52 5 5 0 3 5 0 02 5 52 5 50 5 6 2 5 表2 6 各控制点患病率 根据表2 6 ,借助m a t l a b 软件包的绘图功能,得到对大样本1 3 1 9 1 条数据 记录使用统计频率方法所得近似标准高血压患病率的样条插值曲面,见图2 2 : 复旦大学硕士学位论文 s t a t i s t i c s ( 1 a r g es a m p l e ) b m i 2 01 0 a g e l e v e l 图2 2 大样本数据运用统计频率方法 所得高血压患病率曲面图 可以从上图看出,随着年龄的增长,b m i 的增加,高血压患病率逐渐上升, 这一趋势还是比较符合客观实际的。总的说来4 5 岁以前患病率还是很低的,接 近于0 ,但5 0 岁以后就呈现逐步上升趋势,而且b m i 越大,患病率越高,如年 龄在7 8 岁左右,b m i 在2 5 、2 6 之间,患病率达到了0 5 6 2 5 。 同一维情况下类似,使用统计频率方法来计算各子区域中高血压病的患病 率还是比较准确的。而且曲面比较光滑有规则,波动并不太大,所以本文就用 它作为近似的客观标准值来与下面小样本结果进行对照。 2 3 2 构造小样本问题 我们从1 3 1 9 1 条数据记录中随机抽取了3 0 0 0 条,得到的样本在 11 ,2 6 ) x 2 0 ,2 6 ) 的9 0 个正方形子区域中分布并不均匀,平均只有3 3 条记录,最少的 8 6 4 2 0 6 0 0 0 0 : 复旦大学硕士学位论文 仅有4 条,可以称为是小样本。如表2 7 所示。 对此小样本直接使用通常的统计频率方法来计算高血压患病率,我们就可 以得到在各子区域中心( 控制点) 上的高血压病患病率( 亦见表2 7 ) 。 分块( 控制点)分块( 控制点) 患病人数总人数患病率患病人数总人数患病率 a g e l e v e l b m i a g e l e v e l b , t i 1 1 52 0 5 04 1o 1 8 52 3 5 32 70 1 1 1 1 1 1 52 1 5 04 6o 1 8 52 4 5 42 l0 1 9 0 5 1 1 52 2 5 l4 00 0 2 5 0 1 8 52 5 5 71 50 4 6 6 7 1 1 52 3 5 03 30 1 9 52 0 5 11 00 1 0 0 0 1 1 52 4 5 21 50 1 3 3 3 1 9 52 1 5 72 00 3 5 0 0 1 1 52 5 5 19o 1 1 1 1 1 9 52 2 5 31 30 2 3 0 8 1 2 52 0 5 17 70 0 1 3 0 1 9 52 3 5 41 70 2 3 5 3 1 2 52 1 5 27 5o 0 2 6 7 1 9 52 4 5 41 60 2 5 0 0 1 2 52 2 5 27 80 0 2 5 6 1 9 52 5 5 190 1 1 1 l 1 2 52 3 5 35 80 0 5 1 7 2 0 52 0 5 52 00 2 5 0 0 1 2 52 4 5 44 20 0 9 5 2 2 0 52 1 5 81 9o 4 2 1 l 1 2 52 5 5 21 9o 1 0 5 3 2 0 52 25 41 802 2 2 2 珀52 0 5 28 60 0 2 3 3 2 0 52 3 5 1 02 40 4 1 6 7 1 3 52 1 5 28 20 0 2 4 4 2 0 52 4 5 82 2 0 3 6 3 6 1 3 52 2 5 51 1 70 0 4 2 7 2 0 52 5 5 5l o0 5 0 0 0 1 3 52 3 5 57 00 0 7 1 4 2 l t52 0 5 31 10 2 7 2 7 1 3 52 4 5 46 40 0 6 2 5 2 1 52 1 _ 5 31 90

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论