




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
p 8 5 8 1 8 口 信息扩散技术应用及其参数优化处理+ j 摘要 在进行风险分析与评估的过程中,总要涉及到称之为信息的数据的处理、提 炼和分析。而在许多情况下,能采集到的数据非常少。如何从不完备的数据中挖 掘出尽可能多的信息,这是本文所关注的重点。本文应用信息扩散方法对不完各 样本进行处理,取得了令人满意的结果。 本文以冠心病患病率问题为背景,在以往的工作基础上,推导了归一化信息 矩阵,明确了信息扩散在患病率研究中的意义。在已有大样本的基础上,本文随 机抽取了一维和二维问题的小样本,利用信息扩散技术研究冠心病患病率与两个 主要危险因素年龄、体质指数之间的关系,并将结果与大样本标准相比较, 说明了信息扩散技术在处理患病率小样本问题上的有效性。 随后我们将信息扩散方法应用于一个真实的三维小样本问题研究上,探讨了 冠心病患病率与三个血检生化指标甘油三脂、低密度脂蛋白以及血糖之间的 关系,取得了良好的效果。 此外,本文进一步拓展了信息扩散函数的优化处理问题。引入了描述扩散后 结果与原样本偏离程度的度量“偏离度”的概念,并将有限偏离准则之与最 小波动原理相结合,分别对一维和二维问题进行参数优化处理,取得了令人满意 的效果,达到了适用范围广且较为客观的目的。 为了进一步说明信息扩散方法的可靠性,本文另外抽取了一维和二维问题的 小样本,重复前面一系列工作,加以验证。 关键词:信息扩散、高维、优化、偏离、冠心病患病率 课题1 9 8 3 1 0 2 0 由国家科学自然基金赞助 t h e a p p l i c a t i o n o ft h ei n f o r m a t i o nd i f f u s i o nt e c h n i q u e w i t h o p t i m i z e d p a r a m e t e r s + a b s t r a e t d a t ap r o c e s s i n gi sa ni n t e g r a lp a r to fr i s ka n a l y s i s b e c a u s eo ft h es c a r c i t yo fd a t af o r o c c a s i o n a le v e n t s ,t h er e s u l t sm a yb ed i s t o r t e di fw ee m p l o yt r a d i t i o n a ls t a t i s t i c a l m e t h o d s t h eg o a lo ft h i sp a p e ri st of i n dam e t h o dt h a tc a ng i v em o r ea c c u r a t er e s u l t s f r o mr e l a t i v e l yi n s u f f i c i e n td a t a i n f o r m a t i o nd i f f u s i o nm e t h o d ( i d m ) i se m p l o y e di n t h i sp a p e rt ot r e a tw i t ht h ei n c o m p l e t es a m p l e , t h i sp a p e rp r o b e si n t ot h es m a l l s a m p l ep r o b l e m sa r i s i n gf r o mt h er i s ka n a l y s i so f c o r o n a r y h e a r td i s e a s e ( c h d ) f i r s tw ea p p l yt h ei d mt ot h ea r t i f i c i a lo n e - a n d t w o - d i m e n s i o n a ls m a l ls a m p l e s ,w h i c ha r er a n d o m l ys e l e c t e df r o mt h eo r i g i n a ll a r g e s a m p l e ;t h er e s u l t a n tp r e v a l e n c er a t eo fc h d ( p r d ) a r e m o r ea c c u r a t et h a nt h a tf r o m t h et r a d i t i o n a ls t a t i s t i c a lm e t h o d t h e r e f o r e ,t h ee f f i c i e n c yo ft h ei d mt od e a lw i t ht h e i n c o m p l e t ed a t ai sv e r i f i e d t h e nc o n s i d e rar e a lt h r e e d i m e n s i o n a ls m a l ls a m p l e t h e i d mi s e m p l o y e dt o f i n do u tt h e r e l a t i o n s h i p b e t w e e nt h ep r da n dt r i g l 。y c e r i d e s , l o w d e n s i t yl i p o p r o t e i n a n d g l u c o s e t h e r e s u l ti ss a t i s f a c t o r y f u r t h e r m o r e a no p t i m a lm o d e lo ft h ed m p a r a m e t e r s ( o i d m ) i se s t a b l i s h e d t h e “l i m i t e d d e p a r t u r e c r i t e r i o n ”i si n t r o d u c e da n dc o m b i n e dw i t ht h e “m i n i m u m f l u c t u a t i o nc r i t e r i o n t od e a lw i t ht h eo n e a n dt w o d i m e n s i o n a lp r o b l e m s i tr e s u l t si n m o r er e a s o n a b l ea n da c c u r a t ep l o dc o l v e ( s u _ f f a c e ) i no r d e rt os h o wt h er e l i a b i l i t yo fi n f o r m a t i o nd i f f u s i o nt e c h n i q u e s ,a n o t h e rt w os m a l l s a m p l e sa r et r e a t e d i nt h es a l n ew a y k e y w o r d :i n f o r m a t i o nd i f f u s i o n ,h i g h e rd i m e n s i o n ,o p t i m i z a t i o n ,d e p a r t u r e ,p r e v a l e n c e r a t eo f c o r o n a r yh e a r td i s e a s e + p r o j c e t l 9 8 3 1 0 2 0s u p p o r k d b y n _ t i o u n l n a t u r a l s c i “e f o u n d a t i o n o f c h i n a 1 引言 1 1 研究目的 在进行风险分析与评估的:吐程中,总要涉及到称之为信息的数据的处理、提 炼和分析。而在许多情况下,能采集到的数据非常少。例如台风、地震( 七级以 上的大地震) 、特大洪水等,这些自然灾害有时几十年才发生一次,这就给保险业 中的巨灾险的定价带来困难。:类似的例子还有新市场上产品的开发、新险种的定 价等。 如何从不完备的数据中挖掘出尽可能多的信息,这是本文所关注的重点。处 理不完备信息的方法有很多,本文主要利用的是信息扩散原理,这是黄崇福博士 等提出的模糊信息优化处理技术主要依据之一。在本文中,我们把信息扩散方 法( i n f o r m a t i o nd i f f u s i o nm e t h o d ,i d m ) 应用于患病率研究的实际课题上。 肥胖症、糖尿病、高血压病、高血脂症和冠心病是一组相互联系的五种慢性 疾病。在西方一些国家把这组疾病称之为x 综合症或胰岛素抵抗综合症,也有人 称其为“富裕性疾病”。在我国随着国民经济的快速发展,人民的生活水平已有了 根本的改善并将继续不断的提高,其膳食结构和营养状况也发生很大的变化,由 此而引起的富裕性疾病的患病率亦日趋增高。因而对富裕性疾病患病率问题的研 究工作也越来越重要了。本文仅就冠心病患病率问题加以探讨,所涉及的课题有 两个: 夺课题一:1 9 9 7 年在美国大都会人寿保险公司的资助下,复旦大学和上海市延 吉街道医院合作在上海市杨浦区延吉社区进行了一项富裕性疾病普查。这项 调查在延吉社区全体1 5 岁以上常住户口居民中进行,历时约一年,菇取得 了1 8 7 4 9 份调查纪录。 夺课题二:鉴于目前心脑血管疾病已居我国老年疾病发病率的首位,且随着我 国人口老龄化趋势的加剧,老年心脑血管疾病日益突出。因而对老年冠心病 的研究具有重要的现实意义。2 0 0 1 年,在瑞士再保险公司的资助下,复旦大 学与上海市新华医院合作,利用新华医院老年瘸科体检记录建立了体检数据 库。 我们将利用上述两套数据对冠心病患病率问题从不同的方面加以研究。 1 2 既有工作简介 复旦大学数学系精算学科组师生与上海大学陆余楚教授合作,在对富裕性疾 病的患病风险进行的一系列研究和分析中,利用了各种模糊信息优化处理技术。 随着对问题研究与探讨的深入,所使用的处理方法也在不断的发展提高中,我们 从各个不同的角度总结如下: 夺从方法角度看:最早的信息分配方法作为一种从知识样本中学习有关规律 的数据处理技术,方法简单直观,但其缺点在于信息点的影响仅局限于与它 相邻有限个控制点;锥形信息扩散方法的提出,从一定程度上解决了信息分 配的不足之处;进一步,为了寻找合乎信息扩散机理的扩散方式,把分子扩 散、热传导作为信息扩散的近似模型,利用数学物理方法推导了钟形信息扩 散函数f 2 1 。 夺从维数角度看:已解决了一维、二维的信息处理问题,但还未将此方法应用 于高维课题中。 夺从参数优化角度看:最早是将估计值与大样本标准值的绝对误差总和最小作 为优化目标【3 1 ,其缺陷在二f :在大多数情况下,并没有可供参照的大样本; 为此引入了最小波动原理削,虽然有了较为客观的优化目标,但具体处理时 是人为地给定参数范围:为解决这一问题,在最小波动原理这一客观共性的 标准之外,我们加入了实际问题的背景信息作为附加条件2 1 ,取得了较好的 效果,但这样处理的不足:艺处在于:对于每个实际问题的背景信息必然是不 同的,因而在处理上缺乏麸性。 在以往工作的基础上,本文仍以患病率问题为背景,试图明确信息扩散在患 病率问题研究中具体意义,进一步,拓展了信息扩散函数的参数优化处理方法, 具体工作如下: 夺推导了归一化信息矩阵。以往的工作中对信息扩散并不要求归一,这就使信 息扩散意义不明确。经归一化处理后,我们可以将人数扩散的结果理解为人 数密度,从而明确了信息扩散方法在患病率问题中应用的意义。 夺首次将信息扩散方法应用于高维问题,处理了三维的患病率实例。 2 冷在参数优化问题上,引入了描述扩散后结果与原样本偏离程度的度量 “偏离度”的概念,将之与最小波动原理结合,进行信息扩散函数的参数优 化,达到了适用范围广且较为客观的目的。 1 3 文章结构简介 本文的第二部分集中介绍了文中所用具体应用实例的数据情况及其处理过 程。 第三部分是信息扩散方法的具体应用。首先推导了r 维信息矩阵,并介绍了 患病率的具体定义,随后利用正态形扩散函数分别研究一维、二维和三维的患病 率信息扩教问题。下文中我们总是称这种扩散方式为正态信息扩散方法( n o r m a l i n f o r m a t i o nd i f f u s i o nm e t h o d ,n i d m ) 。 信息扩散函数的参数优化问题将在第四部分中加以讨论。我们引入对偏离程 度的度量,结合最小波动原理对钟形扩散函数进行参数优化选择。利用这种优 化信息扩散方法( o p t i m a li n f o r m a t i o nd i f f u s i o nm e t h o d ,o i d m ) 求得的患病率曲 线( 曲面) 不仅反映样本的实际情况,而且波动较小。 为了验证信息扩散方法的可靠性,我们另外抽取了几个小样本,再次进行了 前述几章中的工作,具体结果庄第五部分中给出。由此得到关于信息扩散方法应 用于患病率问题中的结论,并:考虑了信息扩散方法的推广问题。 本文在处理数据时使用了v i s u a lf o x p r o 数据库软件、m a t l a b 数学软件 包和m i c r o s o f te x c e l 电予表格。 2 数据情况 2 1 延吉社区数据 2 1 1 数据情况介绍 1 9 9 7 年对延吉社区富裕性疾病的普查资料相当全面,调查项目为5 6 项,内 容不仅包括高血压、冠心病、糖尿病、高血脂、肥胖症等疾病的患病及治疗情况, 还包括居民的性别、职业、文化程度、身高、体重等基本情况,以及家族病史、 吸烟史、饮酒史、户外活动、饮食习惯等各种相关因素。 2 1 2 数据处理 首先对录入的原始数据进行有效性分析,剔除其中明显有误的数据,如误填 出生年月,身高体重超出可能范围,明显逻辑错误( 冠心病患病开始时间早于出 生年月) 等。最后我们得到可供分析的数据共1 8 4 5 3 条,其中患者8 6 4 人,健康 者1 7 5 8 9 人。 影响冠心病患病率的风险因素很多,如年龄、性别、家族病史、吸烟史等。 对众多风险因素进行数学处理后 5 】,找到了冠心病的主要影响因素:年龄和体质 指数( b m i = 体重身高2 ) ,并就一维和二维的情况分别加以分析。 1 一维问题 1 1 大样本 由于在一些过高或过低的年龄水平中,记录的数量过少,因而本文着重考虑 年龄适中的人群,3 3 岁到7 8 岁的人群。满足此条件的记录数为1 6 6 5 0 ( 占有效记 录总量的9 0 2 ) 。由于冠心病患病率关于年龄的变化较为平缓嗍,相邻年龄的患 病率相差不大,因而我们统一将年龄转化为年龄水平( a g e l e v e l = a g e 3 ) ,并将1 6 6 5 0 条记录按a g e l e v e l 以步长1 归档,把整个讨论区域分割为长度为1 的1 5 个子域。 将经过上述处理后所得的调查数据作为一维情况的大样本,利用统计频率方 4 法( t r a d i t i o n a ls t a t i s t i c a lm e t h o d ,t s m ) 求得在各个子域的冠心病患病率,并将每 个子域的中点( 称之为控制点) 作为所在子域的代表( 表1 ) 。 表1 一维大样本患病率 控制点患病人数健康人数患病率( t s m ) 1 1 549 9 30 0 0 4 0 1 2 571 5 3 10 0 0 4 6 1 3 51 22 1 3 00 0 0 5 6 1 4 51 52 0 9 10 0 0 7 1 1 5 53 21 6 0 00 0 1 9 6 1 6 52 81 1 9 60 0 2 2 9 1 7 53 77 8 60 0 4 5 0 1 8 53 66 2 60 0 5 4 4 1 9 55 86 1 60 0 8 6 1 2 0 57 48 7 90 0 7 7 6 2 1 51 2 89 8 70 1 1 4 8 2 2 51 1 48 6 70 1 1 6 2 2 3 51 1 17 0 80 1 3 5 5 2 4 5) 04 9 40 1 5 4 1 2 5 56 43 3 60 1 6 0 0 随着年龄水平的上升,患病率呈现平稳上升的趋势,利用统计频率方法求得 的各子域冠心病患病率还是比较准确的,可以认为是能反映客观事实的。因而本 文就以此患病率曲线作为近似的客观标准值。 1 2小样本 为了研究信息扩散方法对:下完备信息的处理,我们从1 6 6 5 0 条记录中随机抽 取了1 0 5 条记录( 其中患者6 人,健康者9 9 人) ,每个子区间平均有7 条记录, 因而可将之视为一维小样本实例。利用统计频率方法计算患病率( 表2 ) 。 可以看出,小样本的统计频率患病率上下波动起伏很大,不能反映冠心病患 病率随年龄水平的增长而上升的总趋势( 图1 ) ,因而统计频率方法在这个患病率 小样本问题上是不合适的。下:史中我们将利用信息扩散方法对此小样本问题进行 处理。 表2 一维小样本患病率 控制点患病人数健康人数患病率( t s m ) 1 1 5o70 1 2 5090 1 3 501 6o 1 4 5090 1 5 501 10 1 6 508o 1 7 s130 2 5 0 0 0 1 8 505o 1 9 5050 2 0 5l80 1 1 1 1 1 2 1 5150 1 6 6 6 7 2 2 5160 1 4 2 8 6 2 3 5l30 2 5 0 0 0 2 4 5l30 2 5 0 0 0 2 5 5010 2 二维问题 图1 大、小样本统计频率患病率比较 2 1 大样本 在一维大样本的基础上,引入另一风险因素b m i 。类似的选取b m i 适中的人 群,即b m i 在2 0 到2 6 之间的人群。由此得到了a g e l e v e l 在1 1 到2 6 之间,b m i 在2 0 到2 6 之间的1 3 0 0 5 条记录,其中患者5 7 1 人,健康者1 2 4 3 4 人,以此作为 6 二维大样本( 表3 ) 。利用步长( 1 ,1 ) 划分子域,并视每个子域的中心为该子域的 代表( 称之为控制点) ,将利用统计频率方法求得的子域的冠心病患病率赋予对应 的控制点( 表4 ) 。 表3 二维大样本人数分布 控制点( b m i ) 控制点 患病人数健康人数 ( a g e l e v e l ) 2 0 52 1 52 2 52 3 52 4 52 5 52 0 52 1 52 2 52 3 52 4 5 2 5 5 1 1 5002 0201 7 21 7 41 7 11 2 46 64 1 1 2 5020 = l202 5 32 5 62 9 42 1 31 3 56 3 1 3 50 22l03 5 03 3 14 0 12 9 82 0 0 1 0 0 1 4 50124 2l3 1 53 6 04 1 72 9 52 1 39 9 1 5 52 2l3752 1 12 6 82 8 l2 6 21 6 61 0 9 1 6 5413 3631 6 21 6 42 1 91 9 01 2 88 3 1 7 531 53749 51 1 71 4 11 1 69 46 1 1 8 507 25846 37 11 0 7 1 1 48 35 3 1 9 546 5、775 46 69 11 1 17 9 5 7 2 0 51 23 l l1 1751 1 41 0 61 4 7 1 4 21 1 37 5 2 1 581 2 2 41 41 51 71 0 51 2 11 6 41 5 01 2 78 6 2 2 591 5 1 51 31 51 11 0 59 21 6 61 3 81 0 36 5 2 3 599 1 91 41 68 89 51 3 09 28 4 4 2 2 4 s 71 11 71 71 295 7 7 28 47 06 93 4 2 5 56 41 41l785 45 54 8 3 i3 02 3 表4 二维大样本统计频率患病率 控制点控制点( b m i ) ( a g e l e v e l ) 2 0 52 1 52 2 52 3 5 2 4 52 5 5 1 1 5 000 o l l 5 60 0 0 2 9 4 10 1 2 5 00 0 0 7 7 500 0 1 3 8 90 0 1 4 6 0 0 1 3 5 00 0 0 6 0 l0 0 0 4 9 60 0 0 3 3 4 0 0 0 4 9 80 1 4 50 0 0 0 2 7 70 0 0 4 7 70 0 1 3 3 80 0 0 9 3 00 0 1 0 0 0 1 5 50 0 0 9 3 9 0 0 0 7 4 10 0 0 3 5 50 0 1 1 3 2 0 0 4 0 4 60 0 4 3 8 6 1 6 5 0 0 2 4 1 00 0 0 6 0 60 0 1 3 5 10 0 1 5 5 4 0 0 4 4 7 80 0 3 4 8 8 1 7 50 0 3 0 6 1 0 0 0 8 4 70 0 3 4 2 50 0 2 5 2 10 0 6 9 3 l 0 0 6 1 5 4 1 8 50 0 0 8 9 7 40 0 1 8 3 50 0 4 2 0 2 0 0 8 7 9 l0 0 7 0 1 8 1 9 50 0 6 8 9 7 0 0 8 3 3 30 0 5 2 0 80 0 6 7 2 30 0 8 1 4 0 0 1 0 9 3 8 2 0 50 0 9 5 2 4 0 0 2 7 5 20 ,0 6 9 6 20 0 7 1 9 00 0 5 8 3 3 0 0 6 2 5 0 2 1 50 0 7 0 8 0 0 0 9 0 2 30 1 2 7 6 60 0 8 5 3 70 1 0 5 6 3 0 1 6 5 0 5 2 2 50 0 7 8 9 5 0 1 4 0 1 90 0 8 2 8 70 0 8 6 0 90 1 2 7 1 2 0 1 4 4 7 4 2 3 5 0 0 9 2 7 80 0 8 6 5 4 0 1 2 7 5 20 1 0 6 8 00 1 4 2 8 60 2 7 5 8 6 2 4 50 1 0 9 3 80 1 3 2 5 3 0 ,1 6 8 3 20 1 9 5 4 00 1 4 8 1 5 0 2 0 9 3 0 2 5 50 1 0 0 0 0 0 0 6 7 8 00 2 2 5 8 1o 2 6 1 9 0 0 1 8 9 怕o 2 5 8 0 6 7 2 2 小样本 从二维大样本中随机抽取6 3 0 条记录( 其中患者2 9 人,健康者6 0 1 人) ,平 均每个子域有7 条记录。把这6 3 0 条记录作为二维小样本实例( 表5 ) 。表6 给出 了二维小样本统计频率患病率数值。 表5 二维小样本人数分布 控制点( b m ) 控制点患病人数健康人数 ( a g e l e v e l ) 2 0 52 1 5 2 2 52 s 52 4 52 5 52 0 52 1 52 2 52 3 5 2 4 52 5 5 1 1 5001 010361 0842 1 2 5000000781 5863 1 3 5010( 1001 81 12 42 01 15 1 4 50000001 31 61 91 782 1 5 5001 ( 1001 3 1 2991 l7 1 6 500 2o001 01 34836 1 7 5000 o0047 966l 1 8 501 01l14844 52 1 9 5000o0l444832 2 0 50001l01 059663 2 1 5011ll1333441 2 2 5011012758943 2 3 50300017741 140 2 4 50 0l010354550 2 5 500 0000345034 表6 二维小样本统计频率患病率 控制点控制点( b l v l ) ( a g e l e v e l ) 2 0 52 1 52 2 52 3 52 4 52 5 5 1 1 50 00 0 9 0 9 100 20 1 2 5000000 1 3 500 0 8 3 3 3 0000 1 4 5000000 1 5 5000 1000 1 6 5000 3 3 3 3 3000 1 7 5000000 1 8 500 1 ll1100 2 0 0 0 00 1 6 6 6 7 0 3 3 3 3 3 1 9 5000000 3 3 3 3 3 2 0 50000 1 4 2 8 60 1 4 2 8 6 0 2 1 5 00 2 5 0 0 00 2 5 0 0 00 2 0 0 0 00 2 0 0 0 00 5 0 0 0 0 2 2 500 1 6 6 6 70 1 1 1 1 100 2 0 0 0 0 0 4 0 0 0 0 2 3 500 3 0 0 0 00001 0 0 0 0 0 图2 绘制的是利用统计频率方法求得的二维大、小样本患病率曲面。对于大 样本而言,尽管患病率曲面的有一定的波动,其总趋势仍是随着年龄水平的增长 和b m i 的增加而逐渐上升的。而小样本患病率曲面波动异常,最大患病率达到l , 最小达到0 ,有些甚至无法利月统计频率方法求出,故不能反映冠心病患病率与 两个风险因素之间的相互关系。 0 _ 4 罐 鬈n 2 世- k 2 2 2 2 新华医院数据 口5 0 2 6 图2 二维:犬、小样本统计频率患病率曲面 2 2 1 数据情况介绍 上海市新华医院老年体检数据库记录了1 9 0 5 位体检人的基本信息:体检记录 号、姓名、性别、以往病史等;以及每位体检人从1 9 8 8 年到2 0 0 0 年每年的各项 体检指标值:总胆固醇、甘油三脂、血压、心率、肝、脾、肺等。根据医学知识, 冠心病患病与血检生化检验指标甘油三脂( t g ) 、低密度脂蛋白( l d l ) 和血糖 ( g l u ) 关系密切。本文的三维实例就是研究这三个指标与患病率间的定量关系。 2 2 2 数据处理 选用2 0 0 0 年的体检数据库作为研究的基础。2 0 0 0 年的体检记录共有1 4 5 1 条。 对其进行有效性分析,删除未记录三项血液生化检验指标的数据以及在基本信息 9 斛峡碴博咎, 库中查不到对应基本信息的数据,余下可供分析的有效数据1 4 2 5 条。图3 是这 1 4 2 5 条数据( 其中患者4 2 6 人,健康者9 9 9 人) 的散点图。散点图的分布十分广, 这主要是由于一些过高或过低的血液检验指标偏离正常范围过远而导致的。 4 口 3 d 弓2 d o 1 0 0 8 口 0 t g 图3 三维原始样本散点图 表7 三维数据情况 最小值最大值正常范围 t g0 31 0 70 4 1 t 8 l d l0 97 01 6 5 7 g l u3 o3 5 73 9 - 6 1 1 5 由于记录在两端的值较少,为方便处理,我们按以下方法划分子域: 夺t g :【o 3 ,o 5 ) ,【o 5 ,1 5 ) ,1 1 5 ,2 5 ) , 2 5 ,3 5 ) ,【3 5 ,4 5 ) , 4 5 ,1 0 7 】; 夺l d l :【0 9 ,1 5 ) ,【1 5 ,2 5 ) , 2 5 ,3 5 ) ,【3 5 ,4 5 ) ,【4 5 ,7 o 】; 夺g l u :【3 ,4 ) , 4 ,5 ) , 5 ,6 ) ,【6 ,7 ) ,【7 ,8 ) 。【8 ,9 ) , 9 ,3 5 7 】。 得到6 5 7 = 2 1 0 个子立方体。平均而言,每个子立方体只有6 8 个数据量,因而 我们可以认为这些记录是一个小样本,这也就是本文三维问题的实例。类似的, 选取各子域的中心作为控制点( 注:首尾子区间的控制点选取略有不同,具体见 i o 表8 ) 。 表8 三维小样本人数分布 患病人数健康人数 控制点控制点控帝0 点( t g )控制点( t g ) ( l d l )( g l u ) 012:450l2345 13 5000f)00000000 14 501100014l000 15 5030 000 050200 16 5010001021000 17 5010(】00000000 18 500l000001000 19 5000()00000000 23 5050200164l00 24 504 18 :10048 62 0 512 25 523 52 0【1028 92 61 742 26 5094()000l l8101 27 502 1420082 000 28 5001()00010300 29 5020 i100701 11 33 5o10000024000 34 503 42 7 322 j1 3 55 01 331 35 505 23 865001 3 17 02 122 36 508900001 88221 37 50341)00041100 38 50l200005010l 39 5011 l00033001 43 50ll1)00001000 44 5068 10003 02 26l1 45 501 91 0【0003 83 l841 46 5018 il0047100 47 50020l 00 3 2000 48 5002f)0 000ii00 49 5001000021000 53 50 l0000010000 54 500l 100012001 55 5042000028001 56 5000 000000000 57 5000000000000 58 5000000000000 59 5000000000000 表9三维小样本统计频率患病率 控制点 控制点控制点( t g ) ( l d l )( g l u )o 12345 13 s n an f an 纨 n an an a 14 50 0 2 0 0 0 00 5 0 0 0 0n an ,an a 15 5 n a0 3 7 5 0 0n 限on an a 16 5 n a0 3 3 3 3 30n an ,a1 17 5 n ,aln an an an a 18 5 n an a05 0 0 0 0 n an an a 19 5n 限n an ah n an a 23 500 4 5 4 5 500 6 6 6 6 7 n an a 24 5003 2 2 8 40 2 8 5 7 1 0 2 8 5 7 10o 25 50 5 0 0 0 0| ) 2 8 2 2 60 4 3 4 7 80 0 5 5 5 60 2 0 0 0 0 0 26 5n a( ) 4 5 0 0 00 3 3 3 3 30 n a0 27 5 n a( ) 2 0 0 0 00 3 3 3 3 3l1n a 28 5n a01 on 渔n 限 29 5 n a( ) 2 2 2 2 2n a0 5 0 0 0 00 5 0 0 0 00 33 5 n a( ) 3 3 3 3 30n an an a 34 5 0( ) 2 0 l1 80 3 5 0 6 50 1 8 7 5 00 4 0 0 0 00 6 6 6 6 7 35 5n a( ) 2 8 4 1 50 3 5 1 8 5 0 2 2 2 2 20 7 1 4 2 90 36 5n a0 3 0 7 6 90 5 2 9 4 1 0oo 37 5n a( ) 4 2 8 5 70 8 0 0 0 0 0n an a 38 5n a( ) 1 6 6 6 7l0 n a0 39 5n a( ) 2 5 0 0 00 2 5 0 0 0 1n a0 43 5n ,a 10 5 0 0 0 0n an an a 44 5n a( ) 1 6 6 6 70 2 6 6 6 7 0 1 4 2 8 600 45 5 n a( 1 3 3 3 3 30 2 4 3 9 00 1 1 1 1 100 46 5n a( 】2 0 0 0 00 5 3 3 3 3 0 5 0 0 0 01n a 47 5n ,a00 5 0 0 0 0 n ain a 48 5n 渔n a0 ,6 6 6 6 7 0n an a 49 5n 限q0 5 0 0 0 0 n 九n 渔n a 53 5n k0 5 0 0 0 0n n 限 n an 54 5n ,a00 3 3 3 3 3 1n ,a0 55 5n ,a( ) 6 6 6 6 70 2 0 0 0 0 n an a0 5 6 5n | 凡n | an | a n an 氏n | 九 57 5n an an | 凡n n an 渔 58 5 n f 凡n f an an i 凡 n | 丸n f 丸 59 5n 限n an 佚 n 纨n 久n 给 表9 中,有1 0 9 个子域的患病率无法用统计频率方法求得,因此统计频率方 法对此小样本问题是不适用的。下文中我们将用信息扩散方法解决此问题。 1 2 3 信息扩散方法应用 3 1 信息扩散方法介绍 信息是客观事物的存在方式和运动状态的反映。这种反映通常是通过一定的 物质或能量的形式表现出来,并直接或间接的能为人们的感官所感受。如果人们 所感受的信息不能清楚的反映客观事物的存在方式或运动状态,这种信息就叫模 糊信息。在扎德提出模糊集理论之前,人们通常采用某种清晰化的方式处理模糊 概念。例如,对于一条信息“火车站候车室里年轻人居多”,如果将“年轻人”定 义为1 8 到3 0 岁的人,将“居多”定义为此占总人数的6 0 到8 0 ,则对所给的 模糊信息可以进行清晰化。模糊集理论帮助人们认识到,用人为清晰化的方法会 丢失一些信息,不利于人们对客观事物的认识,用模糊集方法处理模糊信息,更 为合理。 模糊信息优化处理的对象是不完备信息,主要是小样本提供的模糊信息( 仅 仅依靠它们,我们不可能清楚地认识有关的统计规律) 。信息优化处理技术主要的 依据是信息扩散原理。简单的讲,信息扩散就是将一个传统的数据样本点变成一 个模糊集合。它充分利用了样本点的群体模糊性,其目的是挖掘出尽可能多的有 用信息,提高系统识别的精度,这种技术被称为模糊信息优化处理技术。 下面我们给出信息扩散方法定义【”。 定义1 设v 是知识样本,是基础论域,关于y 的一种信息扩散,就是w v 到 【0 ,1 】上的一个映射: a :w x v 斗【0 ,1 】 且满足下列三个条件: ( 1 ) v v ,v ,如m 是v j 的观测值,则 ( ,v ,) = s u e , h ,v ) ( 2 ) v v j 矿,( w ,v ,) 随 q 一叫| 数值的增加而递减; ( 3 ) v v v ,l ( w ,v 跏= :1 其中,如果为离散情形,表示。 一般而言,信息的传播可以分为三种方式【7 j :载波模式、扩散模式和接触模 式,并分别以波动方程、扩散方程和接触方程描述其规律。对于信息扩散方法在 患病率研究中的具体应用,我们认为合适的信息传播方式是扩散模式。 由于知识样本有限,论域中的某些点没有直接从知识样本获得信息,导致了 信息在空间分布的不均匀,需要利用信息扩散方法来填补空白,这和分子扩散、 热传导现象极为相似。把热传导作为信息扩散的一个近似模型,利用数学物理方 j l + v 2 法推导二维信息扩散方程,从而求出信息扩散函数2 】:。g ,y ) = e 一丁,称之为 钟形扩散函数( 图4 ) 。 图4 钟形扩散函数示意图 3 2 患病率与风险指标关系的研究 本文探讨的是信息扩散方法在患病率问题中的具体应用,即考虑患病率与某 些风险指标的关系。以一维问题为例, 定义2 考虑患病情况与某一风险指标善的关系,引入如下记号: e g ) ,满足孝x 的患病人数: e 0 ) ,满足善x 的健康人数; 只0 ) = 只g ) + e g ) ,代表满足善x 的总人数。 此处我们将人数的定义连续化,即设只g ) ,e g ) ,c g ) 是连续函数。可以将这 些函数视为相应人群的人数分布函数。则孝= x 处患病率的定义为 1 4 pg,=。li+ra。乏-是;-塞;:笔篾;=。li+m。;ii五 c g + 血) 一只g ) cg )只g ) 一c g ) 一t g ) + 瓦g )c 。g )t 。g ) + 瓦g ) 即患病率在数值上等于患病人数密度与总人数密度之比。 3 3 ,维信息矩阵推导 ( 1 ) 考虑一般的r 维信息扩散i 司越。 设信息点集为矿= 和。= ( v f l ) ,v ”,v lf _ 1 ,2 ,h 。将所考虑的全空间均 匀地划分为埘个子区域( 若此性质不成立,以下推导可相应改变) ,并将每个子区 域的中心取为控制点,记控制点集为缈= = ? ,一”,一7 l = 1 ,2 ,州) , 其中v 。,w ,均为r 维向量。控制点的间距为d = p ”,d ( ”,- - ,d 7 ) 。 在信息点v ,处给定样本提供了一个信息量为1 的信息。信息扩散的过程就是 将样本提供的信息扩散到所考虑的全空间上。设扩散函数为厂( w ,v ) 。记 厶= ,( w ,v ) ,得到初等信息矩阵 1 q f = 4 2 : v 月 z 。 厶: z , 。, 根据信息量守恒,每个信息点扩散出的信息量总和应为1 。以一维信息扩散 为例( 图5 ) ,扩散范围为瞄一) ,信息点v ,扩散到w 的信息密度为g ( w ,v ,) ,则 扛( w ,v ,) 新= 1 。 匕厶如 h 矗 ; ”i 2 , v b 图5 信息量守恒示意图 回到r 维问题,利用归一化方法,近似地,信息点v 。扩散到控制点m 的信息 密度为 则扩( w ,v ,) d w = l 。 记元= ( w j , v t ) ,得到归一化信息矩阵 w l 声;w 2 : w e , 。 。 其中乃= 元代表控制点叶处的信息总密度。 。 正: : 。 ; ( 4 ) : 二 。 本文中将“每一个人数”信息扩散后得到的结果元,实质上可以理解为信息 源v ; w j 处的“人数密度”,维情况下其量纲为“人年龄段”( 二维、三维类 推) ;z 则代表了叶处的“人数密度和”。 考虑冠心病患病率与r 个风险因素关系的具体课题,应用上述方法分别将患 者信息与健康者信息进行扩散,进而求出冠心病患病率。 设 1 6 煮 | | 、-j p l ” 厂 夺h 。= 伪,i = l ,2 ,聊j 为小洋本中健康者信息 夺s 。= 矗,_ ,= 1 ,2 ,n 为小样本中患者信息 h 。、s 。对应前面的信息点集矿,其中h 。,s ,为r 维向量,代表,个风险指标 值。在h j 点,有一个健康者,他为曩点提供了信息量1 ;同理j 处,有一个 患者提供信息量1 。 夺控制点集为矿= w j ,i = 1 ,2 ,k ) ,控制点间距为d = p ,d ( ”,d ( r ) ) 其中为,维向量,代表,个风险指标值。 取扩散函数为( w ,v ) ,分别将小样本中的健康者信息和患者信息扩散至控制 点。由( 4 ) 式得到了该处的“健康人数密度和”( ) 和“患病人数密度和” :b 、 ( w ,) :兰_ 丛灶 ”1 d 扣( w f ,h i ) ,;l i = 1 ( 5 ) 肫) _ 喜赫d 旧 ”兀b ( w 一,) 经过信息扩散,子域n 。= 卉p = i 卅w 一半,埘,) + 半 上的健康人数和患病人数分l 黜为s h ? ,s s ? s h ;= 坼如* 露、n r d t 曲 m 0 p i 哪= 弦( w ) d w * ( w ) 兀r d ( , ( 8 ) n,tl 而根据患病率的定义( 1 ) 式,控制点处的患病率为 p 。= 揣 1 7 ( 9 ) 3 4 实例分析 3 4 1 一维信息扩散 以下讨论本文的研究实例一一冠心病患病率与其风险因素a g e l e v e l ( r = 1 ) 的关 系。 控制点集为= w ,= 1 0 5 + i ,i = l ,2 ,1 5 ) ,其中w f 代表a g e l e v e l ,控制点间 距d = l 。 ( w - - v ) 2 取一维信息扩散函数( w ,v ) = p 。t ,经过信息扩散,得到控制点处的“健 康人数密度和”w j ) 和“患病人数密度和”“) 。由公式( 7 ) 、( 8 ) 、( 9 ) 可求得子区间【w i - 0 5 ,w l + o 5 ) 上的健康人数跗? 、患病人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年年有鱼生宣课件
- 年安全培训时间课件
- 【合同范文】公路养护安全合同5篇
- 工业安全防护培训总结课件
- 平面构成想像课件
- 平面向量情景引入课件
- Fingolimod-phosphate-Standard-生命科学试剂-MCE
- exo-α-1-4-Mannosidase-Bacteroides-thetaiotaomicron-生命科学试剂-MCE
- 滨州邹平市招聘社区工作者笔试真题2024
- 2024年滨海县事业单位招聘笔试真题
- 浅谈机关干部身心健康
- 湖南省多测合一收费指导标准(试行)2024年版
- 2025年抗菌药物合理使用培训
- 期货技术指标培训课件
- 项目融资合同及还款计划安排说明
- 杜仲种植深加工项目可行性研究报告-备案立项
- 2025年乡村文化旅游发展报告:文旅融合下的乡村旅游生态旅游规划与实施研究
- 咖啡知识培训课件
- 施工进度管理的措施
- 英语教学课件Unit 2 Different families课件9
- 2025春 新人教版美术小学一年级下册致敬平凡
评论
0/150
提交评论