




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 0 0 4 年上海大学硕士学位论文 摘要 在设诗医疗傈陵产晶避,风险分撅韶评链一直是必须考虑的阚题之一。整在许多情况下, 由于种种条件限制,只能搜集到少量的样本,即小样本。例如保险中的豁免数据、健康险中的 鍪耱重大痰瘗枣瘸祷况鼗掇等等。始露列爱鸯隈豹嚣本点,据壅魄较舞合实际壤凝靛 砉诗, 遗是本文关注的重点。本文运用核估计方法、惰息扩散方法、优化方法,结合实际研究项目, 撬国了绦浚精算中小样本信想处理的分析模窒。 本文以实际应_ 3 课题( 即住院费用的年龄分布问题和冠心病患病率与枯干个风险因素的哭 系问题) 为背景,以经过出错处理后的项目一、项目二的原始数据作为大样本,利用核估计方 法进往处理。采用隧机抽样方法分别建立住院费用关于年龄的一缎,l 、样本翱冠心瘸枣病率关, 年龄、b m i 的二维小样本,利用信息扩散技术和核估计方法分别研究住院费用的年龄分布及溉 痪患瘫攀鸟善于拿鼹验因素之阚黪关系,势将结果与大撵本孩l 轰诗括准蕊逮较,说明羡惠扩 散技术在处理小样本问题上的有效性。随后本文引入描述扩散后与原样本偏离程度的概念 “镓离整”,荠建立了两个准筵l 一“最,l 、渡动壤翔”帮“有限编离凄准翻”,智鉴匿像相戗静判 别方法,分别对一维、二维问题进行参数优化处理,取得了较满意的结果。 对于颈目三,本文利用新华医院的老年病科体检数据,研究溉心病患病率和甘油三脂、舡 糖、低密艘脂蛋白之间的关系。由丁凝华医院项目的原始数据量较小,麟 小样本问题,困娩 利用核估计方法和储息扩散技术仅就该小样本数据进彳亍处理和比较。此时利用核估计方法得到 豹嚣心痿患病事曲嚣上。f 波动螟凌相巍大,辗本无法反凝冠心痣怒痰率与三瑗盘滚检验撵檬| 冬 关系,而信息扩散方法处理结果比较理想。随腊,结合“最小波动准则”和“有限偏离度准则” 对该海蘧避行参数伉纯凳瑾,取褥较满意静结象。 关键词:信息扩散、核估计、小样本、住院费用、藉心病患病率 2 0 0 4 年上海大学硕士学位论文 a b s 仃a c t d a t ap r o c e s s i n gi sa ni n t e g r a lp a r to f r i s ka n a l y s i s u n d e rc e r t a i nc i r c u m s t a n c e s i ti s d i f f i c u l tt oo b t a i ne n o u g hi n f o r m a t i o nf o rt h el a c ko fd a t a ,s u c ha se x e m p td a t ai n i n s u r a n c ea n dd r e a di l l n e s sd a t ai nh e a l t hi n s u r a n c e e t c t h ep a p e ra i m sa tf i n d i n ga m e t h o da n dt h a t w i l ll e a dt om o r ea c c u r a t er e s u l t sf r o mr e l a t i v e l yi n s u f f i c i e n td a t a k e r n e ld e n s i t ye s t i m a t i o nm e t h o d ( k e r ) ,i n f o r m a t i o nd i f l u s i o nm e t h o d ( i d m ) a n d o p t i m i z e di n f o r m a t i o nd i f m s i o nm e t h o d ( o i d m ) a r ee m p l o y e di n t h i sp a d e rt o d e a l w i t ht h ei n c o m p l e t es a m p l e o nt h eb a s i so f p r a c t i c a lp r o b l e m s ( t h a ti s a g ed i s t r i b u t i o no fh o s p i t a le x p e n s e sa n d t h er e l a t i o nb e t w e e nc h da n ds e v e r a lr i s k f a c t o r s ) k e ri s u s e di nt h ef o l l o w i n g p r o c e s s i n g ,w i t ho r i g i n a ld a t af r o mt h et w op r o j e c t s r a n d o ms e l e c ts a m p l em e t h o di s u s e dt os e tu pt h eo n e d i m e n s i o ns m a l l s a m p l eo f h o s p i t a le x p e n s e so nt h ea g ea n dt h e t w o d i m e n s i o ns m a l l s a m p l eo ft h ep r e v a l e n c eo fc h do nt h ea g ea n db m i w ja p p l y k e ra n di d mt oa n a l y z et h ed i s t r i b u t i o no f h o s p i t a le x p e n s e s t h er e l a t i o nb e t w e e nt h e p r e y a l e n c eo fc h d a n ds e v e r a lr i s kf a c t o r s c o m p a r i n gt h e s er e s u l t st ot h es t a n d a r d v a l u eo fk e ro f l a r g e s a m p l e w ec a nd r a wac o n c l u s i o nt h a ti d m i se m c i e n ti ns o l v i n g t h i ss m a l l - s a m p l ep r o b l e m t h i sp a d e rb r i n g sf o r t ht h ec o n c e p to f ”d e v i a t i o n ”u s e dt o d e s c r i b et h ed i s c r e p a n c yb e t w e e nt h eo r i g i n a ls a m p l ea n dt h ee x p a n d e do n e ,a n dr a i s e d t w op r i n c i p l e s ”m i n i m u mf l u c t u a t i o nc r i t e r i o n ”a n d ”l i m i t e dd e p a r t u r ec r i t e r i o n ” i m a g e s i m i l a r i t vi s e m p l o y e d t o o p t i m i z e t h eo n e d i m e n s i o na n dt w o d i m e n s i o n p a r a m e t e r t h e r e f o r e ,w eg e td e s i r e d r e s u l t i nt h et h i r dp r o j e c t t h ed a t af r o mt h eb o d y c h e c kr e c o r d si ne l d e r - i l l n e s sd e p a r t m e n ti n x i n h u a h o s p i t a li su s e dt os t u d yt h er e l a t i o n sb e t w e e n t h ep r e v a l e n c eo fc h da n dt h r e e b l o o dc h e c ki n d e x e s b e c a u s eo f t h ei n s u f f i c i e n td a t ao f x i n h u ah o s p i t a l k e ra n di d m c a l lo n l yb eu s e dt oa n a l y z ea n dc o m p a r es m a l l s a m p l e s u n d e rt h e s ec o n d i t i o n s ,t h e r e s u l t so b t a i n e db vk e rc a n n o ts h o wt h er e l a t i o n sb e t w e e nt h ep r e v a l e n c ea n dt h et h r e e b l o o dc h e c ki n d e x e s o nt h ec o n t r a r y , w ec a ng e tb e r e rr e s u l t sw h e nb o m “m f c ”a n d ”l d c ”a r ee m p l o y e di no p t i m i z i n gp a r a m e t e r k e y w o r d :i n f o r m a t i o nd i f f u s i o n ,k e r n e ld e n s i t ye s t i m a t i o n ,s m a l l s a m p l e ,h o s p i t a l e x p e n s e ,t h ep r e v a l e n c eo f c h d 2 上海大学 本论文经答辩委员会全体委员审查,确认符合上海 大学硕士学位论文质量要求。 雾镦 主任: j 缸臌气 委员:扁确夹 彳畏篷了 p 予2 以吝爱a 父 尚穴秀极旋 俯。n 况p 豸 “一 、1 1 、_ 一 导蛾降魁 答辩日期:卅j j ,7 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除 了文中褥秘加以标注釉致谢的蘧方努,论文中不毪含英稳人毫发表或撰 写过的磊丹究成果。参与同一 二作的其他同志对本奄野究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 臼期 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 像密豹论文在解密最疲遵守照趣定) 签名: 2 0 0 4 年上海大学硕士学位论文 第一章引言 差。l 研究背景 在设计医疗保险产品时,风险分析和评估一悫是必须考虑的问题之一。但在许 多情况下,由予稗稀条僚限割,只能搜巢飘少量的样本,即小样本。倒如保险中的 豁免数据,健康除中的各种重大疾病忠瘸情况数据等等。类似的例子逐有去年发 擞的菲典裂肺炎和今年发生的禽流感,这些病毒在全球藏围内广泛传播,般几十 年甚至几西年刊发生一次,这就静致糖算人员在产品定价的时候卷零骰一些主躐雄 断或借用藏他地鹾或国家的数据来厘定赞率。但因为各地实际情况的差异,数据借 髑会产生翳显毂误差,馕键镙险公司不缀努迭裁定送一多弱产黥开发繁咯。嚣魏, 如何充分利用有限的信息,特别怒小样本信息,分析出尽可能精确的结果,是本文 磷究懿重点。 概率密度的核估计方法自r o s e n b l a t t ( 1 9 5 5 ) 和p a r s e n ( 1 9 6 2 ) 提出以来,由于 箕优良静统计特径和使用简便丽i 魏速发袋起来。核估计方法具有妆参数债计方法适 用范围广,较直方图方法 古计精确且光滑性好等特点。运用核估计方法处理大样本 信息,是统计学中常用的一种手段。但用核估计方法来处理、解决、分祈保险精簿 中小样本信息,巍国内鳞见掇道、登载。本文壤核售计方法应鼹予三个实际萋嚣突矮 目,并解决了一维、二维、三维的小样本问题。 戳“镕怠分熬”和“镕怠扩数”戈拨心静模凝信惠毒| | 己侄处理技本是交中蓬学蒜 黄崇福教授独立掘出和发展的一门新兴数据处理技术。猩国内的应用已广及气象、 入寿 采罄、采矿、本工程、溅绘、信号处理、决策支持系统、故障诊断、遣旗灾 害、计算机仿真、风险分析等众多领域。模糊信息优化处理技术的研究,在国际上 氇弓l 起了强际同行的关注。2 0 年北美模糊信息处理学会第十九崩国际大会设有名 为“d i f f u s i o n ”的分会会场。国外把这种技术看作软计算( s o f tc o m p u t i n g ) 技术。 由于不需骤专家缀验支持,这种技术也被看作是计算智能( c o m p u t a t i o n a li n t e l l i g e n t ) 2 0 0 4 霉上懑丈学矮士学燕论文 技术。2 0 0 2 年德潮抟s p r i n g e r 盘黢挺凄数了臻慧扩散熬第一本茭文专著 t o w a r d s e f f i c i e n tf u z z yi n f o 撇a t i o n p r o c e s n n gu s i n g t h ep r i n c i p l eo f l i f f o r m a l i o nd i f f u s i o n 。 姨t 9 9 8 苹开始,鬟里大学数攀鹱溢汉蒸簸搔帮。羔海大辫麓余楚教授合黪,致 力予浚领域鹣磷究,将模辍僖崽落稼簸毽技术瘟露予分糖窝繇究鬻裕瞧获瘸翁患瓣 飙殓。缝蕊在2 0 0 2 霉,溺汉溪教授系缀溉掇魄裁,j 、渡裁擐璎鞫青限稼离发舔理, 解决了一维、二维谂怠扩散函数懿参数优健阉题,并黻若予个蜜舔鹰溺谋越淹臀最, 律为黧家巍然辩学基龛羹杰磷究颁秘豹部分内容( 渤汉鬟教授魏负爨九,项强号 1 9 8 3 1 0 2 0 ) 。零文在戳往王佟麓喹之上,徽了三维傣憋扩散函数戆参数貔纯,解决 7 簿疆键瓷度原疆下勰禽缎算法蜜瑷淘题。 本文瓣上述嚣耱髓遥方法簌咒个瓣题采溅行魄较,挺滋一些精滚。套本文孛, 露嚣楚臻拨毽诗穷法鲶理憋大襻零续祭 誉蕊害鼹黪逸钕猿猴。 l 。2 顼瓣翡凝 零文菇涉及三个硬炎项秘。 壤霹 ;莱铩黢公霹健麟羧住酝爨愆数攫黪。谈露记录了蘩商参瓣慕零篷疗 爨羧瓣3 6 6 3 6 3 袋2 0 涉戳上驳工程2 0 0 0 攀7 砖型2 0 0 1 年6 嗣一攀阉共2 7 3 6 5 次穗 藏瓣饕溪谗录,其中翳避1 4 3 7 0 人次,女瞧1 3 2 6 5 久汰。( 鑫本文 挈稳一臻蜜镄) 颂蘸l | :交荧国大帮会入卷裸除憨公雹瓷蘸,笺登大学数攀系发邦一簧璺耱 葵中心,薪霉送璃锈褥研究翡一个庭鞠课题。该颈疆数攒来源予上海常巢季主区飙 1 9 9 7 肇开始实施翡一顼誊褡髋疾瘸案查。这项谎蠢京该幸圭醛全体1 6 箩班上常住户 翔疆鼹中避行,掰时翁一馨。共获褥1 8 7 4 3 条记添,其中粥谯有1 0 5 2 1 袈,女性裔 8 2 2 2 祭。( 在本文俸淹:维窑铹) 颁强i 娃:2 0 0 1 警,巍磺黉擐黢公司兹赞黪下,复虽大学与上海枣耩臻蒺拣 台俸,裁丽瓣肇嚣隆懑年藏科终捡记添建立了髂检数攘露。渡淳共记漾了t 9 0 5 篷 钵攮纛熬蘩本信惑戳及每辍体检太麸1 9 8 8 霉麓2 0 0 0 年霉每熬各壤锩狻播椽镶。( 在 零文豫鸯兰缀安锻) 1 3 本文工作 本文辍察踩黢爆谖越魏背簸,戳经过臻镶处蠼蓐戆壤毅i 、磺疆i i 豹缀娥数撰 2 0 0 4 年上海大学硕士学位论文 l 繁为大榉本,傲了以下凡项工馋: 1 、利用核估计方法处理项目i 、项目i i 中大样本信息 2 、褒瑷曩l 、瑷星i i 中隧载撞取小襻本售爨,曩梭德诗方法进行信患楚瑾 3 、对于相同的小样本信息,用信息扩教方法和优化方法进行处理 4 、两种方法递行配较分析 5 、两种方法应用于项目h i ,解决高维情况下风险分析问题 本文在处理数据时使用了v i s u a lf o x p r o 数据露软 串、m a t l a b 数学软 睾 镪、s p s s 统计软件和m i c r o s o f te x c e l 电子表格。 2 0 0 4 年上海大学硕士学位论文 第二章数学模型 2 1 核估计方法介绍 设,肖:一。是随机变量x 的简单随机子样,( x ) 是的概率密度函数, k ( ) 为r 上一个给定的概率密度函数,h 。 0 是一个与h 有关的常数, 记胁) 2 胎勘= 面1 蕃nk ( 等) n 门= i 力一 则称为总体未知密度函数f 的一个核估讨,称k ( ) 为核函数,称k 为窗宽 ( w i n d o w w i d t h ) 。 这一定义考虑的是肖为一维的情况。若x 为d 维,只须将上式中分母n h 。改为 ”。 ( 1 ) 窗宽吃的含义。对每个观察值,限制在高为,宽为h 。的“窗”内,而 咒厅。 估计值为挖个这种“窗”之和。因而九正是这n 个“窗”的公共“窗宽”参数。 ( 2 ) 窗宽h 。的作用。由定义可知,核估计既同样本有关,又同核k 及窗宽吃的 选取有关。在给定样本之后,一个核估计性能的好坏,取决于核及窗宽的选取是否 适当a 从直观上看,核估计在每观察点z 有一“碰撞”,估计量是这些“碰撞”之 和,核世确定了每一个“碰撞”的形状,而h 。则决定了“碰撞”的宽度,当以选 得过大,由于z 经过压缩变换三二当之后使分布的主要部分的某些特征( 如多峰性) 疗。 被掩盖起来了,估计量有较大偏差;如h 。y a d ,整个估计特别是尾部出现较大的干 2 0 0 4 年上海大学硕士学位论文 扰,从而有增大方差的趋势。 ( 3 ) 从理论上讲,关于核足的要求尚可适当放宽。即不一定要求k 为密度,甚 至也不必要求它为非负。但从实用上看,要求k 为概率密度函数是合适的。这是因 为待估的,、是密度,最好是估计量本身也是密度函数。当k 为密度时,容易验证 正满足这个条件。而且当足满足某些光滑条件时, 作为x 的函数,同样继承这些 光滑性质。从而可以弥补r o s e n b l a 札估计的不足,选择核芷是否适当,同样要影响 估计的精度。原则上,我们可以对核足施加一定的限制,使得估计量与待估函数的 偏差在一定意义下尽可能地小。例如可以要求k 有对称性,其一阶矩( 关于密度k ) 为零,具有有界性、连续性等等。 1 本文选取标准正态密度函数为核函数,选取窗宽h 。= c q ns 。其中c = 0 7 8 5 2 是相应于标准正态分布的一个常数,q 是样本的四分位数间距,”是样本的观察数。 2 2 信息扩散方法的介绍 所谓模糊现象,是指客观事物之间难以用分明的界限加以区分的状态,它产生 于人们对客观事物的识别和分类之时,并反映在概念之中。外延分明的概念,称为 分明概念,它反映分明现象。外延不分明的概念,称为模糊概念,它反映模糊现象。 模糊现象是普遍存在的。在人类一般语言以及科学技术语言中,都大量地存在着模 糊概念。例如,高与短、美与丑、清洁与污染、有矿与无矿、甚至象人与猿、脊椎 动物与无脊椎动物、生物与非生物等等这样一些对立的概念之间,都没有绝对分明 的界限。一般说来,分明概念是扬弃了概念的模糊性而抽象出来的,是把思维绝对 化而达到的概念的精确和严格。然而模糊集合不是简单地扬弃概念的模糊性,而是 尽量如实地反映人们使用模糊概念时的本来含意。这是模糊数学与普通数学在方法 论上的根本区别。 在z a d e h 提出模糊集理论之前,人们通常采用某种清晰化的方式处理模糊概念。 例如,对于一条信息“这个班里高个女孩居多”,如果将“高个”定义为身高超过 1 6 5 m 的人,将“居多”定义为此占总人数的6 0 到8 0 ,则对所给的模糊信息可 以进行清晰化。模糊集理论帮助人们认识到,用人为清晰化的方法会丢失一些信息, 2 0 0 4 年上海大学硕士学位论文 不利于人们对客观事物的认识,用模糊集方法处理模糊信息,更为合理。 正是研究复杂的模糊信息的需要,基于模糊集理论,黄崇福教授主持的研究小 组基于软计算的思想提出了信息扩散原理。信息扩散原理是一个断言:假设给定一 个知识样本,用它可以估计一个关系。直接使用该样本,得出来的结果称非扩散估 计。当且仅当样本不完备时,一定存在一个适当的扩散函数和一个相应的算法,使 得扩散估计比非扩散估计更靠近真实关系。已经证明,这一原理至少对于概率密度 函数( 它是事件和概率的一种关系) 的估计是成立的。 2 2 1 信息扩散方法定义 定义1 设矿是知识样本,w 是基础论域,所谓关于v 的一种信息扩散,就是v x w 到【o ,l 】上的一个映射: :v x w 斗【0 ,1 】 且满足下y u - - 个条件: ( 1 ) v 匕矿,如w ,是v ,的观测值,则h ,w ) = s u p p ( v ,w ,) ; ( 2 ) v _ 矿,( v ,w ,) 随l h w 0 数值的增加而递减; ( 3 ) v v 矿,l ( v ,w 胁= l 其中,如为离散情形,l 表示。 定义2 扩散的范围被定义为欧几里得距离r 。如果r 是有限的( 无限的) ,就称为 有限维( 无限维) 信息扩散。 2 2 2r 维信息扩散矩阵推导 考虑一般的,维信息扩散问题。 设信息点集为v = v ,= ( v ”v ! ”,v j 7 ) i = 1 ,2 ,” ,此处假设每个信息点所 提供的信息量为1 。控制点集为w = 札= ,谚,w ? l _ ,= 1 ,2 ,晰) ,其中 v ,w ,均为r 维向量。不妨设控制点是等间距的,间距为d = p ”,d ( ”, 一,d ( ) 。 信息扩散的过程就是将注入的信息扩散到所考虑的全空间上。设扩散函数为 2 0 0 4 年上海大学硕士学位论文 厂( v ,w ) ,记厶= 厂( v ,w ,) ,得到初等信息矩阵 v i f :0 : v n 厶。 厶:( 1 ) 根据信思量守恒,每个信息点扩散出的信息量总和应为1 。以一维信息扩散为 例,扩散范围为k ,6 ) ,若信息点v 。扩散到w 的信息量为g ( v ,w ) ,则k ( v ;,w ) d w :1 。 利用归一化方法,近似地,控制点接收到由信息点v ,扩散出的信息量为 砘,w j ) :_ j 挚丛一 ( 2 ) 兀d 扣i ( v 。,w 。) 则陟( v 。w ) d w “1 。 记元= 7 ( v iw j ) ,得到( 归一化) 信息矩阵 v l f = v 2 : v n w 1w 2 。厶。 石: : : : 二 。n 。、 厂m , 厶: : 厶。 z : 二 , 其中z = n 元代表控制点_ 接受到的由信息点集扩散出的信息总量。 l = 1 2 2 3 冠心病患病率问题的实际推导 本文中将“每一个人数”信息扩散后得到的结果7 ,实质上可以理解为信息 源v ,在w j 处的“人数密度”,在一维情况下其量纲为“人年龄段”( 高维依次类推) ; z = 元则代表了w ,处的“人数密度和”。根据本文的实际课题,应用上述方法 f = l 2 0 0 4 年上海大学硕士学位论文 分别对患者信息与健康者信息进行扩散,进而求出冠心病患病率。 健康人数密度和函数: ,d 、一 m ,魄,w ,) w 。) = _ 1 塑,啊_ ”1 兀j 如m ,( _ ,w t ) 患病人数密度和函数: ( ) = n j “l sj ,w | 1 兀j ”)圭一( w ,) 其中h 。= 眠,m ,li = 1 ,2 ,m ) 为小样本中健康者信息, s 。= g ,n ,l ,= 1 ,2 ,n 为小样本中患者信息。m ,代表在信息点 ,处的健康者 人数,n ,代表在信息点j ,处的患者人数。控制点间距为d = p ( ”,占( ”,占( r ) ) 。 经过信息撒子媳= 出”一半+ 爿上的健康心蝴人燃u 为s h ;,s s 2 阳? = 埘( w ) 咖“n ( w ,) n r 占( ,1 0 ,= i s s 譬研( w ) d w * f b 、 - 1 8 ( p 1 则控制点处的患病率为 :b 、 ;b 、七 :如、 2 3 信息扩散方法的参数优化问题 2 3 1 两个优化准则 ( 8 ) 信息扩散的性质不仅依赖于给定的样本,也与参数a 的选择有密切的关系。随 着参数五的变化,从几何上讲会引起曲线或曲面的波动的增加或减小,因此通 2 0 0 4 年上海大学硕士学位论文 过优化参数a 对扩散函数进行改进,这是本文一个重要工作之一。其原则是既要从 一定程度上反映给定样本的性质,同时又希望曲线或曲面的波动性尽量的小。为此, 建立如下准则: 准则1 最小波动准则信息扩散函数参数的选择应该使患病率曲线( 面) 波动最小。 数学表达式为: 一维:f ( 五) = 0 2 p a 2 咖 一维州护撒纂 + ( 筘归w , 瑰一瓢等 + 箸 + ( 蔫炒舻训 准则2 有限偏离度准则信息扩散所得到的患病率偏离给定样本不远。 该准则作为约束条件,衡量方法是借鉴图形相似的判别方法,其数学表达式为: ( z 。+ ( ) ) 住院费用问题:c ( z ) = ( ( z 。) 2 ( ( 咒) ) 2 ) j 冠心病问题:患病情况 c 5 ( ) = 健康情况c 6 ( ) = ( 嬲? t 科( ) ) ( ( 船? ) 2 ( 跚( ) ) 2 ) j f j ( 跗? + s h ( 五) ) ( ( s h o ) 2 ( 跗? ( ) ) 2 ) j 其中船j d ,跗? ,。分别表示原始小样本在给定子域q ,上的患病人数、健康人数 和住院费用对数的频数,s s r 五) ,册? ( ) ,4 ( 五) 分别表示经过信息扩散后得到的患 病人数、健康人数和住院费用对数的频数。 则信息扩散的优化参数模型为: 2 0 0 4 年上海大学硕士学位论文 住院费用模型 冠心病患病率模型 其中占,占;,“为相似指数。 m i n f ( 2 ) s t c ( ) s j t c 5 ( 五) 占, c 6 ( 兄) 岛 2 3 2 蒙特卡洛优化方法介绍 对于约束优化问题,最理想的当然是得到严格意义上的真正全局最优解。然而, 要做到这一点往往是不现实的,有的问题( 例如非凸的非线性规划问题) 至今在理 论上还没有一种算法能保证得到全局最优解;有些问题( 如凸规划) 虽然从理论上 讲可以的全局最优解,但是在实际计算中,也只能逼近最优解,且计算量往往很大。 在实际工作中,人们往往希望只用较少的计算量就找到有较大概率保证的近似最优 解,蒙特卡洛( m o n t ec a r l o ) 优化方法就是达到这个目的的一种较为有效的方法。 原理与基本方法 在对大量的研究对象进行调查分析时,有两种基本方法:普查与随机抽样。穷 举法就是对所有研究对象进行普查,其优点是结论完全可靠,但工作量大,适用于 规模较小的问题。而当问题的规模很大时,通常应采用随机抽样,对随机抽取的样 本点进行研究,从样本点的性质来推断原问题全面的性质。这样处理的工作量相对 较少,可操作性强,只要随机抽样得当,结论的可靠性可以得到保证。蒙特卡洛优 化方法就是根据随机抽样原理,对约束优化问题的可行点进行随机抽样,经过对样 本点的目标之过滤比较,找出全体样本点中目标值最优的点,并将该点视作原问题 的最优解的一个近似点。 蒙特卡洛优化方法除了可以独立寻求最优解外,往往还与其他算法相配合。许 2 0 0 4 年上海大学硕士学位论文 多算法对初始点都有不同的要求。一般而言,初始点离极小点越近( 即初始点的函 数值越好) ,则算法越有效。因而我们先用蒙特卡洛优化方法找到较好的初始点。 然后在调用m a t l a b 的优化函数,对信息扩散函数的参数优化问题进行求解。 设问题为:m i n s ( x 1 j t x d 蒙特卡洛优化方法的基本步骤( 算法流程图见图) 是: 1 预置l 为充分大的正数,确定选点个数m ; 2 用随机数函数( 或子程序) 及条件语句产生可行点x : 3 计算目标函数值:f = f ( x ) ; 4 比较函数值:若f 一l ,转6 ;否则,转5 : 5 记录当前最优点信息:l = f ,x + = x : 若已选完m 个可行点,输出x + 和l ;否则,转2 ,寻找下一个可行点。 2 0 0 4 年上海大学硕士学位论文 第三章项目i 小样本信息问题的研究 商业健康保险是我国建立和发展多层次医疗保障体系的重要内容,而以报销住 院费用为保险标的的保险形式是商业健康保险中最常见的形式之一,因此在有限数 据基础之上,如何较精确的估计每次住院费用的分布对于商业健康保险产品的费用 厘定有着重要的意义。 本文研究的数据资料为某市参加基本医疗保险的3 6 6 3 6 3 位2 0 岁以上参保职工 在2 0 0 0 年7 月到2 0 0 1 年6 月一年间共2 7 3 6 5 次住院的费用记录,其中男性1 4 3 7 0 人次,女性1 3 2 6 5 人次。 3 1 大样本 将住院费用数据按性别和年龄段分成1 2 组,分别为2 0 一2 9 岁,3 0 3 9 岁,4 0 一4 9 岁,5 0 5 9 岁,6 0 - - 6 9 岁,7 0 岁以上。对住院费用取对数,取核函数 1 # 2 k ( x ) = 、ez ,分性别和年龄利用核估计方法对住院费用进行分析,其结果如下: 表一窗宽( 大样本) 性别男性 年龄段 2 0 2 93 0 3 94 0 4 95 0 5 96 0 6 97 0 以上 观察数1 1 0 71 6 1 72 0 6 12 4 6 53 7 1 33 4 0 7 窗宽 o 3 1 2 20 2 6 2 80 2 6 5 50 2 4 7 l0 2 1 7 80 2 1 8 8 性别女性 年龄段 2 0 - 2 93 0 3 94 0 4 95 0 5 96 0 6 97 0 7 9 观察数3 7 1 62 2 4 31 9 7 61 9 3 81 9 6 71 4 2 5 窗宽0 ,1 6 2 50 2 1 0 40 1 9 2 70 2 2 7 2o 2 2 1 20 2 2 7 9 性别女性( 非生育) 年龄段2 0 2 93 0 3 9 观察数 2 4 4 52 0 0 0 宙宽0 1 8 6 40 2 0 0 9 2 0 0 4 年上海大学硕士学位论文 密 度 函 数 o2 o 5 0 04 密 耋e + : 数 0 0 2 8 04 0 2 05 m 7 0 1 0 ; 少父 每欹住院费用对数 圈一:男性备年龄段往院费用对数的核密度函数曲线( 犬样本) i 次r 一、i 0 5 强秘 0 1 瓜! 歹| k 05 i 风u 每次住院鼹用对嫩 翻二;女性各年龄段往虢费掰对数的棱密廉函数曲线( 大样本) 1 3 - 2 0 0 4 年上海大学硕士学位论文 08 密0 6 盛。一 数0 2 o 7 7 7 ( d8 06 04 02 o l _ 每次住院费用对数 图三:女性2 0 - 2 9 岁及3 0 - 3 9 岁住院费用对数的核密度函数曲线( 不含生育) ( 大样本) 从以上图形可以看出,利用核估计方法得到的密度函数曲线较好的保持了其核 函数的连续性、光滑性和对称性。整体上讲,男性密度函数的峰值略比女性的低, 峰宽比女性的略宽,说明女性每次住院费用对数的分布较集中,男性较分散。 对于女性2 0 一2 9 岁的情况,可以发现这个年龄段的密度曲线与其它1 1 条密度 曲线有着显著差异,即它们的密度函数有着明显的双峰,而且费用较小的那个峰特 别的高。根据图三,分析其原因可能有以下两点: 1 ) 处于该年龄段的许多女性由于生育或生育相关原因而发生住院。 2 ) 生育住院费用的分布和非生育住院费用的分布是有区别的。整体而言, 生育住院的费用比非生育住院的费用要小得多。 女性3 0 一3 9 岁年龄段也因为生育住院的原因而有两个峰,只不过这个年龄段的 生育比例相对较小,故没有2 0 2 9 岁年龄段表现的那么明显。 3 2 小样本 3 2 1 核估计方法 我们采用随机抽样的方法,根据性别和年龄段分别从不同的一维大样本中抽取 1 0 5 条数据,在每一个子区间,平均只有7 个样本点,因此该数据可作为小样本。 对于该样本,采用核估计方法计算分性别和年龄段的住院费用对数的分布情况。取 1 2 核函数k ( x ) = ;一8 :,计算结果如下: 吖z 石 2 0 0 4 年上海大学硕士学位论文 表二密糍( 小样零) 性别男性 荦龄段2 0 2 93 0 3 94 0 - 4 95 0 5 96 0 6 97 0 蛙上 观察数1 0 51 0 5 1 0 51 0 51 0 51 0 5 宙宽0 4 1 1 70 ,2 5 6 9o 5 7 2 70 4 6 1 2o 5 5 4 10 4 8 2 9 性剐女性 年龄段 2 0 2 93 0 - 3 94 0 4 95 0 5 9 6 0 - 6 97 0 7 9 观察数1 0 51 0 51 0 51 0 51 0 51 0 5 密宽o 。3 4 6 70 ,3 9 3 10 。3 6 2 20 4 3 6 50 。3 5 2 90 。3 9 0 0 性别女性( 非生育) 年龄段2 0 2 93 0 3 9 褥察数1 0 51 0 5 窗宽0 4 3 9 6o 3 2 5 0 密 度 菡 数 02 0 每谈住腻费用对数 强疆;舞往备年瓣段佳魏费翅对数瓣孩密发爨数曲线( 大、小样本) ( k e r 代表利用核估计方法处理大样本k e r 代表利用核估计方法处理小样本) 2 0 0 4 年上海大学硕士学位论文 密 蔷o s 数 0 密 度 函 数 每次住院费 1 0 5 0 八 1 目ts k - 女性备年龄段住院费用对数的核密度函数曲线( 人、小样本) 慈 z 一-弋气 每次住院费用对数 图六:女性2 1 1 - 2 9 岁及3 0 - 3 9 岁住院费用对数的核密度函数曲线( 不含生育) ( 大、小样本) 从图四、五、六可以看出利用核估计方法处理该小样本问题,无论男性还是女 性,生育还是非生育情况,峰值和峰宽均小于大样本的情况。且对于女性2 0 2 9 岁( 不含生育) 年龄段,基本没有反映出其双峰的特征。这一切均是由于小样本信 1 6 b 6 4 2 d 0 0 0 0 2 0 0 4 年上海大学硕士学位论文 感基不是,一些够传现藏线的缨徽特鳋的售惑遗失约结果。瞧扶整体寒进,利蹋 核估计方法处理该小样本问题是肖效的,获得的两条住院费用对数的分布曲线相当 绞运,戆够反映爨住院费缮对数豹整薅分摩渍况。 3 2 2 信息扩散方法 控制患集为扩= 扣,= 0 5 + i ,i = 0 , 1 ,1 4 ,其中骥代表菜令年羚段豹经夔赞孀 “一v p 对数,控制点耀躐必5 = 1 。取一维信患扩数函数( w ,v ) = g 一f 一, 将每个记录敬 倍息从样本点扩散到全空间,得到控制点w j 处的絷个年龄段住院费用对数的密度函 数,( 碱) 。 具体缭果 将信息扩散方法运用于分性别分年龄段的一绒小样本数据上,得到了不同性别 霉龄段黪往院费趱对数豹密度垂数,其体结果霓下瑟: 每孜住院费用对数 鞫七:羧估计方法、信惑扩散方法簸瑾佳巯赞沼对数闯蘧院较( 勇往) ( u i d m 代表利用信息扩散方法处理小样本) 一1 7 一 密度夔鼗 2 0 0 4 年上海大学硕士学位论文 密 度 函 数 0 6 04 02 0 每扶住院费用对披 1 1 1 ) k :核估计方法、信息扩散方法处理住院费用对数问题比较( 女性) 08 04 口2 0 5 每欹住院费用对数 图九:核估计方法、信息扩散方法处理住院费用对数问题比较( 女性非生育) 事实上,信息扩散的效果类似于计算几何中对曲线( 曲面) 的光顺,图七、八、 九正说明了这一点,扩散所得的峰值较核估计的低。可以说,信息扩散的实质是通 过集值化的手段填补样本点之间的空隙,从而达到充分利用信息的目的。即信息扩 散方法是利用信息的合成避免了信息的局部化,达到了平均化信息的效果。 密度函数 2 0 0 4 年上海大举硕士学位论文 3 2 。3 傣惠扩散方法的参数铙纯 上面我们将参数五设定为2 ,存在着一定的主观性。信息扩散的性质不仅依赖 于给定的样本,也与参数旯静选择有密切的关系。参数五决定了信息扩散函数 的“胖”与“瘦”,即控制信息扩散的程度。从男一个角度讲,它体现了我 | 、 对傣 息点影响范围及襁度的度潼。如前面所述,本文引入了两个准则“有限波动准则” 毅“最,j 、僚离度壤嬲”,逡立了住院费弱攘墼: m i n f ( a ) j ,c ( 五) s 辨煳戗戡黔夏等) 2 巍硼栌 ( 。,4 ( 兄) ) ( ( z 。) 2 ( ( 旯) ) 2 ) j 表三住院赞翅簿莲臻惫扩教参数往纯缝采 性别男性 颦龄段 2 0 一2 93 0 一3 94 0 一4 95 0 5 95 0 一鹳7 0 以主 五0 7 6 7 50 8 6 1 00 6 5 7 40 7 0 0 21 2 0 9 90 5 4 3 5 f2 2 9 0 21 4 3 4 32 0 9 5 71 2 4 9 15 4 1 6 32 0 6 8 1 c0 。9 9 2 l0 9 9 4 20 9 拿1 90 9 9 3 8o 9 s 6 60 。9 9 6 9 性别焱性 冬龄段 2 0 2 93 0 一3 94 0 一4 95 0 5 96 0 一6 97 0 蚨上 丑0 6 5 2 50 5 8 4 60 5 0 0 8o 5 3 1 80 6 8 80 4 3 7 5 f5 0 7 7 14 9 1 7 06 7 1 6 01 9 5 8 35 0 1 4 02 6 4 8 6 c0 。9 9 0 60 9 9 0 60 9 8 3 】0 9 9 3 80 ,9 9 3 50 9 9 5 l 性别女性非生育 擘赭段 2 0 2 93 0 一3 9 五0 8 3 4 60 8 3 5 l f5 2 4 0 69 1 7 8 0 c0 。9 9 3 90 9 9 2 2 0 0 4 霉。t 海文攀鞭圭擎塑论文 “+ “1 ”。“+ “1 。 “p ”。h - h _ _ _ ”_ “- 。n 。h _ _ 。”“_ 。_ _ _ _ _ h _ _ - _ _ _ h h 。h _ _ 。_ h _ _ _ - _ - * m 。_ _ - 一。h _ _ h _ “,_ _ - _ _ 0 4 8 0 鑫2 0 0 m 2 :3 - 薄凌毽拣冀嚣辩教 翔卡禳魏诗痔法、菇患扩羧方法、德健磐爨扩散方法漱较舞性) ( o i d m 霞液稳建筑毪信惑扩散方法熬瑗枣谨本) 姆捷捷靛赞薄麓数 骜专羧辫浮方澄、蕊意扩毅煮陵、键裁嵇黼妒载方菠珑较女犍 2 e - 密畿黼歉 意凄盛羧 2 0 0 4 霉上海大学矮圭学经论文 塞 黛 数 罐魄馁弑爨建瓣数 匿十二梭彳古诗方法、信息扩散方法、傀伍倍怠扩 羧方法魄较( 女性非嫩育) 获豁上圈澎爵戳器离,缀遗参数傀镪螽,裙丽僚惠扩敖方法簸臻翁,j 、襻本阕 趱靛霞浣费溪对数蘧线豹蜂鬣莘瑟蜂宽臻霄辑改避,更鸯鼙接近俸沟客蕊近钕标躐静孩 倍诗大样本情况。 3 。3 结果 梵了受热潼噬遗掇鳖不霜处壤方法懿窍效枣耋,本文荨l 入了“哥减少谟蓬”熬壤 念。 定义;若袋耪倍计方法盘的缝对谈嫠总和为p 。,舞一静饿诗方法筘麴绝对谖 麓总窝为p ( p 。 p p ) ,鲻称垦罟兔筘籀对糖鞠可减少误蒺一 | 三 下就是戳核 轰圣 “方法处理大楼本黪缨暴作为近l 蛙黪客戏椽凇,麓它三秘方法 与之毙较,褥到鹣绝对误差和可减少谈差。 表霆谈差皴果魄较袭 i黩捌舅性 年龄段 2 0 一2 93 0 - 3 94 0 - 4 95 0 5 96 0 - 6 97 0 一 捃患扩散 0 2 3 6 10 3 0 6 40 2 4 9 40 3 i 1 4o 1 7 8 8o ,2 8 4 8 缝对误徒证健纛 o 1 1 6 20 1 9 0 90 0 9 6 70 + 2 0 9 70 0 9 6 50 ,1 7 l l 麓扩散 蔽绩谤( 小) 0 。 1 1 20 。1 5 9 60 ,0 8 5 80 2 0 7 60 1 7 0 30 。1 6 8 8 i 可减少信息扩散一1 1 2 ,3 21 9 06 8 。9 1 9 8 一5 0 + 4 9 9 * 6 8 。7 2 i 浚差 2 0 0 4 年上海大学硕士学蕴论文 优化信息 - 4 5 一1 9 6 1 一1 2 7 ,1 + 0 l 4 3 3 4 1 3 6 扩数 性别女性 年龄段 2 0 。2 93 0 - 3 94 0 * 4 95 0 5 96 0 6 97 0 售惫扩散 o 5 3 8 80 2 7 7 90 1 2 9 s o0 3 2 7 6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 委托书之风险委托代理合同5篇
- 供水公司考试题库及答案
- 集控员考试题库及答案
- 25秋新人教版英语七年级上册 Unit 7 Happy Birthday!Section B 同步练习(含答案)
- 酒店住宿与餐饮服务管理合同
- 2025年新疆农业科技创新与应用合同
- 钻井硫化氢考试题及答案
- 高等教育自学考试例题及答案
- 第二类考试题目及答案
- 人事主管笔试题目及答案
- 光纤技术考试题及答案
- 铝材厂跟单员培训课件
- 林则徐虎门销烟课件
- BIM概述课件教学课件
- 退火炉施工方案(3篇)
- 高层办公楼消防知识培训课件
- 农作物施肥精准手册
- 健身房股东协议合同范本
- 医疗机构医疗质量安全专项整治行动自查自纠报告
- 待灭菌物品的装载
- 《急性肺栓塞诊断和治疗指南2025》解读
评论
0/150
提交评论