全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于孤立点分析的统计抽样方法 【摘 要】目的 笔者借助大数据技术筛选和拆分医院庞大的医疗信息数据集,分析医学数据之间的内在逻辑关系,构建基于孤立点分析的统计抽样模型。方法 对某地三级综合医院20132017年间收治的2499例型糖尿病患者进行基于孤立点分析的统计样本的选取。结果 前3个公共因子可以代表92.668%的原始数据,可信度较高;对3个公共因子进行K-means算法的第一次聚类分析中,2499组观测数据均有效。第三簇124(4.96%10%)观测点为孤立点。结论 实现了快速确定可疑样本,为进一步制定详细医疗方案,提高医疗效率、降低医疗风险和节约医疗成本提供了可能。 【关键词】医疗云数据;统计抽?樱还铝惴治? 一、孤立点分析方法介绍 孤立点分析又称孤立点挖掘、异常检测、偏差检测。它是指在数据挖掘过程中存在的不符合数据模型的数据对象,这些数据通常被看作是数据集中的噪声,它们的存在会影响数据挖掘的精确度,有时甚至会产生非常差的挖掘效果。这些与其他数据有显著区别的数据对象集合称为孤立点(outlier)。孤立点可能是无用数据,也可能是与实际对应的有意义的事件。目前大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。 对于医学数据分析来说,异常的数据、事件、频率等往往具有特殊含义或隐藏重要信息,可从中找到病人疾病的线索,它有可能蕴涵某类疾病有意义的、新颖的、有用的知识。从知识发现的角度看,在某些疾病治疗过程中,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值。因此,异常数据的检测和分析是一项重要且有意义的研究工作。正因如此,在医疗过程中产生的异常数据,对辅助医生的诊断和提高医学经验的共享都有极其重要的意义,而且由于它具有很强的专业性,使得这方面的研究具有非常大的挑战。 孤立点分析方法主要分为两个步骤:第一步,在给定的数据集合中提取所需数据并进行分类,然后进行因子分析。第二步,检测和挖掘数据集合中呈现离散状态的小部分数据,即发现孤立点。 二、基于孤立点分析的统计抽样方法 大型医院的医疗数据复杂多变、分析内容繁杂,专业技术性非常强,特别是地方性的综合三级医院,大多数病人来自周边地区,使得地域性疾病特征非常明显,因而医疗信息统计研究往往也明显带有地域性和季节性。如何在复杂多样的医疗数据中选取合适的样本进行检测是医学科研中的重中之中。笔者以某地三级综合医院糖尿病为例,演示基于孤立点分析方法的统计抽样模型的构建原理,并在此基础上进行具体病例分析。 (一)统计模型构建原理演示 第一步,确定被统计数据集合的变量属性,并进行因子分析。以某地三级综合医院糖尿病近5年收治病人为背景,调查得到各型糖尿病并发症的发生率及各独立危险因素,通常需要考察糖尿病人的性别;地区;平均年龄;吸烟;饮酒;高血压;肥胖;平均糖尿病病程(年);体质指数(kg/m2);空腹血糖(mmol/L);餐后2h血糖(mmol/L);糖化血红蛋白(%);收缩压(mmHg);舒张压(mmHg);血清总胆醇(mmol/L);高密度脂蛋白胆固醇(mmol/L);低密度脂蛋白胆固醇(mmol/L);甘油三酯(mmol/L)等数据之间的关系是否正常合理。而在实际医疗中,与型糖尿病并发症相关的指标不限于上述变量,可根据实际病情增加其他变量。变量越多,分析复杂性越高,因此进行因子分析以达到降维目的,避免变量间出现多重共线性问题而影响分析结果。 第二步,发现孤立点。笔者使用SPSS22.0软件中的K-means聚类分析来寻找孤立点,目的是找出与各型糖尿病并发症综合情况相比差异较大的病例,并利用因子散点图分析引起差异的原因所在。根据实际情况,认定若孤立组中包含的观测点数量占其总观测点数量的10%以下,则此孤立组包含的观测点被视为孤立点。此规则依据的是大部分观测点的聚集会使小部分“异常”观测点显现出来。之后利用三维因子散点图对所有数据进一步分析,可直观展现孤立点产生的原因。 (二)具体案例分析 随着我国人口老龄化和居民生活方式的改变,糖尿病患病率逐年上升,目前全国患者超过4000万人,成为仅次于印度的糖尿病第二大国。型糖尿病发病隐匿,进程缓慢迁延,许多患者随着病情的进展常出现全身多个脏器的损害,严重者则因而致残和死亡,不仅给患者造成痛苦.也给家庭和社会带来沉重的负担。目前国内对糖尿病的研究多在流行性水平上,而对于个体差异较大的病例视为异常而丢弃。但就糖尿病病人数据分析来说,异常的数据往往具有特殊含义或隐藏重要信息,可从中找到各期糖尿病人并发症的线索或目前尚未发现的知识。为研究某地区型糖尿病并发症的发生率及各独立危险因素与国内水平的差异,某地三级综合医院拟对该院20132017年间收治的2499例型糖尿病患者进行基于孤立点分析的统计样本的选取。 第一步,获取2499例型糖尿病患者的相关数据建立数据集,包括性别;地区;平均年龄;吸烟;饮酒;高血压;肥胖;平均糖尿病病程(年);体质指数(kg/m2);空腹血糖(mmol/L);餐后2h血糖(mmol/L);糖化血红蛋白(%);收缩压(mmHg);舒张压(mmHg);血清总胆醇(mmol/L);高密度脂蛋白胆固醇(mmol/L);低密度脂蛋白胆固醇(mmol/L);甘油三酯(mmol/L)此处需要注意的是,如前所述,实际数据集中所采集的数据信息会比本例列示的更多,限于篇幅,笔者仅以空腹血糖(GLU1);餐后2h血糖(GLU2);糖化血红蛋白(GLU 3);收缩压(BP1);舒张压(BP2)5个输入向量为例,探究其对型糖尿病性血管病(Complications1)和型糖尿病性肾病(Complications2)的影响。确定好变量属性后,需要对这7个指标进行因子分析,首先得到解释总方差(如表1所示),从中可以看出累计方差贡献率为92.668%,表明前3个公共因子可以代表92.668%的原始数据,可信度较高,因此提取这3个因子为公共因子。其次通过旋转成份矩阵可对3个公共因子进行解释命名。F1是公共因子GLU,主要反应实验室检查结果;F2是公共因子BP,要反映血压;F3是公共因子CLP,主要反映糖尿病并发症。 第二步,对这3个公共因子进行K-means聚类分析以寻找孤立点。在第一次聚类分析中,2499组观测数据被分为4类,所有记录无缺失,均有效。这个结果表明分布在1、2、4簇的数据之间相关性较大,第三簇124(占总数的4.96%10%)为孤立簇。因为每个观测量所属类别及距离类中心的欧式距离已经作为新变量保存在数据表中,通过数据表中的类别变量,可得出这124个观测点对应的编号分别是:110,201,2321。为判断这124个孤立点所存在的问题,需利用三维因子散点图进行直观的反映(如图2所示)。因为GLU、BP、CLP这3个变量是观测点的基础影响因素,笔者选择它们作为坐标轴,从中可以很容易地找到?124个孤立点,进而发现这124个点在实验室检查结果或血压上明显偏离其他点。为确保发现数据集中的所有孤立点,还需要对1、2、4簇中的观测点分别进行三次聚类分析,步骤与上文一致。最后对四次聚类分析汇总,合计共发现260个孤立点并作为统计抽样的样本,结合因子散点图所示的偏差进行全面统计分析。 三、总结 本文以某地区近5年型糖尿病并发症病人诊疗数据为背景,研究了孤立点分析方法,将数据挖掘技术与医学领域知识相结合,通过挖掘异常数据来快速确定可疑样本,尽早发现糖尿病病人的异常状况,做到早发现早治疗,为进一步制定详细医疗方案,提高医疗效率、降低医疗风险和节约医疗成本提供了可能。由于时间和人力有限,在文中笔者仅对7个指标进行了因子分析,而在实际医疗中与型糖尿病并发症相关的指标不下于20种,复杂性非常高。其次在K-means聚类分析中初始随机给定K个簇中心一般是根据实际情况自订,由于实验人员水平不一,实际制定K值也存在大小不一的情况。实验结果也有所偏差。 参考文献: 李光兴.基于相对密度的孤立点和边界点识别算法J.计算机科学,2016(6):236-236+280. 孙?h?,宋迪. 大数据环境下基于孤立点分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 空调项目合作协议书
- 社区商铺合租协议书
- 花园设计师合同范本
- 祛斑加盟约合同范本
- 畜牧疫苗防疫协议书
- 电子合同就业协议书
- 破产公司修复协议书
- 电商与平台合同范本
- 砸墙拆除合同协议书
- 社保局劳动合同范本
- 烘干塔买卖合同范本
- 扬修2SA8电动执行器使用维护
- 2025云南省科技投资管理有限公司招聘二次(19人)笔试考试参考试题及答案解析
- 光伏支架项目可行性研究报告
- (完整)特种设备专项应急预案
- 2025中国电信股份有限公司重庆分公司社会成熟人才招聘考试笔试备考试题及答案解析
- 2025年广东省春季高考(学考)英语真题(试题+答案)
- 2025年4月自考03450公共部门人力资源管理试题
- 黄瓜杂交种子生产技术
- 国际海域划界测量技术方法
- 大学英语四级 700核心高频词
评论
0/150
提交评论