数据挖掘在体检代谢综合征智能甄别中的应用研究_第1页
数据挖掘在体检代谢综合征智能甄别中的应用研究_第2页
数据挖掘在体检代谢综合征智能甄别中的应用研究_第3页
数据挖掘在体检代谢综合征智能甄别中的应用研究_第4页
数据挖掘在体检代谢综合征智能甄别中的应用研究_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在体检代谢综合征智能甄别中的应用研究数据挖掘在体检人群代谢综合征智能甄别中的应用研究目录Contents内容与方法结果讨论前言1243前言1前言内容与方法结果讨论研究背景

体检是“三早”的重要前依端口。

国内外均累积了海量的体检数据。

如何利用和分析健康体检数据是一个重要的研究方向。前言内容与方法结果讨论研究背景数据冗余体检数据:数据量大,指标多数据挖掘中,冗余的体检变量会减缓疾病分类的效率,降低疾病分类性能。体检数据分析过程中面临着诸多问题,其中数据冗余,类不平衡逐渐受到关注降维Lasso特征选择前言内容与方法结果讨论研究背景类不平衡指在数据集中阳性类数量远小于阴性类数量。不平衡类分布下,传统分类方法倾向于将待分类样本划分为阴性,而阳性样本识别较差。阳性类样本的正确分类比阴性类样本的分类更有价值。体检数据分析过程中面临着诸多问题,其中数据冗余,类不平衡逐渐受到关注数据层面:数据平衡分类算法层面:数据分类解决途径传统分类器改进设计新算法重采样技术传统分类器前言内容与方法结果讨论

研究意义代谢综合征(MetabolicSyndrome,MS)是以中心性肥胖、高血压、糖尿病、高血脂集结于一身的病理状态。随着现代人患肥胖、高血压、糖尿病、脂肪肝、血脂紊乱等慢性病人数逐渐增加,造成慢性代谢综合性疾病的全球大流行。代谢综合征的预防远比治疗更能节约医药卫生资源和改善个体的健康状态。体检作为一级预防阶段能较早筛选代谢综合征患者,帮助患者积极采取干预措施,防止并发症发生。前言内容与方法结果讨论研究目的

基于健康体检大数据,以代谢综合征智能甄别(分类)为切入点,探讨与分析Lasso特征选择与重采样技术在医疗大数据分类诊断中的可行性与应用价值,为解决医疗大数据挖掘中数据冗余及类不平衡分类问题的研究提供方法学参考。2内容与方法前言内容与方法结果讨论Lasso特征选择通过添加约束条件s≥0对模型系数压缩,当模型中回归系数Lasso估计的绝对值小于其最小回归系数的绝对值时,某些相关度低的变量系数就被压缩为0,此时所对应的变量将被剔除,达到降维目的。

前言内容与方法结果讨论重采样技术随机过采样:随机欠采样:混合采样:假设不平衡数据集中包含阳性类样本的数量为s,阴性类样本的数量为n。前言内容与方法结果讨论分类方法BP神经网络C4.5决策树前言内容与方法结果讨论交叉验证:10-折交叉验证二分类问题的混淆矩阵真实类型分类器分类患者健康患者TruePositive(TP)FalseNegative(FN)健康FalsePositive(FP)TrueNegative(TN)评价指标(1)(2)(3)前言内容与方法结果讨论研究内容1.Lasso特征选择处理数据冗余未运用Lasso特征选择运用Lasso特征选择2.重采样技术处理不平衡数据(1)不平衡数据集模拟(1,10,50,100)(2)未运用Lasso特征选择运用Lasso特征选择3.综合评价Lasso特征选择与重采样技术对分类性能的影响(1)Lasso特征选择与重采样技术后评价指标的两因素方差分析(2)Lasso特征选择与重采样技术对分类结果的稳健性对分类性能的影响对分类的影响重采样技术3结果前言内容与方法讨论结果

收集乌鲁木齐市某体检机构2014~2016年汉族体检者信息69267例,经数据清洗后,共54个体检指标。

根据中华医学会糖尿病学分会的代谢综合征诊断标准,共筛选2735例代谢综合征患者,患病率约为4%,不平衡比例≈24。前言内容与方法讨论结果一、Lasso特征选择在智能甄别中的应用血小板平均体积高密度脂蛋白胆固醇空腹血糖中性粒细胞百分比年龄图3Lasso对该数据的特征序列图前言内容与方法讨论结果一、Lasso特征选择对分类性能的影响表3Lasso特征选择对代谢综合征分类性能影响C4.5决策树F-valueG-meanAUC

未使用Lasso特征选择0.9750.7940.802

使用Lasso特征选择0.9790.8170.836BP神经网络

未使用Lasso特征选择0.9700.7260.952

使用Lasso特征选择0.9720.7260.964前言内容与方法讨论结果二、重采样技术对分类性能的影响2.未用Lasso特征选择原不平衡数据随机过采样随机欠采样混合采样3.运用Lasso特征选择原不平衡数据随机过采样随机欠采样混合采样分类(C4.5决策树、BP神经网络)分类(C4.5决策树、BP神经网络)1.计算机模拟不平衡比例对分类性能的影响前言内容与方法讨论结果表4不同不平衡比例的数据集分类结果不平衡比例患病率F-valueG-meanAUCC4.5决策树11/20.9200.9200.936101/110.9700.8790.921501/510.9930.8420.8941001/1010.9970.8400.892BP神经网络11/20.9660.9660.984101/110.9830.9470.960501/510.9940.8710.8751001/1010.9970.8470.8271.不同比例的类不平衡数据对分类性能的影响前言内容与方法讨论结果表5重采样技术对分类性能的影响结果分类算法数据集F-valueG-meanAUCC4.5决策树原不平衡数据0.9750.7940.802

随机过采样0.9910.9900.991

随机欠采样0.9210.9210.914

混合采样0.9890.9890.990BP神经网络原不平衡数据0.9700.7260.952

随机过采样0.9650.9640.981

随机欠采样0.8900.8900.953

混合采样0.9580.9570.9792.三种重采样技术在代谢综合征智能甄别中的应用前言内容与方法讨论结果3.基于Lasso特征选择三种重采样技术在代谢综合征智能甄别的应用表6

Lasso特征选择联合重采样对分类性能的影响结果分类算法数据集F-valueG-meanAUCC4.5决策树不平衡数据集0.9790.8170.836

随机过采样0.9880.9880.990

随机欠采样0.9320.9320.953

混合采样0.9850.9850.988BP神经网络不平衡数据集0.9720.7260.964

随机过采样0.9320.9320.974

随机欠采样0.9320.9320.972

混合采样0.9320.9310.973前言内容与方法讨论结果三、综合评价Lasso特征选择与重采样技术对分类性能的影响2.F-valueG-meanAUCLasso特征选择

重采样技术C4.5决策树Lasso特征选择重采样技术树状结构图分类前言内容与方法讨论结果1.Lasso特征选择与重采样技术分类性能的优劣评价前言内容与方法讨论结果1.Lasso特征选择与重采样技术分类性能的优劣评价前言内容与方法讨论结果2.Lasso特征选择与重采样技术对分类性能的稳健性图5原始不平衡数据树状结构图前言内容与方法讨论结果图6未使用Lasso特征选择的随机过采样树状结构图2.Lasso特征选择与重采样技术对分类性能的稳健性前言内容与方法讨论结果图7Lasso特征选择后随机过采样树状图2.Lasso特征选择与重采样技术对分类性能的稳健性4讨论前言内容与方法结果讨论1.Lasso特征选择代谢综合征体检变量分析Lasso特征选择的变量是:空腹血糖、高密度脂蛋白胆固醇、年龄、中性粒细胞百分比、血小板平均体积。①②空腹血糖、高密度脂蛋白胆固醇与代谢综合征的诊断密切相关。随着年龄增大,人体代谢功能下降,生理系统衰老加速,机体更易受到疾病侵袭。③巨噬细胞活化在代谢功能失调中起关键作用,中性粒细胞作为巨噬细胞的代表与代谢综合征密切相关。④代谢综合征的低炎性状态与血小板存在相互作用。前言内容与方法讨论结果2.重采样技术对类不平衡数据分类性能的影响分析

不平衡数据分类问题受到诸多研究者的关注C4.5决策树与BP神经网络在分类性能略有差别BP神经网络:定量变量;C4.5决策树:定性变量重采样分类性能优于原不平衡数据

随机过采样略

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论