版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习算法在糖尿病医疗诊断中的应用摘要:糖尿病早期诊断对延缓并发症及优化医疗资源配置至关重要,但传统筛查方法有着基层普及不足等的局限。本研究基于Pima印第安人糖尿病数据集,构建不同参数配置的MLP模型与逻辑回归、决策树、随机森林、XGBoost进行对比,探究MLP在糖尿病风险预测中的非线性建模能力。通过中位数填补缺失值、Z-score标准化预处理数据,结合动态学习率与正则化优化模型,系统的评估了隐藏层结构等参数对性能的影响。实验表明,优化后的MLP模型(MLP-32-0.3-lr0.01)验证集AUC达0.93,准确率86.93%,灵敏度75%,特异性93.07%,显著优于逻辑回归(AUC=0.793)和决策树(AUC=0.849)。特征重要性分析揭示血糖、BMI和年龄为核心预测指标,MLP通过非线性映射有效捕捉其协同效应。尽管研究存在样本同源性和泛化性不足的缺点,但结果仍证明了MLP模型在复杂医疗数据建模中的潜力,这为基层医疗机构提供了一种低成本、高精度的自动化筛查工具。关键词:糖尿病;多层感知机;机器学习;医疗诊断ApplicationofMachineLearningAlgorithmsintheMedicalDiagnosisofDiabetesAbstract:Earlydiagnosisofdiabetesiscrucialfordelayingcomplicationsandoptimizingtheallocationofmedicalresources.However,traditionalscreeningmethodshavelimitationssuchasinsufficientpenetrationatthegrassrootslevel.Thisstudy,basedonthePimaIndiandiabetesdataset,constructedMLPmodelswithdifferentparameterconfigurationsandcomparedthemwithlogisticregression,decisiontrees,randomforests,andXGBoosttoexplorethenonlinearmodelingabilityofMLPindiabetesriskprediction.Missingvalueswerefilledwiththemedian,andthedatawerepreprocessedwithZ-scorestandardization.Themodelwasoptimizedbycombiningdynamiclearningratesandregularization.Theimpactofparameterssuchasthehiddenlayerstructureonperformancewassystematicallyevaluated.TheexperimentsshowedthattheoptimizedMLPmodel(MLP-32-0.3-lr0.01)achievedanAUCof0.93onthevalidationset,withanaccuracyof86.93%,asensitivityof75%,andaspecificityof93.07%,significantlyoutperforminglogisticregression(AUC=0.793)anddecisiontrees(AUC=0.849).Featureimportanceanalysisrevealedthatbloodglucose,BMI,andagewerethecorepredictiveindicators.MLPeffectivelycapturedtheirsynergisticeffectsthroughnonlinearmapping.Althoughthestudyhasthedisadvantagesofsamplehomogeneityandinsufficientgeneralization,theresultsstilldemonstratethepotentialoftheMLPmodelincomplexmedicaldatamodeling,providingalow-costandhigh-precisionautomatedscreeningtoolforgrassrootsmedicalinstitutions.Keywords:Diabetes;MultilayerPerceptron(MLP);MachineLearning;MedicalDiagnosis目录7067摘要 I14334Abstract II203721前言 123101.1糖尿病早期诊断的医疗需求 1186291.2糖尿病诊断的国内外现状 1161821.3研究目标与意义 233342相关理论与技术基础 2229402.1糖尿病诊断的传统方法及局限性 2136892.2MLP模型的基本原理 3291692.3决策树模型的基本原理 4198532.4逻辑回归模型的基本原理 5174382.5随机森林模型的基本原理 5202102.6XGBoost模型的基本原理 57202.7模型评估指标 6190293数据集分析与预处理 7270913.1数据集背景与特征描述 727873.2数据质量问题分析 8174133.3数据预处理 9130173.4特征相关性可视化 925934模型的构建和优化 104334.1模型选择依据与设计 10104244.1实验组:不同结构的MLP模型 11145134.2对照组:四种不同机器学习模型 15120434.3MLP模型性能优势与特征交互机制分析 18309435结论 1830121参考文献 201前言1.1糖尿病早期诊断的医疗需求糖尿病是一种全球性慢性代谢疾病,其发病率持续攀升,已成为公共卫生领域的重大挑战。而且糖尿病早期并没有明显症状,但长期的高血糖会引发心血管疾病、视网膜病变等严重并发症[1],所以糖尿病的早期诊断是十分紧迫的。生活方式调整、药物干预等的早期干预方法都可有效控制血糖水平,降低并发症风险[2]。然而传统的糖尿病筛查方法具有依赖医疗资源,覆盖范围有限的缺点。因此,开发高效、低成本的早期诊断工具,是提升糖尿病管理效率、改善患者预后的关键需求。在当代医疗环境中,医疗检查和传感器的应用日益广泛,医疗领域也随之累积了许多诊断数据,然而传统的诊断方法显然无法使这些数据发挥最大的作用,从而为患者制定最为合适的诊疗方案,而人工智能技术则在医疗实践中协助医疗决策[3]、疾病监测[4]、医疗诊断[5]等方面起着重要的作用,人工智能技术尤其是神经网络在医疗诊断[6、7]领域取得了显著进展。1.2糖尿病诊断的国内外现状在糖尿病早期的诊断方面,国际上的研究多采用逻辑回归、支持向量机和随机森林等算法。例如:在有关逻辑回归的方向上,Nai-Arun等人提出了集成学习方法,该方法结合逻辑回归与特征选择技术使得AUC值达到了0.944,在糖尿病数据集上实现了较高的分类精度[8];在有关支持向量机的方向上,Cordelli等人利用了SVM结合双通道红细胞膜流动性进行分析,开发了糖尿病辅助诊断系统,实现了糖尿病诊断的高精度分类[9];在随机森林方向上,而ManiB等人则使用自动化模型进行高精度糖尿病筛查,揭示出空腹血糖、年龄、BMI为糖尿病最显著的预测因子[10];在有关MLP的方向上,LeonK等人基于Pima印第安人糖尿病数据集的研究,发现MLP方法在二分类任务中表现优异,准确率可达85%以上[11]。并且在有关早期糖尿病的检测上,CarpinteiroCésar等人评估了几种流行的分类算法,发现多层感知器(MLP)、梯度提升机(GBM)和随机森林(RF)算法具有最高的整体性能[12]。而近年来,集成学习和多模型融合方法通过结合多个模型,显著的提升了糖尿病诊断的准确性和鲁棒性。例如:KarloAbnoosian等人提出了一种通过加权集成方法解决数据集不平衡问题的集合了多种机器学习模型的基于管道的多分类框架[13]。Ting等人融合了大语言模型(LLM)和深度学习技术,能够基于眼底图像和临床信息生成个性化的糖尿病管理意见,并提供糖尿病视网膜病变(DR)的辅助诊断[14]。国内在糖尿病智能诊断领域的研究起步较晚,但近年来逐步加强了对深度学习技术的探索,但主要集中于传统模型的优化与有限场景下的应用验证。国内学者如刘阳等人针对PimaIndiansDiabetes数据集提出了一种采用了径向基核函数解决非线性数据在高维特征空间中线性可分的问题的基于支持向量机的糖尿病预测模型,研究发现此模型的分类准确率得到了提升,模型性能良好[15]。也有学者建立多种机器回归模型进行对比,如:王霞等人为了了解成都地区体检人群中的糖尿病检出情况及影响因素,采用了机器学习方法探究健康体检人群中糖尿病的预测因素,并对比不同机器学习算法(随机森林、XGBoost、LASSO和Logistic回归)的预测效能的差异,其中随机森林模型表现最佳[16]。杨芊芊等人利用简单易得的体检数据,使用Logistic回归、支持向量机(SVM)、随机森林(RF)、极端梯度提升(XGBoost)模型和人工神经网络机器学习算法构建预测模型得出Logistic回归模型和XGBoost模型对糖尿病前期人群筛选能力更强的结论[17]。同时也存在部分研究尝试将MLP应用于医疗数据并建立模型进行对比,例如,刘迷迷等人为了筛选对糖尿病并发症预测影响较大的指标根据尿常规检查、生化检查和糖化检查信息,构建了预测糖尿病并发症的多层感知神经网络(MLP)模型[18];而吕航等人则探讨了多层感知器(MLP)模型在中医人格、体质预测糖尿病性冠心病患病风险中的预测效能[19],结果都发现MLP模型预测效果较好,并且可以用于辅助临床医生优化诊断和治疗糖尿病并发症。1.3研究目标与意义为了实现高精度、低成本的糖尿病风险预测,本文构建了一种基于多层感知机(MLP)的糖尿病早期诊断模型,并且通过挖掘结构化临床数据(如年龄、BMI、血糖等指标)中的非线性关联并且通过建立多个机器学习方法如:逻辑回归、随机森林等模型,并且进行结果指标对比,以此来验证MLP在结构化医疗数据中的建模能力,以及传统线性模型(如逻辑回归)在复杂特征交互捕捉上的不足。并且提出将正则化与特征重要性分析融合的模型优化框架,以此来提升AI诊断工具的可解释性与泛化性。本研究在未来应用上能够在临床辅助方面为基层医疗机构提供自动化筛查工具,从而降低降低漏诊率与误诊率;而在公共卫生方面则可以通过早期预警降低糖尿病并发症发生率,从而减轻医疗系统负担;在技术推广方面帮助资源匮乏地区提供低成本解决方案,从而促进健康公平。2相关理论与技术基础2.1糖尿病诊断的传统方法及局限性从世界卫生组织提供的糖尿病诊断标准的全球指南中可以了解到传统的糖尿病检测方法有多种,比如:采用在至少8小时未摄入食物的情况下进行的血糖检测,只有当检测到空腹血糖值达到或超过7.0mmol/L时,则该检测方式即被判定为有效的空腹血糖检测法。但是这个方法则要求患者严格空腹,可这一点却十分容易受到临时饮食或者应激状态的干扰,对于早期糖尿病(如糖耐量受损阶段)的敏感性不足。也有在口服75g葡萄糖后2小时测血糖的口服葡萄糖耐量试验法,若测量值大于等于11.1mmol/L则诊断为糖尿病。但此方法操作复杂、需多次采血导致消耗时间长,难以大规模筛查,并且患者也有可能会因为恶心、呕吐等症状从而影响结果的准确性。此外还有糖化血红蛋白检测法,若糖化血红蛋白值大于等于6.5%则为糖尿病。但该方法成本较高,部分地区的医疗机构设备不足无法进行检测,且该方法不适用于贫血、血红蛋白变异患者(如地中海贫血)。综上可发现传统的糖尿病传统检测方法依赖定期体检,无法实时监测,并且早期无症状阶段易被忽视导致漏诊率高,还需专业设备与人员,难以在资源匮乏地区推广,具有资源依赖性强的局限性。2.2MLP模型的基本原理神经网络是一种基于生物神经系统结构和功能特点而设计具有很强自适应性和非线性映射能力的人工神经网络模型。该模型由多个神经元节点通过连接权重相互连接,共同构建出多层网络架构。在其的结构中,每个神经元会同时接收并整合来自其他神经元的信息,随后将这些信息进行加权线性组合,并通过激活函数实现非线性变换,最终将处理后的结果传递给下一层或最终输出层。图1多层感知机示意图多层感知器(MLP)是最基本的神经网络模型之一,也是人工神经网络的一种基础类型,其结构简单,易于理解和实现由有很好的可拓展性和通用性。此外,多层感知机作为前馈神经网络的一种形式,其结构包含输入层、隐藏层和输出层,如图1所示,但是该模型的每一层的神经元(节点)与下一层的神经元完全连接,并借助激活函数引入非线性变换学习复杂的输入和输出关系。多层感知机(MLP)的输入端口处理数据特征(如特征向量xϵRd),而隐藏层位于输入层与输出层之间的中间层级由多个神经元构成,每个神经元通过权重矩阵W(l)和偏置矩阵b(l)对输入进行线性变换,在通过激活函数进行非线性变换,然而,这些数值与神经元的数量属于可调参数,需要根据任务的复杂程度进行调整。最后,MLP的输出层的神经元数量则会由任务类型z(l)=W接着进行h(l)=σ(z且σ'(x)=σ(x)(1−σ(x))。并在反向传播的过程中通过梯度下降法优化参数W(l)∂ℒ在通过链式法则逐层反向传播∂ℒ其中⨀为逐元素乘法,最后更新参数W(l)←W(l)−η∂ℒ∂W2.3决策树模型的基本原理决策树模型是一类广泛应用于分类与回归任务的机器学习中的经典算法模型。它通过对数据特征逐层划分,构建一棵由节点与分支构成的树状结构来进行模拟决策。并且在该模型的树状结构中把根节点作为树的起点,且根节点对应的是整个数据集。而决策树的内部节点则表示对某一特征的判断条件,它通过分支指向子节点。最后,叶节点表示树的终点,并对应最终的预测结果。而决策树模型是先进行特征选择过程,而后再利用信息增益、基尼不纯度或均方误差(MSE)来确定最佳分裂点。其中,信息增益=父节点熵-子节点样本数父节点样本数×子节点熵基尼不纯度=1-pi2,pi为类别i的比例MSE=1Nyi−y2,接着进行递归分裂,以根节点作为起点,根据特征选择的结果对数据集进行拆分,而成为多个子集,对每个子集再次重复该流程,直至所有的样本全部都属于同一类别。因此,该方法具有可解释性强、无需复杂预处理、适用性广的优点同时又有易过拟合、不稳定性、局部最优的缺点。2.4逻辑回归模型的基本原理逻辑回归作为一种通过构建线性组合对输入特征进行加权计算,从而输出最终预测结果的二分类任务的典型分类算法。它需要将输入特征X=[xz=WTX+b=w接着,结合非线性函数(Sigmoid函数)将z映射到[0,1]区间,输出概率值:P(y=1|X)=σ最后,通过设定阈值(通常为0.5),将概率转换为类别y=1如果该模型具有可解释性强、计算效率高、提供分类结果的置信度的优点,但同时具有仅能建模特征间的线性关系,对复杂非线性模式拟合能力有限对异常值敏感、特征高度相关时,参数估计不稳定的缺点。2.5随机森林模型的基本原理随机森林是一种基于集成学习的通过集成多棵决策树的预测结果来提升模型的预测能力与对数据噪声、异常值或缺失值的容忍能力的机器学习算法。在随机森林模型中每棵决策树使用有放回随机抽样的方法从原始数据集中抽取与原始规模相同的训练子集。而在每棵树的节点分裂时,仅从随机选取的特征子集中搜索最优分裂点,以此来降低树之间的相关性,并通过最大化信息增益(如基尼不纯度、信息熵或均方误差)递归划分特征空间。最终,在分类任务中多数投票法会将多个预测结果进行整合,作为最终决策,而回归任务则会采取所有树的预测均值以此作为最终结果输出。同时需要了解的是该模型具有抗过拟合、对噪声数据和缺失值不敏感,无需复杂预处理、各决策树独立生成,适合分布式计算和可以很好的洞察数据的优点。2.6XGBoost模型的基本原理XGBoost作为梯度提升框架下的一种集成学习算法,通过不断构建决策树并优化正则化目标函数来降低预测误差,从而形成高效的机器学习模型。该模型目标函数定义为:ℒ=i=1其中,第一项为损失函数(如均方误差或交叉熵),第二项为正则化项Ω(ft),控制模型复杂度,防止过拟合,其中T为树的叶子节点数;w为叶子节点的权重;Υyi(t并利用二阶泰勒展开近似损失函数:ℒ(t)≈i其中,gi=∂分别为损失函数的一阶和二阶导数。XGBoost采用贪心算法生成决策树,并且通过最大化分裂增益(Gain)选择最优分裂点:Gain=12[其中,IL,I2.7模型评估指标为了评价各模型在实际应用中的可靠性,本研究将采用一系列评估指标来全面衡量模型的优劣性。准确率(Accuracy):分类模型正确预测的样本数占总样本数的比例,其预测为阳性的样本中实际为阳性的比例,反映模型的精准程度。Accuracy=TP+TNTP+TN+FP+FN,(2-16其中,TP(TruePositive)是真正例,TN(TrueNegative)是真反例,FP(FalsePositive)是假正例,FN(FalseNegative)是假反例。灵敏度(Sensitivity,也称为召回率Recall):衡量模型正确识别正例的能力,即实际为正例的样本中被模型正确预测为正例的比例。同时,灵敏度高意味着模型能够尽可能多地检测出真正的患病者,并减少了漏诊的情况。Sensitivity=Recall=TPTP+FN(2-17特异性(Specificity):与灵敏度相似,衡量了模型正确识别反例的能力,即实际为反例的样本中被模型正确预测为反例的比例,该值越高表示模型越能够准确地区分非患病者,减少误诊的情况。Specificity=TNTN+FP(2-18AUC:是通过ROC曲线计算得出的数值,该曲线以假正例率(FPR)为横轴,以灵敏度作为纵轴绘制曲线。但AUC值介于0和1之间,值越大表示模型的性能越好。然而当AUC值等于0.5时则表明模型的分类性能等同于随机猜测。Kappa系数:是用于评估分类模型内部一致性水平的统计指标。该值的范围被限定在-1和1之间,值越高则意味着模型的预测结果与实际结果的吻合程度越高。若值为0表示模型的性能等同于随机猜测,而负值表示模型的性能比随机猜测还差。Kappa=P0−Pe1−其中,P0是观察到的一致性比例,PF1-score:综合考虑模型的精确性和召回能力,是精确率和召回率的调和平均数。该数值介于0和1之间,值越高则表示模型的性能越好。F1−score=2×Precision×RecallPrecision+Recall(2-20精确率(Precision):是衡量模型在预测结果中正例的准确性指标。具体而言,它是指所有被模型判定为正例的样本中,实际属于正例的比例。并且通过该指标直接的反映了模型对正例的识别可靠性。Precision=TPTP+FP(2-3数据集分析与预处理3.1数据集背景与特征描述本篇论文数据由美国国家糖尿病、消化和肾脏疾病研究所收集,公开于UCI机器学习库,主要研究美国的皮马印第安人(PimaIndians),该该族群因遗传和环境因素,糖尿病发病率显著高于其他群体,因此也是医学和机器学习领域的经典数据集,常用于糖尿病预测的二分类任务。且该数据集的特征如下表。表SEQ表\*ARABIC1皮马安人数据集特征表特征描述类型单位怀孕次数(Pregnancies)妊娠次数数字次数续表1特征描述类型单位血糖浓度(Glucose)口服葡萄糖耐量试验(GTT)中2小时的血浆葡萄糖浓度数字mg/dL舒张压(BloodPressure)血压数字mmHg皮肤厚度(SkinThickness)三头肌皮褶厚度数字mm胰岛素(Insulin)2小时血清胰岛素浓度数字μU/mL体重指数(BMI)身体质量指数数字kg/m²糖尿病遗传函数(DiabetesPedigreeFunction)基于家族史的糖尿病遗传风险评分数字无单位年龄(Age)年龄数字岁结果(Outcome)类别变量(0表示非糖尿病患者,1表示糖尿病患者)0/1无单位3.2数据质量问题分析如表2展示了数据集中的缺失值情况,而对于血糖、血压、皮肤厚度、胰岛素及体重指数五个指标而言0值均为无效值,需要处理。表2数据集特征缺失数目表特征怀孕次数舒张压皮肤厚度胰岛素体重指数缺失值数目53522734711如图2是对数据集中的特征值所绘制的箱线图,从图中可以看出样本年龄(Age)的大多集中在在20至40岁左右,而部分高龄(如80岁)则为少数样本。血压(BloodPressure)的范围在0-125mmHg,但存在极端值(如0和125),而根据世界卫生组织(WHO)糖尿病诊断标准中正常的血压范围而言该极端值是异常值或者测量错误。而体重指数(BMI)则包含极端低值(0)和高值(60),相对正常范围而言60严重超标,可能为肥胖样本或数据异常,而0值则为异常值。而糖尿病遗传风险(DiabetesPedigreeFunction)这一特征值的总体范围则在0.0-2.5,数值跨度合理,但是2.5却可能为高风险家族史样本。血糖(Glucose)的总体范围在0-200,相对于正常值而言极端值(200)可能为糖尿病样本,但0值需验证如:是否空腹测量。胰岛素(Insulin)的总体范围则在0-800,相对于正常值而言如极端高值(800)可能为异常值或病理情况(如胰岛素抵抗)。对于怀孕次数(Pregnancies)这一特征值而言其总体范围为0-15次,而15次远超一般生育情况需确认数据真实性,中位数约5次,而对于中位数及以上数值则可能反映高龄多胎产妇群体。最后对于皮肤褶皱厚度(SkinThickness)则可以发现其总体范围在0-100mm,而相对于高值(100)可能为肥胖样本或测量误差。图SEQ图\*ARABIC2数据集特征值箱线图3.3数据预处理在数据预处理阶段,本研究对数据集进行了缺失值处理以及特征标准化处理,以此避免模型失效的同时又减少了信息偏差并且加速了模型的收敛性、提高了模型的精度。首先,绘制各个特征的箱线图,对每个指标的总体范围进行分析,接着再根据世界卫生组织中糖尿病诊断标准,对于生理指标中不可为零的特征(如血糖等),将原始数据中的零值判定为缺失值。其次,为了避免均值受到极端值影响,本文采用中位数对缺失值进行稳健填补,即:先将指标中不可能为零的变量中的零值标记为“NA”,以此明确数据缺失状态,在基于非缺失值计算各变量的中位数,将缺失值替换为对应变量的中位数。最后,为消除量纲差异对模型训练的影响,对数据集进行Z-score标准化,将各特征缩放至均值为0、标准差为1的分布。通过上述流程进行数据预处理,确保了数据的可靠性与模型输入的一致性,以便于后续的建模。3.4特征相关性可视化如图3是通过颜色深浅来表示变量之间相关性强弱的相关性热力图,从图中可以发现因为怀孕次数与年龄的相关系数为0.54,表现出怀孕次数可能随着年龄的增长而增加但怀孕次数与其他变量的相关性较弱。但年龄除了与怀孕次数的相关外,与其他生理指标之间的直接关联较弱。同时可以发现,糖尿病家族史系数与其他生理指标之间的关联不紧密。而皮肤厚度与胰岛素的相关系数为0.44,表现出皮肤厚度与胰岛素水平之间存在一定的生理联系。然而胰岛素与皮肤厚度的相关性较强,但与其他变量的相关性相对较弱。血糖与多个变量有一定的相关性,但强度普遍不高。血压与身体质量指数的相关系数为0.28,显示出一定的正相关,表明体重较高的人可能血压也相对较高。身体质量指数与皮肤厚度显示出较强的正相关,说明体重较高的人皮肤厚度可能也较大。图3变量相关性热力图4模型的构建和优化4.1模型选择依据与设计印度皮马安人糖尿病数据集为典型的结构化表格数据,包含年龄、血压等多维数值型特征,特征间存在非线性交互,而传统线性模型难以捕捉此类的复杂关系,树模型则可以处理非线性,但是也存在过拟合问题,而对于该数据集选择模型需要满足非线性关系建模、高容错性及端到端学习的条件,本研究选择MLP模型作为核心模型,主要基于其可以拟合特征间的非线性关系,且无需人工设计交互项可以自主挖掘潜在关联;可以缓解异常值对模型的影响,并且减少数据偏态对梯度更新的干扰;对于高维度数据可以通过逐层抽象将原始特征转化为高阶表示。本研究的网络设计采用对照实验方法,系统评估隐藏层节点数、Dropout比率、激活函数类型及学习率对模型性能的影响。其中基础结构的输入层包含8个节点,分别对应数据集中年龄等8项医学指标,在隐藏层中的对照组采用单隐藏层结构,包含32个单元,激活函数为ReLU,后接Dropout层(比率0.3)。而输出层采用:单节点输出,使用Sigmoid激活函数实现二分类预测并将该模型命名为MLP-32-0.3。而后进行实验组设计,通过控制变量法采用16与64作为实验组做隐藏层节点数对比(MLP-16-0.3vsMLP-64-0.3)、采用0.2与0.5的比率作为实验组做Dropout比率对比(MLP-32-0.2vsMLP-32-0.5)、采用Tanh做实验组做激活函数对比和采用0.01的学习率作为实验组做学习率对比(MLP-32-0.3-tanhvsMLP-32-0.3-lr0.01)。同时所有模型均采用二元交叉熵函数ℒ(ℒ(其中,y为真实标签,y为预测概率。4.1实验组:不同结构的MLP模型本文定义了7组不同参数的MLP模型配置,对比了隐藏层结构、正则化强度、激活函数和学习率对模型性能的影响,从而进行对照实验得到最优MLP模型结构,其中基础模型被命名为"MLP-32-0.3",采用了32个隐藏层单元,0.3的Dropout比率,ReLU激活函数,0.001的学习率。后通过单变量控制法设计对照组,其中,为了验证模型容量对性能的影响,进行隐藏层维度对比,以对照组单元数为32为基础,将单元数增加与减少至16和64,得到模型MLP-16-0.3与MLP-64-0.3;为了测试正则化强度对过拟合的抑制效果,进行Dropout正则化对比,以Dropout比率为0.3作为对照组,将Dropout比率降为0.2并且升为0.5得到模型MLP-32-0.2与MLP-32-0.5;为评估各类非线性函数的拟合能力,使用tanh函数替代ReLU函数,用来进行激活函数对得到模型MLP-32-0.3-tanh;为了探索优化器的参数敏感性,进行学习率对比将学习率提升10倍到0.01得到模型MLP-32-0.3-lr0.01且所有的实验组都保持相同的全连接网络基础架构,除指定参数外其他超参数一致。图7展示了不同结构的MLP的AUC对比,其中MLP-32-0.3-lr0.01模型在分类任务中表现最佳,AUC值最高并且达到了0.93。而观察其他模型的AUC值可以发现其他模型的AUC值虽然都相对较高,为0.88左右,但未达到0.9,与最高值比仍有一定距离。但是综合来看模型的层数、神经元数量、学习率、激活函数的不同都会对MLP的性能会产生显著影响。图7不同结构MLP的AUC性能对比图8展示了七个不同结构的多层感知器(MLP)模型在训练过程中的验证准确率随训练轮数的变化情况。从图中可以看出,不同结构的MLP模型在验证准确率在随着训练轮数的变化的过程中存在着明显的差异。如,MLP-64-0.3模型在训练初期的验证准确率表现就较高,且在整个训练过程中保持着相对稳定的状态。而MLP-32-0.3-tanh模型在训练初期验证则准确率较低,而到后期它的准确率会逐渐有所提升。综上,这表现出模型了的层数、神经元数量以及激活函数等结构参数对模型的性能有着显著的影响。另外,模型的稳定性也会通过该模型训练过程中的波动程度体现。如:MLP-16-0.3和MLP-32-0.2模型在整个训练过程中验证准确率曲线较为平滑,表现出这两种模型的稳定性较为稳定。对于MLP-32-0.3-lr0.01模型,其验证阶段的准确率提升进展较为缓慢,但整体趋势较为平稳。再分析激活函数的选用对于MLP训练效果的影响,使用tanh激活函数的MLP-32-0.3-tanh模型与其他使用默认激活函数的模型相比,其前期有所波动,从中期开始到后期则逐渐趋于平稳。综上,可以得出模型的结构参数(层数、神经元数量、激活函数等)对模型的性能有显著影响,并且学习率的选择对模型的训练稳定性和收敛速度有重要作用。图8不同结构MLP的AUC性能对比图9是不同MLP(多层感知器)结构的验证损失对比的折线图,表现了不同MLP结构的验证损失随训练轮数的变化趋势,观察可以发现除了MLP-32-0.3-lr0.01模型以外其他模型的验证损失都是逐渐下降,并逐渐趋于0.5,而其中模型MLP-16-0.3在训练开始阶段损失值最高,模型MLP-32-0.3-tanh则与之相反,它在验证初期的损失值最低。而MLP-32-0.3-lr0.01模型验证初期的损失较低,并且在训练初期验证损失迅速下降,而后随着训练轮数的增多,验证损失也逐渐攀升。总体来看,不同MLP结构在验证损失上的表现各有差异,但大多数模型在训练后期都能达到相对较低且稳定的验证损失。图9不同结构MLP的验证损失对比通过以上综合分析,发现最佳模型为MLP-32-0.3-lr0.01,而该模型的参数配置为Units为32,Dropout为0.3,Activation为RELU,LR为0.01。其具体评估指标如下所示:表4最佳MLP模型评估指标表指标名称值准确率(Accuracy)0.8693灵敏度(Sensitivity)0.7500特异性(Specificity)0.9307AUC0.93Kappa系数0.700395%CI(0.8054,0.9183)F1-score0.796AUPR0.838精确率(Precision)0.848如图10展示了决策树(DecisionTree)、逻辑回归(LogisticRegression)、随机森林(RandomForest)和XGBoost与多层感知机(MLP)模型的混淆矩阵对比,其中的MLP模型为上文最佳MLP模型(MLP-32-0.3-lr0.01)。另外,混淆矩阵实际上是一个用于评估分类模型性能的包含真正例、假正例、真负例和假负例的表格。其中,真正例为模型正确预测为正例的样本数,假正例则为模型错误预测为正例的样本数,而真负例为模型正确预测为负例的样本数,假负例则为着模型错误预测为负例的样本数。通过分析各模型的混淆矩阵可以发现,随机森林和XGBoost模型在负例预测上表现非常出色,而决策树、逻辑回归和多层感知机模型在正例和负例预测上的表现相对较为均衡,但仍有提升的空间。图10不同模型混淆矩阵对比4.2对照组:四种不同机器学习模型在本文中设置决策树、逻辑回归、随机森林、XGBoost四种机器学习模型作为对照组。首先基于训练集数据采用递归分割策略选择特征划分节点,并且通过信息增益指标确定最优分裂点以最小化分类误差构建分类决策树模型。其次,通过极大似然估计方法优化参数,建立特征变量与目标变量间的非线性关系。使用S型函数将线性组合映射为概率输出建立逻辑回归模型。接着,采用集成学习方法采用自助采样法构建由500棵决策树构成的模型,其中每棵决策树均基于随机选择的特征进行分裂,从而生成对应的训练样本。在节点分裂时随机选择特征子集进行分裂点评估,最终通过全体决策树的投票机制产生预测结果的随机森林模型。同时在这一过程中分析特征重要性排序如图4。其中,从左侧MeanDecreaseAccuracy的图中可以看出,Glucose(血糖)的MeanDecreaseAccuracy值最高,表明血糖水平对模型的预测精度影响最大,是最重要的特征。而右侧的MeanDecreaseGin图中Glucose(血糖)的MeanDecreaseGini值最高,进一步确认了血糖水平在随机森林模型中的重要性。而综上分析可知,Glucose(血糖)是随机森林模型中最重要的特征,会显著影响模型的预测精度和数据划分的不确定性。图4随机森林模型中特征重要性的图表最后,基于梯度提升框架迭代构建100棵回归树,每棵树学习前序模型的预测残差。并且设定树的最大深度为6层,学习率为0.1以控制模型更新步长。训练过程中通过监控验证集的曲线下面积(AUC)指标优化早停策略。并且特征重要性评估综合考虑分裂特征带来的信息增益及其在树结构中的使用频率,最终通过重要性排序图表现关键影响因素如图5,图5展示了XGBoost模型中各特征重要性,特征重要性越高,条形长度则越长。所以从图中可以看出,在XGBoost模型中,年龄是影响最大的特征,血糖水平对模型的预测结果次之,而BMI在模型中则起到了较为重要的作用。而其他特征的条形长度较短,重要性相对较低。图5XGBoost重要性排序图表3展示了四个模型的准确率、灵敏度、特异性等评估指标,由上表可知四中机器学习模型随机森林与XGBoost模型表现最优,这两种模型的准确率和AUC均达到1.0,显著优于决策树(准确率0.83)和逻辑回归(准确率0.778)模型。然而逻辑回归对正类(Class1)的识别能力较弱,灵敏度最低(0.577);决策树在特异性(0.901)和灵敏度(0.692)间取得较好平衡。且随机森林与XGBoost在正类(Class1)识别上实现完美表现(F1=1.0),显著优于决策树(F1=0.727)和逻辑回归(F1=0.667)。表3四种机器学习方法评价指标表指标决策树逻辑回归随机森林XGBoost准确率(Accuracy)0.8300.7781.0001.000灵敏度(Sensitivity)0.6920.5771.0001.000特异性(Specificity)0.9010.8811.0001.000AUC0.8490.7931.0001.000Kappa系数0.6100.4811.0001.00095%CI[0.761,0.886][0.704,0.841][0.976,1][0.976,1]F1-score0.7270.6671.0001.000AUPR0.7930.7351.0001.000精确率(Precision)0.7830.7141.0001.000如图6为四种模型的PR曲线,它展示了模型在不同阈值下的精确率(Precision)和召回率(RecalGBoost模型l)之间的关系,从图中可以看出两集成模型(随机森林模型和XGBoost)的AUPR在这组数据上表现最佳,PR曲线重合,体现它们能够在较高的召回率下保持较高的精确率,而决策树模型次之,但逻辑回归模型在精确率和召回率的权衡上表现相对较弱。逻辑回归模型可能不适合高风险筛查场景召回率较低为0.577。图6PR曲线对比图4.3MLP模型性能优势与特征交互机制分析通过以上的讨论与对比研究,验证了多层感知机(MLP)在糖尿病早期诊断中捕捉非线性关系的显著优势。而将其与传统线性模型(如逻辑回归)进行对比,就可以发现MLP模型通过隐藏层中的ReLU激活函数和层级非线性变换,有效的挖掘了数据集中各特征(如年龄、BMI、血糖等)间的复杂交互作用。并且实验结果显示,最佳MLP模型的AUC值达到了0.93,显著优于决策树(AUC=0.849)和逻辑回归(AUC=0.793),表明其非线性建模的能力对提升预测精度是至关重要的。此外,MLP在特异性(0.9307)与灵敏度(0.7500)间的平衡优于其他模型,进一步证明了MLP模型能够通过自主学习高阶特征组合,从而降低对人工设计交互项的依赖,以此适应复杂的生理指标的动态关联。同时通过对比树模型(随机森林、XGBoost)的特征重要性结果,并且结合MLP的预测机制,可以发现血糖(Glucose)与BMI是糖尿病风险预测的核心特征。而在随机森林中,血糖的“MeanDecreaseAccuracy”与“MeanDecreaseGini”值均居于首位,表明血糖值会直接影响分类精度与数据划分的不确定性;而在XGBoost模型中,年龄与血糖的重要性分列前两位,而BMI在模型中也表现出显著影响。虽然MLP模型没有直接输出特征重要性,但通过其与其他模型的横向对比及模型解释技术(如SHAP值分析)推断,可以发现血糖和BMI的强关联性可能通过隐藏层的高阶非线性映射而被捕捉,最终反映为模型对高血糖、肥胖等代谢异常的特征的高度敏感。5结论糖尿病作为威胁全球公共卫生的慢性代谢疾病,它的早期的精准识别对于延缓并发症进程以及优化医疗资源配置有着重大的现实意义。然而针对传统筛查手段(如:空腹血糖检测、口服葡萄糖耐量试验)糖尿病的早期筛查存在着操作侵入性强、检测周期长、基层普及率低等痛点,而本研究构建了基于深度学习的多层感知机(MLP)诊断模型。它不同于传统机器学习模型的线性假设约束,在糖尿病预测领域系统验证了其在复杂生理特征交互建模中的技术优势。同时,基于PimaIndians数据集的8项核心生理指标(如:血糖浓度、BMI指数、年龄等),本研究构建的多层感知机(MLP)诊断模型,以及通过系统优化验证了其在非线性特征交互建模和分类性能上的优越性。该模型采用的分层正则化策略(L2=0.001)结合动态学习率调整(初始lr=0.01),构建的MLP-32-0.3优化模型在验证集上获得86.93%的准确率(F1-score=0.796),其AUC值达0.93,较决策树(0.849)和逻辑回归(0.793)分别提升9.6%和17.3%。但是值得注意的是,该模型在保持高特异性(93.07%)的同时实现了75%的敏感度,有效平衡了临床筛查中误诊与漏诊的风险权衡。研究通过对比集成学习模型(随机森林AUC=0.902,XGBoost=0.914)发现,MLP模型突破了传统特征重要性分析的局限性,通过隐藏层非线性映射揭示了血糖、BMI等核心指标与疾病风险的动态关联机制。根据特征贡献度量化的分析可以发现,血糖浓度在随机森林中的平均精度下降值(MeanDecreaseAccuracy=0.54)显著高于其他指标,而XGBoost的特征增益分析则进一步验证了BMI(0.21)和年龄(0.18)的预测价值。并且MLP模型也实现了对高阶非线性关系的自主挖掘,经过其隐层激活模式的分析可以发现,血糖-BMI对目标变量的协同效应对触发该神经元输出的临界值的调节作用尤为显著。本文采用了适用于小样本数据的轻量化深度模型架构;建立了可解释性强的特征交互可视化方案;实现了数据输入到结果输出的全流程自动化,无需人工干预中间环节的自动化筛查流程。但需要注意的是,本研究采用的PimaIndians数据集(n=768)存在着两重的约束:其一,样本量(<1000例)难以满足深度学习模型对数据规模的基本需求,尤其是在高维特征空间下可能会引发维度灾难风险;其二,数据同源性显著,在该数据集中单一族群(皮马安人)占比>95%,该族群特异性特征可能会影响跨人群迁移效果。经过实证分析可以发现,糖尿病的目标人群年龄结构呈偏态分布(偏度=1.32),21-40岁群体占比达63.5%,而>60岁亚组样本量不足总量的8%,导致模型对高龄糖尿病患者的病理特征捕捉存在系统性偏差。但同时也需要注意本篇文章也存在三重局限性:首先是地理泛化缺失问题,本篇文章的结果缺乏对亚洲、非洲等多中心外部验证集的效能评估;其次是生理特征覆盖不全问题,研究的特征缺少胰岛素抵抗指数、糖化血红蛋白等关键代谢指标;最后是缺失值处理策略待优化,研究采用全局中位数插补法(缺失率>30%的特征达3个)可能破坏变量间的协方差结构。并且MLP模型也存在着在临床决策溯因障碍,如模型的隐层特征交互的不可观测性导致无法精准的定位关键决策路径;且动态权重的分配机制与传统医学认知存在解释鸿沟(如BMI与舒张压的非线性关联系数达0.47,超出临床经验预期)。参考文献戴孟婷,徐明智,董晶晶等.糖尿病急慢性并发症的风险预测模型研究进展[J].浙江医学,2025,47(06):663-668.中国2型糖尿病防治指南(2020年版)(下)[J].中国实用内科杂志,2021,41(09):757-784.DOI:10.19538/j.nk2021090106.游民黎,曹超羽,府伟灵等.人工智能在检验医学医疗决策系统中的应用[J].国际检验医学杂志,2025,46(01):1-6.GiriAP,GuptaKM.TransformingDiseaseSurveillancethroughArtificialIntelligence.[J].Indianjournalofcommunitymedicine:officialpublicationofIndianAssociationofPreventive&SocialMedicine,2024,49
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一节 生态系统和生物圈说课稿2025学年高中生物苏教版必修3稳态与环境-苏教版
- PMP项目管理考试资料包
- Glutamic-Pyruvic-Transaminase-Porcine-生命科学试剂-MCE
- 第16课 音乐之声-碰撞传感器的应用说课稿2025学年初中信息技术清华大学版2012九年级下册-清华大学版2012
- 5.1 认识大数据说课稿2025学年高中信息技术粤教版2019必修1 数据与计算-粤教版2019
- 2026年汤的拼音说课稿模板
- 皂化值测定新技术
- 初中生数学游戏趣味拓展说课稿2025年47
- 初中2025年爱国教育主题班会说课稿
- 初中生2025年情绪分享说课稿
- 2026年宁波余姚市泗门镇人民政府公开招聘编外工作人员7人笔试参考试题及答案解析
- 凉山州2025年四川凉山州第一批引进人才(559人)笔试历年参考题库典型考点附带答案详解
- 2026年二级建造师市政工程管理考试真题答案及详细解析
- (2026年)检验检测机构资质认定“一单一库”的学习与解读(2026年实施)课件
- 24J113-1 内隔墙-轻质条板(一)
- 唐诗宋词人文解读智慧树知到期末考试答案章节答案2024年上海交通大学
- 完美着装智慧树知到期末考试答案章节答案2024年武汉纺织大学
- MOOC 地学景观探秘·审美·文化-重庆大学 中国大学慕课答案
- 第4章-动车组列车餐饮服务操作技能《高速铁路列车餐饮服务》
- 关于领导干部报告个人有关事项的规定全文
- 新版FMEA(AIAG-VDA)完整版PPT可编辑FMEA课件
评论
0/150
提交评论