基于机器学习的食源性疾病致病菌识别方法_第1页
基于机器学习的食源性疾病致病菌识别方法_第2页
基于机器学习的食源性疾病致病菌识别方法_第3页
基于机器学习的食源性疾病致病菌识别方法_第4页
基于机器学习的食源性疾病致病菌识别方法_第5页
已阅读5页,还剩4页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于机器学习的食源性疾病致病菌识别方法摘要:【目的】引入外部食品领域数据增强暴露食品的词向量表征,利用机器学习方法对食源性疾病致病菌进行识别。【方法】通过从食源性疾病病例数据中提取出空间、时间、患者信息、暴露食品信息等作为食源性疾病致病菌识别的特征数据,并进一步利用融合领域知识的词向量表征等技术对食源性疾病暴露食品进行表征,使用XGBoost机器学习模型挖掘、学习特征之间的相关性,从而实现对几种重要的食源性疾病致病菌的识别。【结果】通过融合领域数据的词向量表征方法,可以获得比基于通用语料的词向量模型更加准确的暴露食品词向量表征。对沙门氏菌、诺如病毒、致泻大肠埃希氏菌属、副溶血性弧菌4种重要的食源性疾病致病菌的识别能够达到68%的精确率和召回率,为食源性疾病致病菌的辅助诊疗提供帮助。【局限】仅对4种主要食源性疾病致病菌进行分析。【结论】相关的分析结果能够指导食源性疾病的管理、处置方案的制定,基于分析结果和机器学习方法的致病菌识别能为食源性疾病的临床辅助诊疗提供有益支持。关键词:食源性疾病致病菌识别词表征模型机器学习1引言食源性疾病是指患者由于摄入食物致使某些致病菌(病毒)进入人体,从而出现腹泻、腹痛等症状的一类疾病[,]根据2015年世界卫生组织(WorldHealthOrganization,WHO)的报告显示⑵,全世界每年约有6亿人感染食源性疾病,其中有42万人因食源性疾病死亡(5岁以下儿童约12.5万人),食源性疾病发病率位于所有疾病的前列,给全世界的公共卫生和社会经济造成了巨大损失。为了尽可能地实现对食源性疾病的预防和控制,国内外专家相继开展了许多工作。美国于1996年建立了食源性疾病的主动监测平台FoodNet,用于食源性疾病的监测、追踪、控制和预防⑶,并建立了有关食源性疾病致病菌的研究平台PulseNet,用于食源性疾病爆发的早期监测和致病菌追踪[2]近年,中国建立了全国食源性疾病的监测报告系统,用于主动收集全国各省市的食源性疾病数据(http://),并建立了食源性疾病致病菌分子分型研究的平台(PulseNetChina)⑷。这些监测系统的建立为食源性疾病的监测提供了专业、统一的平台,能够有效地实现对食源性疾病的追踪和早期预防[5]同时,平台的建立也为食源性疾病的研究提供了权威、全面的数据支持。食源性疾病致病菌作为引发食源性疾病的重要因素,引起了许多专家的重视。但目前有关食源性疾病致病菌的研究多采用生物实验的方法,高昂的技术和时间成本限制了其大规模的应用。根据中国食源性疾病监测报告系统的数据显示,所上报的食源性疾病病例中仅有2%的病例能够检测出明确的致病菌,较低的食源性致病菌检出率在一定程度上会对食源性疾病的诊疗产生影响。与此同时,食源性疾病与许多因素(如季节、地理位置、患者年龄、患者摄入的食物等)有很强的相关性,这些因素之间本身也存在一定的相关性「攻。因此,如果能够基于这些食源性疾病的相关因素,使用一些数据挖掘、机器学习的方法挖掘、学习这些因素之间潜在的关联,从而对食源性疾病致病菌进行识别,将能够为食源性疾病的诊断和治疗提供一定程度上的帮助。因此,本文基于中国食源性疾病监测报告系统中的数据,提出一种利用机器学习方法识别几种重要的食源性疾病致病菌的方法。该方法主要利用的数据特征包括食源性疾病病例中的空间、时间、患者信息(年龄、性别、职业)等相关特征和与暴露食品相关的暴露食品类别、暴露食品名称等。对于这些特征,可以使用一定的数据处理方法,如数据离散化、文本向量化等,将其处理成能够用于机器学习模型的数据。但对于其中的食源性疾病暴露食品名称这一文本特征,考虑到它具有一定的领域特殊性,直接使用词向量模型对其进行表征会失去数据的领域信息。针对这一问题,本文提出了一种融合领域知识的词向量表征方法以提高对食源性疾病暴露食品表征的准确性。2相关工作2.1食源性疾病的相关因素分析食源性疾病的发生与多种因素有关,如时间、空间、患病人群、食源性致病菌和食源性暴露食品等,这些因素在一定程度上反映了食源性疾病的流行病学特点,对食源性疾病的预防和控制工作至关重要。因此,近些年来针对食源性疾病相关因素的分析和研究层出不穷。文献[6]通过对2003-2006年中国各地区的监测报告进行分析,指出东部地区的发病率要高于西部和中部地区。D'Souza等⑺分析了由沙门氏菌导致的食源性疾病与季节和温度的关系,提出食源性疾病的发生遵循一定的季节规律,与温度具有高度的相关性。Strassle等为对食源性疾病和患者年龄与性别之间的关系展开研究,经过大量的数据分析表明男性患食源性疾病的比例要略高于女性,儿童患食源性疾病的风险高于成年人。文献[9]也指出儿童是患食源性腹泻病危险性极高的人群,每年有2.2亿儿童患病、9.6万儿童死亡。这种结果的产生与不同人群的饮食结构和自身抵抗力有较大关联。食源性疾病致病菌作为食源性疾病的主要原因,对其的分析对于食源性疾病的研究具有重要意义。根据美国疾病预防控制中心(CentersforDiseaseControl,CDC)的数据显示,每年发生的食源性疾病中,仅有20%的病例能够检测出明确的致病菌,剩余的80%均无法确定其致病菌[10l而在所有能够检测出致病菌的食源性病例中共包含31种食源性致病菌[11],其中59%是病毒型致病菌,39%是细菌型致病菌,2%是寄生虫。此外,考虑到食源性疾病暴露食品对食源性疾病溯源分析的作用,还出现了许多针对食源性疾病暴露食品的研究。2017年,美国跨部门食品安全分析合作(InteragencyFoodSafetyAnalyticsCollaboration,IFSAC)提出一种食源性疾病的暴露食品分类方案[12],该方案将食源性疾病暴露食品划分成一个5级的层次结构,并对每层进一步分类。中国的食源性疾病监测报告系统中,同样对食源性疾病的暴露食品进行分类,按照食品的原材料和功能将其分为23类。这些对于食源性疾病相关因素的研究与分析为食源性疾病的归因、预防和预测提供了指导。2.2基于机器学习的食源性疾病研究传统的食源性疾病相关研究多集中在生物、医学领域,如使用流行病学的方法对食源性疾病进行回顾性调查和分析[13]、使用核酸检测的方法对食源性疾病的致病菌进行分析[14]、对食源性疾病的负担估计[15]等。近年来,随着大数据和人工智能时代的来临,出现了许多使用机器学习方法解决食源性疾病问题的研究。这些研究主要集中在对食源性疾病致病菌研究、食源性疾病识别研究和食源性疾病爆发预测研究等方面。针对食源性疾病致病菌的研究,文献[16]使用数据挖掘的方法分析食源性疾病致病菌与食物的关系,相比于传统的流行病学方法更多地使用专家经验,该方法能够自动地从数据中发现关联关系。文献[17]将机器学习方法用于对食源性疾病致病菌的基因序列分析中,加速了基因序列分析过程。在食源性疾病的识别研究上,随着社交网络的广泛应用,出现了许多使用社交网络数据进行食源性疾病识别的工作。文献[10]收集带地理位置的Twitter数据并构建分类器训练这些数据,从而识别其中与食源性疾病相关的Twitter,并利用其地理位置信息和社交网络信息预测个体的健康情况。文献[18]使用同样的方法对带地理位置的微博进行识别,并通过地理位置对周边餐厅的卫生情况进行预测。Effland等[19]运用相同的思想分析餐厅评分数据,识别餐厅的卫生情况。食源性疾病的爆发是指两人或两人以上在相同地方由于摄入同种食物导致相似症状的疾病的一类事件[13]0对于食源性疾病爆发预测的研究主要使用聚类的方法,如Neill等[20]提出了空间扫描统计的方法对时空维度的疾病数据进行聚类分析;Xiao等[21]使用自适应的密度聚类方法预测食源性疾病的爆发上述食源性疾病相关研究多是针对食源性疾病某一因素进行研究分析,或是针对食源性疾病的识别和爆发预测进行研究,缺乏从数据的角度全面分析食源性疾病致病菌与各个相关因素的研究,本文工作在一定程度上补充了这一空缺。2.3词向量表征技术词向量表征技术是将自然语言中的词或短语通过一定的方法映射为实数向量,从而能够被计算机识别和运算。词向量表征技术主要包括基于共现矩阵的方法、基于奇异值分解(SingularValueDecomposition,SVD)的方法、基于概率的方法和基于神经网络的方法。随着神经网络在自然语言处理领域的广泛应用,基于神经网络的词向量模型(如Word2Vec[22]、GloVe[23]等)成为词向量表征的主流方法。具体来说,Word2Vec从大量文本语料中以无监督的方法训练神经网络学习词语的语义信息,在训练过程中充分利用上下文信息,使嵌入空间中语义相似的词语距离较近,语义相差较大的词语距离较远。Word2Vec有两种实现方式:CBOW(ContinuousBag-Of-Words),通过上下文预测中心词;Skip-gram,通过中心词预测上下文。以CBOW为例,将上下文单词的One-Hot向量作为输入,训练至少包含一个隐含层的神经网络预测中心词。在迭代过程中,逐渐更新网络参数,使公式(1)中的对数似然函数最大化。其中,输入向量与第一个隐含层的参数矩阵的乘积即为词语的词向量表示。基于神经网络获得的词向量为稠密的实数向量,相对于One-Hot表征或词袋模型,具有较低的维度,便于后续进行各种复杂的计算操作。L= EClogP(w^ontext(w)) ⑴其中,w为需要预测的中心词,context(w)为中心词w的上下文,C为所有词组成的词库。3方法3.1数据描述本文研究数据来自中国食源性疾病监测报告系统,该系统通过收集全国各省市食源性疾病哨点医院的病例数据实现对食源性疾病的监测、追踪。该系统目前共收集2011-2019年的食源性疾病病例数据约500万条。每条病例数据为真实病例数据脱敏后的结果,包含患者的年龄、性别、职业、家庭住址、患病时间、就诊时间、症状、诊断和相关食物信息(包括食物名称、食物类别、进食地点、进食时间、购买地点、购买时间等)。若该病例进行了致病菌检测,还将包含该病例的相关检测信息,包括样本类型、样本数量、菌株数量、检测方法、检测项名称、检测结果等。经过统计,在500万余条病例数据中,仅有11万条检测出了明确的致病菌,共涉及26种致病菌。其中,在中国导致食源性疾病的致病菌主要为沙门氏菌、诺如病毒、致泻大肠埃希氏菌属和副溶血性弧菌这4种,所占比例分别为31%、27%、17%和17%,其余20余种致病菌所占总量不足10%因此,本文选择对这4种致病菌导致的食源性疾病病例数据进行分析和研究3.2特征选择与处理针对3.1节所描述的数据,过滤掉其中与检测相关的数据和重复的时间、地点数据,选择如下数据作为食源性疾病致病菌识别的特征:患者的年龄、性别、家庭住址、职业、发病时间、病症、初步诊断以及暴

露食品名称和暴露食品类别。对于所选择的特征,根据数据格式分别对其进行处理。具体的处理规则如下。(1) 患者年龄的原始格式为连续的整型数,在处理时使用分箱的方法将其转换为离散值。(2) 患者的家庭住址为文本数据,通过调用百度地图应用程序接口(API)将其转换为实数型的经纬度值。(3) 患者的病症和初步诊断同样为文本数据,但由于涉及的症状和诊断种类有限,可以使用One-Hot方法对其进行表征。(4) 与时间相关的特征本身为时间戳格式,从中提取出月份信息作为时间特征。(5) 暴露食品名称为文本数据且其种类较多,这里使用词向量表征的方式对其进行处理。并且根据上文所述,考虑到暴露食品名称的领域特殊性,本文提出一种融合领域知识的词向量表征方法以提高对暴露食品表征的准确度,具体方法在3.3节中展开讨论。(6) 患者的性别、职业、暴露食品类别和食源性疾病症状特征,使用One-Hot方式对其进行表征。(7) 根据上述信息还可以构造一些有价值的合成特征,如使用发病时间和进食时间构造疾病潜伏期这一特征。3.3融合领域知识的词向量表征对于食源性疾病暴露食品名称,其所涉及的内容多属于食品领域,具有一定的领域特殊性,而且同一食品可能会有多种表达。因此,对于这类数据,使用通用语料进行词向量表征会存在词典覆盖率较低或存在歧义的情况,无法获得较准确的词向量表征。为了解决这一问题,本文提出一种融合领域知识的词向量表征方法。通过处理领域数据,获得适用于词向量训练的领域语料,然后在通用语料词向量模型的基础上进行增量训练,从而获得能够更加准确和全面地表征暴露食品的词向量模型。融合领域知识的词向量表征流程主要的技术路线如图1所示,包括数据获取与预处理、生成领域知识语料、词向量增量训练、暴露食品名称的词向量表征等部分。加入分词词表图1融合领域知识的词向量表征流程Fig.1FlowchartofWordVectorRepresentationBasedonDomainKnowledge(1)数据获取与预处理与食品相关的语料来源主要为菜谱网站、电商网站等。其中,由于食源性疾病相关的暴露食品数据中涉及了食品品牌的数据占比较低,这里仅使用菜谱网站作为领域数据的来源。使用的数据主要包括菜谱中的菜名、食材清单、做法描述和类别,如表1所示。在数据的预处理部分,实现了数据清洗、数据去重和实体对齐。(2)生成领域知识语料数据预处理后,利用这些数据生成可进行词向量训练的领域语料。数据中包含的菜谱做法描述部分为长文本,词语之间具有一定的上下文关系,因此可以直接对其进行分词操作生成训练语料。而数据中的菜名和食材清单数据为短文本,词语之间不具

表1菜谱数据示例Table1SampleRecipeData字段菜名食材清单示例鱼香肉丝字段菜名食材清单示例鱼香肉丝黑木耳用温水泡发开洗净。猪里脊肉顺势切成丝,先用做法描述一小撮盐抓捏到发粘。一茶匙干淀粉加一点水搅成水淀粉,加入肉丝中用手抓捏到全部被吸收…类别 鱼香肉丝,家常菜,下饭菜备语义关系,无法直接作为词向量的训练语料。对于这部分数据,本文采取基于异质网络的随机游走策略:24:,将菜名和食材作为两类网络节点,菜名和食材的包含关系作为网络中的边,使用随机游走的方式生成一系列节点序列作为文本,如图2所示。在游走过程中,考虑到一些常用食材出现频率较高但其通常重要性较低,一些非常用食材的出现频率低但其重要性较高的问题,将每个节点的采样概率按频率的倒数进行加权。通过这样的带权异质网络随机游走策略可以较为合理地将菜名和食材进行关联,生成具有一定上下文语义关系的领域语料。随后,将利用两种方式获得的领域语料合并,作为最终的领域知识语料。菜名-食材关系网络 路径集图2随机游走过程Fig.2TheProcessofRandomWalk词向量增量训练获得领域知识语料后,利用神经网络对语料数据进行训练,从而得到词向量模型。但如果只使用领域相关的语料,又丧失了一定的通用性,并且语料规模较小。因此,采取增量训练的方式,在通用语料词向量模型的基础上,加入新的领域知识语料,对原有的词向量模型进行更新,从而引入领域语义信息。本文所使用的通用语料词向量模型为基于百度百科的开源词向量模型,该模型的参数设置如表2所示。词向量模型的增量训练使用Python的gensim库中的Word2Vec方法凶,将领域知识语料加入通用语料中,并加载所选择的开源词向量模型,设置与其相同的参数,在其基础上进行训练。此外,由于通用语料一般体量较大,为了平衡通用语料和领域知识语料的权重,可以重复进行上述领域相关语料生成表2词向量预训练模型参数设置Table2WordVectorPre-trainingModelParameterSettings参数名参数设置corpus_size268GBwindowsize5min_count10size128negative_sample0iteration5方法,以生成多个领域相关语料来增加领域知识的权重。这种增量训练的方式与使用新的语料重新训练相比,节省了训练的时间和存储成本。暴露食品名称的词向量表征在利用上述方法获得融入领域知识的词向量模型后,对食源性疾病的暴露食品名称进行表征。首先,对于暴露食品名称进行数据清洗和分词,在分词

时,将领域知识语料中的实体加入分词词表,在一定程度上提高了分词的准确性。随后,使用上述方法所获得词向量模型对分词后的暴露食品进行表征。部分类别的暴露食品词向量在二维空间的分布情况如图3所示。其中,图中的每个圆点为一个食品名称的文本经过向量化并压缩到二维后的展示,不同颜色表示不同的食品类别。通过图3可以看出不同图3部分类别的暴露食品词向量在二维空间的分布Fig.3TheDistributionofWordVectorsofSomeCategoriesofExposureFoodinTwo-dimensionalSpace图4通用语料与融入领域知识语料的词向量OOV数量对比Fig.4TheNumberofWordVectorsOOVBetweenGeneralCorpusandDomainKnowledgeCorpus3.4食源性疾病致病菌识别通过上述的数据描述、特征选择与处理操作,可以得到适用于机器学习模型的食源性疾病特征数据。本节利用这些数据和机器学习方法对沙门氏菌、诺如病毒、致泻大肠埃希氏菌属和副溶血性弧菌4种重要的食源性疾病致病菌进行识别,并从实验方法和实验结果两个部分进行详细的描述。图3部分类别的暴露食品词向量在二维空间的分布Fig.3TheDistributionofWordVectorsofSomeCategoriesofExposureFoodinTwo-dimensionalSpace图4通用语料与融入领域知识语料的词向量OOV数量对比Fig.4TheNumberofWordVectorsOOVBetweenGeneralCorpusandDomainKnowledgeCorpus3.4食源性疾病致病菌识别通过上述的数据描述、特征选择与处理操作,可以得到适用于机器学习模型的食源性疾病特征数据。本节利用这些数据和机器学习方法对沙门氏菌、诺如病毒、致泻大肠埃希氏菌属和副溶血性弧菌4种重要的食源性疾病致病菌进行识别,并从实验方法和实验结果两个部分进行详细的描述。(1)实验方法对于食源性疾病致病菌识别问题,可以将其抽象为一个多分类问题。即将食源性疾病致病菌作为分类模型的标签,将各种食源性疾病因素作为分类模型的样本特征,通过训练分类器学习样本特征,挖掘各个特征之间的相关性,从而将一个样本判断为沙门氏菌、诺如病毒、致泻大肠埃希氏菌属或副溶血性弧菌中的一种。由于在数据中既存在离散型数据,也存在连续型数据,而基于树结构的模型能够同时处理两类特征,因此本文选择一种基于树结构的集成模型XGBoost(extremeGradientBoosting)对数据进行训练或。XGBoost基本原理是将多个低精度的树结构模型组合成一个高精度的集成模型。该模型以GBDT(GradientBoostingDecisionTree)为基础,利用Boosting的思想,每一轮学习器的生成都是为了拟合前一轮学习器的残差,并通过梯度下降的方式最小化目标函数的损失。相比于GBDT模型,XGBoost模型由于显式地加入了正则化项、可以并行计算等特性,拥有更快的计算速度、更好的模型效果,因此被广泛应用于分类和回归问题中。在使用XGBoost模型进行训练时,为了获得最优的训练结果,采用网格搜索和10折交叉验证的方式遍历模型参数,从而确定最优参数。实验结果对于模型的训练结果,本文采用三种广泛应用于分类模型中的评价指标:精确率(Precision).召回率(Recall)和F1指数(F1-Score)对模型进行评估。同时,为了评估模型在各个类别上的训练效果,分别对各个类别计算其混淆矩阵。具体训练结果和混淆矩阵分别如表3和表4所示。表3实验结果Table3ExperimentalResults评价指标值PrecisionRecallF1-Score68%68%68%表4混淆矩阵Table4ConfusionMatrix预测值沙门诺如致泻大肠副溶血性真实值氏菌病毒埃希氏菌属弧菌沙门氏菌3710566667266诺如病毒6233926463415致泻大肠埃希氏菌属7924051920364副溶血性弧菌2103383262444根据表3中的结果可知,对于这4种致病菌的识别,通过使用XGBoost集成模型,可以获得68%的F1指数、精确率和召回率。且根据混淆矩阵可知,模型对不同致病菌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论