版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
脑肿瘤MRI图像介绍及图像分割算法理论基础综述目录TOC\o"1-3"\h\u22121脑肿瘤MRI图像介绍概述 1261491.1MRI图像 2196981.2Kaggle数据集 4201561.3图像分类评价标准 5323191.4本章小结 72751第2章相关技术理论 7100083.1决策树的结构与原理 750443.1.1ID3定义及计算 9131443.1.2C4.5定义及计算 10257803.1.3CART定义及计算 1076113.2决策树的构建与剪枝 11208653.1.1决策树的构建 1118013.1.2决策树的剪枝 12275403.3随机森林介绍 1419193.3.1随机森林的定义 1431483.3.2随机森林的构建与评价 161.1MRI图像MRI核磁共振成像技术,是利用核磁共振原理,依据原子核所释放出的能量在不同物质内部不同结构和环境中具有不同的衰减,再通过外加梯度磁场来检测出该原子核所发射出的电磁波,最终得知构成这一物体的原子核的位置和种类,据此可以绘制成物体内部的结构图像[16]。采集MRI图像的核磁共振仪如图1.1所示。图1.1核磁共振仪MRI图像共有四种显示模态包括T1显示模态、T1c显示模态,T2显示模态和FLAIR显示模态,不同显示模态MRI的成像特点不同[17],如图3.1所示。从左至右依次列出四种模态,即T1显示模态、T1c显示模态,T2显示模态和FLAIR显示模态。通过观察可以发现,正常的脑组织区域和非正常的脑肿瘤区域在四种不同模态的图像中的成像也是不同的。在T1模态图像中,水肿区域呈现深色[18],在T2模态的图像中,水肿区域呈现白影。在FLAIR模态图像中,水肿区域则呈现暗灰色。多模态图像提供了不同的组织信息,结合多模态图像对脑肿瘤分割是最常见的方法[19]。由于FLAIR图像能够更敏感的检测蛛网膜下腔和脑实质内的脑肿瘤病灶,其次通过图像可以直观看出FLAIR显示模态的图像的脑肿瘤区域成像明显,易于区分,并且单模图像相比多模图像数据量更小处理起来更加容易,可以大幅节约时间成本,所以本文选用了FLAIR单模图象作为实验图像。图1.2脑肿瘤MRI多模态成像1.2Kaggle数据集Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(AnthonyGoldbloom)于2010年在墨尔本创立的,该平台是一个主要为软件开发商和数据科学家们提供包括举办机器学习竞赛、托管数据库、编写和分享代码等职能的平台。本论文所使用的数据集是来源于kaggle官方网站()的kaggle_3m含有训练集3321张,测试集623张。此数据集包含脑肿瘤MRI图像以及专家手动分割FLAIR的金标准掩膜这些图像从The
Cancer
Imaging
Archive(TCIA)获得的。他们对应于癌症基因组图谱(TCGA)低级神经胶质瘤收集物中的110例患者,具有液衰减反转恢复(FLAIR)序列和可用的基因组数据。所有图片均均经过一定的预处理且以.tif格式提供,每个图片有3个频道。其中101为病例,有3个图像可用,即对比前,FLAIR,对比后(按通道顺序)。其中9例,缺少造影剂后顺序,其中6例,缺少造影剂前顺序。丢失的图像将替换为FLAIR图像,以使所有图像变为3通道。掩膜是二进制的1通道图像。它们将出现在FLAIR图像中的FLAIR异常区域(适用于所有情况)。数据集被组织成110个文件夹,每个文件夹都以案例ID命名,其中包含有关源机构的信息。每个文件夹包含具有以下命名约定的MR图像:`TCGA_
<机构代码>
_
<病人ID>
_
<切片号>
.tif`对应的掩码具有“
_mask”后缀。表1.1KaggleMR图像数据集属性名图像类型图像宽度图像高度值RGB256像素256像素选取3组待分割的脑肿瘤图像和以及专家手动分割的金标准如图1.4和图1.5图1.4脑肿瘤MRI图像图1.5脑肿瘤图像分割金标准掩膜1.3图像分类评价标准图像分类的评价往往存在着一定的主观性,为了能够对图像分类结果进行统一,广大学者提出一种评价标准能够客观的评价图像的分类标准,使用TN代表未检索到且不相关的样本数量,在本文实验中代表将非肿瘤区域预测为非肿瘤区域的像素数量;使用TP代表将检索到且相关的样本数量,在本文实验中代表将肿瘤区域预测为肿瘤区域的像素数量;使用FN代表未检索到但相关的样本数量,在本文实验中代表将肿瘤区域预测为非肿瘤区域的像素数量;使用FP代表检索到但不相关的样本数量,在本文实验中代表将非肿瘤区域预测为肿瘤区域的像素数量。一些评价标准可由图1.6直观的表示出来其中A代表TP;B代表FP;C代表FN;D代表TN。图1.6评价标准关系图1.Acc(准确率,Accuracy):Acc=1.R(召回率,Recall):R=3.P(精确率,Precision):P=4.F1-measure(调和平均数):F1=其中可以直观的看出Acc准确率所计算的是在所有样本中被分类正确的样本所占的比例,R召回率所计算的是被检索出来的目标样本占应该被检索出来的目标样本的比例,P精确率所计算的是所有被检索出来的目标样本占实际被检索出来的样本总数,F1-measure所计算的是召回率和精确率的均匀调和值,从理论上来讲,这四个值越高代表分类结果越好。1.4本章小结本章主要对脑肿瘤的MRI图像进行了介绍,简介了核磁共振图像的成像原理,展示了核磁共振仪的外观,介绍了核磁共振图像的四种显示模态包括T1显示模态、T1c显示模态,T2显示模态和FLAIR显示模态的成像特点,然后介绍了本文所使用的KaggleMRI图像数据集的各项参数包括图像高度宽和图像类型,同时展示了Kaggle数据集中的3组脑肿瘤MRI图像的FLAIR模态的原图和数据集提供的由专家手动分割的金标准掩膜,最后介绍了图像分类的4种评价标准包括Acc准确率,R召回率,P精确率,F1-measure均匀调和值,所代表的意义和计算公式以及各个评价标准之间的关系。相关技术理论决策树(decisiontree,DT)是机器学习算法中一种常见的分类器,决策树分类器广泛适用于解决分类问题与回归问题,决策树是利用树的结构来进行决策分类与回归的,决策树的功能原理十分类似于人类在处理问题时的大脑思考方式[15]。处理离散变量的树是决策树中的分类树主要功能是对样本集进行分类,处理连续性变量的树是决策树中的回归树主要功能回归返回值。由于本文的模型是基于随机森林,而随机森林是由决策树构成,故而本章首先介绍决策树的结构与原理,然后介绍决策树的生成和修剪,再介绍决策树的应用和存储,最后介绍随机森林算法。3.1决策树的结构与原理机器学习算法是使用的大量的数据对计算机进行训练来模拟人的思维方式和学习行为,以收获一些新的知识技能或是在训练的过程中不断地为完善自己的功能提升自己的性能,决策树作为机器学习中的一大算法,它的决策过程与人的思维过程十分类似,决策树的原理如图3.1所示:图3.1决策树原理可以观察到它是一棵由上而下,向下生长的一棵“倒置的树”,决策树由节点和边组成,节点存放数据或属性判定,边则指示着方向,最初的节点叫做根节点,其余的节点叫做子节点,其中带有分支的节点叫做内节点,最终不在生长的节点叫做叶节点或叶子节点,它代表最终的分类或者数据的处理结果。一个数据进来之后将会从根节点依次经历所有的节点最终到达叶子节点完成分类和数据处理,一个样本集所有的样本都经历这一棵决策树的决策分类之后,那么也就完成了对这一样本集的分类决策。在决策树的最优特征选取的过程中,决策树会一次次不断地重复学习算法到最终找到最优特征为止。之后便会将最优特征放入子节点(非叶子节点)中,将待训练样本集进行分类以获得最优的输出结果。这样样本集就分类结束了。决策树具有天然的可解释性,就像一类事物之所以被归为这一类是因为他具有某些特征。那么决策树的工作就是根据这些特征将一组无序的混乱的样本集完成分类,将其中好目标样本分类出来。广泛的来讲,它采用自上而下递归的方式,同过比较样本内部特征数据的属性值,并以此为根据将他输送给下一个子节点,最终输送到叶子节点上完成最终的分类,目前决策树有基于熵构建的ID3树,基于信息增益率构建的C4.5树,基于Gini系数构建的CART树。构造决策树时首要解决的问题就是确定根节点,由于根节点是最初的节点要给全部样本进行分类,所以应让每个样本尽可能获得最优的输出分类。其次便是构建最终的分类结果(叶子节点),将上一步分类好的样本放入对应的叶子节点中。若有未正确分类的样本,重复上述步骤直到大部分样本均被正确分类为止。决策树的优点在于它天然的可解释性,易于理解,计算复杂度较低,对中值缺失的敏感度较低,所以便于处理一些不相关数据。决策树的缺点也很明显,数据都是有特例的,如果一个决策树能将训练数据完美分类那他一定是过拟合的。3.1.1ID3定义及计算为了解决如何选择根节点以及之后子节点的问题,引入了信息熵(informationentropy)的概念,熵代表了一个总体的混乱成度,在决策树中他代表样本种类的丰富性,一个决策树分类器的一个分类结果的熵值越低代表这个分类结果的纯度(purity)越高也代表着分类结果越好。一个含有N种样本的样本集M中的第i种样本(i=1,2,3,...,N)的概率为Pi,则M的信息熵可定义为:E(M)=−对于决策树而言,总希望用最少的层数(depth)来使熵值降低的最快,来节约资源提高效率,所以选用特征熵与初始熵值相差最多的特征来作为该决策树分类器的根节点,从而引出信息增益的概念。假设离散特征种类f有K种取值可能{f1,f2,...,fK},若用f将M划分为若干子集,那么会获得K个连接着分支的子节点,其中第K个子节点将包含M中全部在属性f上取值为f的样本,将之表示为MK。则可通过式(1.1)求出MK的信息熵,又由于每个含有分支的子节点包含不一样数目的样本数量,因此为给分支点权重|MK|/|M|,这就是说,分支节点将拥有与样本数目成正比的重要性,由此可以够推出利用属性f对划分M时产生的信息增益如公式3.2所示:G(M,f)=E(M)−信息增益所代表的是分类后样本种类的(熵值)纯度相较于分类前的(初始熵)初始纯度的纯度提升,熵值下降的量即信息的增益量,信息增益的值越高说明该特征越优秀。然而ID3仍然存在一些问题,他无法避免一些无关特征对结果的影响,例如如果为含有n个样本的样本集进行编号,编号为从1到n,将编号是做一个新的特征,可以发现每个样本的该特征都有所不同(因为每个样本的编号都不一样),在进行决策树训练的时候发现该特征(编号)的信息增益经过计算后非常高,在逻辑上显然,样本的编号这一特征将n个样本集分为了n类,每一类下只囊括了一个样本,换言之分类纯度非常高信息增益也非常高。然而很清楚编号并不是会影响样本分类结果的一个特征,简言之一个类物品的分类标准是因为它具有一些自有的特征而不会因为他编号是多少,同时将n个样本分为n类也十分的不合理,将样本集切的太碎了而产生了过拟合,此时编号就成为了一个与样本分类结果无关却在决策树中对样本分类结果产生过大影响的一个不良特征,而ID3并不能很好的区分这些特征且,无法减弱这一类特征对样本分类结果的影响,所以引入了C4.5算法。3.1.2C4.5定义及计算为了解决ID3无法发现并减弱对样本具有较大影响的不良特征对样本分类结果的影响,且由于信息增益准则在使用数据量较大的训练集时会明显偏大,无法有效的行使功能,也因此有了误差,为此选用信息增益率C4.5算法有效地解决了这种问题,该算法在筛选最佳特征时,没有使用被经常使用的信息增益,而是用增益率取而代之,这样减小了过高的信息增益的同时也大幅减弱了不良特征对分类结果的不良影响。信息增益率为:R(M,f)=其中V(f)=−是f的“固有熵”,当f下分种类越多时V(f)的值就越大,这样便有效的减弱了类似于上述“编号”这一不良特征对分类结果的影响。当在实际操作过程中,也选用先计算信息增益,再用信息增益率去掉一些不良特征的方法来筛选出较好的特征,以得到更好的输出结果。3.1.3CART定义及计算Gini系数(基尼系数)在决策树分类器中是用于分类问题中选择最优属性的一种评价标准。CART型决策树采用Gini系数作为评价标准。与熵值相类似Gini系数也能为样本种类的纯度做出评价,而与熵值不同的是,数据样本集的纯度越高熵值越低,而Gini系数则与之相反,样本集纯度越高则Gini系数越高,沿用公式(3.1)的表达式则样本集M的Gini系数可以表达为:N(M)=显然,Gini系数所计算的是从总的样本集中抽出两个样本被分配在并不同种类的概率,所以Gini系数的取值与其样本纯度成反比,也与熵值成正相关。沿用式(3.2)的符号,特征f的Gini系数可以表示为:I(M,f)=因此在选择最好的特征时,只要以Gini系数为标准,选择拥有最小值的特征即可,即min(I(M,f))。3.2决策树的构建与剪枝决策树算法最早在1966年被Hunt等人发表的论文所提出的,Hunt算法是许多决策树算法的基础,包括ID3树算法、C4.5树算法和CART树算法等,而后罗斯·昆兰是让决策树算法得以发展并成为了成为机器学习主流算法。二十世纪末他所提出的ID3算法晓喻科研界,之后他又次提出了ID3的改进算法C4.5算法。并且为了能够应对出现的数据集较大的情况,一些比较典型的算法,比如探索式监督学习和决策树的可扩展并行归纳被提出。1984年Breiman等人提出了CART分类回归树。本小节简要介绍三种决策树的构建和剪枝3.1.1决策树的构建ID3算法流程如下:a)记录当前样本集的数据,并且计算每一个特征属性的互信息;b)选择所有特征属性中互信息最大的特征B;c)将数据中取值相同者放入同子集,将当前窗口记录划分成不同子集;d)对子集进行判断,如果各子集记录为同类别,则将决策树标记为相应类别后返回,如果各子集记录为不同类别则将本步骤的算法以递归的形式作用于子集。当某节点上只有一种类别的数据或者无法选出分割属性时ID3算法会停止分割。C4.5算法流程如下:a)选择节点拆分属性;b)建立新节点,分割数据集;c)确定节点有没有达到生长停止条件。如果是的话,停止增长。如果没有回到第一步。作为一种改良后的算法,C4.5算法有一些比较突出的地方,如简单的分类规则和较高的精确度。然而该算法不可避免地由于排序和重复扫描数据而无法高效运行.CART算法流程如下:a)创建根节点R;b)若当前数据集中的数据集中数据的值均相同,则将R标记为该值;c)若最大的值小于设定阈值,则将R值标记为数据集变量均值;d)若其中一个要产生的节点的样本数量小于某个值,则停止分解,标记R为数据集的应变量均值。CART算法与之前所说的两种算法相比,具有一些优点,比如它具有丰富的用途,它在回归和分类问题处理中均表现了比较好的性能,再比如CART算法选用了与前文的两种算法均不同的规则,Gini系数来作为最佳特征的选取依据。Gini系数的作用是将纯度数值化显示,这一点和熵的作用十分类似。CART算法中的每次迭代都会减少Gini系数也即提高纯度。此外,CART还具有很多其他明显的优点,计算量较小,易于理解,在对连续字段问题的解决表现非常好。诚然CART有许多的优点,但是CART算法也无法尽善尽美,CART算法虽然可以处理连续字段但是在预测这种数据的能力方面仍然存在不足,而且如果样本集存在着时间的顺序特征,该算法的运行效率会大幅的下降。3.1.2决策树的剪枝在机器学习的算法训练的过程中,训练集数据总是存在瑕疵的,这些瑕疵在样本集中表现为噪音样本,噪音样本的形成原因多种多样,在样本取样的过程中出现任何小问题都有可能造成样本的瑕疵,而且在图像处理方面人为制作的样本金标准的过程往往存在着主观性,每个人制作的金标准往往也有细微的不同,再由于训练样本总数十分巨大一般无法通过人为的手段去将这些噪音样本从训练集中剔除,所以将训练集完美分类并没有太多的意义,且机器学习训练模型的最终目的是完成对测试集的种种工作,所以不需要通过机器学习模型对训练集完美分类甚至说,应该防止这种现象的发生。所以给这种机器学习模型与训练样本特征数据过于贴合的现象叫做“过拟合”。那么对于决策树算法来说,为了避免训练模型陷入过拟合,采用了剪枝的策略来解决这一问题。设想一个无限生长的决策树分类器,输入一个总量有限的样本集,由于这颗树非常的高,有许多的叶子也即叶子节点,而每一个叶子节点又代表着一个分类结果,那么这棵树就有无限多个分类结果,而显然将n个样本分为n类是没有任何意义的,所以至少也需要最终的分类结果的个数小于样本总数,也就是说要减少叶子节点个数或者说减少分类次数也即子节点的个数,所以采用主动去除一些分支来防止陷入过拟合的境地,这也就是所说的“剪枝”。通常决策树算法为了防止陷入过拟合一般有两种剪枝的策略,第一就是在决策树创建的时候进行的预剪枝,而第二个就是在决策树创造完成时的后剪枝。但是一般来说决策树都是一直创建节点分支直到熵也即达到最低也即纯度最高的情况,而选择一个熵值来设定设定成阈值是一个可以有效地预防出现过拟合的措施,然而这种措施并没有展现效果,所以就有了预剪枝和后剪枝。预剪枝依据:a)作为叶节点或作为根节点需要含的最少样本个数;b)决策树的层数;c)节点的经验信息熵小于某个设定的阈值停止决策树分类器的继续分类。后剪枝是在决策树构建完成之后,对决策树树进行剪枝的处理,这样一来就可以简化决策树。剪枝时对某个节点的子节点进行判断,若合并这些子节点之后熵增量小于阈值则合并它们。这也是现在使用比较多的方法。后剪枝算法分为错误率降低剪枝(REP,Reduced-ErrorPruning)和悲观剪枝(PEP,PessimisticErrorPruning)。错误率降低剪枝的策略是通过使用一个测试数据集来解决过拟合问题,进行剪枝时,首先要简化决策树,具体方法是把完全决策树的每一个非叶子节点都换成叶子节点,将子树中最大的类作为其类别,其次,如果进行这种替换之后,决策树的性能有所提升,则删除这个子树,用叶节点取而代之。从所有的叶节点开始,一直到根节点为止一直执行相同的操作,一直到所有的子树都无法通过替换优化测试数据集时终止算法。(PEP,PessimisticErrorPruning)悲观剪枝算法相比于上述的错误率降低剪枝法,更为简便,它不需要去创建额外的测试数据集,比起REP剪枝法,它不需要一个单独的测试数据集[14]。3.3随机森林介绍随机森林算法是一种使用集成学习思想通过综合多颗决策树来行使功能的一种算法属于Bagging的一种,首先介绍一下集成学习的两大流派Bootstrap和Bagging。3.3.1随机森林的定义Boosting是一种抽样方法,流程图如图3.2所示即采取有放回的进行数据采样;每轮中未抽到的数据组合起来,形成袋外数据集(OutofBand,OOB),OOB用来在机器学习模型中用做测试集,Boosting流派其中一个具有代表性的算法是GBDT。Bagging算法使用Bootstrap方法从原始样本集中随机不一定有放回的抽取n个样本,共抽取k轮,得到k个独立的训练集,元素可能有重复。每个训练集训练一个模型,得到k个结果,分类问题则从结果中取多数值作为最终结果,回归问题则取平均值作为最终结果,简言之Bagging算法更像是盲人摸象,将大象的总体有放回给经过训练盲人摸,最后几个盲人经过自己的判断投票之后综合得出一个结论,随机森林就是该算法中一个具有代表性的算法。图3.2Boosting算法图解随机森林中随机代表着在构建决策树时有放回的选取样本部分数据进行训练,同样的也不会选取样本的全部特征,这样把多棵决策树集成在一起的算法就是随机森林,随机森林算法是bagging集成流派的代表方法之一,第一步就是对原始数据集使用有放回的进行随机抽样的方法生成多个子训练集特征集和相应的测试集,每个子训练集和特征集去训练一颗单独的决策树。第二部在创建决策树时,随机森林并不是在所有特征中找到性能最佳的特征进行分类,而是同样有放回的进行随机抽取一部分特征,在抽到的这些特征属性中间找到最好的构造的方式应用与各个决策树的子节点进行分类。最后综合每个决策树分类器的分类结果来形成随机森林的总结过。随机森林因为进行了打包集成,所以实际上相当于对样本和特征都进行了有放回的随机采样,最终避免了过拟合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 昆明市重点中学2027届物理八年级第一学期期末复习检测模拟试题含解析
- 2026成都市新都区悦动新城小学校招聘人员控制数教师5人参考题库及答案详解1套
- 危废贮存库房温湿控制方案
- 林州中考历史真题试卷
- 2026年博彦招聘测试题及答案
- 2026年网店运营测试题目及答案
- 2026年全民体检的测试题及答案
- 2026年史铁生作品测试题答案
- 2026年二十以内加法测试题及答案
- 2026年亲子鉴定测试题目及答案
- 2025年黑龙江省高校毕业生“三支一扶”计划招募考试真题
- 2026年全国《考评员》专业技能鉴定考试题库(综合版)
- 配电网同步测量技术及应用阅读记录
- 2026年哈密市公安局招聘警务辅助人员体能测试笔试备考题库及答案详解
- 2026年广西公需科目《人工智能国家战略与政策通识》题库
- 高级中式烹调师考试试题库含答案
- 2026年高中历史学业水平合格考试知识点归纳总结(复习必背)
- 2026年熔化焊接与热切割特种作业证考试题库及答案(含答案)
- 2026年北京市中考道德与法治试卷附真题附答案
- DB11/T 1413-2023民用建筑能耗标准
- 2026年安徽民航机场集团笔试题及答案
评论
0/150
提交评论