已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计 算 机 研 究 与 发 展 收稿日期 修回日期 基金项目 国家自然科学基金项目 广东省自然科学基金项目 广东省省级科技计划基金项目 一种病理图像自动标注的机器学习方法 张 钢 钟 灵 黄永慧 广东工业大学自动化学院 广州 摘 要 病理图像能够揭示疾病的原因及严重程度 在临床诊断中有重要应用 病理图像中局部区域与 病理特性之间不明确的对应关系为建立计算机辅助诊断模型带来了困难 基于全局图像特征表达和等 分小块等方法难以有效表达病理特性的局部性 提出一种基于多示例多标签学习的活检病理图像自动 标注框架 对病理特性的局部性进行表达 通过带区域约束条件的分割算法把病理图像划分为若干视觉 上不连续的区域 对区域进行基于纹理和内部结构的特征提取 把病理图像转化为多示例样本 在此基 础上提出一种基于贝叶斯学习的多示例多标签稀疏集成算法 在本地大型三甲医院的皮肤科活检样本 数据集上进行方法有效性评估 结果表明该方法能得到医学上可接受的标注准确率 从而说明其有效性 关键词 病理图像标注 病理特性识别 多示例多标签学习 标准分割 图像特征提取 中图法分类号 病理图像是对患者病变部位的组织进行切片 在显微镜下进行放大成像得到的图像 由于病理 图像直接反映出组织内部所发生的病变 是医生进 行疾病诊断的重要依据 甚至是进行某些疾病诊断 的最终依据 例如在癌症的诊断中 通过对病灶的放 射影像学图像进行观察 包括观察是否有阴影 斑 块 血管的扩张情况等以及运用血液化验手段可以 得出初步的诊断 但要最后确诊必须进行活检 即提 取病灶的活体组织进行显微镜下观察以确定其病理 特性 随着病人数量的日益增加和对疾病准确诊断率 的更高要求 病理检查特别是对其显微图像的分析 数量成倍增加 导致了病理实验室专家的工作量增 加 需要增加更多人员 设备来应对更大量的组织病 理学分析需求 大量的一般性病理图像特性识别和 诊断花费医生大量精力 使其难以对一些特殊病例 花更多精力进行判断 此外 分析病理学图像需要相 当专业的知识及丰富的经验 受到读片者当时状态 的影响 导致诊断结果不稳定 不能重现甚至在日后 转诊时出现相反诊断的情况 对于病人来说具有巨 大的风险 若能利用计算机辅助系统分担部分病 理图像分析工作 在当前医疗资源如此紧张的情况 下具有重要意义 本文提出一个基于机器学习理论的病理图像自 动特性标注的方法 其可行性基于以下 点分析 对病理实验室医生的诊断经验分析发现 活 检图像的标注有一定的规律性 这种规律对不同的 病理特性在活检图像的特定部位上表现出相似的图 像特征 包括颜色 纹理 内部结构等 这种规律性结 合医生的临床诊断经验 使其能对活检图像进行正 确的特性标注 对病理特性进行描述的标注词 述语 是统 一的 可以使用编程的手段在医生对以往活检图像 的镜下诊断文本描述中准确提取出与该活检图像对 应的特性描述词 基于第 点 使用恰当的图像特征提取方式 选 择适当的机器学习模型 就可以在历史数据中学习 到病理学专家这种很难直观表达出来的标注规律 由于在医生的诊断记录中 文本表述的镜下诊断是 和活检图像相关联的 基于第 点 通过程序的方式 可以从镜下诊断中得到病理特性的标注项 可以直 接建立训练数据集 图 展示了一个皮肤病理图像 及其镜下诊断的例子 其中标准的病理特性描述词 用下划线并加粗标出 图 皮肤活检图像及其镜下诊断 同时也注意到 自动标注病理图像至少有以下 个挑战 医生的镜下诊断是一段文本描述 根据医学 经验 每个标注词实际上描述了病理图像中某个局 部的特性 但医生会根据看到的整幅图像的情况直 接写出镜下诊断 不会给出标注词与某个局部区域 之间的对应关系 图 展示了一幅后期手工标出了 区域和标注词之间对应关系的活检图像 图 中 代表 角囊肿 代表 角化过度 代表 淋巴细 胞浸润 代表 乳头瘤样增生 图 局部区域与标注词之间的对应关系 即使多幅图像均被标注了同一个标注词 它 们之间也可能有极大的差异 这种差异可能反映在 颜色 区域大小 形状等方面 对构建学习器是极大 的挑战 对于第 个挑战 解决的关键在于理解医生对 于活检图像进行标注时的思维活动过程 我们认为 医生对图像的标注实质上是对图像的可辨区域进行 计算机研究与发展 识别后根据经验对某些区域标注上特性 其中可辨 区域是指有显著边界且连续的图像局部 对一幅病 理图像的标注 可以先进行视觉上可辨的连续区域 的划分 对每个区域进行标注 所有区域的标注结果 就是整个图像的标注结果 在这种思路下 病理图像 就转化为局部连续可辨区域的集合 而反映病理特 性的标注词与整幅图像的局部区域相关 图 展示 了对图 所示的活检图像进行可辨区域后 其与标 注词之间的对应关系 图 可辨区域与标注词之间的对应关系 图 中的可辨区域是通过标准分割 所产生的 然后再人工标记出每个区域所包 含的标注词 其中的字母含义同图 表示 该区域不与任何的标注词相关联 从图 可以看 出 病理图像中的某些区域与一个标注词关联 某些 区域不与任何的标注词关联 在另外一些情况下有 的区域与多个标注词关联 本文提出在多示例学习 的框架中解决这个问题 多示例学习是一种特殊的 机器学习框架 最早是在分子活性的研究中被提出 来的 在多示例学习中 学习样本包含一个或一个 以上的示例 而概念标记仅与样本而不是示例相关 联 这种关系同样能在病理图像与其局部区域之间 反映出来 在多示例学习框架中解决病理特性标注 问题是适合的 对于第 个挑战 若能寻找一个最能表达病理 特性的图像特征表达方式 就可以很好解决 但这是 很困难的 根据我们对医生诊断过程的观察 认为医 生在对图像进行标注时考虑了图像纹理 像素密度 及其一些特殊的内部结构 因此选择一个对这些特 征有良好表达的图像特征表示就能尽可能贴近医生 的标注思路 图 展示了本文方法的主要流程 使用标准分 割对病理图像进行可辨区域划分 对可辨区域进行 提取 表示为一个能覆盖它的最小矩形 对每一个由 矩形表示的可辨区域进行特征提取 进而把每幅活 检图像表示为一个多示例学习样本 训练学习器模 型 把对病理特性的标注问题转化为多示例学习问 题求解 图 本文方法的主要步骤 相关工作 在医学图像识别研究中 国内外研究者对医学 成像的计算机自动识别进行了大量的研究工作 等人 提出了一种对皮肤表面图像分类的机 器学习方法 考虑到皮肤表面图像大多采用基于颜 色的特征表示 不同的颜色空间对不同皮肤病的自 动识别有不同效果 而不同颜色空间可以通过一个 线性变换得到 他们提出对 种不同的颜色空间进 行加权 用度量学习的方法学习该权重 使其对当前 的训练样本有最好的分类效果 通过加权可以找到 一个对当前训练样本集最优的颜色空间表示 但该 方法并不适用于一般的病理图像 其原因是病理图 像通常被染色 不能单纯通过颜色特征来判断其中 的病理特性 而且 病理图像的众多特征之间并不能 以线性变换加以联系 这使得难以通过度量学习得 到最优的特征表示 张 钢等 一种病理图像自动标注的机器学习方法 在组织病理图像分析领域 出现了一些与本文 相关的工作 等人 对当时组织病理学图像 分析的研究状况进行了回顾 认为对组织病理学图 像分析应该包含图像的分块 特征提取 模型训练和 识别 个步骤 这与本文的处理思路基本一致 但在 这篇综述中 并没有包括区域的视觉边界对图像进 行分块的思想方法 也没有包括医生对图像识别的 思维过程 仅从数字化图像处理的角度进行回顾 本 文认为这可能是不够全面的 等人 提出一 种使用核学习器进行皮肤癌病理图像分类的方法 他们使用了特征袋集 的图像特征 表示方法 简单来说 即建立字典 其中 的元素是小块的图像 像素 在元素上记录该 元素来源图像的类别 当给出一个测试图像时 先把 图像分块 然后查字典 得出该图像中每一小块所属 的类别 从而得到一个类别直方图 这样可以直接得 到图像的分类结果 这种方法把图像划分为等面积 方块 没有考虑病理图像复杂的内部结构 而且直方 图的方式表示特征与区域面积相关 这与皮肤病理 诊断的寻找特殊结构 纹理的思想方法不完全一致 因此不能解决本研究中复杂的病理图像镜下所见特 性的标注问题 等人 提出使用多示例多标签学习模型对 果蝇基因模式图像进行自动标注 由于从基因模式图 像数据库中得到的图像组与标注词相关联 由基因 研究人员标注出 但标注词实质上描述的是某个图 像的某个局部 因此在该工作中把一个图像组看作 一个多示例样本 把组中每个图像进行分块 所有小 块看作示例 标注词看作概念标记 使用多示例多标 签学习框架解决此问题 基因模式图像比较简单 且 是灰度图像 因此采用分格的示例划分方法是有效 的 在该工作中 采用 特征点 的选取作为图 像特征表达 这对比较简单的图像较为有效 但活检 图像具有丰富的色彩 纹理 内部结构和明显的局部 区域边界 不能简单地通过分格方法得到示例表示 病理图像区域划分和特征提取 可辨区域划分 可辨区域划分是本文工作的一个核心 通过区 域划分把图像转化为多示例样本 从而进行多示例 学习 如第 节所述 本文通过使用一种对局部区域 边界敏感的划分方法得到区域 从而把图像表达为 多示例样本 是对医生诊断的思考过程的一个模拟 本文采用带有区域约束条件的标准分割 方法把图 像划分成连续的局部可辨区域 标准分割是一个图像分割算法 把图像中的每 一个像素点看作图的顶点 相邻的像素点所对应的 顶点之间有边相连 边的权重是相邻像素点的相似 度 形式上 假设图像被表示为图 标准 分割的每一轮寻找当前图的 个顶点集 使 且满足 烄 烆 烌 烎 其中 为边 的权值 使式 值最小的 就是一个对当前顶点集的最优划分 求解式 所示的优化问题 可转化为求解一个 标准的 方程 其求解的时间复杂度是 其中 为图像的像素点个数 为划分的 区域的个数 标准分割算法每次分割的实质是寻找当前待分 割区域中最显著的分界线 与本文对局部区域概念 的界定相一致 医生通过识别病理图像中的显著边 界来确定局部区域 这是本文工作采用标准分割的 最主要动机 另外 算法上 标准分割每次对一个区 域进行二分分割 通过不断地迭代产生更多更小的 区域 使医学经验规则可以很容易加入到分割过程 对分割的区域大小和分割的优先程度进行控制 方 便设计结合先验知识的自适应的分割算法 原始的标准分割划分区域的个数 需要事先指 定 关于 值的设定 有 种可能出现的情况 若 值较小 产生的区域数较少 可能出现 某些区域包含多个标注词的情况 若 值较大 产生的区域数较多 可能会出 现把原来对应一个标注词的区域细分为若干个 第 种情况有可能产生过于复杂的可辨区域 包含不同的特征或由多个细小的区域组合而成 这会影响区域特征提取的效果 而对于第 种情况 当区域数比较大时 会把某些只对应一个标注词的 区域分为多个小区域 也即所谓的示例碎片化问题 粒度过小的示例不能完整表达某个标注词的内在 含义 考虑到 值的确定对多示例样本的生成有重要 影响 提出采用区域约束的方法来产生自适应区域 不需要预先设置区域个数 引入 个约束条件 区 域个数的上限 区域所包含像素数量 在算法 中要求 若区域数目达到上限 则不再进行分割 计算机研究与发展 若一个区域包含的像素数量小于 则该区域不 会再被考虑分割 以上参数的设置由医学经验值给 出 具体值在实验部分给出 标准分割每次进行二分割 即把一个输入区域 按式 的指标分为 个子区域 由于每次分割会使 区域数增加 一个必须解决的问题是如何选择区 域进行分割 考虑到这个区域的选择指标计算在每 次分割时都需要进行 且不需要太精确估计 多示例 学习模型能够适应一定示例粒度变化 这从以往基 于分块多示例图像标注的研究工作中可看出 基于 此 提出一种简单的区域选择策略 计算其区域像素 颜色值的方差 优先选择方差大的区域进行划分 像 素颜色值方差大在一定程度上表明区域的像素结构 复杂 可能包含不同的可辨区域 因此可以作为一种 区域划分的启发式线索 特征提取 本文采用基于纹理特征和像素密度的图像特征 提取方法 由于标准分割得到的可辨区域是不规则 的 我们先寻找一个包含不规则区域的平行轴最小 矩形 并用黑色像素填充 然后执行特征提取算法 图 展示了不规则区域的平行轴最小矩形表示 图 不规则区域的平行轴最小矩形表示 特征提取算法的主要思想描述如下 对区域进 行颜色空间变换 从 转换到 颜色空间 然后对区域进行小块划分 去掉像素为全黑的小块 然后对每一剩下的小块执行离散小波变换 由整个 区域的平均 值及每个分块的小波系数计算出 区域特征 该特征提取算法的详细流程参见文献 需要指出的是 颜色空间强调对人眼的 颜色和纹理视觉特征的描述 具有视觉统一性 适用 于本研究中视觉可辨区域的特征表达 分 别是区域的平均 值 该组特征衡量区域的 整体颜色组成 特征 分别是每个小块的小 波变换系数 的整个区域平均值 该组 特征反映出区域的纹理特征和特殊结构 分别是 阶标准形状系数 该组特征反映的是 区域的拓扑形状 即与区域大小无关的形状特征 这 样提取出的图像特征是一个 维的实值向量 该方 法的时间复杂度与图像划分小块个数有关系 每个 小块执行一次离散小波变换 然后取平均 总体的时 间复杂度为 其中 为该区域所包含的方块 个数 其他属性的计算都可以在常数时间内完成 这些特征已被成功应用于图像理解和图像检索 等领域 这 组图像特征充分反映了区域的可视化 特征 我们认为其有足够的表达能力 能表示出本文 分割方法得出的区域主要特征 多示例多标签样本表达 在对病理图像进行区域划分和针对区域进行特 征提取后 图像被转化为多示例样本 其中的示例为 区域 由于划分算法为自适应 最后得到的每个样本 中的示例个数可能会不同 对于多标签的生成 我们 对每幅病理图像的病理诊断描述文本进行关键词匹 配 生成一个布尔向量 其中的每一位指示该病理图 像是否包含对应的病理特性 病理特性标注模型 需要指出的是 病理特性标注的问题不适合用 单示例学习算法解决 首先第 节所述局部可辨区 域与病理特性标注词之间的关系显示了该问题可以 很自然地放在多示例学习框架中进行解决 其次 即 使建立一个以局部可辨区域作为输入 以标注词作 为输出的单示例学习模型也不现实 这是因为在临 床数据集中并没有局部可辨区域与标注词之间的直 接对应关系 在临床诊断中 医生对整个病理图像进 行分析后给出标注 但绝大多数情况下不会在诊断 报告中明确指出哪个区域具有何种病理特性 我们 通过观察和调研发现 医生更愿意认为是他们通过 对图像整体分析而得出整图的病理特性标注 然后 这些标注项由局部可辨区域的 征象 得到印证 我 们相信深入分析医生的这种诊断思维将有助于建立 更有效的特性标注模型 但显然已经超出了本文所 讨论的范围 而本研究关注的是 标注词与局部区域 之间的对应关系在诊断数据里面是被隐含的 正是 由于这种隐含的关系 使得以区域作为训练和测试 样本的单示例学习模型不适用于此问题 张 钢等 一种病理图像自动标注的机器学习方法 基于以上分析 我们提出使用 种多示例学习 模型作为病理特性标注模型 分别是多示例学习模 型和多示例多标签学习模型 多示例学习模型适 用于对单一标签二类分类的问题 而多示例多标签 学习能同时判断样本是否含有多个标签 选择这 个模型构建病理特性标注模型的动机在于对医生标 注活检图像过程的观察 在研究过程中注意到 病理 实验室的医生倾向于认为标注是在综合分析了整图 后再作出的最终判断 但在标注过程中我们观察到 对于大部分的标注词 医生通过对局部可辨区域的 分析就可以进行标注 与前述的假设基本一致 经过 深入了解后发现 有经验的医生检查了病理图像后 在脑海中会对该病人所患疾病有个初步假设 根据 该假设认为活检图像上应该会有哪些病理特性 然 后在活检图像上寻找这些病理特性的 征象 我们 对这个过程中所蕴含的因果关系并不十分清晰 但 可以知道在某些情况下标注词与特定的皮肤病关 联 因而对一幅病理活检图像而言 其上面的标注词 有可能不是完全独立 这正是本文采用多示例多标 签学习的动机 对于普通的多示例单标签学习模型也进行评 估 其目的是与多示例多标签学习模型进行比较 以 验证上述对于医生诊断思维及标注词之间隐含关系 假设的合理性 采用 作为多示例学习模型 而对于多示例多标签学习 提出 算法 是一个经典 的多示例学习模型 基于类似 近邻的思想进行测 试样本的类别识别 在 模型中 确定 一个测试样本的概念标记不仅通过它的 个相邻 的训练样本 同时也考虑把该样本看作近邻的训练 样本的概念标记 在 算法中 包的相 邻关系并不是由欧氏距离所衡量 而是采用平均 距离 算法并不需要训练 但在测试时需要对整个训练数据集进行存储 形式 上 设 和 是 个多示例样本 则它们之间的平 均 距离 定义为 给定一个测试样本 找出与它距离最近的 个 训练样本 同时找出 个以测试样本为近邻的训练 样本 以这 个样本的训练样本标记的多数作 为测试样本的标记 是一个简单但有 效的多示例学习算法 其训练时间复杂度是 每测试一个样本需要计算它与所有训练样本之间的 距离 需要 次计算 算法是对 等人 提出的基于 高斯先验分布的 算法的一个 扩 展 简要描述如下 利用基于高斯先验分布的 算法构建一组基学习器 该组 学习器为 学习器 能够给出一个测试样本的 每种标签的预测概率分布 在构建 中每个学习器 时需要给出基于高斯过程的先验分布矩阵 而 在 等人 的工作中该先验分布矩阵需要通过 最大化边缘分布得到 并且仅是对最大化下界的估 计 必须指出 根据已有数据通过贝叶斯方法确 定 其中并不包含关于目标问题的先验知识 我们提 出用加权集成学习的方式解决 学习器的 先验分布的确定问题 即随机生成 份 先验 分布矩阵 对应于 个 学习器 由于这些学 习器是贝叶斯学习器 输出每个标签的预测分布 因 而能够使用 的方法确定其最优的权值组合 式 给出了组合学习器的表达形式 为每一个要权重 加上一个 先验分布 有 通过最大化边缘分布的方 法 在给定训练数据集 的情况下确定 就可以 得到对 的有效估计 从而得到 由 给出的对上述问题的求解过程可知 一部分 趋于 无穷大 由于均值为 使其对应的 为 从而得 到了稀疏的集成学习模型 算法 展示了 算法的主要步骤 算法 算法 输入 基学习器数量 训练数据集 输出 加权组合权重 随机产生 把 加到 上 初始化 返回 计算机研究与发展 在算法 中 行 随机生成 份 并训 练 个 学习器 行 随机初始化 行 计 算 中所有学习器在 上的输出值并记录 行 使 用标准的 算法迭代求解 根据 和 理论 行 会使大部分 趋向于 可以得到一个稀 疏的集成学习器 由于 的输出为图像具有各个标签的预测概 率 是一个标准的权重组合 因此 的输出可以 看作一个预测概率 根据 的输出进行标注 对于 某一标注词 若其对应的预测概率大于 则进行 标注 反之不进行标注 提出 算法的动机主要有 个 对 先验分布 的计算考虑 通过最大化边缘分布的 方法进行计算需要较大的计算代价 且仅能得到一 个接近下界的估计 直接对其进行计算并不现实 学习器构成的可扩展性考虑 本文希望把最终的学 习器建立在集成学习的基础上 使有新的图像特征 或其他诊断信息加入时可以使用集成学习的方式直 接利用已有的结果 算法的时间复杂性与单独训练 个基学习器的阶数相同 这是由于 算法的时间 复杂度低于训练单个 学习器的时间复杂度 行 的 在已有数值矩阵集合 以及值不太大 时可以较快收敛 具体的参数设置参见实验部分 实 验 在一个由本地大型三甲医院皮肤科提供的病理 图像数据集上对本文提出方法的有效性进行测试 同时实现文献 中的 方法和文献 中的基 于高斯过程的多示例多标签学习方法 记为 作为基准方法进行性能比较 方法是 一种基于全图特征提取表达的单示例学习样本构建 方法 选择 方法作为基准方法之一的动机在于 该方法被广泛用于病理图像分析研究中 且该文中 的实验评估图像数据集的复杂程度与本文所用的图 像类似 方法采用标准的二分类 作为学 习器 选用 作为基准方法之一的动机在 于它与本文的 算法均是基于贝叶斯学 习的概率模型 而本文算法采用稀疏加权的方式降 低对先验分布矩阵估计的计算复杂性 对两者进行 标注准确率和运行时间上的比较 能够反映本文方 法的有效程度 实验数据集中包含了从 年的 个病人的 幅皮肤患病部位活检图像 平均每 个病人 幅 图像的放大倍数是 倍 大小为 位真彩色 每个病人的图像都与一段由电 子病历系统导出的文本形式的镜下诊断相关联 其 中以标注词的形式标出了该病人图像所展现的病理 特性 考虑 个标注词的标注 角化过度 角 化不全 颗粒层消失 棘层肥厚 微脓肿 痣细胞巢 基底层色素增加 淋巴 细胞浸润 棘层变薄 基底细胞液化变性 角囊肿 颗粒层增厚 毛囊角栓 乳 头瘤样增生 收缩间隙 通过对镜下诊断的文本 匹配 对每一个病人生成一个 维的布尔向量 表 示该病人的每一幅图像是否包含上述 个标注词 对于每幅图像 调用自适应的标准分割划分可 辨区域 之后进行图像特征提取 其中离散小波变换 的方块大小为 对于 方法 采用调整大小 后的图像作为算法输入 其他参数使用与文献 中 同样的值 标准分割的区域大小像素限制和区域数 目的上限分别设置为 像素和 个 这 个参 数是根据医学经验和区域的肉眼可辨程度得出的 由于标准分割的运算量比较大 且其分割区域与图 像的像素精细度没有太大关系 因此把图像先缩小 到 像素 然后进行标准分割 上述参数是 对缩小后图像的限制 若每个划分的区域刚好达到 像素下限 则缩小后的图像可以分割出 个区域 实际上这是不可能的 因为根据分割策略在一个区 域有小于 像素时就不会再被考虑分割 实 际分割产生的区域平均数为 个 包含 像素 区域的平均大小为 一般具有明显医学特征 的区域不会小于这个尺寸 得到分割区域后把分割 结果按比例放大到原图再进行特征提取 考虑到数据集规模较大 把 个病人以 的比例划分为训练组和测试组 训练组病人的图像 用于模型训练 测试组病人的所有图像用于评估模 型的有效性 共进行 次随机划分 对于每次划分 重复运行 次模型的训练和预测 取这 次运行 的平均值作为本次划分的结果 最后以 次划分的 平均值和方差作为实验结果进行记录 以说明结果 的显著性 对于 算法和 方法 分 别为每一个标注词训练一个二分类的学习器 即学 习器给出图像是否应该被标注对应的项 对于 算法 它输出的是每个标注词被标注的概 率 为了转化为布尔类型的结果 输出概率大于 则标注该词 反之则不标注该词 个模型的有效性 张 钢等 一种病理图像自动标注的机器学习方法 分别用单一标注词的正确率 见表 和 见表 进行评估 指标 的计算如式 所示 其中 为测试数据集 为其中的第 个多示例 样本 为 其 对 应 的 标 签 集 合 为 标 签 个 数 为学习器 输出的标签集合 表 中列出了 个模型对所有病理特性词标注 的正确率 对于 算法和 方法 每 个病理特性词的标注都需要单独训练一个模型 因 此其标注正确率由标注正确的图像数目除以总的测 试样本个数得到 算法对于每一幅测试 图像的输出是一个 维向量 通过对应分量的统计 得到每一个标注词的标注正确率 在表 中加粗显 示了每一个病理特性标注的最高正确率 可以看出 在大多数情况下 基于多示例学习的模型 算法和 算法 比 方法的正确 率高 说明了多示例学习框架在病理图像标注问 题上的有效性 算法与 算法的模型对于不同的标注词的有效性并不完全相 同 在 较 多 的 情 况 下 算 法 表 现 优 于 算法 说明在多数情况下 考虑标注 词之间的联系对学习器的有效性有正面作用 多示 例多标签学习模型可以有效利用这种关联 另一方 面 对于某些标注词 如 多示例单标记学 习模型 的正确率比较高 即把这些 标注词单独进行标注比与其他标注词在一个模型里 面进行标注得到的正确率更高 我们认为这可能是 由于这些标注词比较独立 与其他标注词的关联性 不强引起的 可以通过医学经验把一些独立性较强 的标注词放在多示例单标签模型中进行标注 表 单一标注词标注正确率和方差的比较 表 中的 是一种多标签学习中 常使用的正确性度量 它衡量学习器的输出标签与 真实标签之间的 距离 给出对整个标注 词集的标注正确率 从表 可以看出 表 模型的 和方差比较 计算机研究与发展 算法 的 表 现 较 优 需 要 说 明 的 是 由 于 算法以及 方法所采用的学习器并不是一 种多标签学习器 我们以它们分别在每一个标注词 上的输出作为一个多标签输出向量 从而可以在同 一个指标 下比较 种方法对多标 签分类的正确率 从表 和表 可以看出 与 算法的表现比较接近 这是由于 种算法均基于贝 叶斯学习且引入了基于高斯过程的先验分布 但 学习器需要计算一个优化问题 寻找使 边缘分布最大化的先验分布矩阵 计算复杂度较高 对于一 些 大 型 的 数 据 集 甚 至 是 不 能 计 算 的 算法通过稀疏加权的方式避免了对先验 分布矩阵的直接计算 下面给出在同一台测试计算机上 个算法各个 步骤的运行时间 对于 算法 个基学 习器 随机生成先验分布矩阵用时 训练基学 习器 已提取图像特征 用时 用 寻找 稀疏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电子商务师中级职业技能鉴定试卷附答案
- 塔山矿顶板事故应急预案演练脚本
- 2025年中小学生防范电信网络诈骗知识考题测试卷附答案
- 第一节 环境管理概述教学设计-2025-2026学年高中地理湘教版选修Ⅵ环境保护-湘教版2004
- 2024年起重机作业人员Q1证理论考试练习题及答案
- 2025年心肺复苏笔试题库及答案
- 2025年安全培训考试试题及参考答案
- 2025江苏招教考试真题及答案
- 六年级上册心理健康教育教案 -7在合作中成长 | 辽大版
- 2025监装员考试真题及答案
- 管理人员素质培训
- 建筑行业项目经理任职表态发言稿范文
- 车辆升级改装合同协议
- 《临床急救技能培训》课件
- 健康产业园区建设与发展策略研究
- 仪器维护与保养试题及答案
- 高性能计算应用的软件定义网络优化-全面剖析
- 同程旅行外包合同协议
- 保密警示教育典型泄密案例教育学习
- 骨科围术期血糖管理
- 短剧制作合同协议
评论
0/150
提交评论