面向半结构化医疗数据隐私保护关键技术研究_第1页
面向半结构化医疗数据隐私保护关键技术研究_第2页
面向半结构化医疗数据隐私保护关键技术研究_第3页
面向半结构化医疗数据隐私保护关键技术研究_第4页
面向半结构化医疗数据隐私保护关键技术研究_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 面向半结构化医疗数据隐私保护关 键技术研究 【摘 要】隐私保护是实现大数 据价值的首要步骤和关键环节。目前, 结构化数据隐私保护方法丰富,而医疗 数据中常见的半结构化数据缺乏可靠的 隐私保护模型及完善的平台支撑。针对 这一问题,本文将从数据结构转化的角 度入手,深入探索半结构化医疗数据的 隐私保护方法及平台构建。 中国论文网 /8/view-12932949.htm 【关键词】隐私保护;半结构化; 信息抽取 1 研究意义 医疗数据被充分共享的前提是保 证数据的隐私安全。半结构化医疗数据 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 是医疗大数据的重要组成部分,占有举 足轻重的地位。医疗过程中形成的半结 构化信息隐私内容多样,从中折射、反 映、蕴含的资讯及信息具有巨大的应用 价值,对于医学研究、政府统计或是其 他个人、机构的科研有重要意义。然而, 由于半结构化数据的复杂性、灵活性以 及其自描述形式,现存的隐私保护技术 满足不了半结构化医疗数据的隐私保护 需求。 目前,数据共享中的隐私保护技 术主要基于三类模型:k-匿名模型1-2、 l-多样性匿名模型3-4 和 t-closeness 匿 名模型。但大多数隐私保护技术都是针 对结构化数据,对半结构化医疗数据共 享的隐私保护并不理想。而综合考虑技 术、成本等问题,对半结构化医疗数据 的隐私保护,应首先考虑使用成熟的结 构化数据隐私保护方法,其关键是将半 结构化医疗数据转化结构化数据。半结 构化医疗数据的隐私保护问题要综合考 虑到数据的异构性、复杂性、高维性等 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 问题,明确中文医学信息数据特点造成 半结构化信息抽取困难的问题,充分利 用国内外半结构化数据抽取技术及结构 化数据集信息的指导作用,将结构特征 与词法、语义、表现形式等其他特征相 结合,建立专门针对中文半结构化医疗 数据特点的智能化信息处理模型及系统。 此外,考虑到结构化后的医疗数 据具有高维度、高复杂度的特点,需要 更加高效的计算技术,自动并行化是解 决这一问题的有效途径之一。Spark 是 由伯克利大学开发的通用分布式内存计 算平台,而弹性分布式数据集 (Resilient Distributed Dataset,RDD) 是 Spark 的最基本抽象,是对分布式内 存的抽象使用,实现了以操作本地集合 的方式操作分布式数据集的抽象实现, 适合优化需要多次迭代操作的机器学习 类算法。因此,半结构化医疗数据的隐 私保护过程完成能够使用 spark 并行计 算,进行高效地资源分配。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 2 研究内容 本文主要解决半结构化医疗数据 共享中的信息抽取、隐私保护、并行化 等关键技术问题,在保证半结构化医疗 数据共享后隐私安全的情况下,提高半 结构化数据的可用性,为临床决策、科 研提供数据资源的支持,构建面向半结 构化医疗数据共享的 BaaS 隐私保护平 台。 (1)面向半Y 构化医疗数据 的信息抽取技术及医学术语知识库的构 建 建立服务于机器学习算法的中文 医学术语知识库是信息抽取技术的基础, 利用统计学方法学习标记好的语料库、 获取规则、建立类似 UMLS 的中文医学 术语知识库。标注少量医学病历作为统 计学方法的训练集;探索适当的可用于 医学问题识别的统计学算法;构建一个 可以表明人物及其相应医学问题的信息 表示方案;各部分研究间的关系可以构 成一个信息抽取系统。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 (2)隐私保护算法的自动并行 化技术 引入 Spark 技术,Spark 使用基 于内存计算的并行化计算模型弹性 分布式数据集(resilient distributed datasets,RDD) ,提供强大的分布式内 存并行计算引擎,支持快速迭代计算, 将机器学习应用到常规并行化策略上, 能够进一步提升训练速度。首先采用合 理智能算法以及不同训练集对各个 k-匿 名算法进行测试训练,检测不同算法较 为费时部分;其次测试该部分能否进行 分布式计算法;最后 Spark 平台进行分 布式运算会涉及到通信开销,智能算法 训练各 k-匿名算法,给定各算法进行分 布式所需要的数据集阈值。对 k-匿名算 法设计采用了并行化局部优化的迭代计 算模式,有效提高匿名效率。 (3)构建面向半结构化医疗数 据的分布式隐私保护 BaaS 平台 构建面向结构化医疗数据的分布 式隐私保护 BaaS 平台,该平台应具备 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 上载结构化数据集和半结构化数据集、 连接数据库、医学数据信息抽取模块、 隐私保护模块、提供 k-匿名算法的 Rest-API。平台内含自建中文临床子语 言语法规则及医学术语知识库,为信息 抽取的精确性提供知识储备及技术支持。 隐私保护模块能够按需求进行全域 k-匿 名或局域 k-匿名的选择、具体实现 k-匿 名算法的选择、隐私保护模型的选择, 同时该模块具有是否使用分布式计算的 选项。 3 研究方法 首先建立医学术语知识库及命名 实体规则库,对半结构化医疗数据进行 信息抽取,测试抽取信息的准确性。对 抽取后的结构化数据匿名,测试 k-匿名 算法的功能及其使用范围。挖掘匿名前 后数据所包含的信息,对比挖掘结果, 对匿名后的数据集进行信息损失量的度 量,给出 k-匿名算法的评估标准。为节 省处理数据的时间,准确找到各算法适 合的分布式计算模块,在 k-匿名算法功 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 能测试后,使用训练集对各 k-匿名算法 的代码模块进行训练,分析每个程序段 的运行时间,探寻各个方法的运行时间、 次数等统计信息,并采用深度贪婪算法 迭代统计含子程序的代码段的运行时间, 找出算法最耗时模块,对该模块进行分 布式处理,使其单线程计算变为并发式 计算。 使用 GATE 程序对半结构化程序 进行信息抽取,GATE 的抽取信息的准 确性高达 97.58%,处理速度为 31.5KB/s,完全可以满足现有情况下的 信息抽取要求。选择匿名模型及匿名算 法,利用匿名算法处理抽取后的结构化 数据,完成匿名。如果选择的匿名算法 匿名后的数据集不符合要求,则重新选 择匿名算法进行匿名数据集,直到匿名 后的数据集满足隐私保护和数据可用性 的双重要求。同时,在匿名化之前,根 据已训练出的参数进行分布式需求判断, 如果分布式较为节省时间则采用分布式 计算,如果因为分布式处理的通信开销 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 造成时间浪费,则采用单线程处理数据。 4 实施方案与研究步骤 第一步:关键词提取,分词处理 是识别半结构化医疗数据的第一步 (1)自主收集和制作中文词表; (2)编写针对中文特性的规则。 该方法不但可以准确地抽取出个 人信息,而且因其包含的 ICD-10 词库 可以把半结构化数据中包含的疾病、诊 断、健康状况信息转化为结构化数据, 方便对半结构化数据的挖掘,进一步提 高了半结构化数据的价值。 第二步:半结构化医疗数据隐私 保护处理 针对提取出的个人信息,例如住 址、年龄、提问等信息,本文将采用 k- 匿名模型对其进行匿名化理。考虑到 k-匿名是把精确数据模糊化,因此,该 方法匿名的数据集会产生一定的信息损 失,对此本文采用 IL 评估方法对匿名 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 表进行信息损失量的判断。为了更好的 进行隐私保护,在 k-匿名模型的基础上 引入 l-diversity 模型、t-closeness 模型对 其进行匿名化操作。 第三步:Spark 分布式并行化算 法处理技术 k- 匿名算法是需要多次对数据操 作即多次访问 I/O 端口,故可以通过减 少 k-匿名时的 I/O 操作较少匿名化时间, 本文采用 Spark 平台,把数据存储在内 存中,避免不断从硬盘读取数据,节省 访问 I/O 端口的通讯时间。考虑到 Spark 计算本身具有通信开销,当数据 量较小时,使用 Spark 分布式进行 k-匿 名算法可能会形成时间上的浪费。因此, 本文使用不同大小的训练集、不同属性 大小的训练集和不同泛化规则的训练集 不断进行训练,找出来各 k-匿名算法使 用 Spark 平台可以减少时间阈值5。在 阈值之内的数据集,将会建议采用单线 程计算以节省时间和资源,大于此阈值 的数据集,将会合理的给出分布式计算 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 意见。 第四步:构建面向半结构化数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论