面向中文电子病历NLP关键技术研究_第1页
面向中文电子病历NLP关键技术研究_第2页
面向中文电子病历NLP关键技术研究_第3页
面向中文电子病历NLP关键技术研究_第4页
面向中文电子病历NLP关键技术研究_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、面向中文电子病历的面向中文电子病历的nlp关键技术关键技术研究研究2014年4月13日copyrights 2014 hitall rights reserved蒋志鹏蒋志鹏 关毅关毅哈尔滨工业大学计算机学院哈尔滨工业大学计算机学院xyf-电子病历(emr)l医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录2014年4月13日copyrights 2014hitall rights reserved中文电子病历(cemr)l对患者身体状况的半结构化专业描述2014年4月13日copyrights 201

2、4hitall rights reserved中文电子病历(cemr)l医疗大数据每天约800份每月约15000份每年约15万份2014年4月13日copyrights 2014hitall rights reserved02468101214162003200420052006200720082009201020112012住院病历数量(万)住院病历数量(万)年份年份中文电子病历(cemr)2014年4月13日copyrights 2014hitall rights reservedl目前在cemr方面展开的研究工作cemr句法树库构建句法树库构建2014年4月13日copyrights 2

3、014 hitall rights reserved 语法标注规范制定语法标注规范制定 语法标注结果及分析 高精度词性标注系统语法标注规范制定2014年4月13日copyrights 2014hitall rights reservedl基于pctb规范进行迭代修订人机互助医生协助一致性评价语法标注规范制定2014年4月13日copyrights 2014hitall rights reservedl规范中一些重要修订 筛选、补充、细化pctb词性标注规范 例如,“伴有视物模糊”中的“视物” 提出适用于cemr的术语切分方案 pctb:“吃饭”不切分,“吃梨”“吃桃”切分 cemr:“持物”“

4、抗凝”是否切分?以“抗凝”为例:语法标注规范制定2014年4月13日copyrights 2014hitall rights reservedl标注质量控制表1 规范修订前后主要词性歧义项分布表2 前3次迭代分词和词性标注准确率及一致性pctb词性标注规范面向电子病历的词性标注规范歧义项数量歧义项数量nnvv89nnvv47jjlc72nnm15mlc64jjnn9nnva63nnva9jjnn37ndnn6迭代次数中文分词词性标注a1 f1值(%)a2 f1值(%)iaa(%)a1 precision(%)a2 precision(%)iaa(%)196.7692.2796.5396.688

5、8.5389.25295.5196.9497.8997.3697.8195.18398.4996.4798.2597.8097.6095.60语法标注规范制定2014年4月13日copyrights 2014hitall rights reservedl分词、词性标注、句法标注规范语法标注规范制定2014年4月13日copyrights 2014hitall rights reservedl标注结果 138份带有词性、句法标签的电子病历 来自神经内科和普通外科 包括出院小结和首次病程记录语法标注规范制定2014年4月13日copyrights 2014hitall rights reserve

6、dlcemr句法树库构建的主要困难:目前没有任何基于cemr的标注语料各级标注均需要医生的参与不同医疗机构、不同科室病历差异较大cemr句法树库构建句法树库构建2014年4月13日copyrights 2014 hitall rights reserved 语法标注规范制定 语法标注结果分析语法标注结果分析 高精度词性标注系统语法标注结果分析2014年4月13日copyrights 2014hitall rights reservedlcemr文本语言的特点:包含大量专业术语(如“共济运动”、 “脑梗死”)、习惯用语(如“伴”、“否认”)及缩略词(如“ct”、“mmr”)常用数字、量词和形容词

7、表示检查结果(如“100/70mmhg”)句子结构不完整,但规律性较强频繁使用并列长句,导致句法结构趋于扁平语法标注结果分析2014年4月13日copyrights 2014hitall rights reservedl通用标注模型效果 词性标注 平均准确率仅为 82.35% fig.2a 出院小结各部分标注效果 fig.2b 首次病程记录各部分标注效果 语法标注结果分析2014年4月13日copyrights 2014hitall rights reservedl通用标注模型效果句法分析 f1(auto pos) :53.58% f1(gold pos) :73.19%fig.3a 出院小结

8、各部分标注效果 fig.3b 首次病程记录各部分标注效果0102030405060708090100诊疗计划鉴别诊断诊断依据临床初步诊断病例特点主诉词性标注句法分析0102030405060708090100出院医嘱治疗效果出院时情况治疗经过入院时情况临床确定诊断临床初步诊断门诊收治诊断住院起止日患者信息词性标注句法分析语法标注结果分析2014年4月13日copyrights 2014hitall rights reserved实验数据:训练集:56份中文电子病历调试集:14份中文电子病历实验结果:corpuscorpuspos(%)pos(%)parse(%)parse(%)cemr(gro

9、upcemr(group) )93.5993.5980.6880.68cemr(allcemr(all) )93.7693.7680.3680.36cemr(singlecemr(single) )93.5393.5380.1180.11pctbpctb77.6877.6853.5853.58* * cemr(all) cemr(all)85.9485.9468.4668.46cemr句法树库构建句法树库构建2014年4月13日copyrights 2014 hitall rights reserved 语法标注规范制定 语法标注结果及分析 高精度词性标注系统高精度词性标注系统系统处理流程20

10、14年4月13日copyrights 2014hitall rights reserved111中文分词与词性标注的联合模型2014年4月13日copyrights 2014hitall rights reserved感知器算法感知器算法输入:输入:训练样本;迭代次数t 初始化:初始化: 参数向量0 训练过程:训练过程:for t = 1.t, i = 1.nl 使用beam search 算法找到当前参数下满足下面条件的标注序列ssszninizmaxarg: 1l 如果inniitz: 1: 1则更新参数向量sgoldsss_输出:输出:参数向量基于转移的错误驱动模型2014年4月13日c

11、opyrights 2014hitall rights reserved提出适用于cemr的转移模板扩展经典的训练算法: 1. 以转换前为当前词的规则 2. 以转换前为条件的规则 3. 以转换后为当前词的规则 4. 以转换后为条件的规则实验结果及分析2014年4月13日copyrights 2014hitall rights reserved实验数据:训练集:pctb语料+110份中文电子病历调试集:14份中文电子病历测试集:14份中文电子病历实验结果标注模型标注模型分词(分词(f1)词性标注(词性标注(f1)wi postagger94.39%93.20%词网格模型90.45%89.05%基

12、于字的模型90.15%88.73%管道式模型84.15%82.11%cemr实体和实体关系语料构建实体和实体关系语料构建2014年4月13日copyrights 2014 hitall rights reserved 实体标注语料规模和科室分布实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定实体标注结果及评价实体标注语料规模2014年4月13日copyrights 2014hitall rights reservedlcemr实体标注语料规模原始语料:2012全年的电子病历,共144230份,来自35个科室,87个子科室已校对语料:3085份中文电子病历,按照上述子科室平均抽

13、取已标注语料:991份中文电子病历,包含为479420个字符,35327个实体实体标注语料科室分布2014年4月13日copyrights 2014hitall rights reservedlcemr实体标注语料分布血液内科妇产科心血管内科普通外科已已标注的病历数量分布图标注的病历数量分布图妇产科心血管内科普通外科未标注的病历数量分布图未标注的病历数量分布图cemr实体和实体关系语料构建实体和实体关系语料构建2014年4月13日copyrights 2014 hitall rights reserved 实体标注语料规模和科室分布 标注语料中实体的统计分析标注语料中实体的统计分析实体标注规范

14、制定实体标注结果及评价标注语料中实体的统计分析2014年4月13日copyrights 2014hitall rights reservedl对比cemr和开放领域语料的实体密集度开放领域语料:met-2中的中文新闻语料,共104个文档16.21%83.79%开放领域语料开放领域语料实体非实体30.72%69.28%中文电子病历中文电子病历cemr实体和实体关系语料构建实体和实体关系语料构建2014年4月13日copyrights 2014 hitall rights reserved 实体标注语料规模和科室分布标注语料中实体的统计分析 实体标注规范制定实体标注规范制定实体标注结果及评价实体标

15、注语料构建团队2014年4月13日copyrights 2014hitall rights reservedl语料构建团队研究室成员:2名博士生,1名硕士生主要负责标注规范初步制定、实体关系标注参与标注的医生:哈医大四院神经内科医生(硕士)哈医大二院呼吸内科医生(博士)主要负责标注规范修订、实体标注和标注人员培训实体标注规范制定2014年4月13日copyrights 2014hitall rights reserved实体标注规范制定 实体标注培训the realization of chinese interface for umls2021-10-122014年4月13日copyrigh

16、ts 2014hitall rights reserved实体标注规范制定lcemr实体和实体关系标注规范cemr实体和实体关系语料构建实体和实体关系语料构建2014年4月13日copyrights 2014 hitall rights reserved 实体标注语料规模和科室分布标注语料中实体的统计分析实体标注规范制定 实体标注结果及评价实体标注结果及评价the realization of chinese interface for umls2021-10-122014年4月13日copyrights 2014hitall rights reserved实体标注结果lcemr实体标注样例t

17、he realization of chinese interface for umls2021-10-122014年4月13日copyrights 2014hitall rights reserved实体标注结果lcemr实体关系标注样例实体标注语料一致性评价2014年4月13日copyrights 2014hitall rights reservedl正式标注质量控制实体标注语料一致性评价2014年4月13日copyrights 2014hitall rights reservedl评价标准实体边界匹配实体边界、实体类型匹配实体边界、实体类型、实体修饰类型匹配iaakappa类型类型修饰修

18、饰边界边界+类型类型+修饰修饰186.7%98.0%95.5%73.6%293.9%97.5%95.7%85.4%394.2%98.4%96.5%86.4%其他研究工作2014年4月13日copyrights 2014hitall rights reservedcemrphkumls个性化健康信息抽取个性化健康知识表示个性化健康知识维护已录用文章2014年4月13日copyrights 2014hitall rights reservedxinbo lv, yi guan, benyang deng. transfer learning based clinical concept extraction on data from multi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论