论文基于“强”规则匹配技术的临床数据处理应用与实践.docx_第1页
论文基于“强”规则匹配技术的临床数据处理应用与实践.docx_第2页
论文基于“强”规则匹配技术的临床数据处理应用与实践.docx_第3页
论文基于“强”规则匹配技术的临床数据处理应用与实践.docx_第4页
论文基于“强”规则匹配技术的临床数据处理应用与实践.docx_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于“强”规则匹配技术的临床数据处理应用与实践摘要:临床数据处理的关键是如何定义清晰的数据处理边界,建立“强”规则匹配方法,以保证数据提取的准确性及具有极少的“冗余”度,完成“数据”向“信息”的转换,形成应用价值。本文作者及合作团队,通过对国内6所大型三级甲等医院,不同疾病类型临床数据处理方法的研究,解决了信息模型构建、临床专业词库形成、临床信息提取等技术难题,形成了具有较强应用价值的基于大数据的临床质量管理和科研数据支撑系统。比较结果证明,针对信息模型中数据项,原始病历的人工阅读结果与专用信息提取工具结果间的误差能够控制在2%以内。关键词:临床数据 自由文本 医学分词 信息提取Application and Practice of Clinical Data Processing Based On Strong Rule Matching TechnologyAbstract: The key of Clinical data process is how to define clear data boundary and establish strong rule matching method,so the accuracy of the data extraction result and few redundant can be ensured. Based on this, we can complete the transition of Datato Informationandformat the data application value. Authors of this paper and cooperative team have worked on different type disease clinical data in 6 third class A hospital. This paper solvedthree main problems in clinical data process, the construction of informationmodel,the construction of clinical professional lexicon and the construction of clinical semantic model. Wedeveloped a clinical quality management and scientific research data support system. The comparison results prove that the error between the manual reading result and the computer auto extraction result can be controlled within 2%.Key words: Clinical Data, Free text, Medical Word Segmentation, Information extraction1 引言从20世纪末大数据搜索技术出现以来,“数据”演变成更有价值的“信息”才具备了现实可行性。但是,基于“弱”规则匹配建立专业数据处理工具,将会给后期数据利用带来比较繁琐的人工去“冗”过程,从而造成处理效率和“信息”的准确性显著下降1。“强”规则匹配的关键是:基于闭合信息模型,针对大量自由文本表达的非结构化数据,通过信息提取设计,完成其中信息实体的的准确提取与转换。本文在借鉴大数据处理技术的基础上,通过临床子语言特征的分析,构建出一套经济性、实用性较强、基于临床专业词库和语义模式库的自由文本信息提取模型,并采用了监督算法(最大期望(EM)准则、有序聚类)2,有效保障了服务于医学专业分词器的临床专业词库的完整性和准确性。同时,通过自抽样方法有效保障了服务于语义分析程序的语义模式库的完善3,从而满足了数据规模上升和数据多样化特征下的语义判别收敛和信息提取。2 临床数据的基本特征2.1 临床数据多源化。中国医院信息化发展已经历了20余年的历程,从着眼于流程和计费管理的HIS到目前广泛应用于记录临床过程和结论的电子病历系统(EMR)、实验室系统(LIS)、放射系统(RIS)、影像系统(PACS)、护理系统(NIS)、手麻系统(OAS),众多临床系统以结构化或非结构化形式记录了各类临床数据,临床数据分类与医院临床信息系统(CIS)的对应关系如表1所示。表1 临床数据分类与信息系统对应关系表健康状态检查/检验治疗物理对象语境疾病症状体征评估负性事件影像检验病理药物手术物理护理部位装置器械置入物地点时间人物HISEMRNISLISRISOAS2.2 临床信息表达非结构化4。在众多CIS中,临床记录最完整的电子病历(EMR)系统只是做到了以病历模板为基础的存储结构化,并没有做到语义上的结构化,同样的问题也存在于其它各类CIS中。2.3同类信息的表达多样化。同一项信息由于记录者习惯不同,在表达方式上也不完全一致,例如:对于家族史的表达,在“入院记录”中,有的记录为:“家族史:高血压、糖尿病”,有的记录为:“否认以下家族史:高血压、糖尿病”,多类表达需要后期处理为同一表达方式:病案号+家族史代码+结果,如:“1001922404:HH012:0”;2.4数据量大,信息价值密度低。临床数据体量巨大,积累速度快但其中关键环节信息量有限,很多关键信息需要多源关联化判决,所以从低价值密度大体量数据中提取关键信息成为临床数据处理的关键。2.5信息表达模式化较强。虽然面临多样化问题,但由于医生自身的专业训练,在表达模式上变异有限,如症状的表达基本上是:身体部位+描述(“上肢可抬举”,“言语笨拙”),排除症状是“否认|无”+描述(“否认发热,无糖尿病史”),这种表达模式为基于“强”规则的信息精确提取提供了便利。3 临床信息模型建设为达成狭义自由表达下的临床“数据”向临床管理和科研需求释放出可高度匹配的“信息”,需要针对不同应用需求建立准确的“信息”模型,目的是为后续的数据处理清晰界定取样边界,这是最终实现临床数据语义准确性和完整性的基础,也是计算机识别和处理临床数据的重要前提。本文针对急性冠状动脉综合症、缺血性卒中、结直肠癌根治术、浸润性乳腺癌根治术、重症感染、社区获得性肺炎等6种重大疾病的过程质量监测和管理需求,通过阅读和分析大量的国内外医学文献,在中华医学会心血管分会、神经内科分会、重症医学分会、呼吸病分会和肿瘤分会结直肠癌学组、乳腺癌学组专家的指导和帮助下,建立了与临床“质量”管理高度相关的标准诊疗路径和监测、评价指标集,依据各评价指标集总结相关数据项边界,并为各数据项制订相应的提取规则,例如:在ST段抬高性急性冠状动脉综合征(STEMI)中,数据边界之一为:“急诊PCI冠脉造影成功比率”5,需要提取:是否行急诊PCI、是否行冠脉造影术、术后TIMI血流级别、术后血管狭窄程度等数据项,其分别位于手术记录、术后小结、出院记录等病历文书中,结果表达方式为“0|1”、数值、百分比,这类数据项定义及其表达方式构成了临床应用的信息模型。4 临床数据处理系统架构临床信息提取系统架构如图1所示。图1 临床信息处理系统架构图其中:医学分词程序:结合医学词库,将临床自由文本分解成独立词语;信息实体识别:由于医学词库是支撑医学分词准确度的基础,但初期不可能建设完善,而信息实体识别可以初步判断词库中的未登录词,由于涉及临床专业性,必须要对训练语料中识别出的信息实体进行人工判别,并加入标注,然后将新产生的标注词汇放入医学词库,这样经过一定数量语料的训练,可以极大提高医学分词的准确性;语义分析程序:针对医学分词结果,结合临床语义模式库,其中的信息实体取出,经过字典对照、格式转换等,进入临床主题数据库存储;临床主题数据库(EDR):由于医学专科和疾病种类较多,各专科、各病种在临床数据需求上差异较大,所以临床数据服务应以病种为分类标准构建主题数据库6,从而能够更好地支撑临床数据二次应用。5 临床数据处理技术在临床数据处理过程中,最棘手的环节是将临床自由文本记录经过语义分析与判别,转化为具有结构化、代码化、一致化特征的信息实体,本文基于临床子语言分析和临床大数据特点,在临床信息实体提取模型构建方面建立出一套具有高度可操作性的方案,其中重解决了医学专业分词和临床语义判别两项关键技术。5.1建立医学专业分词器建立医学专业分词器的主要目的是完成临床专业词库的构建,为信息模型中数据项的语义判别提供数据基础。其中关键在于保障词库的准确性和完整性。本文所建立的医学专业分词器包括:分词程序、通用词库(百度)、辅助专业词库(SNOMED:医学标准术语集)7、临床专业词库。其中对于临床自由文本分词结果的准确性影响最大的是临床专业词库,在临床表达上,各医院、各专科、各病种的不尽一致,尤其在专科间、病种间区别较大,由于本系统旨在建立基于单病种的临床质量监测,所以临床专业词库的建设也相应以单病种做了逻辑区分。其建设步骤如下:第一、基于通用词库,针对临床文本训练语料进行初步的切分;第二、针对初分结果,通过 EM 算法迭代地学习词频,再按照最大似然原则进行分词调整;第三、对于调整结果,筛除通用词库中已包含词语,对余下结果,计算其良度和长度等信息,通过有序聚类算法进行排序,并选取前列词语作为未登录词,从而达到识别未登录词的机器学习目的;第四、对于机器学习的未登录词进行人工标注,标注结果进入临床专业词库;第五、对以上过程进行迭代,直到未登录词占临床专业词库比例下降到1%以内;第六、利用以上方法形成的临床专业词库,合并通用词库和辅助专业词库,采用正/逆向最大匹配方法,对应用语料进行分词。结果:采用以上方法,基于6所医院,针对STEMI病种,对照组纳入600份病历作为训练语料,共计形成了2835个专业词语,并采用测试组1000份病例进行了人工校验,分词准确度达到97%。5.2 建立临床语义模式库和语义判别程序语义模式是对词语顺序、距离、结果表达的综合标注,临床文本一般采用半结构化的方式组织内容,语言模式化较强,有利于进行语义模式判别,即便如此,由于临床文本专业性强,不同专科和病种的语义模式不尽相同,进行人工语义模式标注需要一定的医疗知识背景,不同医生,由于个人的医学基础和临床经验差异,标注结果也难以一致,因此,标注前需要制定详细的标注规范,并对参与人员进行详细培训,在标注的过程中还面临着规范的不断调整,由于以上原因,直接构造临床语义模式库将会代价昂贵。本文采用有监督学习(自抽样算法)的方法,可以利用少量的训练语料形成初始语义模式库,满足一定准确度要求的识别结果,从而大大降低构建成本。具体步骤如下:第一、基于分词结果,针对训练语料,人工判读形成种子模式实体;第二、将种子模式实体投入语义模式库,再次针对训练语料,从包含实体的句子中提取文本模式,并对所有模式进行评分,选择出得分最高的若干模式加入语义模式库中;第三、迭代第二步,直到在训练语料中不再发现新的语义模式;第四、针对语义模式库中的语义模式,人工判别真伪并进行标注,形成正式语义模式库;第五、基于临床应用的信息模型,针对应用语料进行语义模式判别。结果:采用以上方法,基于六所医院的临床数据,针对STEMI病种,对照组纳入600份病历作为训练语料,共计形成了189种语义模式,并采用测试组1000份病例进行了人工校验,语义模式判别准确度达到95%。6 应用情况本文作者及其合作团队,先后在六所合作医院,针对六种不同种类疾病,通过应用“强”规则匹配方法,编制完成了数据处理程序,实现了自由文本表达的非结构化数据的提取、转换和加载,并且,通过数据分析结果的呈现,帮助合作医院建立了医疗服务过程中医护人员非致死性行为缺陷的监测和管控体系,有效提升了医院精细化管理的水平。参考文献1 张华平,高凯. 大数据搜索与挖掘M. 北京:科学出版社,2013:1-273.2 周鑫. 半监督算法在自然语言处理中应用的研究D. 哈尔滨工业大学,20143 王玉荣,钱学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论