




已阅读5页,还剩49页未读, 继续免费阅读
(生物医学工程专业论文)基于自然语言处理技术的消化科内窥镜检查报告的结构化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 验数据,得到的叙述性报告转化到m s t 结构化报告的准确率为9 2 3 。从最初 的设计到应用于实际这一过程证明,本论文提出的基于自然语言处理技术的消化 科内窥镜检查报告的结构化,方法简单,能够比较有效地完成叙述性报告到结构 化报告的转化,为实现电子病历的结构化,提供了一种尝试性的方案。这种方法 可以应用于电子病历的其他部分,最终能够实现电子病历的完全结构化、标准化。 关键字:自然语言处理,m s t ,语义网络,结构化,消化科内窥镜检查报告 f l l 浙江大学硕七学位论文 a b s t r a c t t h ep a t i e n t r e c o r di st h em a i nc a r r i e ro fm e d i c a li n f o r m a t i o ni nt h ep r o c e s so f h o s p i t a lm a n a g e m e n t i ti sn o to n l yt h ef i r s t - h a n dd a t ao ft h em e d i c a lt r e a t m e n ta n d s c i e n t i f i cr e s e a r c hb u ta l s ot h ee v i d e n c eo ft h ei n t e g r a t i v ee v a l u a t i o nf o rm e d i c a l q u a l i t y , t e c h n o l o g ya n dm a h a g e m e n tl e v e l i fy o uw a n tt oo b t a i nd o c u m e n t sw i t h s o m ed e f i n i t ec o n d i t i o no u to fal a r g en u m b e ro fm e d i c a ld o c u m e n t sa n dt op e r f o r m a n a l y z i n ga n ds u m m a r i z i n go ni t , f o re x a m p l e ,t oi n v e s t i g a t et h er o l e ss u c ha st h e r a n g eo ft h ea g ea n dz o n eo ft h ep e r s o ni n f e c t e db yc e r t a i nd i s e a s e , t h er e l a t i o n s h i p b e t w e e nt h es y m p t o m sa n dd i s e a s e s ,a n a l y s i so ft h et e x tr e p o r ti sn e c e s s a r y m e d i c a l r e c o r di su s u a l l yi n p u t t e dw i t hn a t u r a ll a n g u a g ef r e e l yb yd o c t o r s a n dt h i sm e t h o d l e a d st om a s s i v en a r r a t i v er e p o r t t h eh o s p i h a li sas p e c i a lf i e l da n dt h ed a i l y i n f o r m a t i o nv o l u m ei sb i g ri sv e r yd i f f i c u l tt oo b t a i n ,i n q u i r ea n da n a l y z er e l a t i v e i n f o r m a t i o nf r o mal a r g en u m b e ro ff r e e t e x tm e d i c a ld o c u m e n t s o nt h eo t h e rh a n d , m a s s i v en o n s t r u c t u r e da n dn o n - s t a n d a r d i z e dt c x ti n f o r m a t i o na b r n d o n st h e i n f o r m a t i o ns h a r ea n ds t a t i s t i c sb e t w e e nh o s p i t a l s s oi ti ss i g n i f i c a n tt os t u d yt h e s t m c t u r i z a t i o no fm e d i c a ld o c u m e n tb a s e do nn a t u r a ll a n g u a g ep r o c e s s i n g a t p r e s e n t , t h e e m rr e s e a r c h e r s d e v e l o pm a n ym e t h o d s t or e a l i z et h e s t r u c t u r i z a t i o no fm e d i c a ld o c u m e n t s t h es t r u c t u r e de n t r yi sap o p u l a rm e t h o d ,b u ti t c a nn o te x p r e s sa l ls e m a n t i ci n f o r m a t i o nt h a tc a nb ee x p r e s s e db yn a t u r a ll a n g u a g e 。 t h i sd i s s e r t a t i o nr e s e a r c h e st h es t r u c t u r i z a t i o nm e t h o df o rf r e e t e x tm e d i c a lr e c o r d s w i t ht h ee x a m p l eo ft h ed i g e s t i v ee n d o s c o p yr e p o r t s t h ec o n t e n t sa r el i s t e db e l o w : a n a l y z ea n dc o m p a r et h ee x i s t i n ga u t o m a t i cp a r t i c i p l et o o l s , s e l e c ta n d i m p l e m e n ti c t c l a s a sp r i m a r yt o o lt od i v i d ew o r d si nf r e e - t e x tr e p o r t s a d j u s ta b o v ep r i m a r yp a r t i c i p l er e s u l t u s i n gt h es p e c i a ld i c t i o n a r y , d i s t i n g u i s ht h em s ts t a n d a r dt e r m i n o l o g y ,a sw e l l a st h o s ec a nb e t r a n s f o r m e dt om s tt e r m i n o l o g y a n a l y s i st h es t r u c t u r a lc h a r a c t e ra n dc o n n o t a t i v er e l a t i o n s h i po fm s t b a s e d o nt h eu m l sm e t a t h e s a u r u sa n ds e m a n t i cn e t w o r k , e s t a b l i s ht h em s t s e m a n t i c sn e t w o r kk n o w l e d g el i b r a r y a n a l y z et h ep a r t i c i p l er e s u l tt e x to fg a s t r o s c o p yr e p o r t , a n dt h e nt r a n s f o r m t h e mt os t r u c t u r a lr e p o r t ss a t i s f i e dm s ts t a n d a r d , w h o s ea c c u r a c yr a t ei s 9 2 3 i ti sp r o v e dt h a to u rm e t h o di se a s ya n de f f e c t i v ea n di tp r o v i d e sa ne x p e r i m e n t a l p l a nf o rt h es t r u c t u r a la n ds t a n d a r de l e c t r o n i cg a s t m s c o p yr e c o r d f u r t h e r m o r e ,i tc a l l 浙江大学硕士学位论文 b ea p p l i e di no t h e rp a r t so fe l e c t r o n i cr e c o r d st or e a l i z et h e i rs t r u c t u a l i z a t i o na n d s t a n d a r d i z a t i o n k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g , m s t , s e m a n t i cn e t w o r k , s t m c t u r i z a t i o n , d i g e s t i v ee n d o s c o p yr e p o r t v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得盘鎏盘茎或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说 明并表示谢意。 学位论文作者签名:猁,签字日期:弦卵年,月7 日 学位论文版权使用授权书 本学位论文作者完全了解澎婆盘茎有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权迸鎏盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:雹暧冀 签字日期:州年f 月_ 7 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签昏吕衙 签字日期:纠年6 月7 日 电话: 邮编: 浙江大学硕士学位论文 致谢 致谢 光阴荏苒,在浙江大学生物医学工程与仪器科学学院攻读硕士学位的生活即 将结束,这标志着我的学生生涯即将画上一个圆满的句号。两年的学习时间,在 汲取专业知识的同时,老师的悉心教导,同学的真诚相助,家人朋友的支持,更 让我终身难忘。 值此论文完成之际,首先要感谢我的导师吕旭东副教授。授人以鱼不如授人 以渔,吕老师学识渊博,治学严谨,视野广阔,思想深邃。我耳濡目染,不仅接 受了全新的思想观念,领会了基本的思考方式,掌握了通用的研究方法;更令我 受益的是吕老师以他的平易近人、言传身教,用他的人格魅力,让我克服困难、 积极迸取,更让我对未来的职业生涯充满了希望与信心。我会牢记吕老师的教诲。 在将来的工作生涯中展翅飞扬。在此向吕老师表示诚挚的敬意和感谢,并送上我 最衷心的祝福。 感谢段会龙教授和李吴曼师兄,他们对我的影响令我受益匪浅。段会龙教授 对问题的分析、处理能力,对新知识、新技术的快速理解掌握能力、广博的知识, 都给我留下了深刻的印象。而李吴曼师兄,他独立解决问题和知行合一的能力在 潜移默化中深深的影响了我。感谢他们平时在课题上给予我的指导和帮助,感谢 他们为本论文撰写提出的很多有益建议。 感谢实验室的刘鹏飞、黄正行,邓宁师兄,周幼静师姐在平时对我的帮助: 感谢李悦溪、姜涛、郭玮、吕颖莹、李珍珍、李广望、马振宇等,在你们身上我 学到了很多,能与你们一起工作学习、生活,我感到无比的幸运。 感谢维科软件公司的程贵红、王红霞、龙伟、苏世源、方鹏飞、项惠玲、顾 晓芸、吕广宇、吴小斌等。同时也感谢北京3 0 1 医院提供的实验数据。 感谢我的家人和朋友,他们在精神上和生活上给予我的支持和鼓励,使我有 信心克服一切困难,他们的关爱和支持永远是我不断进取的动力。 最后,向其他所有未提及的关心和支持我的老师、同学和朋友一并表示最真 诚的感谢和祝福。 李俊杰 2 0 0 7 年5 月于求是园 浙江大学硕士学位论文 第一章绪论 1 1 引言 第一章绪论 随着信息化技术在医疗领域的应用,电子病历的开发利用也越来越受到广泛 的关注。电子病历研究的一个重要方面是专业表格或结构化病历的处理问题。随 着病历内容覆盖越来越多,结构化的内容会越来越多,结构化程度会不断细化。 近年来,胃肠道内窥镜检查学成为了现代l i 缶床医学发展最为迅速的学科之一,随 着各种内窥镜检查技术的不断发展,内窥镜检查的地位已从“临床辅助检查手段” 发展成为临床疾病诊断、治疗的主要方法之一,内窥镜检查系统也随之成为医学 信息系统研究中的热点所在。消化科内窥镜检查报告也成为电子病历不可或缺的 一部分,同样也应当适应这种要求。 诊断报告作为内窥镜检查诊断治疗过程中产生的记录,是非常重要的医学报 告文书,具有重要意义。首先,诊断报告是重要的诊断参考资料,临床医生需要 依靠诊断报告的内容对病人采取有效措施,使病人恢复健康。其次,诊断报告是 重要的医学资料,对于医疗科研、教学都有着非常重要的意义。同时,诊断报告 还是重要的医疗证据,在发生医疗事故时,作为具有法律效力的举证材料,诊断 报告对于事故的分析、定性和解决都起到决定性的作用。正是由于上述原因,诊 断报告系统一直在内窥镜检查系统中扮演着重要的角色。 目前;在实现结构化方面,电子病历的研究开发人员设计了不同的方法,但 大多是采用结构化表单录入的方式,但是这种方式并不能达到自然语言表达中的 所有语义信息。并且国内病案书写规范要求语句通顺,且不同医生的描述习惯不 同,导致结构化电子病历长时间以来未能大范围实际应用。根据首都医科大学附 属北京安贞医院以“可灵活编辑的结构化电子病历”的使用情况展开的调查显示 1 1 1 ,还有相当数量的医生为图方便删除部分结构化模板,录入纯文本。例如主诉 模板使用率开始只有5 0 。 医学术语标准化问题也是制约电子病历结构化发展的一个重要问题。尽管目 前在电力病历全领域内并没有一个统一的、完整的易用的、在医生中有广泛培训 基础的分类体系和标准,但是在某些方面已经制定了小范围的标准。如在胃肠道 浙江大学硕士学位论文第一章绪论 消化科内窥镜检查报告方面,欧美地区已经有了一套比较成熟的检查术语标准, b p m s t ( m i n i m a ls t a n d a r dt e r m i n o l o g y ) 1 2 1 。这为消化科内窥镜检查报告的结构化 提供了一个良好的平台。 因此,结构化表单录入不能被广为接受,且不能达到自然语言表达中所有语 义信息的情况下,要实现消化科内窥镜检查报告的结构化,只能通过自然语言处 理技术,按照消化科内窥镜检查标准术语,对纯文本进行分析,实现报告的结构 化与标准化。 1 2 自然语言理解概述 伴随着计算机的日益普及、互联网的迅猛发展,社会的信息化程度越来越高。 自然语言作为信息的重要载体和交流的工具,作为人与机器沟通的最自然方式, 自然语言的计算机处理就显得格外重要【3 l 。 自然语言理解( n i l 椰p ) 卜1 2 】是指研究人类如何使用自身熟悉的本族语言与 计算机进行信息交流,并探索人类自身的语言能力和思维活动的本质。自然语言 是人类社会生活进步和发展的产物,是极其复杂的符号系统,同时在社会生活中 是不断变化的。 现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而 且在可预见的将来也达不到这样的水平1 1 3 1 。在日常的语言理解中,人与人用自 然语言( 包括口头的与书面的) 进行交流并没有困难,这是因为交流是在一定的环 境中进行的,交流双方的知识背景一定有共同的部分,且交流的目的大体上也有 了预设。可见,自然语言的计算机理解和处理是一个涉及了语言学、计算机科学、 逻辑学、心理学、人工智能等领域知识与成果的跨学科研究领域,是一门交叉综 合学科,也是一个十分活跃和富有挑战性的研究课题。 汉语是不同于印欧语系的一种语言,自成一个语族汉语系。在我国改革 开放、与世界接轨的今天,加快对汉语的理解和研究,实现汉语的计算机处理, 通过计算机和i n t e t n e t 最重要的信息载体和信息媒体向世界展示和介绍中国, 有着其十分重要和现实的意义。 2 浙江大学硕士学位论文 第一章绪论 1 2 1 自然语言理解内涵 自然语言理解是人工智能极其活跃的研究领域,也是新一代计算机必须研究 的课题。不同领域的专家和学者从不同的角度、不同的领域和不同的研究立场对 理解作了定义。从计算机科学特别是从人工智能舶观点看,自然语言理解的任务 是建立一种计算机模型,这种计算机模型能够给出像人那样理解自然语言( 即人 们日常使用的语言) 的结果【1 4 1 。 在讨论理解这个概念的时候很难用一个绝对的判断来衡量的。至今,对“理 解”没有一个统一和权威的本质性定义。现在关于计算机对自然语言的理解一般 是从实用的角度和具体的设计系统的功能出发进行评判的。如果计算机实现了人 机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自 然语言理解的能力。 这样,自然语言的理解过程,实质上是把一种表达转换为另一种表达的过程, 选择第二种表达使之与一系列能获得的可执行行为相符。这种转换也可视为映 射,建立自然语言理解系统就是设计映射寻求映射的算法,使机器能够得到 同人在理解上相当的输出,使得对每一个事件都有一合适的行为执行l 玎】。 1 2 2 自然语言理解的发展与现状 1 2 2 1 自然语言理解的发展历程 由于对自然语言理解的需求,因此对自然语言处理的研究在电子计算机问世 之初就开始了。2 0 世纪4 0 年代末期就有学者提出用计算机进行自然语言翻译的构 想,并于5 0 年代初开展了机器翻译试验。第一代翻译系统以词汇转换为主,很少 进行句法研究,还不能称作“理解”到y 6 0 年代,乔姆斯基的转换生成语法得 到广泛的认可,对句子的分析就是利用短语结构规则自顶向下或自底向上地生成 句法树,从而得到句子的句法结构。转换生成文法把机器翻译带入句法分析的时 代,也使得对自然语言的处理上升到新的水平。 由于认识到生成语法缺少表示语义知识的手段,不利于自然语言的理解,在 7 0 年代随着认知科学的兴盛,学者们纷纷从语义的角度出发,提出语义理论,在 3 浙江大学硕士学位论文第一章绪论 自然语言处理中大量引进语义、语境以及语用的分析技术。2 0 世纪6 0 年代末期, m r q u l l l i a n 提出了语义网络理论【堋,用于描述概念之间的关系;c j f i l l m o r e 提 出了格语法1 1 6 1 ,用语义格和深层格框描述句义;1 9 7 3 年,r o g e r s c h a n k 提出了概 念从属理论( c d 理论) f ”,堋,描述句义和语义;1 9 7 5 年,m a r v i nm i n s k y 提出了框 架理论【1 9 1 ,用于描述事物或概念状态。 这些理论经过各自的发展,逐渐开始趋于相互结合。 n 8 0 年代一批新的语法理论脱颖而出,具有代表性的有词汇功能语法( l f g ) 、 功能合一语法( f u g ) 、广义短语结构语法( o f s 等。这些基于规则的分析方法虽 然基本上掌握了单个句子的分析技术,但是还很难覆盖全面的语言现象,特别是 对于整个段落或篇章的理解还无从下手。 9 0 年代,在自然语言处理领域中,出现了基于语料库的方法,对大规模真实 文本进行处理。这些方法包括统计的方法、基于实例的方法等。通过词法、句法、 语义等多层次的加工,从未经处理的生语料中获取各种语言知识、情景知识和语 境知识等,然后利用这些知识对语言进行分折理解。因此基于知识的方法成为主 流的发展趋势。 从整个自然语言理解的发展历程来看,自然语言理解经历了从单单依靠语法 规则到语义分析与句法相结合,最后将知识作为一个重要方面来帮助消除歧义的 过程。 1 2 2 2 现代汉语的研究现状 正是由于汉语的计算机处理的难点没有统一的定式,要进一步探索和研究, 所以面向专业领域的自然语言理解分析研究成为中文信息处理的一个研究方向。 汉语研究基本上都是从概率统计向着汉语的语义研究方向发展。语义是汉语 理解的一条“蹊径”,以词义为基础,与句法、规则结合,以句为突破的单位。 国内主要对汉语的信息处理的研究项目主要有以下三个流涮刎。 第一是以传统计算语言学为基本理论,即词一短语一句一句群一篇章,是基 于西方语言而建立的,以语料统计为基础,结合语言规则,其总体与汉语实际不 适应。 第二是黄曾阳先生提出的概念层次网络理论( 1 n c 理论) 2 1 1 。h n c 强! 论认为, 4 浙江大学硕士学位论文第一章绪论 自然语言理解的关键是描述人的语言感知过程的适当模式,试图建立一种模拟大 脑语言认知过程的自然语言的计算机理解处理模式。h n c 把自然语言要表述的 知识划分为概念、语言和常识三个独立的层面,并为此建立不同的知识库,通过 建立局部和全局两类联想脉络来帮助计算机理解自然语言。 第三是基于内涵模型论的语义分析,该理论是由陆汝占教授提出的。该理论 设计将汉语表达式抽象成数学表达式,恰当地表示内涵和外延义,然后把这些语 义表示在计算机内进行处理,亦即把汉语表达式与计算机数据结构之间直线联 结,改变为汉语表达式抽象数学表示数据结构三者的间接联结。具体设 想是:先构造一种句子的逻辑式之同的中介形式“函子”( f u n c t o r ) ,以表示谓语动 词连同支配成分一起构成的语句核心,表现句义的基本要素。函子加上时态、模 态算子就可以表示语态,构成句子的基本逻辑含义。 以上对汉语的研究面临着不同的问题。第一个流派较好地处理了汉语的表层 语法结构,但是面l 晦着如何集成和如何解决词义、句子问题;第三个流派,理论 设计还较粗略,趋向于把自然语言的表示数学化,虽然用这一理论已经解决了一 些实用问题,但是对自然语言本身的理解做的不够,要证明它可以适用于整个现 代汉语,还需要进一步推敲、实验、细化。 1 2 3 自然语言理解难点与特点分析 1 2 3 1 自然语言理解的难点分析 计算机要智能化,语言研究要现代化,语言学和计算机科学的结合是历史发 展的必然趋势,这种结合存在一定的难度和问题。主要是自然语言的本身具有不 同与计算机的形式语言的特点。 首先,自然语言是极其复杂的符号系统。传统的语言学是在没有计算机参照 的条件下发展起来的,虽然为自然语言理解积累了宝贵的财富,但真正要让语言 学知识变成计算机上可操作的知识,具有一定的难度,需要大量又懂语言学又懂 计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设。 其次,自然语言的各个层次上都含有巨大的不确定性( a m b i g u i t y ) 。在语音和 文字层次上,有一字多音、一音多字的问题;在词法和句法层次上,有词类词性、 5 浙江大学硕七学位论文 第一章绪论 词边界、句法结构的不确定性问题:在语义和语用层次上,也有大量的因种种原 因造成的内涵、外延、指代等不确定性。人类有很强的依靠整体消除局部不确定 性的能力和常识推理能力,消除歧义( 即上述的不确定性) 的能力。要使得计算机 具有这样的能力,不是轻而易举的。 再者,自然语言是不断发展变化的,语言的词汇、结构和意义随着不同语言 和不同人群之间的相互影响发生着变化。计算机要智能化就得具有对语言这种特 征的应变能力。 而相对于发展比较晚的汉语理解( 中文信息处理) 不同于印欧语系的非形态 语言,而是自成一个语族一汉语系,具有与印欧语系形态语言不同的更复杂的特 征。 1 2 3 2 汉语理解处理的难点 1 汉语缺乏狭义的形态。汉语没有西方语言的形态作为计算机处理的标记, 需要人深入把握词的种种规律,把这些规律形式化,人为地做出标记。增加了计 算机“分辨”词素、词、词组的难度。 2 语法灵活。即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序, 二靠“意合”,三靠虚词。但是,词序虽同可能意义迥异;虚词并不是非用不可, 特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句关系问题的辅 助手段;意合则更为麻烦,其中包含着许多语言环境、语言背景和语言风格知识 以及缺省问题,如何全面把握有关意义的诸项因素,并把它形式化,是最大的难 题。 3 语义灵活。从词汇层面说,一词多义、同音词、同义词、近义词已经是很 麻烦的事:从句义层面说,情况更为复杂:一方面语法的灵活主要来源于语义的 灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。 即使我们把词义和句法都分析清楚了,“教给”计算机了,它还是难以“理解” 整个的句子。 因此对自然语言的全面理解是一个极为复杂的认知过程。相对于整个汉语研 究的全领域而言,相对于汉语的知识全集而言,从工程的角度出发,将研究领域 限定于一个具体领域,在这个领域中对汉语进行概念化、抽象化和规范化,建立 6 浙江大学硕士学位论文第一章绪论 某个具体领域的知识全集汉语知识子集,达到自然语言理解是可能的。在 这个领域的汉语知识子集的完整决定着“理解”、“不理解”和“误解”的程度。 1 2 4 自然语言理解在医学检查报告中的难点与特点分析 纵观目前国内外的诊断报告书,形式各种各样,大小与繁简程度也不一致。 但是总的来讲,内窥镜检查诊断报告,由于它的职能所在,主要为主治医生提供 客观的诊断数据以及检查结果和初步的诊断,决定了检查报告这种文档不同于其 他文本资料的特殊性,因此对于这种文档的自然语言理解也就有不同于其他文本 处理的特点。 首先,是一种特殊的文档格式,它的书写具有一定的格式要求以及规范, 比普通的文本资料要有规律。诊断报告用语简洁,明了。 其次,相对于其他的文本信息,检查报告少了上下文理解这一个环节。 再者,诊断报告中,会有大量的音译词,例如阿司匹林等。 由于内窥镜检查诊断报告自身的特点,再加上汉语本身在自然语言理解方面 的难点,使得内窥镜检查诊断报告又比一般的文本的自然语言理解别具一格。 1 3 研究目标与任务 本论文的目标是根据目前消化科内窥镜检查报告结构化的现状以及面临的 问题,依托于现有的自然语言处理技术,提出一种基于自然语言处理技术的方法, 实现消化科内窥镜检查报告的结构化。 本论文的任务具体如下: 分析内窥镜检查报告的语言特点,目前存在的m s t 标准的结构特点, 及现有的比较成熟的自然语言处理技术。 根据分析结果,结合实际情况设计一种自然语言处理的方法。 建立专业词典,对这种方法中的分词进行调整,已达到更好的分词效果。 借鉴u m l s 语义网络,分析m s l 标准,针对内镜报告建立小型的m s t 知识库, 利用这个知识库,完成对检查报告的结构化。 7 浙江大学硕士学位论文第二章m s t 及自然语言处理技术介绍 第二章m s t 及自然语言处理技术介绍 2 1m s t 概述 2 1 1m s t 背景 标准的术语是系统之间相互协调与交互的先决条件。m s t 标准( m i n i m a l s t a n d a r dt e r m i n o l o g y ) 是欧洲的消化科内窥镜检查报告的标准术语集。它是由 e s g e ( 欧洲胃肠内镜检查协会,e u r o p e a n s o c i e t y o f g a s t r o i n t e s t i n a l e n d o s c o p y ) , a s g e ( 美国胃肠内镜检查协会,a m e r i c a ns o c i e t yf o rg a s t r o i n t e s t i n a le n d o s c o p y ) 以及o m e d ( 世界消化内镜检查组织,t h ew o r l do r g a n i z a t i o no fd i g e s t i v e e n d o s c o p y ) 联合定制的一套标准。其目的是推动内窥镜检查报告的标准化、结构 化,使得不同内窥镜检查系统的数据能够更好地进行交互、共享与比较。m s t 标准共有2 4 个表格,涵盖了上消化道内镜检查,下消化道检查,逆行胆、胰管造 影的检查部位,检查范围,检查项目,检查理由以及各种检查的诊断标准术语。 目前m s 咏准已经被翻译成十种文字( 英语,法语,德语,意大利语,葡萄牙语, 西班牙语,俄语,匈牙利语,捷克语,土耳其语,以及日语) ,在这些国家,m s t 已经用来作为构建计算机化的内窥镜检查报告系统的标准术语,并且已经有公司 将这个标准集合用于应用程序中,譬如o l y m p u s 公司的e n d o b a s e 系列。 2 1 2m s t 结构特点 据统计,m s t k 示准术语集包含了1 7 1 3 种术语,其中描述原因的有1 2 2 个,描 述内窥镜检查步骤的有8 个,描述发现的有1 0 3 0 个,描述并发症的有7 个,描述额 外步骤的有1 6 6 个,描述诊断的有2 3 5 个,描述部位的有9 3 个,还有5 2 个用来描述 检查细节。 m s t 的结构体现在2 4 个表格中( 图2 1 ) ,几乎每一个表格都由5 列组成:项目 ( h e a d i n g ) 或者普通的类、术 语f f e r m ) 、属性( a t t r i b u t e ) 、属性值( a t t r i b u t ev a l u e ) 以及部位( s i t e ) 。把这个结构嵌入就是一个胃肠内窥镜检查报告的信息模型,例 如“项目”这个片断包含5 个项目或者说5 种类型的术语,他们是:内腔,内容物, 8 浙江大学硕士学位论文第二章m s t 及自然语言处理技术介绍 扁平状病变,隆起性病变,及凹陷性病变。 s i t e s ( 3t a b l e s ) i h e a d i n g s t e 咚, a t t r i b u t e s 一。a 蛐。八 t e r m s ? 吣u 毒小全m 嘲 s i t e s 胁曲笋( 8 劬i e s ) h e a d i n g s t e m ba t t r i b u t e s a x 叫e s s i t e s 朋曲;佃a - p a 。潞c - 劬哟 i h e a d i n g s t e r m sa t t r i b u t e sa t t rv 甜t i e ss i t e s c o m p l i c a t i o n s ( 1t a b l e ) r e a s o n s0 t a b l e s ) d i a g n o s i sf 3t a b l e s ) 图2 1m s t 结构袁以及具体的关系 这种组织结构直接导致了一种几乎完全没有具体限定的术语( 一个人或者智 能计算机程序在不需要其他的要求或上下文关系的情况下就可以完全明白报告 书写人员所要表达的意思) ,譬如,用m s t 术语表达“浅表性胃溃疡”这个概念, 只需要从m s t 的第七个表格中提取如下的属性以及属性值,如表2 1 所示。 表2 1m s t 中项目之问的关系 | 项h ( h e a d i n 曲术语( t e r m l属性( a t t r i b u t e s )属性值( a t t r v a l u e 、 部位( s i t e s ) i 凹陷性病变溃疡形状浅表性胃 一个记录必须用某种方式将一个属性值( 浅表性) 和一个术语( 溃疡) 组织成 一个新的字串,例如“胃部的浅表性溃疡”。 在m s t 的所有表格之间并没有明确表示出相互之间的关系,尽管这些关系自 9 浙江大学硕士学位论文 第二章m s t 及自然语言处理技术介绍 始至终都没有得到应用,但是它们仍然隐藏在术语结构中。 这些术语之间的关系可抽象表示如图2 2 所示: 图2 ,2m s r 术语结构图 从图2 1 和图2 2 中可以看出,m s t 具有良好的结构,这为实现内窥镜检查报 告的结构化,标准化提供了基础。 2 2 自然语言处理技术 2 2 1 引言 本节阐述了自然语言处理的基本原理,它是实现基于自然语言理解的消化科 内窥镜检查报告的结构化的核心技术的理论依据。其涉及的内容众多,主要包括 自动分词,文本解析等具体内容,在学术研究中,每一部分、每一个功能均是一 项研究课题,到目前为止仍没有一个公认的比较有效的方法。 在本论文的研究中,涉及到自然语言理解闯题。即怎样对纯文本( 检查报告 诊断信息) 进行快速分析理解并自动对文本内容进行解析,输出计算机可识别、 可处理的信息内容。在理论上,它是自然语言处理的一个重要组成部分,而自然 语言处理又是人工智能研究的重要领域之一,涉及到很多前沿研究技术;在应用 上,例如对每天生成的检查报告进行分析,再对关键字进行提取,并对关键字的 l o 浙江大学硕:t 学位论文第二章m s t 及自然语言处理技术介绍 角色进行分析。在这个过程中,首先面临一个个句子的自动分词的问题,然后是 大批量单词的处理,建立语义网络,对单词进行语义分析,最终输出结构化的内 容。 2 2 2 分词技术 要实现文本解析,使医生自由录入的纯文本信息转化为结构化、标准化、计 算机可识别、可处理的信息,首先就要让机器理解人类的语言,只有机器理解了 人类的语言文字,才能使得机器处理信息成为可能。在人类语言中,“词是最小 的能够独立活动的有意义的语言成分”,因此,对于中文来讲,将词语确定下来 是理解自然语言的第一步,只有完成了这一步,才能进行下一步的短语划分、概 念抽取以及文本分析,以至自然语言理解,最终达到智能化的目标【笠l 。 2 2 2 1 分词技术的发展 作为自然语言处理的前处理阶段,自动分词技术又是重中之重,它是机器翻 译、文献标引、智能检索、自然语言处理等必不可少的基础,也是制约中文信息 处理飞跃的“瓶颈”之一。国外自动分词与自然语言的研究始于5 0 年代末,现已 获得很大进展。我国汉语文献自动分词与处理的研究起步较晚,主要开始于8 0 年代初,近几年来这项研究工作进展较快,取得了许多可喜的成绩。但是,由于 汉语构词与书写的特点与西方相异,因此不能把西文自动标引理论技术完全照搬 到汉语自动分词与标引中来。汉语词汇在不同语境中有不同的概念与标准,而且 汉语字间组词丰富,复杂,这给汉语词汇的正确切分带来了极大困难,使这项研 究工作长期以来缺少突破性迸展。 近十年来,自动分词技术取得的成果是可观的,但无论是同人的智力相比, 还是同实际需求相比,其差距还是很大的。目前,中文自动分词方面还存在着许 多困难,主要包括切分歧义、词自身定位的模糊性、未登录词的识别、分词与理 解等问题【矧。 ( 1 ) 切分歧义 汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义( 约占全部歧 义的8 5 上) 和组合型歧义。只有向分词系统提供进一步的语法、语义知识才 l l 浙江大学硕士学位论文第二章m s t 及自然语言处理技术介绍 有可能做出正确的决策。排除歧义常用词频、词长、词间关系等信息,例如“真 正在”中,“真”作为单字词的频率大大低于“在”作为单字词的频率,即“在” 常常单独使用而“真”作为单字词使用的可能性较小,所以应切成“真正在”。 有时切分歧义发生在- d , 段文字中,但为了排除歧义,需要看较长的一段文字。 如“学生会”既可能是一个名词,指一种学生组织,也可能是“学生会”,其中 “会”为“可能”或“能够”的意思。在“学生会主席”中只能是前者,在“学 生会去”中只能是后者,在“学生会组织义演活动”中歧义仍然排除不了,则需 要看更多的语境信息。 ( 2 ) 未登录词识别 未登录词即未包括在分词词表中但必须切分出来的词,包括各类专名( 人名、 地名、企业字号、商标号、药品名等) 和某些术语、缩略词、新词等等。“于大海 发明爱尔肤护肤液”需要切分成“于大海发明爱尔肤,护肤液”,并需要识别出 “于大海”是人名,“爱尔肤”是商标名,。护肤液”是术语名词。专名中还包括 外族、外国名的汉译名,如“斯普林菲尔德是伊里诺州首府”,“所用造影剂欧乃 派克5 m l ”,其中的美国地名、药剂名称都需要识别。 未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基 础性的作用。因为各种汉语处理系统都需要使用词频等信息,如果自动分词中对 未登录词识别不对,统计到的信息就会有很大误差。例如,一个分词系统若不做 中外人名识别,分词后进行词频统计,可能会发现“张”、“王”、“李”、“刘”、 “尔”、“斯”的频率比“却”、“如”、“你”的频率还要高,用这样的统计结果做 汉语处理,其效果会存在一定的问题。又比如校对系统,如果系统不具备生词识 别能力,就无法判断句子中大部分词的使用是否合理,也就不能检查真正的错误 所在。 ( 3 ) 分词与理解的先后 计算机无法像人在阅读汉语文章时那样边理解边分词,而只能是先分词后理 解,因为计算机理解文本的前提是识别出词、获得词的各项信息。这就是逻辑上 的两难:分词要以理解为前提,而理解又是以分词为前提。由于计算机只能在对 输入文本尚无理解的条件下进行分词,因此任何分词系统都不可能祈求百分之百 的切分正确率。 浙江大学硕士学位论文第二章m s t 及自然语言处理技术介绍 2 2 2 2 机械分词 待分词的汉字串s ,按照某种确定的原则切取s 的子串,若该子串与词库中 的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否 则,该子串不是词,转上重新切取s 的子串进行匹配。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照 不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是 否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体 化方法。常用的几种机械分词方法如下【2 町: 1 、正向最大匹配i 矧 正向最大匹配法的主要设计思想:用m a x i _ 表示最大词长,按照从左到右的顺 序,首先从汉字串中取长度为m a x l 的子串,查词典,若词典中存在这个词,则 切分出这一子串,后移m a x l - 卜汉字后继续切分,否则,子串长度减1 ,再与词典 匹配。若长度为2 的子串还不能在词典中找到,则取当前汉字为词,指针后移一 个汉字继续匹配。 正向最大匹配法的原理较简单,该切分算法优点是执行起来简单。不需要任 何的词法、句法、语义知识。没有很复杂的数据结构。唯一的要求就是必须有一 个很强大的匹配字典,缺点是不能很好地解决歧义问题。不能认识新词。根据分 析,匹配的错误率为l 1 6 9 。一般不单独使用,而是与其他方法一起使用。 2 、逆向最大匹配【2 5 】 逆向匹配是从汉字串尾端开始抽取,而逆向最大匹配算法与正向最大匹配原 理类似。根据统计分析,逆向最大匹配算法比正向最大匹配算法切分准确率要高, 匹配错误率为1 2 4 5 。两种切分法应可算是分词中最基本的两种切分算法了。很 多后续改进的切分法都是以这两种为基础,再加一些其他的消歧算法而形成的。 3 、最少切分( 使每一句中切出的词数最小) 和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中取出长度为2 的子串查词典,若词典中存在这个词,则切分出该子串,指针后移2 个汉字,否 则,长度逐次加继续匹配。若一直到长度为m a x l 的子串仍无法匹配,则切分 出当前汉字。 例如切分句子“后天我们去北京”,设最大词长为4 ,根据不同的机械切分 1 3 浙江大学硕士学位论文第二章m s t 及自然语言处理技术介绍 方法得到不同的切分结果,如表2 2 所示; 表2 2 机械分词示例 分词算法分词过程与分词结果 上e 向最人匹配 后天我们儿后大我儿后天 我们去北 我们去儿我们 去北京 去 北 去 北京 正向最小匹配 后天 我们 去 北京 逆向最大匹配 们去北京 去北京 北京 天我们去 我们去 们去 去 后天我 们 天我们 我们 后天 逆向最小匹配 北京 们去 我们去 天我们去 去儿我们 后天 2 2 3 中科院自动分词系统 衡量自动分词系统的主要指标是切分精度和速度。由于切分速度与所运行的 软、硬件平台密切相关,在没有注明运行平台时,切分速度只是一个参考指标, 没有可比性。另外,所注明的切分精度都是开发者自测试的结果。自8 0 年代初中 文信息处理领域提出了自动分词以来,一些实用性的分词系统逐步得以开发,其 中c o w s 分词系统、清华大学s e g t a g 系统、北大计算语言所分词系统等几个比 较有代表性的自动分词系统产生了较大的影响。 本论文的自然语言理解模型中的分词模块,主要采用了中科院研究所研制的 分词和词类标注相结合的分词系统i c t c l a s ( i n s t i t u t e o f c o m p u t i n g t e c h n o l o g y , c h i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省寻甸回族彝族自治县2025年上半年事业单位公开遴选试题含答案分析
- 拎包入住房屋租赁合同
- 河北省肃宁县2025年上半年公开招聘城市协管员试题含答案分析
- 2025标牌规范建设项目安全管理培训合同
- 2025年度琴行教师学生安全教育与事故处理合同
- 2025版石灰矿产品买卖及资源开发合同
- 2025车库租赁合同附带车位使用权及车位改造工程
- 2025房产抵押贷款合同范本:抵押物价值评估与处置程序
- 2025版外墙真石漆施工与施工图纸规范合同
- 海南省文昌市2025年上半年公开招聘辅警试题含答案分析
- 挖机台班合同协议书
- 安全生产行政执法要点及文书制作实务培训课件
- 人教版小学数学四年级上册全册教案
- 2025年中国智慧养殖行业市场占有率及投资前景预测分析报告
- 电影院安全生产与安全管理规定制度
- 废气处理合同协议
- 镁铝合金行业前景
- 煤炭工业矿井工程建设项目设计文件编制标准
- 2025-2030中国余热回收行业市场现状供需分析及投资评估规划分析研究报告
- 无人机物流配送服务手册
- 深度学习:从入门到精通(微课版)全套教学课件
评论
0/150
提交评论