(计算机应用技术专业论文)基于概念的生物信息检索研究.pdf_第1页
(计算机应用技术专业论文)基于概念的生物信息检索研究.pdf_第2页
(计算机应用技术专业论文)基于概念的生物信息检索研究.pdf_第3页
(计算机应用技术专业论文)基于概念的生物信息检索研究.pdf_第4页
(计算机应用技术专业论文)基于概念的生物信息检索研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于概念的生物信息检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r e s e a r c ho ng e n o m i ci n f o r m a t i o n r e t r i e v a l u s i n g co n c e p t s at h e s i s s u b m i t t e di np a r t i a lf u l f i l l m e n to f t h er e q u i r e m e n t f o rt h em s d e g r e ei nc o m p u t e r s c i e n c e b y t e n g f e ij i a n g p o s t g r a d u a t ep r o g r a m d e p a r t m e n to fc o m p u t e r s c i e n c e c e n t r a lc h i n an o r m a lu n i v e r s i t y s u p e r v i s o r :t i n g t i n gh e a c a d e m i ct i t l e :p r o f e s s o r s i g n a t u r e a p p r o v e d m a y 2 0 11 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:工脯k日期:加i ) 年易月f 日 学位论文版权使用授权书 学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅; 学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手 段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密,在年解密后适用本授权书。 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名:三工瞒盔 日期训件6 月1 日 褥套。j 怄量裳 日期:知i f 年月1 日 本人已经认真阅读“c a l l s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l l s 高校学位论文全文数据库中全文发布,并可按“章程”中的 规定享受相关权益。回童途塞握蛮唇溢卮;旦圭生;旦二笙;旦三生筮查! 作者签名:江随售 日期铷i 净否月f 日 嚣;。2 秆日期:z 口l ( 年( 月i 曲 硕士学位论文 m a s t e r st h e s i s 摘要 随着互联网技术和科技的日益进步,网络信息不断递增,生物信息这类专业性 文本持续增大。如何从这些海量专业性文本信息获取所需的知识成为了近年来学者 专家的研究热点。 由于生物信息包含很多专业性问题,涉及到生物词汇缩写,异物同名词,同物 异名词等,传统的词频模型不能很好地解决这些问题。生物信息学的发展,使得很 多资源被整合成专门的生物信息词典,这些词典包含了许多的语义信息。目前,许 多学者尝试利用语义信息进行生物信息检索,将概念及本体等语义知识融入检索模 型。 为了识别出专业的术语以提高生物信息检索的精度,本文采用了基于语义的方 法,利用概念并结合自然语言处理的相关技术,对生物信息检索技术做了一些研究。 所做的主要工作包括以下几个方面: 第一,由于生物文本的信息量过大,把文本中的概念提取出来,用于表示文本, 可以压缩文本的规模。本文利用生物信息学的专有词典来进行概念抽取。由于在生 物文本中次要词语经常被作者忽略或者添加进去,这样精确字典匹配会造成大量的 不匹配现象,所以本文采用了近似字典匹配的方法来解决这个问题,其基本思想是 通过概念中重要的词语而不是所有的词语来识别概念。 第二,概念抽取完之后,有的词语会被转换成两个或者多个概念,这样便造成 了歧义,本文采用最大熵模型消歧,认为这些词语所转化的多个概念有均等的出现 概率。为了验证该消歧方法的有效性,完成一个对比实验,该实验直接选取所抽取 到得第一个概念来代表该词语。通过对比实验发现最大熵模型的平均准确率比没有 消歧的方法提高了6 5 。 第三,为了进一步的提高检索精度,本文引入了自然语言处理处理中的查询扩 展、文本聚类技术。本文对中心概念进行查询扩展,然后利用中心概念和查询扩展 出的概念对文本聚类,之后进行相似度排序,得到最终结果。为了验证该方法的有 效性,完成一个对比实验,该实验利用查询扩展之后,直接计算相似度然后排序。 通过对比实验发现利用聚类算法方法的平均准确率比没有利用聚类算法的方法提 高了8 2 4 。 关键词:生物信息检索;概念抽取;最大熵模型;文本聚类 a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n ds c i e n c e , n e t w o r ki n f o r m a t i o ni s c o n s t a n t l yi n c r e a s i n g ,i n c l u d i n gp r o f e s s i o n a l t e x ts u c ha s b i o l o g i c a l i n f o r m a t i o n p r o f e s s i o n a lt e x t h o wt oa c q u i r eu s e f u li n f o r m a t i o nf r o mt h e s em a s sp r o f e s s i o n a lt e x t s b e c o m er e s e a r c hh o t s p o t sf o rs c h o l a r sa n de x p e r t si nr e c e n ty e a r s a st h eb i o l o g i c a li n f o r m a t i o nc o n t a i n sm a n ys p e c i a l i z e di s s u e s ,i n v o l v i n ga c r o n y m , h o m o n y m y ,s y n o n y ma n ds oo n t h et r a d i t i o n a ln o u nm o d e lc a nn o ts o l v e t h e s e p r o b l e m sp r o p e r l y w i t ht h ed e v e l o p m e n to fb i o i n f o r m a t i c s ,m a n y r e s o u r c e sw e r e i n t e g r a t e di n t os p e c i a lb i o l o g i c a li n f o r m a t i o nd i c t i o n a r yw h i c hc o n t a i n sh u g es e m a n t i c i n f o r m a t i o n a tp r e s e n t ,m a n ys c h o l a r sa r et r y i n gt ou s et h es e m a n t i ci n f o r m a t i o nf o r b i o l o g i c a li n f o r m a t i o nr e t r i e v a l ,a n dm a k es e m a n t i ck n o w l e d g es u c ha sc o n c e p ta n d o n t o l o g yi n t or e t r i e v a lm o d e l i no r d e rt oi d e n t i f yp r o f e s s i o n a lt e r m sa n di m p r o v et h ea c c u r a c yo fb i o l o g i c a l i n f o r m a t i o nr e t r i e v a l ,t h i sp a p e ra d o p t sam e t h o db a s e do ns e m a n t i c sw h i c hu s ec o n c e p t s a n dn a t u r a ll a n g u a g ep r o c e s s i n g t e c h n i q u e ,a n dd o e ss o m er e s e a r c h o nb i o l o g i c a l i n f o r m a t i o nr e t r i e v a l t h em a i n w o r kc a nb ed e s c r i b e da st h ef o l l o w i n ga s p e c t s : f i r s t l y ,a sb i o l o g i c a lt e x t sc o n t a i nh u g ei n f o r m a t i o n , c o n c e p t si nt e x te x t r a c t e df r o m t h et e x tc a i ls t a n df o rt h i st e x t ,a n da l s oc a nc o m p r e s st h et e x ts i z e t h i sp a p e ru s e s b i o i n f o r m a t i c sp r o p r i e t a r yd i c t i o n a r yf o rc o n c e p te x t r a c t i o n b e c a u s ei nb i o l o g i c a lt e x t i n s i g n i f i c a n tw o r d sa r eo f t e ni g n o r e do ra d d e db ya u t h o r s ,t h ea c c u r a t ed i c t i o n a r ym a t c h w o u l dm i s m a t c hh u g ec o n c e p t s ,s ot h i sp a p e ra d o p t sa p p r o x i m a t ed i c t i o n a r ym a t c ht o s o l v et h i sp r o b l e m ,t h eb a s i ci d e ai sc a p t u r i n gt h es i g n i f i c a n tw o r d sr a t h e ra l lw o r d s s e c o n d l y ,a f t e rc o n c e p te x t r a c t i o n ,s o m ew o r d so rp h r a s e sw o u l db ec o n v e r t e di n t o t w oo rm o r ec o n c e p t s ,t h i sc a nc a u s e dt h ea m b i g u i t y ,s oi nt h i sp a p e r ,w eu s em a x i m u m e n t r o p ym o d e lf o rd i s a m b i g u a t i o nw h i c hc o n s i d e re a c hc o n c e p th a se q u a lp r o b a b i l i t y s t a n d sf o rt h e s ew o r d so rp h r a s e s i no r d e rt ov e r i f yt h ee f f e c t i v e n e s so ft h e d i s a m b i g u a t i n gm e t h o d ,w ec o m p l e t eac o n t r a s tt e s tw h i c hd i r e c t l ys e l e c t st h ef i r s t c o n c e p tt or e p r e s e n tt h ew o r d so rp h r a s e s t h r o u g ht h ec o n t r a s te x p e r i m e n t ,w ef o u n d t h a tm e a na v e r a g ep r e c i s i o no fm a x i m u me n t r o p ym o d e li s6 5 h i g h e rt h a nt h em e t h o d w i t h o u td i s a m b i g u a t i o n t h i r d l y ,i no r d e rt oi m p r o v er e t r i e v a la c c u r a c y ,t h i sp a p e r u s es o m en a t u r a ll a n g u a g e p r o c e s s i n gt e c h n i q u es u c ha sq u e r ye x p a n s i o n ,t e x tc l u s t e r i n g t 1 1 i sp a p e ru s eq u e r y e x p a n s i o nf o rt o p i c c o n c e p t s ,a n du s et o p i c c o n c e p t sa n dc o n c e p t sw h i c hu s i n gq u e r y e x p a n s i o ng o tf o rt e x tc l u s t e r i n g ,t h e nr a n kl i s tb yt h es i m i l a r i t y ,a tl a s tg e tt h ef i n a l r e s u l t s i no r d e rt ov e r i f yt h ev a l i d i t yo ft h i sm e t h o d ,w ec o m p l e t eac o n t r a s tt e s t ,t h i s e x p e r i m e n tu s i n gq u e r ye x p a n s i o n ,t h e nc a l c u l a t es i m i l a r i t ya n ds o r tt h er a n k t h r o u g h t h ec o n t r a s te x p e r i m e n t ,w ef o u n dt h a tm e a na v e r a g ep r e c i s i o no fc l u s t e r i n ga l g o r i t h m m e t h o di s8 2 4 h i g h e rt h a nt h em e t h o dw i t h o u tu s i n gc l u s t e r i n ga l g o r i t h m k e yw o r d s :g e n o m i ci n f o r m a t i o nr e t r i e v a l ;c o n c e p te x t r a c t i o n ;m a x i m u m e n t r o p ym o d e l ;t e x tc l u s t e r i n g 2 2 2 文本聚类1 3 2 2 3 词义消歧1 4 2 3 生物信息检索的评价指标l5 2 3 1 传统评价指标15 2 3 2 新评价指标18 2 4 本章小结1 8 第三章概念抽取研究1 9 3 1 一体化医学语言系统简介1 9 3 2 概念抽取2 2 3 2 1 概念抽取算法2 3 3 3 本章小结2 4 第四章最大熵模型消歧2 6 4 1 消歧模型介绍2 6 4 1 1 最大熵原理的正式表述2 7 4 1 2 最大熵模型的训练:g i s 算法和其他算法2 8 第五章基于中心概念聚类的检索算法”3 4 5 1 算法的目标和意义3 4 5 2 算法过程分析3 6 5 3 对比试验及实验结果分析3 8 5 4 本章小结4 0 第六章结束语 6 1 总结4 2 6 - 2 下一步的工作4 2 参考文献“4 4 硕士期间发表的论文和参与的项目4 6 致谢4 7 硕士学位论文 m a s t e r st h e s i s 1 1 研究背景与意义 第一章绪论 随着i n t e m e t 的飞速发展,网络上出现了越来越多的信息,文本数量以指数级 的速度增长,这极大的促使了整个社会的信息共享,信息检索技术的出现更加方便 了人们对需求信息的获取和使用。目前,网络已经成为获得信息的重要来源和渠道 之一。在生物信息学领域,生物信息专业类文本持续增大,如何从这些海量专业性 文本信息获取所需的专业知识成为了近年来学者和专家的研究热点。 信息检索技术能很好的满足用户的需求,日常所需要的信息都能够从搜索引擎 得到。然而,目前大多数搜索引擎采用关键字匹配技术进行检索。现阶段学者将更 多的目光投向新型的检索模型与方法,用以改进检索效果。 生物信息文本作为专业性的知识,有自己独特的一面,涉及到生物词汇缩写 ( a c r o n y m ) ,异物同名词( h o m o n y m y ) ,同物异名词( s y n o n y m ) 等问题n 1 。近年 来,一些专业性的,高质量的生物领域词典( t h e s a u r u s ) 、本体( o n t o l o g y ) 和词 汇表( g l o s s a r y ) 的出现对生物信息检索有不少帮助,具有代表性的词典如下: 1 ) u n i f i e dm e d i c a ll a n g u a g es y s t e m ( u m l s ) 口1 是美国国家医学图书馆( n l m ) 3 所开发的,是目前规模最大的生物医学术语系统,涵盖了大量的和生命科学相关 的概念、实体,和它们之间的联系。 2 ) m e d i c a ls u b j e c th e a d i n g s ( m e s h ) h 1 美国国家医学图书馆( n l m ) 研究与整 理的受控词汇表,它包含2 2 9 9 7 个生物医学词汇,这些词汇存储在1 5 个主要分支、 1 1 层深的树状结构中。 国外许多学者,例如:z h o u ,x ,h u ,x a n dz h a n g ,x 崎3 和s u b r a m a n i a m ,l , m u k h e r j e a , s ,k a n k a r , p ,s d v a s m v 巩b ,b a t r a , v ,k a m e s a m ,p 旧。以及k o t h a r i ,r , p a l a k a l ,m ,s t e p h e n s ,m ;m u k h o p a d h y a y , s ,r a j e ,r ,r h o d e s ,s 口3 等通过采用基于外部 词典的方法进行检索,相对于传统检索方法取得了不错的结果。 本文通过专业性的词典进行生物概念的抽取,利用这些概念而不是传统的词 条,词频进行检索,这样相对于传统检索,减少了不少的工作量,提高了检索的精 度。 1 2 国内外研究概况 - f - j 新的学科一生物信息学的诞生,使得生物信息文本大量积聚。 l 生物信息学( b i o i n f o r m a t i c s ) 是8 0 年代末期发展起来的,当时人类基因组计划 ( h u m a n g e n o m ep r o j e c t ) 的启动,受之影响生物信息学成为了一门兴起新的交叉学 科。生物信息学涉及到生物学、数学、计算机科学和工程学等多个学科,计算机科 学、工程学和应用数学的基础是它的基础,生物实验和大量的衍生数据则为其提供 了研究材料。是- - f - j 幂u 用计算机技术研究生物系统之规律的学科。这门学科产生的 原因如图1 1 所示。 图1 - 1生物信息学的诞生 目前,生物信息学基本上是指分子生物学和信息技术相结合的学科,尤其是分 子生物学与互联网技术的结合。该学科的研究材料是多种多样的生物学数据,充分 利用计算机这个工具,对生物学数据进行搜索,主要工作包括收数据的收集和筛选; 处理,主要工作包括数据的编辑、整理、管理和显示等;利用,主要工作包括计算 数据、模拟实验等。 计算机科学技术以及数学模型及其应用对于生物大分子信息的获取、加工、存 储、分类、检索与分析有着重要的意义。 随着生物技术和生物信息学的发展,生物数据信息的“指数性”增长,使得生 物学文献数量急速扩大。生物学文献数目之大,增长速度之快远远出乎了学者们的 意料。美国国家生物技术信息中心的文献摘要库m e d l i n e 睛3 ,是世界上最大的、 最具权威性的著名生物医学文献数据库,目前,有全世界4 8 0 0 多种生物学及医学 杂志上1 5 0 0 万余篇文献信息,并且以高速度的增长( 如图1 - 2 所示) 。应对这样大 规模的、快速增长的科学文献数据,需要强大的数据存储能力,信息检索技术。因 此,生物学文献挖掘,成为一项极其重要的工作。目前,按照研究内容分类,生物 2 硕士学位论文 m a s t e r st h e s l s 学文献挖掘可以分为以下五个部分:信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) ,实体识 别( e r ,e n t i t yr e c o g n i f i o n ) ,信息提取( i e ,i n f o r m a t i o ne x t r a c t i o n ) ,文本挖掘( t e x t m i n i n g ) ,信息集成( i n f o r m a t i o ni n t e g r a t i o n ) 。 缸 粕 握 铖 年协 图1 2m e d l i n e 收录的文章数目 t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ) 1 ,中文名称为文本检索会议。它是文本检索 领域最权威,最具影响力的评测会议。会议由美国国防部高等研究计划署( d e f e n s e a d v a n c e dr e s e a t c hp r o j e c t sa g e n c y ,d a r p a ) 和美国国家标准和技术局( n a t i o n a l i n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ,n i s t ) 联合主办。第一届会议在1 9 9 1 年进行, 每年的参与者包括麻省理工学院、斯坦福大学、美国加州大学伯克利分校、北京大 学、微软研究院、谷歌、百度、新加坡国立大学、台湾大学、清华大学、复旦大学、 日本东京大学、香港中文大学、香港大学、英国城市大学等世界一流学府和企业科 研机构,并且参赛单位不断增加,影响力日益扩大。该会议评测主要包括以下几个 方向:问题回答( q a ) 、特定领域检索( l e g a l 、g e n o m i c s 、e n t e r p r i s e 、b l o g ) 、传 统w e b 检索。 会议工作人员主要工作是收集语料并向参会者发布标准的语料库( c o r p u s ) 、检 索条件和问题集( q u e r ys e t ) 、以及评测办法( e v a l u a t i o n ) 。参会者则必须在规定的 时间内完成实验程序并提交实验结果( r u n s ) ,然后由负责评测的工作人员依据标 准答案对各个检索结果进行打分,判别其优劣。最后,召开大会以便于学术交流, 3 然后由各位参与单位及作者发表会议论文。 自2 0 0 3 年开始,t r e c 就有了生物信息检索g e n o m i ct r a c k ,可见生物信息检 索已经受到了越来越多的关注。 自此之后,国内外许多著名的大学及研究机构都积极参加到g e n o m i et r a c k 比 赛中来,许多优秀的方法和论文被众多研究者所提出和发表。 本文将t r e c2 0 0 7g e n o m i ct r a c kd a t a 作为研究语料,根据参赛的要求完成特 定的任务,以期望获得精确地检索结果。 1 3 本文的主要研究内容 本文针对基于概念的生物信息检索展开了一些研究。目标是从大量的生物文本 集合中,根据用户查询查询,找到用户真正感兴趣的信息,返回给用户准确的搜索 结果。目前,生物信息检索有多种检索方法和模型,本文采用基于语义的方法,利 用概念进行检索,主要的研究内容如下: 1 概念抽取 生物概念抽取对于大规模的生物文献标注和索引仍然是先进主流的方法。精确 字典匹配非常简单但是往往造成了很低的召回率,这是由于生物词条一般都有很多 形式,一个词典很难收集到所有的形式。本文通过利用u m l s ,采用近似字典匹配 的方法来解决精确字典匹配所带来的低召回率的问题。 2 最大熵模型消歧 大多数词语经过概念抽取以及上下文( 前后3 个词语) 消歧义后只表示一个概 念,但还是有部分词语或者单词对应着两个或者多个概念,要得到更合理的答案, 减少这些单词或者词组带来的负面效果,这就要求,预测的风险最小,故应该使每 个这样的现象词语或者单词的概率分布最均匀。本文采用最大熵模型消歧义,利用 t r e c2 0 0 7g e n o m i ct r a c kd a t a 语料进行试验,通过对比试验发现平均准确率提高 了6 5 。 3 基于中心概念的聚类算法 为了进一步的提高检索精度,本文在抽取概念之后,采用查询扩展,文本聚类 等自然语言处理技术,结合基于中心概念的聚类算法,利用t r e c2 0 0 7g e n o m i e t r a c kd a t a 语料进行试验,通过对比实验发现平均准确率提高了8 2 4 。 1 4 论文的组织结构 本文共包含六章内容,其中: 4 第一章介绍了生物信息检索的研究意义与背景及生物信息检索的发展历程,同 时还概括介绍了论文主要的研究内容。 第二章,简单介绍了生物信息检索领域的研究方法,以及应用到的相关的自然 语言处理技术和评价指标。 第三章,采用近似字典匹配的方法进行概念抽取,这样的好处是可以抽取到概 念中重要的词语而不是所有的词语来识别概念。 第四章,利用最大熵模型消歧义,给出最大熵模型思想及其消歧算法过程,最 后通过实验证明该算法的有效性。 第五章,为了进一步的提高检索精度,采用基于中心概念的聚类算法对文本进 行聚类,之后根据相关性排序,最后通过实验来证明该算法的有效性。 第六章是全文工作总结以及进一步的工作展望。 第二章生物信息检索相关技术概述 生物信息检索在很多方面都采用了传统信息检索的方法,但是由于其专业性, 在很多地方都有自己的特点,本章介绍了生物信息检索的若干研究方法和一些相关 的自然语言处理技术。 2 1 生物信息检索的研究方法 从1 9 5 0 年开始,信息检索技术便开始了漫长的发展。6 0 多年来,从最初的一 些简单的和规范化的文本所设计的特殊模型( 例如题目,作者,编号,记录和关键 词等) ,发展到具有理论基础和处理各种文档格式的模型。当前的模型加上自然语 言处理的相关技术,使得查询性能得到大大的提高。 在生物信息检索方面,普遍采用了这些传统的检索模型。 总体来说,当前研究和应用的主要有如下的4 个模型: 1 布尔模型( b o o l e a nm o d e l ) 是一种的原理简单的检索模型,其主要是利用 集合论和布尔代数的知识。布尔模型的优点在于清楚和简单的模型表达形式和简单 的可操作性,而缺陷在于完全匹配会导致一些相关信息丢失,匹配文本过多或者过 少的问题。由于布尔模型不区分词频,而利用索引单词的权重能提高检索系统的准 确率和精度,这也使得了向量空间模型( v e c t o rs p a c em o d e l ) 的产生成为了必然。 2 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 于1 9 7 0 年左右提出,把文本内容 的转化为向量空间中的向量,并且利用向量空间上的向量来表达该文本的相似度, 直观易懂。经过转换之后,度量文档间的相似性就可以通过计算向量之间的相似性 来得到。余弦距离是文本处理中最常用的相似性度量方式。 3 概率模型( p r o b a b i l i s t i cm o d e l ) 使用概率理论作指导,把检索看成是查询文 档和查询主题之间成功匹配的概率估计问题,其基本思想是估计查询文档与查询主 题的相关联概率,然后根据关联概率对所有查询文档进行排序,最终得到排序结果。 4 语言模型( l a n g u a g em e t h o d ) 是基于语言模型的检索模型,主要思想是把 查询主题认为是由查询文档生成的,那么一个查询文档与查询主题的相关性,也就 转化为这个查询文档能够生成该查询主题的概率。 经过了大量研究人员的实验,后三种检索模型在许多方面都要优于布尔模型。 商业上的搜索引擎大多采用的是空间向量模型和概率模型,而基于语言模型的检索 模型,是近几年兴起的研究热点。 6 基于语义的检索方法对信息检索效果有着很大的提高,很多学者在检索模型上 都引入了语义的知识。 由于拥有语言能力和对现实世界的认知能力加之一些背景等知识,人们利用自 然语言交流的能力与生俱来。对于机器来说,智能体中的知识库应由类似于人类的 背景知识和推理规则所组成,这样才能接近于人类的理解,具体如下n 们: ( 1 ) 词法、句法知识。 ( 2 ) 语义、语用知识。 ( 3 ) 常识:即常见的词之间的关联。 ( 4 ) 语料库。 ( 5 ) 词典数据库:包括有同义词典、反义词典、多语种对应词典、词的层次 关系词典等。 ( 6 ) 禁用词表。 ( 7 ) 反向词频统计表:类似t f i d f ,即在大多数文档中出现频次越多的词语, 重要性越低。 用计算机处理智能体的知识库,需要把以上的各部分知识是结合在一起使用 的。而人类采用了语义网络来描述上述知识,因为语言是知识的载体,人类的任何 认识都必须通过语言来表达,所以人类整个系统处理的核心是语言。在任何信息检 索系统中,查询和返回的结果都表现为语言的表达形式,所以,自然语言处理技术 在概念检索中的得到了很大的应用。 近十几年当中,出现了很多的语义知识库,具有代表性的是英文的w o r d n e t u u 及中文的h o w n e tn 羽。w o r d n e t 是一个覆盖范围宽广的英语词汇语义网。名词,动 词,形容词和副词分别单独被组织成同义词的网络关系,每一个同义词集合都代表 一个基本的语义概念意思,这些集合之间也由各种关系连接着。如果一个词将有多 种意思,那么它将出现在不同意思的同义词集合中。名词,动词,形容词和副词的 网络之间由于词性不同,没有连接。w o r d n e t 的名词网络是第一个发展起来的,因 此大部分的研究工作都仅限于名词网络。 名词网络的主干是上位下位关系,即蕴涵关系的层次,它占据了关系中的将近 五分之四。这些层次的最顶层是1 1 个抽象概念,名为基本类别始点( u n i q u e b e g i n n e r s ) ,譬如:实体( e m i t ) r ,即“有生命的或无生命的具体存在”) ,心理特征 ( p s y c h o l o g i c a lf e a t u r e ,即“生命有机体的精神上的特征 ) 。1 6 层为名词层次中最 深的层次。 而汉语方面则是董振东先生等所编写的知网( 英文名h o w n e t ) 。在知网中,概 7 硕士学位论欠 m a s t e r st h e s i s 念被汉语和英语的词语所描述,这些概念则是知网的描述对象。而知网则是一个表 示概念与概念之间的关系以及概念所具有的属性之间关系的一个知识库。其基本内 容可以认为是常识知识库,包含着大量的词汇语义知识和本体知识。其所表示的关 系都存储在知网的知识词典和义原的特征文件中。h o w n e t 中有如下两个主要的概 ,冬 1 3 】 j 己, : 幻义项。用来描述词汇语义。其中,一个词可以有多个义项。义项的含义用一 种专业的知识表示语言来描述,义原即是这种知识表示语言所用的词汇。 b ) 义原。用来描述词汇的不可再分的基本元素单位,是描述概念的最小意义单 位。 知网用一系列的义原来对每一个概念进行描述,而不是不是简单地将所有的概 念归结到一个树状的概念层次体系中,这与一般的词典表示方法有所不同。 在h o w n e t 中,每个词汇都由一个四元组表示: l 时,表示用户对准确率更看重,b l 时,表示用 户对召回率更感看重,b = l 时,e 测度和f s c o r e 值互补。具体定义如公式2 - 4 所示: 捌一等 亿4 , 上 rp 2 3 2 新评价指标 随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能 的新评价指标逐渐出现,包括: 1 平均准确率( m e a na v e r a g ep r e c i s i o n ,m a p ) - 引入了排序的作用。即单个主 题的m a p 是每篇相文档检索出后的准确率的平均值。主题集合的m a p 是每个主题 的平均值。m a p 反映系统在全部相关文档上性能的单值指标。 假设有两个主题,主题1 有4 个相关网页,主题2 有5 个相关网页。某系统对 于主题1 检索出4 个相关网页,其r a n k 分别为1 ,2 ,4 ,7 ;对于主题2 检索出3 个相 关网页,其r a n k 分别为1 ,3 ,5 。对于主题1 ,平均准确率为( 1 1 + 2 2 + 3 4 + 4 7 ) 4 = 0 8 3 。 对于主题2 ,平均准确率为( 1 1 + 2 3 + 3 5 + o + 0 ) 5 = 0 4 5 。则m a p = ( o 8 3 + 0 4 5 ) 2 = 0 6 4 。 m a p 是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度, 再对所有的问题取平均。 2 p r e c i s i o n n :在第n 个位置上的正确率,对于搜索引擎而言,考虑到大部 分用户只关注前一、两页的结果,p 1 0 ,p 2 0 对大规模搜索引擎非常有效。p 1 0 是系统对于该主题返回的前l o 个结果的准确率,很好的考虑了用户的需求。 还有一些指标更多的站在用户的角度,如覆盖率( c o v e r a g er a t i o ) 、新颖率 ( n o v e l t yr a t i o ) 、相对召回率( r e l m i v er e c a l l ) 等。 2 4 本章小结 本章首先介绍了生物信息检索所采用的研究方法,包括检索模型以及基于概 念,本体的研究方法;接着介绍了相关技术,主要有检索体系,查询反馈,文本聚 类,词义消歧等;最后,给出了相关检索评价指标。 硕士擘位论文 m a s t e r st h e s i s 第三章概念抽取研究 本章首先简单的介绍了一体化医学语言系统,然后利用近似词典匹配算法结合 一体化医学语言系统进行概念抽取工作,这些工作包括了算法的思想以及算法的实 现过程。 3 1 一体化医学语言系统简介 一体化医学语言系统( u n i f i e dm e d i c a ll a n g u a g es y s t e m ,u m l s ) ,又称为统一 医学语言系统,是对生物医学科学领域内许多受控词表的一部纲目式汇编。u m l s 提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此 转换;同时,u m l s 也被看作是生物医学概念所构成的一部广泛全面的叙词表和本 体。u m l s 还进一步提供有若干适用于自然语言处理的工具。u m l s 主要旨在供医 学信息学领域的信息系统开发人员使用。 u m l s 由下列组件构成:m e t a t h e s a u r u s ,中文称为超级叙词表或元叙词表,是 u m l s 的核心数据库,是由来自各种受控词表的概念和术语以及它们之间的关系所 构成的集合;s e m a n t i cn e t w o r k ,中文称为语义网络( 不同于计算机科学领域所泛 指的语义网络和语义网) ,是一套类别和关系,用于对m e t a t h e s a u r u s 之中的条目加 以分类和关联;s p e c i a l i s tl e x i c o n ,中文称为专家辞典或专家词典,是一个词典 信息数据库,供自然语言处理工作使用;许多支持性的软件工具。 美国国立医学图书馆( n a t i o n a ll i b r a r yo f m e d i c i n e ,n l m ) 设计了并负责维护 着u m l s 。u m l s 每季度更新一次,且可以免费使用。该项目最初是由d o n a l d l i n d b e r g 博士于1 9 8 6 年发起的。 1 目的和应用 目前,研究人员所能获得和使用的生物医学资源数量庞大。当对医学文献进行 搜索的时候,检索到的文档数量巨大于是就成了一个问题。u m l s 旨在通过促进那 些能够理解生物医学语言的计算机系统的开发工作,来加强对于这些文献的获得和 使用。这一目标是通过攻克两大障碍来实现的:“不同机读型来源和不同人员表达 相同概念时所采用的形形色色的方式与“有益的信息在许多互不相同的数据库和 系统之间的分发和传播 。 u m l s 可用于设计信息检索或病历系统,促进不同系统之间的通讯交流,或者 用于开发能够解析生物医学文献的系统。对于许多此类应用而言,将不得不以某种 1 9 统。 u m l s 用户必须签署“u m l s 协议 并且就自己的使用情况填报简要的年度报 告。学术用户可以将u m l s 免费用于科学研究工作。就其中所收录的某些源词表而 言,商业或生产方面的用途则要求签署版权协议。 2 超级叙词表 超级叙词表m e t a t h e s a u r u s 构成的是u m l s 的基础。m e t a t h e s a u r u s 之中收录 有1 0 0 多万个生物医学概念和5 0 0 多万个概念名称,而所有这些都源自u m l s 所收 录的1 0 0 多部受控词表和分类系统,如i c d 9 c m 、i c d 1 0 、m e s h 、s n o m e dc t 、 l o i n c 、世界卫生组织药物不良反应术语集( w h oa d v e r s ed r u gr e a c t i o n t e r m i n o l o g y ,w h o a r t ) 、英国临床术语( u kc l i n i c a lt e r m s ,又称为r e a dc o d e s ) 、 r x n o r m 、基因本体( 英文:g e n eo n t o l o g y ,g o ) 和o m i m 。 m e t a t h e s a u r u s 是按照概念来组织编排的。每个概念分别都拥有若干用来定义其 含义的具体属性,并且分别与各个源词表之中相应的概念名称相链接。而且,不同 概念之间还表达有众多的关系;比如,“sa ”( 是_ 张) 之类用于表示子类关系的 层级结构关系、用于表示亚单位关系的“括p a r to j ( 是一的组成彩分) 以及“括c a u s e d b y ( 亩罗馋) 之类的关联关系或“加t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论