(生物医学工程专业论文)面向生物医学文献的文本挖掘技术研究.pdf_第1页
(生物医学工程专业论文)面向生物医学文献的文本挖掘技术研究.pdf_第2页
(生物医学工程专业论文)面向生物医学文献的文本挖掘技术研究.pdf_第3页
(生物医学工程专业论文)面向生物医学文献的文本挖掘技术研究.pdf_第4页
(生物医学工程专业论文)面向生物医学文献的文本挖掘技术研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(生物医学工程专业论文)面向生物医学文献的文本挖掘技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 t h e si st i t l e : m a s t e rn a m e : a b s t r a c t t e x tm i n i n go fb i o m e d i c a ll i t e r a t u r e s y u a n s u p e r v i s o rn a m e :s u nx i a o s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y m o t i v a t i o n :i nt h ee r ao fp o s t g e n o m i c s ,t h ef o c u so fb i o l o g i c a lr e s e a r c hi sr a p i d l y s h i f t i n gf r o mi n d i v i d u a lb i o l o l g i c a le n t i t i e s ( g e n e s ,p r o t e i n s ,a n do t h e rb i o l o 垂c a l m o l e c u l e s ) t oe n t i r eb i o l o g i c a ls y s t e m s n o w a d a y sa b u n d a n ti n f o r m a t i o ni ss t o r e di n o n l i n es e a r c h a b l eb i o m e d i c a ll i t e r a t u r e ,a n db i o m e d i c a ll i t e r a t u r ew i l lc o n t i n u et ob ea p r i m er e s o u r c ef o ra c c e s s i n gw o r l d w i d es c i e n t i 丘cb i o l o g i c a lk n o w l e d g e a l t h o u g h p u b l i cd a t a b a s e sg i v ea c c e s st od a t ae x t r a c t e df r o mt h el i t e r a t u r eb yt e a m so fe x p e r t s , t h e i rc o v e r a g ei so f t e nl i m i t e da n dl a g sb e h i n dr e c e n td i s c o v e r i e s b e c a u s e o f a b b r e v i a t i o n ,a m b i g u i t ya n dv a r i a t i o n ,i ti s h a r dt oe x t r a c tb i o m e d i c a lf a c t sf r o m l a r g e s c a l el i t e r a t u r e s e t sa u t o m a t i c a l l y f u r t h e r m o r e ,t h eb i o m e d i c a ll i t e r a t u r ei s g r o w i n ga ta ne v e r - i n c r e a s i n gr a t e t 虹sp r o n o u n c e st h en e e dt os u p p o r ts c i e n t i s t sw i t h a d v a n c e d ,a u t o m a t e dm e a n so fa c c e s s i n gk n o w l e d g e m e t h o d :0 w i n gt ot h ei m p r o v e m e n to ft h en a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) t e c h n o l o g ya n do n t o l o g y , w ea p p l i e dm a i n s t r e a m t e x tm i n i n gt e c h n o l o g i e si n a i l a l y s i n gb i o m e d i c a ll i t e r a t u r e s o nt h eb a s i so ft h ec h a r a c t e r i s t i c so fb i o m e d i c a l l i t e r a t u r e s ,w ed e v e l o p e dg e n e d i s e a s el i t e r a t u r em i n i n gs y s t e m ( g l m s ) ,w i t ht h e i n t e g r a t i o n o fw e bs p i d e r , p a r s e r , s y n t a xa n ds e m a n t i c p r o c e s s i n ga n db i o l o g y k n o w l e d g ed a t a b a s el a b e l l i n gt e c h n i q u e s i no r d e rt oc a p t u r ei n h e r e n tb i o l o g i c a l k n o w l e d g eo c c u r r i n gi np u b l i s h e db i o m e d i c a ll i t e r a t u r e sa n dm a k ek n o w l e d g e d i s c o v e r yo fg e n ef u n c t i o n ,g e n e d i s e a s er e l a t i o n s h i p s ,a n db i o l o g i c a lm o l e c u l a r i n t e r a c t i o nn e t w o r k s t h i sp l a t f o r mw a si n t e g r a t e dw i t ht h em o s tp o p u l a rl i t e r a t u r e m i n i n gt e c h n i q u e sa n dl a t e s tb i o l o g yk n o w l e d g ed a t a b a s e s ,r e a l i z e di n t e l l i g e n tm i n i n g , a n dp r o v i d e do n t i m eo n l i n es e r v i c ef o re x p e r t s s c h o l a r sa n dd o c t o r si nl i f es c i e n c e s c o n c l u s i o n :t l l i ss t u d yc o n c e n t r a t e so np r o v i d i n gw e l lo r g a n i z e di n f o r m a t i o n m a k i n gi n f o r m a t i o nd i s c o v e r yo fg e n ef u n c t i o n ,g e n e d i s e a s er e l a t i o n s h i p s ,b i o l o g i c a l m o l e c u l a ri n t e r a c t i o nn e t w o r k ,a n dg e n e r a t i n gb i o l o g i c a lh y p o t h e s i s ,a n ds e v e r a l v a l l d a t i n gs t u d i e sh a v ec l a r i f i e di t su s e f u l n e s s t h ea v e r a g ea c c u r a c yo fe x t r a c t i n g b i o l o g i c a lr e l a t i o n s h i p sb yo u rs y s t e mc o m p a r e dw i t hb ym a n u a lw o r kc a l lr e a c h8 6 。 k e y w o r d s :b i o m e d i c a ll i t e r a t u r em i n i n g : g e n eo n t o l o g y : n a t u r a ll a n g u a g ep r o c e s s i n g 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的周志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:查鍪日期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:炙币l 导师签名: 日期: 第一章绪论 1 1 课题研究背景 第一章绪论 随着人类基因组计划的完成和其他大规模测序工作的进行,生物信息学领域的注意力已 经从序列分析逐步转移到对功能基因组学的研究,即探究基因的生物功能和揭示基因之间的 相互关系上来。利用基因芯片技术、蛋白质芯片技术等高通量实验检测手段是进行功能基因 组学研究的常用方法。同时,运用文献挖掘技术在大量已经发表的文献中提取、学习所需要 的知识也是这一领域中一个前景广阔的研究方向。 近年来,分子生物学和遗传学迅猛发展,在相关领域内发表的论文数量出现了飞速增长, p u b m e d n 一生物医学文献数据库已经有超过1 5 ,0 0 0 ,0 0 0 条的文献记录,用户对这些论文检 索利用的需求也在不断增长。面对浩如烟海的文献,将其用自由文本表示的知识结构化,使 之成为计算机可以理解的形式,对于充分利用既往研究成果有重大意义。传统生物学发表的 文献有很多是对一些局部性具体试验结果的描述,对这些文献进行综合研究有可能得出复杂 生命过程更为全面的知识。 目前,实验数据和生物医学文献的数量在不断剧增,网上文献和电子期刊也在进一步开 放,为文献挖掘提供了更好的条件。海量文献的分析仅靠人力是不现实的,需要一些相关的 文献挖掘工具进行辅助。如何分析大量的文献,将信息领域的技术应用进来,从系统生物学 的角度找出其中隐含的相互关联的生物学联系( 比如基因表达、蛋白质表达和相互作用、代 谢途径等相互之间的联系) ,将零散的生物学信息和文献根据功能、结构、生物学过程等合 理的组织起来,在系统生物学层次上做出新的生物学发现,无疑是生物学发展所面临的最大 的机遇和挑战。本文所研究的面向生物医学文献的文本挖掘技术和挖掘平台,就是在这种研 究需求下建立的。 1 2 生物医学文献挖掘 1 2 1 飞速增长的生物医学文献信息 生命科学的飞速发展,使得生物医学信息急剧增加,内容涉及到生物医学研究的很多专 业,为了便于交流和获取信息,国际国内都建立了大量的专业数据库资源。许多医学院校、 生物医学研究机构和信息公司相继推出生物医学信息检索引擎和指南,一些著名的生物医学 数据库也纷纷入网。i n t e r n e t 网上的生物医学信息资源越来越丰富。 文献数据是一类重要的生物医学信息,而且数量庞大。国内外比较著名的数据库有: p u b - i e d ( h t t p :w w w n c b i n l m n l h g o v e n t r e z q u e r y f c g i ? d b = p u b m e d ) 是美国家i 丢 学图书馆下属的国家生物技术信息中心( n c s i ) 开发的、基于w e b 的生物文献查询系统, 它提供文献的索引、摘要和部分文献的全文链接。p u b m e d 收录了1 9 6 6 年以来,7 0 多个国家, 4 3 0 0 多种生物医学期刊的题录和文摘。数据库收录的专业范围包括人类医学、兽医学和其他 学科,内容涉及基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、医学保 东南大学硕士学位论文 健和医学情报科学等多个学科领域,目前已有1 5 0 0 多万条记录,年递增达4 6 万条以上。通过 p u b m e d 的网址,可进入到p u b m e d 的基本检索界面。用户可直接在提问栏中输入检索词进行 检索,检索出的文献包括题目、作者、单位地址、文摘等。按“l i m i t s ”按钮即可进行限制 检索,可以限制检索的文献类型、语种、检索年限等:如按“p r e v i e w i n d e x ”按钮,则进 入到p u b m e d 的高级检索方式。在高级检索方式中,可对题名、著者姓名、期刊名、语种、 主题词、年限等进行逻辑组配,同时可根据第1 次检索文献的结果,随时调整检索策略,进 行第2 次检索。p u b m e d 可免费检索到近几年部分期刊的全文。p u b m e d 除了可检索m e d l i n e 旧一1 数据库外,还可检索美国国家生物技术信息中心( n c b i ) 的核酸、蛋白质、3 维蛋白质结构、 基因组和染色体图谱数据库。在当今的生物医学文献挖掘研究中,p u b m e d 摘要是最重要的文 献来源之一。 g o o g l es c h o l a r ( 网址:h t t p :s c h o l a r g o o g l e c o r n ) 是著名搜索引擎g o o g l e 旗下的文 献检索网站。它的检索方法和p u b m e d 基本相同,也是输入作者姓和名的起始字母以及地址、 年份等。如果想获得更精确的检索结果,可以点击a d v a n c e ds c h o l a rs e a r c h ,加上其他的 限制条件。 比起p u b m e d ,g o o g l es c h o l a r 的主要优点是它总是把关于该关键词有关的论文按影响 因子从高到低排。换言之,很快就能发现关键词下最重要的论文,因为它们排列在最前头, 从而节省时间和精力。缺点是排在前面的文章可能是老文章,不能从中获得最新信息。 i s iw e bo fs c i e n c e ( 网址:h t t p :a p p s i s i k n o w l e d g e c o r n ) 是美国t h o m s o n s c i e n t i f i c 公司基于w e b 开发的产品,包括三大引文库( s c i m 。、s s c i 1 和a & h c i ) 和两个 化学数据库( c c r 陋1 、i c 。) ,以i s iw e bo fk n o w l e d g e 作为检索平台。收录6 ,3 0 0 多种科学 技术期刊。 r s 【区别于其他检索引擎的一大标志是,通过点击右边框的j o u r n a lc i t a t i o nr e p o r t s , 可以立即查看该期刊近5 年左右的影响因子排列,从中可以了解此期刊是属于上升期还是平 稳期及该期刊当i 茸的影响力等信息。i s i 的另外一个优点是除了专业期刊,还收人了会议摘 要。所以如果使用同样的限定词,在i s i 下往往能找到比p u b m e d 更多的条目。 中国生物医学文献数据库( 锄) ( h t t p :w 啊i mi c a m s a c c n c b m i n d e x a s p ) 该数 据库收录1 9 7 8 年以来1 6 0 0 多种中国生物医学期刊,以及汇编、会议论文的文献题录,总计 3 5 0 万余条。内容涉及基础医学、临床医学、预防医学、药学、中医学等生物医学的各个领 域。该数据库提供的检索途径有:中文题目、英文题目、作者、地址、文摘、参考文献、刊 名、出版年、期、分类号、关键词、主题词、特征词。对于科技信息专业人员可以选用“主 题词”检索方式。而对于大多数一般性用户而言,一般选择“检索”方式。1 9 8 9 年以后的题 录与维普全文数据库链接。 中文生物医学期刊文献数据库( h t t p :胛w c m c c g o v c n h o m e i n d e x a s p x ) 由中国人民解放军医学图书馆数据库研究部开发研制。该数据库收录1 9 9 4 年以来的1 4 0 0 余 种中文医学期千0 ,累计2 7 0 万篇。检索途径有自由词、题名、作者、单位、刊名、摘要。还支 持表达式检索和组配检索,可以在检索式输入框中自行输入较复杂的检索式。 万方敦据资源系统( h t t p :w w w w a n f a n g d a t mc o w c n ) 此系统汇集了全国各主要机 构提供的科技文献信息,收录范围涉及专业、综合、英文等近1 0 0 多个数据库。其中万方数 据医药信息系统提供了医药期刊、引文分析、学位论文、会议论文、法规全文、成果专利、 中外标准、企业机构、参考数据库、医药咨询等医学文献或信息的检索。数字化期刊的医药 卫生板块中包括了几乎所有医学门类的期刊资料,是信息资源共享、检索查新的必备工具。 这些资源库汇集了海量的生物医学信息数据,而且这些信息资源的增长速度达到了大约 每1 3 个月翻一番,超过了著名的摩尔定律的增长速度。尽管这些数据库都对数据进行了一 定的分类整理,但是从中获取所需的信息资源依然如大海捞针一样困难。 2 第一章绪论 1 2 2 文献挖掘的兴起 大多数的生物学知识,如基因之间的相互作用、蛋白的空间与时间表达以及调控、基因 型与表型甚至疾病的关系被记载在各类文献中,其中大部分文献以电子出版物形式存在。生 物信息学的一个分支即是利用自然语言处理技术挖掘大量的生物学文献。 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并利 用这些知识更好地组织信息的过程u 。文本挖掘是信息挖掘的一个研究分支,用于基于文 本信息的知识发现。它能够利用智能算法,如神经网络、基于案例的推理、可能性推理等, 并结合文字处理技术,分析大量的非结构化文本源( 如文档、电子表格、网页等) ,抽取或 标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文 本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检 索、机器学习、自然语言处理、计算语言学、统计数据分析、概率理论、图论等。 生物医学文献挖掘是文本挖掘的一个新兴分支,概念至少能追溯到上世纪8 0 年代。当时 d o nr s w a n s o n 教授指出,公开知识有可能不被发觉,只因为组成这一知识具有逻辑联系的 各个部分从没有被同一个人所知u 。”1 。其思想为:如果一组文献表明a 可以导致b 发生,而 另一组文献表明b 可以导致c 发生,那么通过逻辑递推关系,可推知a 和c 存在着一定联系, 而这种联系在此前没有在任何文献中有过记录。根据这一理论,s w a n s o n 教授发现食用鱼油会 对雷诺氏症患者有益副。雷诺氏病( a ) 是一种治疗方法和病因都未知的血液循环紊乱,有 文献中记载了部分雷诺氏病患者血液中有某种异常,如血液黏度升高( b ) 。同时,又在其 他文献中发现食用鱼油( c ) 能纠正这种异常,例如,它可以降低m 液黏度。因此,把这两 种知识联系起来得出食用鱼油( c ) 应该对雷诺氏病( a ) 患者有帮助的假设。这一假设没 有先前任何报导,后来得到实验验证。1 9 8 8 年,s w a n s o n 教授用他的方法提出了周期性偏头 痛与镁缺乏之间的联系。后来这种关系也被临床证实。此后,他又发现了很多具有隐藏联系 的例子,他的研究成果引起了人们极大的兴趣。人们首次认识到从文献中可以发现或者挖掘 到以前未知的知识。 s w a n s o n 教授的时代,生物医学文献数量有限,所以基于关键词的技术已经足够。随着 生物医学研究进展,特别是人类基因组测序的完成,医学文献以爆炸的方式增长,新的需求 不断出现,怎样从浩瀚的生物医学文献中搜集到相互作用的基因? 怎样把基因、蛋白质与一 种疾病联系在一起? 是否有可能利用现有的知识预测新的基因间的相互作用? 这些都需要数 据挖掘工具。 本世纪初,一系列生物医学文献挖掘工具被开发出来。p u b g e n e u 刮致力于从己发表的1 , 0 0 0 万份医学报告中,提取一个对1 3 ,7 1 2 种基因的、计算机自动生成的、基因对基因的检索 网络。这项研究成果发表在2 0 0 1 年5 月份的自然遗传学杂志上。为了测试软件性能的有 效性,软件作者把研发的程序用于一套标准的淋巴细胞基因表达数据研究。与淋巴细胞关系 最密切的5 0 种基因中,他们的程序在网络中发现了2 1 种。此程序可用于识别基因网络而不是 识别聚类的基因,并能根据生物学过程对基因分类。通过最新版本2 1 版,发现了6 0 0 万种关 于基因、蛋白质、功能、g e n b a n k 新增基因编号与其它成对概念闯的关系。随后大量的分析 软件致力于从相互作用数据中挖掘出相互作用的规律,同时自然语言处理技术不断的被应用 在本领域,提高了文档处理效率,一些基于统计、语法以及两者结合的方法被应用在这一领 域。例如,h a h n 等利用了复杂的自然语言处理技术来处理信息抽提,得到了很好的结果驯。 3 东南大学硕士学位论文 1 2 3 本体( o n t o l o g y ) 在文献挖掘研究中的应用 随着科技发展的日新月异,人类进入了信息时代,特别是由于因特网的快速发展,面对 信息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就成为一项重要而 迫切的研究课题。为了适应这些要求,o n t o l o g y 作为一种能在语义和知识层次上描述信息系统 的概念模型建模工具,近年来引起了国内外众多科研人员的关注,并在许多领域得到了广泛的 应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理、语义w e b f l 6 】 等。 o n t o l o g y 是一个源于哲学的概念。简单来说,o n t o l o g y 是一套得到认同的、关于概念体 系的明确、正式的规范说明。它包含四层含义【l :概念模型( c o n c e p t u a l i z a d o n ) 、明确定义 ( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型,概念模型所表现的含义独立于具体的环境状态。 “明确定义”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。“共享”指o n t o l o g y 中体现的是共同认可的知识,反 映的是相关领域中公认的概念集,& f o n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的目 标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并 从不同层次的形式化模式上给出这些词汇( 术语) 和词汇问相互关系的明确定义。本体论成 为知识获取和表示、规划、进程管理、数据库框架集成、自然语言处理和企业模拟等研究领 域的核心。 在生物学领域,由于聚集了多个不同学科,积累了海量的信息,因而知识的表达、管理 和共享尤为重要。如借助现代生物学实验技术d n a 芯片技术,通常会得到一长串与基 因有关的列表,分析这些列表的数据可以获取许多潜在的生物学信息。为了从生物学角度去 理解这些数据,我们需要获取和分析这些基因数据在生物学功能方面的注释。 g o ( g e n eo n t o l o g y ) 【l8 】数据库开始只是为了给研究者们提供能在不同物种的生物研究中 通用且具有共同意义的基因词汇库,但由于哺乳动物和模式生物的基因组之问存在功能的保 守性,对几种模式生物的基因组注释的意义有可能为整个生物界提供有意义的基因信息资 源。基因本体数据库g e n eo n t o l o g y ( g o ) 为大量基因提供有效的注释及分析。它将各基因产 物与标准g o 术语有机地连接在一起,从而使研究者对各种基因产物的功能有更深的认识。 随着其它一些生物和人类基因组数据信息的加入,g o 已经成为科学家们开展人类基因研究 的一个重要生物信息学工具。 本体论( o n t o l o g y ) 及它的一些相关概念在组织和检索信息方面已经变得越来越重要。一 套本体( o m o i o g y ) 就是一套词汇表,它的各个词汇是以有向的非循环图结构( r d a g 或d a g ) 排列的。在生物学中也有很多网站提供与本体相关的些资源。但是这些基因相关的功能、 生物过程、组织成分等基本概念的表述缺乏统一和标准化,这样就使我们在对不同信息源中 信息的理解和检索中出现了困难。例如,同一种基因或者生物过程就有好多种不同的说法。 g o 的出现就是为了解决这样一个问题,它是一套树状的与基因有关标准术语表,对生物学 术语进行了标准化描述,这样就使生物信息学工作者在描述这些术语时有了统一标准,使各 个数据库的信息统一起来,从而具有了通用性。 采用知识定义方法,实现了结构化知识的共享o n t o l o g y t g l 重用性、领域知识的明确化; 满足了推理要求;实现了异构数据库的集成。同时解决了服务合成中部分异构问题,为实现 服务共享,知识共享提供了方便。目前,g o 、c e l lo n t o l o g y t l 9 j 等本体,已经被应用在文本 挖掘、数据库建设和集成、信息检索与获取等研究项目中。 信息科学中的本体论方法仍然处于探索阶段,在生物学中的应用也还很不成熟,但是作为 一种新的研究思维方法。本体论在促进对生物数据的理解和整合、提高生物医学文本挖掘的 4 第一章绪论 效率的等研究领域具有很大的潜力。 1 2 4 目前主流的生物医学文献挖掘技术 文献挖掘属于数据挖掘的范畴。数据挖掘是从大量的、不完全的、有噪声的、模糊的、 随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、 粗糙集、模糊数学等相关技术口。 数据挖掘可粗略地理解为三部曲:数据准备( d a t ap r e p a r a t i o n ) 、数据挖掘( d a t am i n i n g ) 以及结果的解释评估( i n t e r p r e t a t i o na n de v a l u a t i o n ) 。根据数据挖掘的任务不同,可分 为以下几种:分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发 现、依赖关系或依赖模型发现、异常和趋势发现等等。 数据挖掘的算法包括: 统计方法,可细分为:回归分析 2 t 2 2 1 ( 多元回归、自回归等) 、判别分析2 3 4 5 1 ( 贝叶斯判 别、费歇尔判别、非参数判别等) 、聚类分析 2 6 2 7 ( 系统聚类、动态聚类等) 、探索性分析【2 粥0 1 ( 主元分析法、相关分析法等) 以及模糊集m 】、粗糙集 3 2 1 、支持向量机3 3 1 等。 机器学习方法,可细分为:归纳学习方法( 决策树1 3 引、规则归纳等) 、基于范例的推理 c b r 【3 5 】、遗传算法【3 6 l 、贝叶斯网络例等。 神经网络方法,可细分为:前向神经网络【3 8 1 ( b p 算法等) 、自组织神经网络( 3 别( 自组织 特征映射、竞争学习等) 等。 数据库方法,主要是基于可视化的多维数据分析或o l a p 方法1 3 9 1 ,另外还有面向属性的 归纳方法4 0 l 。 自然语言处理方法,指对于人类自然语言进行的操作和分析,包括自然语言的分词操作、 词性标注、词义标注、搭配关系标注、语法分析、语义分析、语用分析、段落解析、篇章分 析,以及与此相应的各种语言学统计,以及从大规模语料库中提取典型语句样本和语言学规 则等1 4 。 下面介绍文本挖掘处理技术在实际运用中涉及的几个分支。 文本挖掘处理技术1 4 列可以帮助人们在大量的文献资料中迅速获得所需要的信息。其中 信息检索、信息提取、信息过滤和文本分类成为近几年投入研究最多的文本挖掘应用技术。 目前的文本挖掘处理系统大多采用统计语言模型和语言浅层分析规则的策略,这样就避开了 自然语言理解当中难以解决的问题,把一些相对成熟的语言分析技术应用到语言工程当中。 所以比起机器翻译来,文本挖掘处理虽然起步要晚许多年,却取得了快得多的研究进展和应 用效果。 早期的文本信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 【4 2 j 系统是基于自由关键字和 布尔模型的,语言处理技术的含量不高,虽然实用,但检索效果并不很理想。近年发展起来 的基于自然语言处理的文本检索技术,已经达到了能够处理大规模开放文本的实用程度。其 中采用的语言处理技术有:自动分词,词频统计,识别“有效词”和“停用词”,识别复合 短语、专有名词和未定义词,在此基础上用概率统计的方法计算文本的类别特征值,判断检 索结果的相关程度。与此同时,文本自动分类和自动文摘技术也被引入到检索系统里,以提 高检索的效率和准确度。特别值得注意的是,文本信息检索与机器翻译结合,形成了跨语言 信息检索( c r o s s - l a n g u a g ei r ) 的研究方向,即用某一种语言提出检索要求,计算机在其 他语种的文本中检索,再把得到的检索结果翻译成用户指定的语种。 文本信息提取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 【4 2 1 与文本信息检索的不同之处是, 5 东南大学硕士学位论文 它的目标不是提供用户感兴趣的文档,而是提供结构化的信息,譬如数据库。因此,文本信 息提取系统要在更多的自然语言处理技术支持下,把需要的信息从文本中提取出来,再用某 种结构化的形式组织起来,提供给用户( 人或计算机系统) 使用。信息提取技术一般被分解 为五个层次:第一是识别专有名词( n a m e de n t i t y ) ,主要是人名、地名、机构名、货币等 名词性条目,以及日期、时间、数字、邮件地址等信息的识别:第二是模板要素( t e m p l a t e e 1 e m e n t ) ,即应用要素模板搜索和识别专有名词,并对其进行分类的过程。这时要处理的 通常是一元关系,是对名词性条目对号入座的过程。第三是模板关系( t e m p l a t er e l a t i o n ) , 即应用关系模板搜索和识别专有名词与专有名词之间的关系,此时处理的通常是二元关系。 第四是同指关系( c o r e f e r e n c e ) ,要解决文本中的代词指向问题。第五是脚本模板( s c e n a r i o t e m p l a t e ) ,是根据应用目标定义抽取任务框架,用于特定领域的信息识别和组织。 语言自动分析的研究是信息提取技术的基础。在现有的自然语言处理技术中,从词汇分 析、浅层句法分析、语义分析,到同指分析、概念结构、语用过滤,都可以应用在信息提取 系统中。譬如,对专有名词的提取大多采用词汇分析和浅层句法分析技术:识别句型( 如 s v o ,主谓宾句式) 或条目之间的关系需要语义分析和同指分析;概念分析和语用过滤可以 用来处理事件框架内部有关信息的关联和整合。随着对语言的分析逐渐深入,对信息的发掘 由浅到深,信息提取的实际应用也从改进搜索引擎、自动问答系统到各种信息的图示化表达 ( v i s u a l i z a t i o n ) ,逐渐增多。 信息过测4 2 1 是根据用户的需求用计算机从动态变化的信息流中自动检索出符合要求的 信息,多用于互联网上的信息内容安全领域( 如根据某种有害信息的特征描述,甄别或截流 符合这些特征的网页) 。文本分类是在给定的分类体系下,利用计算机根据某种特征对文本 的内容进行划分和聚类,自动判别文本的类别。它们大多采用统计语言模型的方法,统计的 对象包括词汇、语义信息,词语搭配信息和词语共现信息等。 1 2 5 文献挖掘的研究进展 人类基因组计划已经在2 0 0 西年钥l 叠号正式完成,伴随着基因组测序的完成和表达型基 因芯片的应用,大量新的生物数据被不断发掘出来。这些数据的获得,为研究基因以及基因 的表达打下了坚实的基础,同时也产生了海量的生物医学文献数据信息。m e d l i n e 、p u b m e d 上的数据以每1 3 个月翻一番的速度增长,方面带给人们丰富的研究资料,同时也使得人们 在堆积如山的数据面前无所适从。因此人们面临着数据海量却又知识匮乏的窘境。尽管生物 医学信息库的容量和数量都在不断扩大,但是有关生物医学的最新信息大部分以文献的形式 存在:另一方面,随着文本自动处理技术h 引( 如信息检索、信息抽取和文本分类) 的成熟, 从文本中发现和挖掘知识已经成为可能,针对特定应用领域的研究更能取得更好的成果。文 本挖掘技术就是对自然语言的一种计算机自动处理方法,是知识发现( k n o w l e d g e d i s c o v e r y ) 的一个热点研究方向。 图1 1 所示为生物医学文献挖掘研究的五个层面:信息检索( i n f o r m a t i o nr e t r i e v a l ) 、 实体识别( e n t i t yr e c o g n i t i o n ) 、信息提取( i n f o r m a t i o ne x t r a c t i o n ) 、文本挖掘( t e x t m i n i n g ) 、知识整合( i n t e g r a t i o n ) 。现有的生物医学文献挖掘研究都是围绕这五个层面所进 行的。大部分的研究是围绕其中某个层面深入进行,只有少数研究贯穿所有层面。下面结合 这五个层面介绍下国内外文献挖掘的研究进展情况。 6 第一章绪论 璃 秀 薯 垂 童 o 奄 o 露 麓 i n f o r m a t i o n 黪t 薅姆磊 b ;铭越嚣。譬n ;t 移n 如耘蟛善舟a 鳓n 献乏r i 董c 冀i o n 赋m t n i 箍9 i n t e 噶i r a t i o n 图1 1 生物医学文献挖掘研究的不同层面n 信息检索( i n f o r m a t i o nr e t r i e v a l ) 是指文献的来源与获取方式。 在上世纪8 0 年代,信息检索只限于在图书馆中查找与获取纸质文献。而随着信息化浪潮 的飞速推进,传统的检索方式已被1 2 1 节介绍的p u b m e d 等专业生物医学文献信息数据库和 检索引擎所取代,这些专业数据库是目前文献挖掘的主要文献来源。 实体识别( e n t i t yr e c o g n i t i o n ) 是指生物学实体名称( 基因名称、蛋白名称、疾病名称、 生物学过程名称等) 的判别和提取。 目前的文献挖掘研究使用两类方法来识别生物学实体。一类是通过现有的生物学知识库 进行判别。以涉及基因和蛋白的知识库为例,现阶段,利用人工阅读提取特定领域知识建立 的知识库就有g o h 劓、s g d h4 。矧、d i p 潍- 州、k e g gn 8 堋1 等。利用生物学知识库能够准确的识别 和提取文献中的实体,但由于现有知识库的不完备性,并不能找到所有的生物学实体。另一 类方法是通过生物学实体的特征( 词形、上下文、统计特征等) 进行提取。由于长期以来的大 量生物术语命名没有统一规范所造成的模糊性、歧义性和多义性,这类方法目前的准确率并 不高。但随着许多生物学相关语料库的建立,基于大规模语料训练下的生物学实体抽取算法 正快速发展,准确率也在逐渐提高。 日本东京大学信息科学系建立的生物学相关语料库( g f 2 虹ac o r p u s 侧) 就是其中的佼佼 者,包含了专家标定的2 0 ( d 篇文献摘要,常在生物学实体抽取算法的训练与测试中使用。 美国费城儿童医院的文献挖掘项目b i b l i o m e 哺也提供了专家详细注释的大量高质量的 摘要和部分全文作为语料库,已经注释好的主要是酶抑作用、突变与癌症关系方面的文章。 此外,这个项目还提供了f a b l e ( f a s ta u t o m a t e db i o m e d i c a ll i t e r a t u r ee x 廿a c f i o n ) 。1 工具, 在b i b l i o m e 项目的基础上开发,用于生物医学名词的深度信息检索。 信息提取( i n f o r = a t i o ne x t r a c t i o n ) 是指生物学实体关联关系的提取。 现有信息提取方法大多分为两类。一类依据实体在文中的距离关系来抽取,叫做共出现 法( c o - o c c u r r e n c e ) i t 这类方法基于的假设是文章中靠的越近的实体关系越大,把是否在同 一句中、中间相隔单词数的多少作为距离设定的依据,建立距离的打分矩阵来判别实体间的 相互关联。这类方法比较简单,易于实现,但基于的假设并不可靠。另一类是自然语言处理 7 擎eloo豸妻罄孑鬻馁z岱絮象每 东南人学硕l 二学位论文 方法( n a t u r a ll a n g u a g ep r o c e s s i n g ) 【4 1 1 ,依据文献的语法结构和语义关系进行关联关系提 取。这类方法建立在大规模语料库分析和复杂的语言模犁的基础上,实现较为复杂和困难, 但挖掘出的关联关系更加准确和可靠,也是当今文献挖掘的趋势所在。 文本挖掘( t e x tm i n i n g ) 是指对提取出的信息进行整理、挖掘与分析,找出大量关联中 的生物学意义。 共出现法一般对提取出的生物学实体进行聚类操作,而自然语言处理方法得出的关联关 系会通过1 2 4 节的挖掘算法进行后期处理。信息提取和文本挖掘两个层次关系非常密切, 在许多生物医学文献挖掘方法中,两者很难有一个清晰的界限,往往融合为一个过程。 经典的文献挖掘软件a r r o w s i i l i m l l 2 5 3 1 采用的是共出现的方法。该软什挖掘了m e d l i n e 数据库中的所有文献题目,如果题目中有生物学实体a 、b 、c 存在共出现关系a c ,b c , 那么a 、b 间可能有关联。可以利用此网上工具进行文献隐藏关联分析和深度文献检索工作。 欧洲分子生物学实验室的s a r i c 等研究者开发的文献挖掘t 具s t r i n g i e 拍刮应用的是自 然语言处理方法。他们分析了p u b m e d 中与四种模式生物相关的近百万篇摘要,从中提取出 3 3 1 9 个生物学实体关联关系,准确率达到8 5 9 5 ,并在酵母菌实验中得到验证。 印度m a d u r a ik a m a r a j 大学的研究者将m e s h 、g o 与语法分析力法应用于文献挖掘临引, 他们首先从m e d l i n e 中取出2 0 0 篇摘要进行分析,从中找出2 0 个基i 大i 。然后,采用使用 词法标注与延展法哺引、正则表达式怕驯、t f i d f 算法怕从摘要中提取出与这2 0 个基因相关的关 键词,并通过m e d l i n e 和g o 得到这2 0 个基闵的m e s h 注释信息和g o 注释信息,将关 键词、m e s h 注释和g o 注释信息作为多维向量,对这2 0 个基l 大i 进行聚类,得出三组基冈。 用得出的结果指导基因芯片实验,确认这些基闪之间的生物学关系,取得了很好的效果。 知识整合( i n t e g r a t i o n ) 是指将文献挖掘的结果与生物学研究结合起来,用文献挖掘的 结果来辅助做出某个生物学研究方向的知识发现。 图1 2 生物医学文献挖掘在生物医学研究中的典型应用 如图1 2 所示,生物医学文献挖掘已广泛应用在研究热点预测、表犁基i 大l 型关联、基因 癌症关联、基凶调控网络、蛋白结构预测等方面。 欧洲分子生物学实验室的k o r b e l 等研究者分析了p u b m e d 中所有原核生物相关文章,对9 2 个原核生物基i 大i 组的表型基因型关联进行聚类分析,找出了2 7 0 0 个显性性状与基冈酗的关联 关系。从聚类分析的热力图结果中,不仅可以得到一些已知的表犁基【大j 型关联关系( 如植物 退化和相关基闪的关系) 外,还找出了一些鲜为人知的关联关系( 细菌性食物腐败和相关基 因的关系) 1 。 8 第一章绪论 浙江大学的周雪忠博士等根据中医药学数据的特点,提出了基于文本挖掘的中医证候分 子生物学知识发现研究旧1 ,该方法的特点是综合利用中医药学文献和m e d l i n e ,能够获得 创新的中医证候与基因相关知识。初步实验表明,文本挖掘技术有望为中医证候的分子水平 研究提供辅助和支撑手段。 清华大学的张朝林等通过统计以乳腺癌为主题的p u b m e d 文献摘要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论