




已阅读5页,还剩61页未读, 继续免费阅读
(生物医学工程专业论文)生物医学文本挖掘及其在基因调控信息分析中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 的数据库、分析工具和文献检索资源。通过g r i s 系统,研究人员可以方便地检 索到所关心的各类基因调控信息资源。对于海量的基因调控信息相关文献,可以 通过f s a s ,挖掘出该文献中的频繁长词,进而通过这些词来确定该文献的主要 研究内容,研究人员只需要查阅这些长词就可以了解文献主题,从而快速方便的 获取所需的研究文献。 面向基因调控信息领域的信息代理系统( i n f o a g e n t ) 是一个双层的 c l i e n t s e r v e r 结构,它建立在界面代理、用户兴趣学习代理、信息获取代理和文 档检索代理等多代理之上,能够通过系统及用户自定义的数据源,利用s o c k e t s 技术爬行网络,及时获取当前国际上基因调控研究相关的最新技术、进展和新闻 等信息。同时该系统还实现了基于用户兴趣的调控信息智能检索。本系统的实现 可以帮助用户及时了解当前国际国内基因调控信息的研究进展,从而大大减轻了 用户搜索和查找相关文档的时间和精力。 频繁序列算法的应用目前还仅仅局限于基因调控领域,今后可以继续开发成 一套通用的文本挖掘分析工具,满足不同用户的需求。g r i s 系统也是刚刚建立, 逊需要进行维护和更新,以便它成为一个真正的全面的有效的基因调控信息资源 库。 关键字:文本挖掘; 支持向量机 频繁序列: u 文本分类; 基因调控; a b s t n 虻t t h e s i st i t l e m a s t e rn a m e : a b s t r a c t b i o m e d i c a lt e x tm i n i n ga n di t sa p p li c a t i o ni ng e n e r e g u l a t o r yi n f o r m a t i o na n a l y s i s z h o u j u n s u p e r v i s o rn a m e :s u nx i a o s c h o o ln a m e :s o u r e s tu n i v e r s i t y w i t ht h ee x p e d i t i o u si n c r e a s eo fb i o m e d i c i n ed a t a ,i tn o to n l y a c c e l c r a t e sh u m a n si n t e r c o m m u n i o na n dr e s e a r c h 。b u ta l s om a k e sp e o p l e t of a c et h ei m m e n s i t yd a t aa tl o o s ee n d s ,s ot h e r ec o m e st h r e er a r i n g r e q u i r e m e n t s :h o wt oe x p e d i e n t l ys e a r c hi n f o r m a t i o no fg e n er e g u l a rf i e l d ? h o wt ok n o wt h en e w e s ti n v e s t i g a t i o ni n t i m e ? a n dh o wt of i n dp a p e r sf l e e t l y ? a tt h es a m et i m e ,d a t am i n i n gt e c h n o l o g i e sb e c o m ep o p u l a r ,e s p e c i a l l yt e x t m i n i n g t h e s et e c h n o l o g i e sa l s o m a k ei tp o s s i b l ef o ru st os o l v et h e a f o r e m e n t i o n e dt h r e eq u e s t i o n s t h i st o p i cp u t sf o r w a r dan e ww o r d sm i n i n gm e t h o db a s e do nf r e q u e n t s e q u e n c ea r i t h m e t i c ,d e v e l o p sf r e q u e n ts e q u e n c ea r i t h m e t i cs y s t e m ( f s a s ) t os e r v ef o rp a p e rs e l e c t i o na n dt e x tc l a s s i f i c a t i o n s i m u l t a n e i t y w i t h t h eh e l po ft e x tm i n i n g t e c h n 0 1 0 9 y ,w ec r e a t et h e g e n er e g u l a t i o n i n f o r m a t i o ns o u r c ed a t a b a s e ( g r i s ) a n dg e n er e g u l a i o no r i e n t e d i n f o r m a t i o na g e n ts y s t e m ( i n f o a g e n t ) t e x tc l a s s i f i c a t i o ni st h em a i np a r to ft e x tm i n i n g a n di t sk e r n e l i sh o wt og e tt e x tc h a r a c t e r i s t i c t h et r a d i t i o n a lw o r ds e g m e n t a t i o n t e c h n i q u ei sn om o r ef i tt h er e q u i r e m e n to fg e n er e g u l a t i o nr e s e a r c hw o r k f s a sc o u i de x t r a c t1 0 n g - - w o r d sa n dn e w - w o r d sf r o mt e x t sw i t h o u tw o r d b o o k 。 t h e s ew o r d se x t r a c t e dw i t hf s a sg e n e r a l l yr e p r e s e n tt h em a i ni d e ao fa p a p e r s ot h e yc a nh e l pp e o p l et ok n o wt h em a i ni d e ao fp a p e r s ,a n dt o c h o o s er i g h tp a p e rw h i c ht h e yt e a ll yn e e d t h e s ew o r d sc a na l s ob eu s e d t ob u i l dt e x tc h a r a c t e r i s t i c ,a n dt ow o r kf o rc l a s s i f yt e x t s w eu s et h e t e x te i g e n v e c t o r se x t r a c t e dw i t hf s a sa n d s v mt e c h n i q u et od os o m e e x p e r i m e n t s ,t h ea v e r a g ea c c u r a c yi sa b o v e8 5 i na d d i t i o n w i t ha n u m b e ro fg e n er e g u l a ri o nt e x t sd e a l e dw it hf s a s ,p e o p l ec a ng e tt h e p r o f e s s i o n a lk e y w o r d so f t h i sf i e l d t oc r e a t eg r i s ,w ec 0 1 l e c tt h ec o r r e l a t i v ei n f o r m a t i o no fg e n e r e g u l a r i o f fi ni n t e r n e t ,s u c ha sd a t a b a s e 、t o o l sa n dl i t e r a t u r e p e o p l e c a nh a n d i l yg e ta l lk i n d so fg e n er e g u l a ri n f o r m a t i o nr e s o u r c e h o wt o c h o o s et h el i t e r a t u r e sf r o mt h ev a s tg e n er e g u l a t i o nl i t e r a t u r e sh a s i i i 东南大学硕士学位论文 b e c o m eau b i q u i t o u sp r o b l e mo fr e s e a r c h e r s i nt h i sp a p e rw et r a n s l a t e ap d fl i t e r a t u r ei n t oat x to n e t h e ne x t r a c tt h ef r e q u e n tl o n g l o r d so f t h e1i t e r a t u r eb yf s a ,n e x tu s et h e s ew o r d st oa s c e r t a i nt h em a i nc o n t e n t o ft h i sl i t e r a t u r e :s or e s e a r c h e r sc a nf i n do u tt h er i g h t1 i t e r a t u r e s w h i c ht h e i rn e e d e de x p e d i e n t l y ,j u s tb yr e f e rt ot h e s el o n g - w o r d so ft h e s e 1it e r a t u r e s g e n er e g u l a i o no r i e n t e di n f o r m a t i o na g e n ts y s t e m ( 1 n f o a g e n t ) i s d o u b l ec 1i e n t s e r v e rs t r u c t u r a l i t sc o n s t r u c t e du p o nm u i t i p l e i n t e l l i g e n ta g e n t s s u c ha si n t e r f a c e a g e n t 。u s e rp r o f i l ea g e n t 。 i n f o r m a t i o nr e t r i e v a la g e n t ,a n dd o c u m e n ts e a r c ha g e n t i ta p p li e s d e f a u i ta n du s e r d e f i n e dd a t as o u r c e st oo b t a i nl a t e s ti n t e r n a t i o n a l r e s e a r c hd o c u m e n to fg e n er e g u l a r i o na n de x p r e s s i o n ,a n da p p l i e sv e c t o r s p a c em o d e l t oa l g o r i t h mc h o o s et h o s ew h i c ha r er e l a t i r et ou s e r s i n t e r e s t s ,a n di tc a nr e c e i v ef e e d b a c kt oa d j u s ti t s e l f t h ei n f o a g e n t s y s t e mu s e st h es o c k e t st e c h n o l o g yc r a w l i n gn e t w o r k ,g a i nt h en e w e s t r e s e a r c ht e c h n o l o g y ,p r o g r e s sa n dn e w sf r o m m a i ng e n er e g u l a t i o n c o r r e l a t i o nr e s e a r c hi n f o r m a t i o nw e b s i t e ,t h e nw i l lc l a s s i f yt h e s e i n f o r m a t i o nb yu s i n gt h es v mt e c h n o l o g y 。p r o v i d e st ot h eu s e rt h eq u i c k s e a r c hs e r v i c e ,a n dc o n v e n i e n tf o ru s e rt og r a s pt h en e w e s tp r o g r e s sw h i c h i nt h i sd o m a i n a tt h es a l n et i m et h el n f o a g e n ts y s t e mh a sr e a l i z e dt h e a u t o m a t i cr e n e w a lf u n c t i o n k e y w o r d s :s v m : t e x tm i n i n g : f r e q u e n ts e q u e n c e g e n er e g u l a t i o n ; t e x tc l a s s i f i c a t i o n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:! 虱! 墨:导师签名: 第一章绪论 第一章绪论 1 1 飞速增长的生物医学文献信息 生命科学的飞速发展,使得生物医学信息急剧增加,内容涉及到生物医学研究的很多专 业,为了便于交流和获取信息,国际国内都建立了大阜的专业数据库资源。许多医学院校生 物医学研究机构和信息公司相继推出生物医学信息检索引擎和指南一些著名的生物医学数 据库也纷纷入网。i n t e r n e t 网上的生物医学信息资源越来越丰富。 文献数据是一类重要的生物医学信息,而且数量庞大。国内外比较著名的文数据库有: m e d l i n e 数据库:美国国立医学图书馆( n l m ) m e d l a r s 系统中规模最大的陕学文献数据 库,它收录了1 9 6 6 年以来,7 0 多个国家,43 0 0 多种生物医学期刊的题录和文摘。数据库 收录的专业范围包括人类医学,兽医学和其他学科,内容涉及摹础医学、临床医学,环境医 学、营养卫生、职业病学,卫生管理、医学保健和医学情报科学等多个学科领域目前已有 l1 0 0 多万条记录,年递增达3 0 万条以上。 p u b m e d ( h t t p :w w n c b i h i n tn i h g o v p u b m e d ) 通过p u b m e d 的网址可进入到 p u b m e d 的基本柃索界面。用户可直接在提日j 栏中输入检索词进行榆索,检索出的文献包括 题目、作者,单位地址、文摘等。按“l i m i t s ”按钮即日f 进行限制榆索可以限制检索的文 献类犁、语种、检索年限等:如按“p r e v i e w i n d e x ”按钮,则进入到p u b m e d 的高级检索方 式。住高级检索方式中,可对题名、著者姓名、期刊名、语种、主题词年限等进行逻辑组 配,同时町根据第1 次检索文献的结果,随时调整检索策略,进行第2 次检索。p u b m e d 可免 费检索到近几年部分期刊的全文。p u b m e d 除了可检索m e d l i n e 数据库外还可检索美国国 家生物技术信息中心( n c b i ) 的饮酸,蚩白质、3 维蚩f 质结构、基因组和染色体图谱数据 库。 中国生物医学文献数据库( c b m ) ( h t t p :r m , i m i c a m s a c c n c b m i n d e x a s p )该 数据库收录1 9 7 8 年以来l6 0 0 多种中国生物陕学期刊以及汇编、会议论文的文献题录 总计3 5 0 万余条。内容涉及摹础医学、临床陕学、预防医学、药学、陕学等生物阪学的各 个领域。该数据庠提供的检索途径有:- 扣文题e i 、英文题日,作者、地址,文摘、参考文献、 i 名,出版年,期、分类号,关键词,主题词、特征词。对于科技信息专业人员可以选用“主 题词”检索方式。而对于大多数一般性用t r l | 而言,一般选择“榆索”方式。1 9 8 9 年以后的题 录与维普全文数据库链接。 中文牛物医学期刊文献数据库( c m c c ) ( h t t p :w w - c m c c g o v c n h o m e i n d e x a s p x ) 由中国人民解放军医学图书馆数据库研究部丌发研制。该数据库收录1 9 9 4 年以来的14 0 0 余种中文医学期刊,累计2 7 0 万篇。检索途释有自由词,题名、作者、单位、刊名、摘要。 还支持表达式检索和组配检索,町以在检索式输入框中自行输入较复杂的检索式。 万方数据资源系统( h t t p :v m , w a n f a n g d a t a c o m c n ) 此系统汇集了全国各主要机 构提供的科技文献信息,收录范围涉及专业、综合、英文等近1 0 0 多个数据库。其中万方数 据陕药倍息系统提供了医药期刊、引文分析,学位论文,会议论文,法规全文,成果专利、 中外标准、企业机构、参考数据库、医药咨询等陕学文献或信息的检索。数字化期刊的医药 卫生版块中包括了儿乎所有医学门类的期刊资料。是佶息资源共享、检索壹新的必备工具。 这些资源阵汇集了海量的生物医学信息数据,而且这些信息资源的增长速度达到了大约 东南大学硕士学位论文 每1 3 个月翻一番,超过了著名的摩尔定律的增长速度。尽管这些数据库都对数据进行了一 定的分类整珲,但是从中获取所需的信息资源依然如大海捞针一样困难。随着信息科学技术 的发展,文献载体的多样化,人们获取信息的方式发生了很大变化。对于专门从事基因调控信 息研究的人员来说,一个专门的基冈调控信息相关的资源库更符合他们的需求同时为了及 时把握研究的最新动态,也需要一个智能的系统帮助他们收集国际国内的最新研究信息。为 了解决这两个问题,我们开发建立了基于文奉挖掘的基因调控信息资源库和i n f o a g e n t 智能 代理系统。 1 2 文本挖掘 1 2 i 文本挖掘的兴起 2 l 世纪是信息时代,最近研究表明,全球的信息有8 0 是以文本的形式存放的。包括 w e b 页面、技术文档,电子邮件等随着信息资源的不断增长,人们迫切需要从大量的文本 信息中有效地收集和选择所感兴趣的信息,征日j ;l 增多的信息中自动发现新的概念。并由计 算机自动分析它们之间的关系,能够真正做到信息处理的自动化。在这样的需求驱动下, 文本挖掘作为一个新的数据挖掘领域出现了。 文本挖掘必须从数据挖掘谈起。数据挖掘,又称为数据采掘、数据开采相近的术语 有k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,数据库知识发现) 、数据分析、数据融合( d a t a f u s i o n ) 等。根据w j f r a w l e y 和g p s h a p i r o 等人的定义数据挖掘是指从大型数据 库的数据中提取人们感兴趣的知识,而这此知识是隐含的、事先未知的、潜在的有用佶息“1 。 数据挖掘的提出最初是针对大型数据庠的,这此数据库容量可能达到g b ( 1 0 9 ) 字节,甚至 t b ( 1 0 “) 字节,最近i b m 提出其数宁图书馆的数据将可能达p b ( 1 0 ”) 字节。从更广义的角 度来讲,数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。因而, 数据挖掘的对象不仅是数据库,还可以足仔何组织在一起的数据集合,如w w 信息资源等。 目前数据挖掘工具能处珲数值型的结构化数据,而文本、图形、数学公式,图像或w 哪信息 资源等半结构、无结构的数据形式将是数捌挖掘的挑战之一文本挖掘作为数槲挖掘的一个 新的领域应运而牛。 文本挖掘是抽取有效、新颖、有用、可理解的、散布血文本文什中的有价值知识。并利 用这些知识更好地组织信息的过稗“。文本挖掘是信息挖掘的一个研究分支。用于基于文 本信息的知识发现。它能够利用智能算法,如神经网络,基于案例的推理、可能性推理等, 并结合文字处理技术,分析大量的非结构化义本源( 如文档,电子表格、客户电子邮件,问 题佥询、网页等) ,抽取或标记关键字概念,义字间的天系,并按照内容对文档进行分类, 获取有用的知识和信息。文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖 掘技术”1 、信息抽取、信息检索、机器学习、自然语言处理,计算语言学、统计数据分析, 线性几何、概率理论甚至还有图论。 1 2 2 文本挖掘的关键技术 文本挖掘虽然足从数据挖掘发展而来的,但并不意味着将数据挖掘技术简单应用到文本 集合l 就可以实现文本挖箍| i 。文本挖掘技术能够根据用户的真正需要,把与之相关联、有价 值以及用户以前未曾沣意的有用信息都检索出来。从目前文本挖掘技术的研究和应用状况 第一章绪论 来看,从语义角度来实现文本挖掘的还很少,目前研究和应用最多的文本挖掘技术有:文档 分类,文档聚类、自动文摘 ( 1 ) 文档分类 文档分类是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样 用户不但能够方便地浏览文档而且可以限制搜索范围来使文档的搜索更容易、快捷。 文档分类一般采用统计方法或机器学习来实现。常用的方法有:朴素贝叶斯法( n b ) , k - 最近邻法( k n n ) ”1 、支持向量机法( s v m ) 、向量空间模型( v s m ) 。1 、线性最小二乘 方估计法( l l s f ) 等。 ( 2 ) 文档聚类 文档聚类的目标和文档分类是一样的,只是实现的方法不同。文档聚类是无教师的机 器学习,在文档归类之前没自定义好的类可供选择。在文档聚类时,将所有类型接近的文 档归为一类,使类型相同的文档尽量归为类类型不相同的尽量隔离开来聚类的标准可 以是文本的属性,也可以是文本的内容。 聚类的方法通常有:层次聚类法,平面划分法( k m e a n s 算法) 简单贝叶斯聚类法, k 一最近邻参照聚类法,分级聚类法,基于概念的文本聚类等。 ( 3 ) 自动文摘 自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的 简单连贯的短文,其目的是尽量减少用户阅读的文本黾。自动文摘具有以下特点:自动文摘 应能将原文的主题思想或中心内容自动提取出米;麻具有概况性,客观性、可理解性和可读 性;可适用于任意领域按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完 全使用原文的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的功 能更强大,但存实现的时候,经常出现产生的新句子不能被理解的情况,因此目前大多用的 足抽取生成法。 1 2 3 各种主流文本分类技术 文本分类系统是文本挖掘的基础与核心。文奉分类是指存给定分类体系一f ,根据文本内 容自动确定文本类别的过程。2 0 世纪9 0 年代以前占主导地位的文本分类方法。直是摹于 知识工程的分类方法,即由专业人员于工进行分类。人工分类1 卜常费时,效率过低。9 0 年 代以来,众多的统计方法和机器学习方法应用于自动文本分类。文本分类技术的研究引起了 研究人员的极大兴趣。e i 前英文自动分类已经取得了丰硕的成果,提出了多种成熟的分类方 法,如最近邻分类、蚍叶斯分类、决策埘疗法以及基于支持向量机( s v m ) 、向量空f u j 模型 ( v s m ) 、回归模型和神经网络等方法,但对千中文文本的自动分类技术研究尚不尽人意。 目前国内中文文本分类研究主要集中在朴素贝叶斯“,向每空问横型和支持向量机“1 等技术上。本文将讨论各种文本分类技术。 本文中就将采用s v m 方法对文本进行分类,有关s v m 的概念和方法会在第= 章详细介绍。 1 2 4 文本挖掘的研究成果和应用前景 文本挖掘主要处理半结构化、无结构化和字符犁数据。它将数据挖掘技术与信息检索 技术相结合,开拓了数据挖掘新的麻_ 叶】领域。 文本挖捌的特点是能够更加有效地对文奉数 据( 例如w e b 页面) 进行分析,从而弥补信息捡索技术的缺陷与不足。国外的研究成果已经 东南大学硕十学位论文 有了一定数量的文本挖掘工具,并且出现了很多融合文本挖掘思想和技术的应用。 s e m i o 公司研发的s i o p 工具“,可以提供自动的文本处理。i b m 公司出品的智能 化文本挖掘器( i n t e i l i g e n tm i n e rf o rt e x t ) “,i n t e l l i g e n tm i n e r 通过其世界领先的 独有技术,例如典犁数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现, 它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必 要,对结果数据集还可以重复这一过程。直至得到满意结果为止。根据 d c 的统计 i n t e l l i g e n tm i n e r 目前是数据发掘领域最先进的产品。适合大型软件公司的开发人员使 用。 尽管国内进行文本挖掘的研究比国外要晚但是国内在对于中文文本挖掘方面的研究取 得了初步成果,如中科院计算机语言信息工程研究中心研究的内容是汉语分词、自然语言接 口、句法分析,语义分析、音字转换、自动分词:清华大学电子工程系的丁晓青、吴佑寿研 究的内容是手写汉字识别( 动态匹配) ,汉字识别多分类器集成( 综合识别法) 、名片自 动录入系统的实现等。 目前,对文本挖掘的理论方法和技术实现国内外都在进行深入地研究和探讨研究表明 文本挖掘技术可以应用于: 基于内容检索:由于仅用几个关键讧j 难以充分描述具有丰富内涌的信息,而且关 键词的选取也有很大的主观性,故文本挖掘技术采用区别于传统检索手段的基于 内容的检索技术。尽管目前基干内容的检索技术还很初级,只能利用一些相对 简单的特征来进行检索,但随着研究的深入,必将可以从文本信息抽取一些更为 详细的、经过特殊加_ 的特征信息,大大提高检索的全面性和准确性。 估息智能代理:主要为在分白式佶息网络环境下的信息的合询服务。信息智能代 理使用户可以不知遁所要检索信息的具体形式,存储于何处、何种介质中,只要 片j 户提出查找要求,文本挖掘技术会a 动地把各种信息源中各种形式的相关信息 检索出来供片j 广使脂,使用户可以立即获得较为满意的检索结果。 信息过滤:根据用户需要,通过对多个不同信息集之h j 的比较,进行信息过滤, 产生适量的、合乎用户需求的信息。 文本信息文摘:用包括题目和具有代表性的关键词( 字) ,进行抽取、计算和表 达,自动选择需要的句子产十文本信息摘要。 信息表现:信息挖掘技术关心的是信息的方方面面,力求从多角度表现信息的本 质和特征。文本挖掘技术能动态地、实时在线地表现信息的相关属性,使用户 及时发现信息,及时更新信息和及时地发现信息的演变方向。 1 3 文本挖掘技术在生物医学信息中的应用 自1 9 9 0 年开始的人类基因组计划已经在2 0 0 3 年4 月1 4 号正式完成,而伴随着基因组 测序的完成和表达犁基因芯片的廊用,大嚣新的生物数据被不断发掘出来。这些数据的获得, 为研究展因以及基因的表达打下了坚实的草础;同时也产生了海量的生物陕学文献数据信 息。m e d l i n e 、p u b m e d 上面的数据以每1 3 个爿翻一番的速度增长,一方面带给人们丰富的 研究资料同时也使得人们在堆积如山的数据而前无所适从。因此人们面临着数据海量却又 知识匮乏的窘境。尽管生物医学信息片的容量和数量部在不断扩大,但是有关生物陕学的最 新信息大部分以文献的形式存在:另一方向随着机器学习( 基于实例的学习) 的兴起和文 本自动处珲技术1 ( 如信息检索、信息抽取和文本分类) 的成熟,采用归纳统计的方法从文 本中发现和挖掘知识已经成为可能,针对特定应用领域的研究史能取得好的成果。文本挖掘 4 第一章绪论 技术就是自然语言文本的一种计算机自动处理方法,它不追求彻底解决和实现计算机自然语 言处理,而定位在采用机器学习的方法是先限定应用目标的知识抽取和挖掘是数据库知识 发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 的一个热点研究方向“”。因此采用文本 挖掘技术从生物医学文献中发现生命科学知识是急需和有效可行的方法。近年来大量基于文 本挖掘的生物医学知识发现研究已经表明了这种趋势。一1 。例如:基于文本挖掘的中医学文 献主体自动标引系统“。从m e d l i n e 数据库中进行知识抽取和挖掘”“,对水平转移基因 进行预测“”等。 网络上的信息大多是无结构化或半结构化的,这就使得人们无法通过有效的查询工具来 获取想要的佶息。而最近几年文本挖掘技术获得了很大的发展我们希望通过文本挖掘技术。 对基因调拧信息数据进行挖掘抽取有片j 信息,分类相关文献,从而使人们可以快速盘找到 所需的信息,促进研究的进一步发展。 在文本挖掘过程中,不可避免地会遇到分词技术。分词技术中的基于词库的算法目前使 用较广,也较为成熟,例如:中科院计算所汉语词法分析系统i c t c l a s “”。这类算法分词 的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面。词库的 完备性,简单来说就是对仟意一个字串,总能按词库找到对它进行切分的方法。词库的完全 性,意味着词库应包含所有的词。建立一个i _ j 时满足这两个要求的侧库具有很大的难度。所 以对于文本挖掘来说,基于词库的分诏j 技术可能会使某些具有重要意义的词汇被疏漏,从而 导致挖掘的内容不是十分准确所以采用特征短语1 来代替关键例进行文本挖掘显然更有优 势:然i 口特征短语对于普通的训库来说往往是“新训”,即未登录词,闪此词库的更新成为 文本挖掘技术中极为重要的个环节。生物医学领域的技术发展日新月异新的词和短语会 不断涌现,靠人工无法及时更新词库,需要自动的新词更新- 具。 我们设计了一种发现文本中所有频繁序列的算法。其根本原理是“组成一个词的字经常 在文中以相同的顺序重复出现”1 。该原理被用来实现无词典的分类,本文沿片j 按字索引和 字共现这两个概念,重新设计了算法,本算法能准确地挖掘出文本中的长词。这些词汇将在 文本挖掘的各种技术中发挥重要作用,尤具对于提取生物医学研究领域的新词,进而实现文 献分类有特别币要的意义。 本论文就是利用文本挖掘技术,从l 旬4 络文献和w e b 页面中挖掘基因调控相关知识,并实 现分类,提供给用户使用。 1 4 基因调控信息资源库与i n f o a g e n t 系统 进入信息时代大部分文献信息的查询郝通过搜索引擎来处群。经过文献阅读调研得知, 国内外有很多的优秀搜索引擎辛要有曲大类:一种是通用的搜索引擎,如:g o o g l e ,y a h o o 等,对于用户而言它们方便快捷,但是它们返同给用户的信息量巨大,符合用户需求的内容 相对较少这就给用户挑选信息带米了邑大的l 作最,使用户无法从中迅速的得到想要的信 息。另一种就是针对某一专业领域的搜索系统,如n c b 上的基冈序列数据库p u b m e d 等, 但是它们都是只针对基因序列和文献的专用搜索系统。目前国内也有这种搜索引擎如:中国 生物| 爰学文献数据库( c 蹦) 这类的系统。但是想要从这类数据库中检索摹因调拧相关的信息 依然存在很大的难度,同时缺乏便利十七。 对于从事基因调拧领域研究的人员来说,需要一个可以迅速准确的提供给他们所要查询 的专业信息的伞而的搜索引擎,并且可以自动更新,以便用户及时掌挣本领域内的最新研究 动态和研究成果。 为了充分利用已自的基因调控信息本实验审在分析了国际上这些公共的资源库的基础 上,建立了专门的基因调控信息数据库( g r i s ) ,目前主要收集的足基因调控信息相关的资源: 5 东南大学硕士学位论文 文献资料、分析工具、分析方法、数据库资源和实验等,方便用户的研究工作。 同时随着人类基凼组计划的完成,对基凶组数据其中蕴藏规律的发掘工作己正如火如荼 地展开。作为当前生物科学研究热点的基因调控和表达,目前在网上的站点和资源也越来趣 多。而个人的精力往往是有限的,不可能知晓当前所有的最新研究情况,所以开发一个可以 按照用户自定义需求智能奋找基闪调控信息数据源的信息系统也在所必然。我们以国际国内 几个知名的基因调控网站为基础挖掘这些网站上的信息建立了基因调控信息智能检索系 统( i n f o a g e n t ) 。 在构建这些资源库的过程中必须要要借助文本挖掘技术来对海量的数据进行处理利用 文本分类技术对文献和网页信息进行分类,最后再提供给用户智能的检索服务。 1 5 论文研究内容与章节安排 本文的主要研究目标是通过文本挖掘技术对网上的数据进行筛选及分类。首先建立一 个基因调控信息相关的资源库,收集了摹因调控领域相关的数据库,工具和p u b m e d 等数据 资源。然后利用我们所提出频繁序列算法,对数据源进行文本挖掘提取文本信息进行文献 阅读顶处理、实现文本分类等多种运用;同时开发个可以按照用户自定义需求进行智能查 找基因调控信息数据源的信息柃索系统i n f o a g e n t ,显著提高了检索效率。 围绕上面三个主题,本文的主登j 二作如下: 1 收集了大约1 0 0 多个数据库工具和p u b m e d 等数据资源,初步建立了基因调控信 息数据库( g r i s ) ,并丌发了相府的更新维护系统。 2 在文本挖掘过程中,词库的构建和维护有着相当重要的作用,本文利用频繁序列算 法,提取出更能体现文本意义的长训,实现了文献阅读的预处理;接着以此作为文本挖掘的 特征向量。进行了大譬文本分炎的实验,取得了比较好的结果:同时通过对大阜基因调控领 域的文献的挖掘,本算法也自动生成了萆因调控相天的词库,并且可以拓展成一个通用的工 具。 3 完善了面向皋因调拧信息领域的信息代理系统i n f o a g e n t 。该系统通过多个智能代 理的协作,从网络卜收集整理和莘因调拧信息相关的文档,通过对数据进行文本分类,开发 了新的检索算法,显著提高检索效率。该系统的建立将为幕因调拧信息的研究提供更大的 便利。 本文的结构安排如下: 第一章:概要介绍幸物信息学、基因调控信息的范畴、基凶调控信息资源库的建立,并 对文本分类技术和智能代理在其中的府用进行了简单的介绍。 第二章:介绍文本挖掘技术,原理和理论方法。 第三章:重点介绍频繁序列算法及其应用。 第四章:具体介绍基吲调控信息资源库的建立和毖十基因调控佶息的i n t e r n e t 信息搜索 系统i n f o a g e n t 的研究和实现方法。 第五章:总结本文工作,井提出展望。 6 第一章绪论 参考文献 1 h u p :l l w w w o r a l g o v t e c h r e s o u r c e s h u m a n _ g e n o m e p r o j e c t 5 0 y r p r e s s 4 _ 2 0 0 3 h t m 2 m i n e a ug w as i m p l ek n nf o rt e x tc a t e g o r i z a t i o n a s p o n s o r e db yt h ei e e ec o m p u t e r s o c i e t y 2 0 0 1i e e e i n t e r n a t i o n a l c o n f e r e n c e o n d a t a m i n i n g c d o u b l e t r e e h o t e l ,s a n j o s e - c a l l f o r n i a ,u s a 。n o v e m b e r2 9 - - b e r2 2 0 0 1 3 y a ke v e n - z o h a r i n t r o d u c t i o nt ot e x tm m i n g u n i v e r s i t yo f i l l i n o i s 2 0 0 2 4 基于w e b 数据挖掘的信息获取系统的研究及设计潘静饶若楠计算机工程2 0 0 5 5 土强,王晓龙,关毅等,k - n n 与s ! o d 相融合的文本分类技术研究。高技术通讯2 0 0 5 v 0 1 1 5 n o 5p :1 9 2 4 。 6 李昆仑,黄厚宽,田盛丰等,基于s v m 的数据挖掘方法研究 j 。计算机科学,2 0 0 2 2 9 n o 9 ( 3 2 5 3 2 8 ) 。 7 贺海军,王建芬,周青等基于决策支持向量机的中文网页分类器 j 。计算机工程, 2 0 0 3 。2 9 ( 2 ) :4 7 4 8 。 8 z h a n gm e n g - g u a n g l iz h a n - m i n g l iw e n h u i s t u d yo nl e a s ts q u a r e ss u p p o r tv e c t o r m a c h i n e sa l g o r i t h ma n d i t sa p p l i e a t i o n j t o o l sw i t ha r t i f i c i a l i n t e l l i q e n c e 2 0 0 5 i c t c a l0 5 1 7 “i e e ei n t e r n a t i o n a lc o n f e r e n c eo n1 4 1 6 n o v 2 0 0 5p a g e ( s ) :6 8 6 6 8 8 9 朱华字,孙正兴,张福炎。一个基于向阜空间模犁的中文文本自动分类系统 j 。计算 机工程,2 0 0 1 ,2 7 ( 2 ) :t 5 一1 7 。 1 0 朱华宇,孙正兴,张福炎。一个萆于向量空间模型的中文文本自动分类系统 j ,计算 机工程,2 0 0 1 ,2 7 ( 2 ) ;1 5 一1 7 。 1 1 李昆仑,黄厚宽,山麻丰等,苯于s 的数据挖掘方法研究 j 。计算机科学,2 0 0 2 2 9 n o 9 ( 3 2 5 3 2 8 ) 。 1 2 贺海军,王建芬,周青等,基于决策支持向量机的中文嘲页分类器 j 。计算机工程, 2 0 0 3 ,2 9 ( 2 ) :4 7 4 8 。 1 3 z h uj z h a n gmq ,s c p d :ap r o m o t e rd a t a b a s eo ft h ey e a s ts a c c h a r o m y c e s c e r e v i s i a e j b i o i n f o r m a t i c s1 9 9 9 :1 5 ( 7 - 8 ) :6 0 7 一1 1 1 4 h t t p :- ,w k m c o n n e e t i o n c o m p g u i d e k s p 2 0 0 0 0 5 3 h t m 1 5 h t t p :t e x t m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林长春市宽城区招聘专职消防员考试真题2024
- 宝鸡高新区招聘幼儿园教职工考试真题2024
- 皇子考试题及答案
- 段考试题及答案
- 中华武术知到智慧树答案
- 广西专业技术人员继续教育公需科目培训试题库(含答案)
- 食品安全管理员考试题库及答案大全
- 中小学音乐教学设计与案例分析知到智慧树答案
- 2025年度农产品销售合同签订与质量追溯流程框图
- 2025版外立面装饰材料研发与采购合同
- 道路施工机械设备安全知识培训
- AI在护理查房中的应用
- 证券行业智能化投资组合管理方案
- 银行员工消保知识培训
- 地理与劳动教育
- 第5课 甲午中日战争与列强瓜分中国狂潮 公开课一等奖创新教学设计
- 初中数学新人教版七年级上册第二章《有理数的运算》教案(2024秋)
- 人教版(2025新版)七年级下册数学第七章 相交线与平行线 单元测试卷(含答案)
- 厂房消防应急预案
- 景区开发政府战略框架协议书(2篇)
- “雄鹰杯”全国小动物医师技能大赛考试题库(660题)
评论
0/150
提交评论