版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于概念关联网络的文献挖掘与应用系统基于概念关联网络的文献挖掘与应用系统
LLiteratureMiningApplicationSystemBasedOnConceptAssociatedNetwork摘要随着生命科学的高速发展,文献的数量呈现出爆炸性地增长。如生物医学文献数据库PubMed,每年新收录的文献数量达到30-35万条,且数量仍在不断增长。如何获取相关文献文献和关联目标的概念,从而更好地提取所需信息,是目前研究热点和难点。传统方式通过阅读文献来获取所需信息,非常低效。因此,需要更为高效的方式,使研究者可以系统地获取目标文献信息,并从文献中挖掘出潜在关系。本课题选取了文献挖掘中实体识别,信息提取,文本挖掘和信息整合四种研究方法进行探索,建立了基于概念关联网络的文献挖掘与应用系统。针对实体识别方法,通过整合MetaMap软件的识别结果,对CRISPR/Cas9技术文献中抽取的概念词进行层次归类,评估MetaMap在不同层次分类下抽提概念的准确率。在评估结果的过程中,通过筛选MetaMap抽取概念的错误结果,提高了MetaMap抽取概念的准确率,验证了基于MetaMap抽取概念这一方法的有效性。在此基础上,针对信息提取的问题,结合自然语言和共词策略两种方法。首先整合自然语言处理工具SemRep软件抽取文献中概念关联关系,并建立了肝癌文献中基于语义关系的基因与疾病的网络。其次,对抽取的语义关系进行筛选,来探索肝癌文献集中基因与疾病间的各类关系。对抽取出的基因与疾病间的相关关系与人工标注得到的基因与疾病对进行比较,结果表明自然语言方法建立的语义网络是能更准确地挖掘出文献中的概念关系,查准率高;但缺点是查全率较低,且难以提取多种复杂类型的关系和发现潜在的基因与疾病间关联。故在研究文本挖掘的方法时,本课题利用共词策略建立概念之间关系,进而发现潜在的概念之间关联与联系。本课题以消化道肿瘤为中心,挖掘了32751篇消化道肿瘤文献中的概念关系。首先通过MetaMap抽取了不同消化道肿瘤中肿瘤和基因的概念。通过共词策略的方法,建立了概念关联网络,通过Phi相关系数,点互信息和余弦相似度三种方法分别评估肿瘤和基因间关系程度。进一步根据肿瘤和基因之间关联强度的强弱,发现潜在的基因与疾病间关联和预测新的肿瘤标志物。最后在探索信息整合方法的过程中,结合文本挖掘方法得到的肿瘤与基因关系对与TCGA的公共数据中不同癌症的基因表达,甲基化程度和病人临床数据等信息进行整合,建立文献挖掘应用系统。此系统为消化道肿瘤的诊断,治疗和预后等临床方面提供很好的借鉴意义,并为更准确地实现个性化医疗提供信息支持。结果表明,本课题设计并建立的文献挖掘与应用系统,具有其研究价值和实用价值。能够从大量文献中进行总结和分析,展现出相关领域的热点研究信息和潜在知识间关联。上述功能能够在文献信息提取,信息整合等诸多方面发挥重要作用。关键词:文献挖掘,关联分析,概念关联网络
ABSTRACTWiththerapiddevelopmentofthebiomedicalfield,researchresultsareincreasedintheformofliteratureexplosively.PubMed,abiomedicalliteraturedatabasedevelopedbytheU.S.NationalCenterforBiotechnologyInformationNCBI,hasgrownfrom300,000to350,000recordseachyear.Forthegrowingliteraturesofthestatusquo,howtoobtainthetargetedarticlesandhowtorelatethefocusedconceptaretwomajorproblemsthatresearchersfacewithcurrently.Itisobviouslytime-consumingandlaborioustoreadtheliteratureinthetraditionalmanualmethod.Therefore,moreefficientmethodsareneededtoenableresearcherstoobtaintargetliteratureinformationandtominepotentialrelationshipfromliteraturessystematically.Thisresearchselectsfourliteratureminingmethods(EntityRecognition,InformationExtraction,TextDataMiningandInformationIntegration)toexploreandestablishesaliteratureminingapplicationsystembasedonconceptassociatednetwork.AccordingtothemethodofEntityRecognition,therecognitionresultsofMetaMapsoftwareareintegrated.TheconceptsextractedfromtheCRISPR/Cas9technicalliteraturesareclassifiedbydifferenthierarchicalcategories.TheprecisionoftheconceptsextractedfromMetaMapisevaluatedunderdifferentcategories.Intheprocessofevaluatingtheresults,theerrorresultsoftheMetaMapextractionarescreenedtoimprovetheprecisionandthefeasibilityoftheconceptbasedonMetaMapextractionispracticed.BasedontheEntityRecognitionbyMetamap,theresearchadoptsNaturalLanguageProcessingandco-occurencestrategyintheexplorationofInformationExtration.Firstly,SemRep,anaturallanguageprocessingtool,isintegratedtoextracttheconceptrelationshipintheliterature.Thesemanticnetworkisestablishedinlivercancerliteratures.Inaddition,wefurtherscreentheextractedsemanticrelationshipbetweengenesanddiseasesinlivercancerliterature.Theresearchcompareswiththecorrelationextractedfromliteraturesandthepairsofdiseasesandgeneswhicharemanuallyannotated.ItisfoundthattheadvantageofthesemanticnetworkestablishedbytheNLPmethodisthatitcanmoreaccuratelydigouttheconceptrelationshipsintheliteratures,intheotherword,withhighprecision.Butthedisadvantageisthattherecallrateisnotratherhigh.Anditisdifficulttoextractavarietyoftypesofrelationshipsanddifficulttominethecorrelationbetweenpotentialgenesanddiseases.Therefore,whenexploringTextMiningmethods,thisresearchadoptsaco-occurencestrategytoestablishtherelationshipbetweenconceptsandtofindpotentialconceptsrelatedtoeachother.Thisresearchfocusesongastrointestinalcancerandexplorestheconceptrelationshipintheliteratureof32,751gastrointestinalcancers.TheconceptoftumorsandgenesindifferentgastrointestinalcancerwasextractedbyMetaMapfirst.Basedontheco-occurencestrategy,aconceptassoiatednetworkisestablished.Threemethods(Phicorrelationcoefficient,pointmutualinformationandcosinesimilarity)areusedtoevaluatetherelationshipbetweentumorsandgenes.Thepotentialgenesareassociatedwiththegastrointestinalcanceraccordingtotheintensityoftherelationship.Finally,intheprocessofexploringInformationIntegrationmethods,therelationshipnetworkobtainedbycombiningtextminingmethodsintegratesgeneexpression,methylationlevelsandpatientclinicaldataofdifferentcancersinpublicdatabaseTCGA.Therefore,aliteratureminingapplicationisestablished.Thissystemprovidesagoodreferencefortheclinicaldiagnosis,treatmentandprognosisofcancer.Thissystemalsoprovidesinformationsupportforprecisionmedicine.Theresultsshowthattheliteratureminingandapplicationsystemdesignedandbuiltbythisresearchhasitsresearchvalueandpracticalvalue.Itcansummarizeandanalyzeinformationfromalargenumberofliteratures,showingthecorrelationbetweenbuzzyresearchinformationandpotentialknowledgeinrelatedfields.Thefunctionsabovecanmakeanimportantroleinliteratureinformationextraction,informationintegrationandmanyotheraspects.KeyWords:literaturemining,associationstudy,conceptassociatednetwork
目录摘要 IABSTRACT III目录 V第1章绪论 11.1文献挖掘简介 11.2文献挖掘的过程及应用领域介绍 21.3生物医学文献挖掘方法 21.3.1信息检索(InformationRetrieval,IR) 31.3.2实体识别(EntityRecognition,ER) 31.3.3信息提取(InformationExtraction,IE) 31.3.4文本挖掘(TextMining,TM) 41.3.5信息整合(InformationIntegration,II) 41.4生物医学文献挖掘研究现状及局限性 41.5本文研究内容 7第2章文献概念抽取体系实例 92.1引言 92.2概念识别工具 92.2.1UMLS数据库 92.2.2MetaMap软件 102.2.3MEDLINE介绍 102.2.4PubMed介绍 112.2.5E-Utility工具 112.3方法与步骤 122.3.1文献获取及预处理 122.3.2概念识别 122.3.3层次归类 132.4结果与分析 142.4.1概念识别结果 142.4.2准确率评估 152.5本章小结 16第3章文献概念关联抽取实例 173.1引言 173.2语义关系抽取工具 173.3方法与步骤 193.3.1数据概述 193.3.2概念归类 193.3.3语义关系筛选 203.3.4语义网络构建 213.4结果与分析 223.4.1语义关系识别结果 223.4.2准确率和查全率评估 223.4.3语义网络结果展示 233.5本章小结 24第4章文献概念关联网络构建实例 254.1引言 254.2概念关系抽提与评估方法 274.2.1基于MetaMap的概念抽取 274.2.2概念关联网络建立与评估 294.3结果与分析 334.3.1基于MetaMap的概念抽取结果 334.3.2概念关联网络建立与评估结果 344.4本章小结 39第5章文献挖掘应用系统设计与实现 415.1研究背景与介绍 415.2数据概述 425.3消化道肿瘤文献挖掘应用系统设计 425.4消化道肿瘤文献挖掘应用系统实现 445.4.1肿瘤与基因关系查询 445.4.2研究热点趋势 455.4.3关系可视化 465.4.4组学分析工具 475.6本章小结 48第6章结论与展望 496.1结论 496.2进一步工作的方向 50致谢 51参考文献 52附录A消化道肿瘤与基因概念关联表 55附录B概念抽取概述词及错误词列表 68个人简历,在学期间发表的学术论文与研究成果 78第1章绪论1.1文献挖掘简介文献挖掘是从数据挖掘(DM,DataMining)的范畴出发,在数据挖掘的对象完全由文献数据类型构成的情况下,称为文献挖掘ADDINEN.CITEADDINEN.CITE.DATA[\o"Hood,2004#2"1]。文献挖掘是一个涉及数据挖掘,信息检索,自然语言处理和机器学习等学科的交叉领域研究。数据挖掘,也称为数据库中的知识发现(KDD,KnowledgeDiscoveryfromDatabase),是从大量数据中获得有效的,新颖的,潜在有用的和最终可理解的模式的非平凡过程。简而言之,数据挖掘是从大量数据中提取或挖掘知识。这些知识被称为模型或模式。数据挖掘可用于发现概念/类描述,分类,关联规则分析,聚类,异常检测和结果可视化等,并帮助决策支持和规划。广义上,数据挖掘有如下两个定义:“从数据中提取出隐含的,特别的,过去未知的和潜在有价值的信息。”ADDINEN.CITE<EndNote><Cite><Author>Shen</Author><Year>2015</Year><RecNum>6</RecNum><DisplayText><styleface="superscript">[2]</style></DisplayText><record><rec-number>6</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">6</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Shen,W.</author><author>Wang,J.Y.</author><author>Han,J.W.</author></authors></contributors><auth-address>NankaiUniv,CollComp&ControlEngn,Tianjin300071,PeoplesRChina TsinghuaUniv,DeptCompSci&Technol,Beijing100084,PeoplesRChina UnivIllinois,DeptCompSci,Urbana,IL61801USA</auth-address><titles><title>EntityLinkingwithaKnowledgeBase:Issues,Techniques,andSolutions</title><secondary-title>IeeeTransactionsonKnowledgeAndDataEngineering</secondary-title><alt-title>IeeeTKnowlDataEn</alt-title></titles><periodical><full-title>IeeeTransactionsonKnowledgeAndDataEngineering</full-title><abbr-1>IeeeTKnowlDataEn</abbr-1></periodical><alt-periodical><full-title>IeeeTransactionsonKnowledgeAndDataEngineering</full-title><abbr-1>IeeeTKnowlDataEn</abbr-1></alt-periodical><pages>443-460</pages><volume>27</volume><number>2</number><keywords><keyword>entitylinking</keyword><keyword>entitydisambiguation</keyword><keyword>knowledgebase</keyword><keyword>wikipedia</keyword><keyword>web</keyword></keywords><dates><year>2015</year><pub-dates><date>Feb</date></pub-dates></dates><isbn>1041-4347</isbn><accession-num>WOS:000346982900010</accession-num><urls><related-urls><url><GotoISI>://WOS:000346982900010</url></related-urls></urls><electronic-resource-num>10.1109/Tkde.2014.2327028</electronic-resource-num><language>English</language></record></Cite></EndNote>[\o"Shen,2015#6"2];“一门从大量数据或者数据集提取有用信息的科学。”ADDINEN.CITE<EndNote><Cite><Author>Delen</Author><Year>2014</Year><RecNum>7</RecNum><DisplayText><styleface="superscript">[3]</style></DisplayText><record><rec-number>7</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">7</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Delen,D.</author><author>Oztekin,A.</author></authors></contributors><auth-address>OklahomaStateUniv,Stillwater,OK74078USA UnivMassachusettsLowell,Lowell,MAUSA</auth-address><titles><title>IntroductiontoData,Text,andWebMiningforManagerialDecisionSupportMini-track</title><secondary-title>201447thHawaiiInternationalConferenceonSystemSciences(Hicss)</secondary-title><alt-title>PAnnHicss</alt-title></titles><periodical><full-title>201447thHawaiiInternationalConferenceonSystemSciences(Hicss)</full-title><abbr-1>PAnnHicss</abbr-1></periodical><alt-periodical><full-title>201447thHawaiiInternationalConferenceonSystemSciences(Hicss)</full-title><abbr-1>PAnnHicss</abbr-1></alt-periodical><pages>768-768</pages><dates><year>2014</year></dates><isbn>1060-3425</isbn><accession-num>WOS:000343806600095</accession-num><urls><related-urls><url><GotoISI>://WOS:000343806600095</url></related-urls></urls><electronic-resource-num>10.1109/Hicss.2014.102</electronic-resource-num><language>English</language></record></Cite></EndNote>[\o"Delen,2014#7"3]而针对不同领域中不断增长的文献信息,不同的研究者从各自的研究领域出发,对文献挖掘的含义也有不同的理解,不同应用目的文献挖掘项目也各有其侧重点。因此,文献挖掘有很多定义,通常定义为:文献挖掘指从大量文献中提取重要,未知,可理解和可用知识的过程。同时更好的组织挖掘出的知识。文献挖掘的主要目的在于帮助不同领域的研究工作者不再依赖于人工的方式获取信息,而通过文献挖掘的方法挖掘出重要的知识,建立和发现知识间的内在联系,从而提供给研究工作者该领域直观的发展趋势,减少冗余的信息量获取。因此文献挖掘的研究是具有重要意义的。文献挖掘也被定义为文献知识发现或文献数据挖掘,其主要目的是从非结构化文献中挖掘出重要的信息和知识。文献挖掘学科研究发展源自数据挖掘学科,其定义也与常用的数据挖掘定义相类似。但与传统的数据挖掘相比,文献挖掘有其独特的特点:文献本身是半结构化或非结构化的,且内容缺乏机器可理解的语义;数据挖掘的对象则以数据库中的结构化数据,如数据表,关系表等。因此,大部分数据挖掘的方法并不完全适用于文献挖掘。即便使用,文献预处理工作也是必要的,而文献中知识与知识的内在联系也需要对数据挖掘中一些关键的算法进行探索。1.2文献挖掘的过程及应用领域介绍通常来说,文献挖掘的大致过程分为三个阶段。首先,收集文献数据并进行预处理。例如:去除噪声数据,文献结构化表达与规范格式等。接着,确定适当的数据挖掘功能。例如:总结,关联与聚类等。最后,对挖掘的结果进行分析,评估和应用。目前的文献挖掘研究主要集中在生物医学文献方面。原因有二:其一,随着生物学技术的快速发展,生物医学文献呈“指数级”增长。生物医学文献作为展示学术成果的主要方式之一,其数目之大,增长速度之快远超于其他学科;其二,目前生物医学文献方面已经有很多公开可用的工具,如信息检索工具,概念识别工具,标注工具等。文献挖掘系统主要有两类:挖掘具体某类特定知识的系统,挖掘广泛知识间潜在关联性的系统。大多数的生物学知识,如基因与基因之间的相互作用,基因与疾病之间相互作用,蛋白的表达与调控,基因与蛋白的关系等被记载在各类文献中,其中大部分文献以电子出版物形式存在。生物信息学的一个重要的分支就是利用计算机技术从大量生物医学文献中挖掘出重要的生物医学知识,即文献挖掘。本文主要探索生物医学方面文献的概念关联研究,如基因与疾病间相关关系等,并建立概念关联网络,挖掘出其中潜在的知识间的关联性。1.3生物医学文献挖掘方法根据欧洲分子生物实验室专家JensenL.JADDINEN.CITE<EndNote><Cite><Author>Jensen</Author><Year>2006</Year><RecNum>8</RecNum><DisplayText><styleface="superscript">[4]</style></DisplayText><record><rec-number>8</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">8</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Jensen,L.J.</author><author>Saric,J.</author><author>Bork,P.</author></authors></contributors><auth-address>EuropeanMolBiolLab,D-69117Heidelberg,Germany EMLResgGmbH,D-69118Heidelberg,Germany MaxDelbruckCtrMolMed,D-13092Berlin,Germany</auth-address><titles><title>Literatureminingforthebiologist:frominformationretrievaltobiologicaldiscovery</title><secondary-title>NatureReviewsGenetics</secondary-title><alt-title>NatRevGenet</alt-title></titles><periodical><full-title>NatureReviewsGenetics</full-title><abbr-1>NatRevGenet</abbr-1></periodical><alt-periodical><full-title>NatureReviewsGenetics</full-title><abbr-1>NatRevGenet</abbr-1></alt-periodical><pages>119-129</pages><volume>7</volume><number>2</number><keywords><keyword>protein-proteininteractions</keyword><keyword>gene-expression</keyword><keyword>biomedicalliterature</keyword><keyword>molecular-biology</keyword><keyword>saccharomyces-cerevisiae</keyword><keyword>transcriptionfactors</keyword><keyword>entityrecognition</keyword><keyword>alzheimers-disease</keyword><keyword>identifyinggene</keyword><keyword>candidategenes</keyword></keywords><dates><year>2006</year><pub-dates><date>Feb</date></pub-dates></dates><isbn>1471-0056</isbn><accession-num>WOS:000234714000014</accession-num><urls><related-urls><url><GotoISI>://WOS:000234714000014</url></related-urls></urls><electronic-resource-num>10.1038/nrg1768</electronic-resource-num><language>English</language></record></Cite></EndNote>[\o"Jensen,2006#8"4]的观点,目前生物医学文献挖掘研究的主要方法分为以下五种方法:信息检索(InformationRetrieval,IR),实体识别(EntityRecognition,ER),信息提取(InformationExtraction,IE),文本挖掘(TextMining,TM)和信息整合(InformationIntegration,II)。尽管五种方法的目标各不相同,但前面问题的解决构成了后面部分研究与发展的基础,例如,信息检索中检索到的相关文献为实体识别提供了数据源,而实体识别提取到的实体是关联提取中相互关系的构成元素。目前,从信息检索到信息整合,方法研究的成熟度依次递减,而知识发现的潜力依次递增。这主要归因于:(1)信息检索结合领域自身特点,成功地运用了计算语言学在过去几十年研究中已形成的一套相对成熟的理论和方法,获得了令人满意的成绩;(2)而实体识别,信息提取,文本挖掘和信息整合则更依赖于领域知识的理解和应用,更需要计算语言学家和领域的专家深入交流与合作,以提出从科学文献中挖掘出未知知识的新理论和新方法。下面将分别对文献挖掘研究涵盖的五种方法进行逐一介绍。1.3.1信息检索(InformationRetrieval,IR)指用户提出检索需求,系统在文档信息集合中快速有效地找到相关的文本片段并返回给用户ADDINEN.CITE<EndNote><Cite><Author>Jain</Author><Year>2014</Year><RecNum>9</RecNum><DisplayText><styleface="superscript">[5]</style></DisplayText><record><rec-number>9</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">9</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Jain,N.C.</author></authors></contributors><titles><title>Informationretrievaloftuberculosisliteratureine-databases</title><secondary-title>IndianJTuberc</secondary-title><alt-title>TheIndianjournaloftuberculosis</alt-title></titles><periodical><full-title>IndianJTuberc</full-title><abbr-1>TheIndianjournaloftuberculosis</abbr-1></periodical><alt-periodical><full-title>IndianJTuberc</full-title><abbr-1>TheIndianjournaloftuberculosis</abbr-1></alt-periodical><pages>186-8</pages><volume>61</volume><number>3</number><keywords><keyword>*DatabasesasTopic</keyword><keyword>Databases,Bibliographic</keyword><keyword>Databases,Factual</keyword><keyword>Humans</keyword><keyword>InformationDissemination</keyword><keyword>*Internet</keyword><keyword>PeriodicalsasTopic</keyword><keyword>*Tuberculosis</keyword></keywords><dates><year>2014</year><pub-dates><date>Jul</date></pub-dates></dates><isbn>0019-5707(Print) 0019-5707(Linking)</isbn><accession-num>25241565</accession-num><urls><related-urls><url>/pubmed/25241565</url></related-urls></urls></record></Cite></EndNote>[\o"Jain,2014#9"5],这些的片段可以是全文,摘要,段落或者句子。信息检索主要包含两个方面,一方面是传统文本信息检索模型的应用,包括四种模型:布尔模型,向量空间模型,概率模型,统计语言模型。布尔模型和向量空间模型已经成功地应用到对外提供服务的生物学文本信息检索系统中(如,PubMed,E-BioSci,Textpresso等)。概率模型目前仍处于测评中,逐步体现其优势并日趋成熟。而语言模型正处在起步阶段,不少文章写出其优势,但还有很多的问题需要解决。另一方面是查询扩展,通过引入高质量的领域词典,本体,词汇表用以查询扩展。1.3.2实体识别(EntityRecognition,ER)生物领域的实体识别(ER),指从生物文献中找到那些描述生物概念的单词,并将其标注为正确的类别,即概念抽取。这些实体包括基因,蛋白质,疾病和药物等ADDINEN.CITE<EndNote><Cite><Author>Leser</Author><Year>2005</Year><RecNum>10</RecNum><DisplayText><styleface="superscript">[6]</style></DisplayText><record><rec-number>10</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">10</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Leser,U.</author><author>Hakenberg,J.</author></authors></contributors><auth-address>HumboldtUniv,DeptCompSci,D-12489Berlin,Germany</auth-address><titles><title>Whatmakesagenename?Namedentityrecognitioninthebiomedicalliterature</title><secondary-title>BriefingsInBioinformatics</secondary-title><alt-title>BriefBioinform</alt-title></titles><periodical><full-title>BriefingsInBioinformatics</full-title><abbr-1>BriefBioinform</abbr-1></periodical><alt-periodical><full-title>BriefingsInBioinformatics</full-title><abbr-1>BriefBioinform</abbr-1></alt-periodical><pages>357-369</pages><volume>6</volume><number>4</number><keywords><keyword>textmining</keyword><keyword>knowledgemanagement</keyword><keyword>informationextraction</keyword><keyword>machineteaming</keyword><keyword>namedentityrecognition</keyword><keyword>informationextraction</keyword><keyword>proteinnames</keyword><keyword>identifyinggene</keyword><keyword>text</keyword><keyword>identification</keyword><keyword>expression</keyword><keyword>database</keyword><keyword>biology</keyword><keyword>dictionary</keyword><keyword>articles</keyword></keywords><dates><year>2005</year><pub-dates><date>Dec</date></pub-dates></dates><isbn>1467-5463</isbn><accession-num>WOS:000234592900006</accession-num><urls><related-urls><url><GotoISI>://WOS:000234592900006</url></related-urls></urls><electronic-resource-num>Doi10.1093/Bib/6.4.357</electronic-resource-num><language>English</language></record></Cite></EndNote>[\o"Leser,2005#10"6]。早期的实体识别主要是基于规则的方法,通过专家设计一些规则,如字母加数字,以-ase结尾的单词和专有名词等。或者是通过前词和后词之间的相互关系,如gene和receptor临近的名词。随着机器学习领域的快速发展,后期的实体识别主要是通过机器学习的方法来获取。机器学习的方法是在一个标注过的文献集(训练集)上提取需要识别的实体的模式作为分类标准的一种方法。机器学习是一种智能的方法,该方法的关键在于如何选取特征和分类器。另外,基于字典的方法也有着广泛的应用,此方法首先构造实体字典,然后通过文本单词匹配字典的方法来识别文本中的实体。1.3.3信息提取(InformationExtraction,IE)与获取确定相关主题文本为目的的信息检索相比,信息提取的目的是提取预先定义的特定事实。在生物医学领域,信息提取具体指按照用户定义,从文献中提取生物体相互作用关系,即建立概念之间关联。如基因与疾病间的相互作用,基因调控或蛋白质磷化关系等。这些关系对整个生物医学信息网络的建立,生物标志物的预测以及新药的研制等均具有重要的意义ADDINEN.CITEADDINEN.CITE.DATA[\o"Vailaya,2005#11"7]。目前,有两种方法被广泛地用于文献中概念关系的提取,一种是基于统计的方法,统计文献中概念的共现情况,称之为Co-occurrence共词策略;另一种是基于自然语言处理(NatureLanguageProcessing,NLP)方法。Co-occurrence共词策略假设两个生物概念经常同时出现在一个句子,段落或者文章中,则两者之间存在某种关系。尽管这种关系并不明确,但仍可以通过文本挖掘的方法,帮助研究者探索潜在的知识和信息。NLP借助自然语言的方法来对文献中的句子进行分析处理,首先,对文本进行语法处理,然后,通过特定语法规则集来提取特定的关系。1.3.4文本挖掘(TextMining,TM)文本挖掘指从不同的文本资源中发现未知的信息。信息提取着重于提取文本中已有的事实,而文本挖掘更侧重于对未知信息的获取。对于生命科学这样一个实验科学而言,文本挖掘的目的在于从文献中挖掘出潜在的逻辑关系,以便生物学家提出新的实验假设,从而探索出新的科学发现ADDINEN.CITE<EndNote><Cite><Author>Krallinger</Author><Year>2005</Year><RecNum>12</RecNum><DisplayText><styleface="superscript">[8]</style></DisplayText><record><rec-number>12</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">12</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Krallinger,M.</author><author>Erhardt,R.A.</author><author>Valencia,A.</author></authors></contributors><auth-address>ProteinDesignGroup,NationalCenterofBiotechnology(CNB-CSIC),Cantoblanco,E-28049Madrid,Spain.</auth-address><titles><title>Text-miningapproachesinmolecularbiologyandbiomedicine</title><secondary-title>DrugDiscovToday</secondary-title><alt-title>Drugdiscoverytoday</alt-title></titles><periodical><full-title>DrugDiscovToday</full-title><abbr-1>Drugdiscoverytoday</abbr-1></periodical><alt-periodical><full-title>DrugDiscovToday</full-title><abbr-1>Drugdiscoverytoday</abbr-1></alt-periodical><pages>439-45</pages><volume>10</volume><number>6</number><keywords><keyword>BiomedicalResearch/*methods</keyword><keyword>ComputationalBiology/*methods</keyword><keyword>InformationStorageandRetrieval/*methods</keyword><keyword>MolecularBiology/*methods</keyword><keyword>OligonucleotideArraySequenceAnalysis</keyword><keyword>PeriodicalsasTopic</keyword><keyword>Proteins/metabolism</keyword></keywords><dates><year>2005</year><pub-dates><date>Mar15</date></pub-dates></dates><isbn>1359-6446(Print) 1359-6446(Linking)</isbn><accession-num>15808823</accession-num><urls><related-urls><url>/pubmed/15808823</url></related-urls></urls><electronic-resource-num>10.1016/S1359-6446(05)03376-3</electronic-resource-num></record></Cite></EndNote>[\o"Krallinger,2005#12"8]。早期的文本挖掘主要源于20世纪80年代芝加哥大学Swanson教授提出的基于逻辑推理的方法ADDINEN.CITE<EndNote><Cite><Author>Swanson</Author><Year>1986</Year><RecNum>13</RecNum><DisplayText><styleface="superscript">[9]</style></DisplayText><record><rec-number>13</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">13</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Swanson,D.R.</author></authors></contributors><titles><title>Fishoil,Raynaud'ssyndrome,andundiscoveredpublicknowledge</title><secondary-title>PerspectBiolMed</secondary-title><alt-title>Perspectivesinbiologyandmedicine</alt-title></titles><periodical><full-title>PerspectBiolMed</full-title><abbr-1>Perspectivesinbiologyandmedicine</abbr-1></periodical><alt-periodical><full-title>PerspectBiolMed</full-title><abbr-1>Perspectivesinbiologyandmedicine</abbr-1></alt-periodical><pages>7-18</pages><volume>30</volume><number>1</number><keywords><keyword>Animals</keyword><keyword>BloodPlatelets/drugeffects/*physiology</keyword><keyword>BloodVessels/drugeffects/*physiology/physiopathology</keyword><keyword>BloodViscosity/*drugeffects</keyword><keyword>FishOils/pharmacology/*therapeuticuse</keyword><keyword>Humans</keyword><keyword>RaynaudDisease/diettherapy/*physiopathology</keyword><keyword>VascularDiseases/*prevention&control</keyword></keywords><dates><year>1986</year><pub-dates><date>Autumn</date></pub-dates></dates><isbn>0031-5982(Print) 0031-5982(Linking)</isbn><accession-num>3797213</accession-num><urls><related-urls><url>/pubmed/3797213</url></related-urls></urls></record></Cite></EndNote>[\o"Swanson,1986#13"9],后来很多学者研究潜在信息关联的文本挖掘。通过建立词向量,计算概念之间关联紧密程度,挖掘出潜在的知识关联。目前,结合Phi相关系数,点互信息和余弦相似度等方法对生物文献进行文本挖掘,从而追踪和探询生物潜在信息关联已经受到诸多的研究工作者的探索。1.3.5信息整合(InformationIntegration,II)生物医学文献知识的发现仅依赖生物医学文献资源是不够的,将不断增长的生物文献资源同生物实验数据有效的集成是挖掘生物医学知识的更理想的方法。信息整合是指维护数据源整体上的数据一致性并提高信息共享利用的效率。实现数据集成的系统称作数据集成系统,它为用户提供统一的直接的数据源访问接口,执行用户对数据源的访问请求。统一直接是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。1.4生物医学文献挖掘研究现状及局限性生物医学文献挖掘的概念最早可以追溯到1986年,当时芝加哥大学教授SwansonADDINEN.CITE<EndNote><Cite><Author>Swanson</Author><Year>1986</Year><RecNum>13</RecNum><DisplayText><styleface="superscript">[9]</style></DisplayText><record><rec-number>13</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">13</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Swanson,D.R.</author></authors></contributors><titles><title>Fishoil,Raynaud'ssyndrome,andundiscoveredpublicknowledge</title><secondary-title>PerspectBiolMed</secondary-title><alt-title>Perspectivesinbiologyandmedicine</alt-title></titles><periodical><full-title>PerspectBiolMed</full-title><abbr-1>Perspectivesinbiologyandmedicine</abbr-1></periodical><alt-periodical><full-title>PerspectBiolMed</full-title><abbr-1>Perspectivesinbiologyandmedicine</abbr-1></alt-periodical><pages>7-18</pages><volume>30</volume><number>1</number><keywords><keyword>Animals</keyword><keyword>BloodPlatelets/drugeffects/*physiology</keyword><keyword>BloodVessels/drugeffects/*physiology/physiopathology</keyword><keyword>BloodViscosity/*drugeffects</keyword><keyword>FishOils/pharmacology/*therapeuticuse</keyword><keyword>Humans</keyword><keyword>RaynaudDisease/diettherapy/*physiopathology</keyword><keyword>VascularDiseases/*prevention&control</keyword></keywords><dates><year>1986</year><pub-dates><date>Autumn</date></pub-dates></dates><isbn>0031-5982(Print) 0031-5982(Linking)</isbn><accession-num>3797213</accession-num><urls><related-urls><url>/pubmed/3797213</url></related-urls></urls></record></Cite></EndNote>[\o"Swanson,1986#13"9]指出,很多公开知识没有被发现,因为知识由具有逻辑联系的各个部分组成,而这些逻辑上联系的各个部分没有被同一个人所知。他用逻辑推理的方式找到隐藏联系,提出新的科学假设,再由实验来证实。其具体思想被描述为典型的形式是ABC模式,即某些文献中表明A与B有某种关系,另一些文献中表明B与C有某种关系,则预测A与C有某种关系,尽管没有任何文献表明A与C有关系。根据这一理论,Swanson教授发现食用鱼油会对雷诺氏症患者有益。这一假设先前没有任何报导,后来得到临床报告的证实ADDINEN.CITE<EndNote><Cite><Author>荣毅虹</Author><Year>2002</Year><RecNum>14</RecNum><DisplayText><styleface="superscript">[10]</style></DisplayText><record><rec-number>14</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">14</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>荣毅虹</author><author>梁战平</author></authors></contributors><auth-address>北京大学信息管理系,中国科学技术信息研究所北京100871,北京100038</auth-address><titles><title>基于文献的发现</title><secondary-title>情报学报</secondary-title></titles><periodical><full-title>情报学报</full-title></periodical><pages>386-390</pages><number>04</number><keywords><keyword>基于文献的发现</keyword><keyword>未被发觉的公开知识</keyword><keyword>情报研究</keyword><keyword>情报学发展</keyword></keywords><dates><year>2002</year></dates><isbn>1000-0135</isbn><call-num>11-3454/G3</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[\o"荣毅虹,2002#14"10]。然而,在Swanson所处时代,生物医学文献数量还非常有限,生物医学文献挖掘的方法大多基于关键词技术。随着生物医学研究进展,特别是后基因时代的到来,医学文献以爆炸式增长,新的需求不断出现。目前,对生物医学文献挖掘的研究已经成为生物医学研究领域的热点,数据挖掘的大量方法已被成功地用于文献挖掘中。文献挖掘领域则被细分为信息检索,实体识别,信息提取,文本挖掘和信息整合这五个部分。Swanson教授早期所提出的工作应属于文本挖掘的范畴。文献挖掘的五种方法也可以归结为两个方向:(1)信息检索,即找到与主题相关的文献。(2)信息挖掘,指从主题相关的文献中找到所需信息,它包含了生物医学文献挖掘的实体识别,信息提取,文本挖掘及信息整合等方面。以下就文献挖掘中信息检索,实体识别,信息提取,文本挖掘和信息整合的研究现状及局限性进行简要的描述:信息检索的发展过程中,根据主题提供的方式不同,可以分为ADHOC特征检索和文本分类。前者通过用户提供查询,根据查询找到相关文献。如著名的GoogleScholar等网站,生物医学领域的PubMed等数据库。后者通常给定主题及主题相关的训练集,并通过特定模型对文献进行分类。这方面主要有以下一些代表性工作:Marcotte用贝叶斯的方法ADDINEN.CITE<EndNote><Cite><Author>Marcotte</Author><Year>2001</Year><RecNum>15</RecNum><DisplayText><styleface="superscript">[11]</style></DisplayText><record><rec-number>15</rec-number><foreign-keys><keyapp="EN"db-id="x2zfx0d940t202ewap155dfyw2xdd5f0wess">15</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Marcotte,E.M.</author><author>Xenarios,I.</author><author>Eisenberg,D.</author></authors></contributors><auth-address>UnivCalifLosAngeles,LabStructBiol&MolMed,DOE,InstMolBiol,LosAngeles,CA90095USA ProtPathwaysInc,LosAngeles,CA90024USA UnivTexas,DeptChem&Biochem,InstCell&MolBiol,Austin,TX78712USA</auth-address><titles><title>Miningliteratur
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全技术措施及文明施工方案
- 二期防腐管道加工项目环境影响报告表
- 包头天骄科技专项实验示范线环境影响报告表
- 四川省成都市金牛区蜀西实验校2026届初三下学期期末试卷物理试题含解析
- 广东省广州市南沙区博海校2026届高中毕业班阶段性测试(二)英语试题含解析
- 湖南省长沙市长铁一中2026年初三第一次适应性考试(一模)英语试题含解析
- 云南省泸西县逸圃初级中学2026届初三下学期开年摸底大联考(全国I卷)数学试题含解析
- 四川省通江县重点中学2026年初三中考模拟考试(二)英语试题含解析
- 临床带教资源利用
- 危重病人监护与管理
- 龙门安全培训试题和答案
- 输血不良反应处理流程与应急预案、记录表、登记表
- 信号通路交叉调控-洞察与解读
- 2025年水灾灾后重建项目可行性研究报告及解决方案
- 2025至2030年中国大高炉风口小套行业发展研究报告
- 第二单元千年梦敦煌《第4课穹顶漫藻井》说课稿-2024-2025学年岭南美版(2024)初中美术七年级下册
- DB13∕T 5603-2022 工贸行业非高危建设项目安全设施“三同时”报告编制导则
- 温室大棚建设施工组织设计方案
- 2025年院感试题及参考答案
- 药厂卫生管理知识培训课件
- 热电厂工作基础知识培训课件
评论
0/150
提交评论