




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,生物医学文本挖掘前沿-新发现,WL,Frontiersofbiomedicaltextmining:currentprogress,2,发表期刊8(5):358375.PierreZweigenbaum法国LIMSI/CNRS的高级研究员(机械和工程科学的语言,信息和代理集团计算机科学实验室/法国国家科学研究中心)他致力于自然语言处理和其在生物医学领域的应用。DinaDemner-FushmanNLM国家生物医学通讯中心通信工程部常任科学家她利用信息检索的NLP和生物医学领域信息检索研究临床决策支持、临床问答系统。HongYu威斯康星密尔沃基大学计算机科学和卫生科学系助理教授,她的研究多关注于多媒体信息检索,话语分析和问答系统。KevinB.Cohen科罗拉多大学医学中心校区,领导计算药理学方面生物医学文本挖掘团队。,3,文本挖掘的主要技术和应用,IR,NER,IE,问答系统,非文本数据处理,知识发现,4,文本挖掘(TM),在不同程度上,大部分生物医学TM研究依赖自然语言处理方法和工具。“BioNLP”TM有广义和狭义之分:狭义:TM系统必须返回文章中没有明确表明的知识。广义:任何从文章中抽取信息的系统,或者具有抽取信息所必需先决条件功能的系统。包括一系列的应用类型,从命名实体识别到基于文献的知识发现,以及介于两者之间的许多过程。,5,结构框架,文本抽取事实,IE初始工序,有注释文本集&大规模评价,关系抽取,识别生物实体的模块或文章中的概念,检测出生物实体之间的关系,超信息抽取,摘要技术,处理非文本材料,问答系统,知识发现,简明确定和表明文献最重要方面,节省阅读时间,含有丰富信息的非文本信息如表格和图片,为形成的问题提供精确的答案,真正的TM不仅给出文章中存在的直接事实,还有助于揭示生物学实体间的间接关系,狭义TM,评价&面向用户系统,理解用户需求,NER,(TM的最重要的必要条件),对系统和结果质量的评价有助于评估产生数据的可信度,对用户需求的实际掌握可引领技术发展,6,超信息抽取BIE,该技术超出IE领域,满足最严格的文本挖掘定义,本质上是处理文本以外数据类型的系统。IE系统的输入单一句型BIE系统的输入全文本:至少是摘要,有时是全文期刊论文,很少情况是文献集(如后面讨论的多文档摘要)。BIE系统的输出不限制实体间关系的简单的语句。,7,超信息抽取,8,摘要技术,传统的一般摘要对摘要的预期用途不作任何假设自动文本摘要技术的目的:确定一个或多个文献最重要的方面和简洁连贯地展现这些方面。自动文本摘要技术区分指示摘要(帮助读者决定他们是否应阅读感兴趣的摘要文档)和详细摘要(从摘要文档中为读者实际提供资料)定向/聚焦的摘要旨在满足独特信息需求,往往以查询方式表现,“黄金信息”,9,摘要技术,4,3,2,1,刻画基因六个方面,结合标记抽取信息,评价,1:六个方面:(i)基因产物,(ii)表达的位置,(iii)序列信息,(iv)野生型功能和表型信息,(v)突变表型和(vi)遗传相互作用。2:检索相关MEDLINE摘要和抽取包含与靶基因某一特定方面有关信息的句子3:为了结合治疗结果有关,最能提供信息的句子中的证据,评分句型将种类相关性,文献相关性和摘要中句子的位置结合标记。4:这一抽取方法使确定10个随机选择基因的测试集的上述六个方面查准率达到50%-70%。,填充摘要结构,10,摘要技术,2003年文本信息检索会议(TREC,TextREtrievalConference)基因组领域包括GeneRIFs基因导入功能参考(GeneRIF用于Entre数据库中描述的基因)预测的任务。Lu等人提出完成这项任务采用摘要技术与GO(基因本体,geneontology)注释结合,GO注释与现有的Entrez基因条目有关。作者将这一方法进一步发展到现实任务摘要技术的创新应用:测定低质量和过时的GeneRIFs摘要修订方法,这一任务准确率达到89%,召回率达到79%,并且在质量上比其他方法产生有效的GeneRIFs。,11,摘要技术,将摘要方法应用于蛋白-蛋白间相互作用的BioCreative2006句型选择子任务。该查找描述蛋白-蛋白相互作用最好的句型的抽取摘要方法达到了19%的准确率,是这一挑战中表现最好的;位于第二的系统的分数为6%。,12,摘要技术,与摘要相关的任务:描述采用Mesh主题词的文本的主要主题,通过人工索引medline数据库完成的。Nvol等人通过改进自动生成的建议性主题词来推动这一手工处理过程;NLM索引者在索引过程中采用此方法。这一工作的重点是将Mesh叙词(descriptors)和限定词(qualifiers)的组合分配给一篇引文,而不只是分配单一的Mesh主标目。,13,摘要技术,摘要技术的另一个应用:将文献分类到一系列预先确定的分类(例如GO编码)中。Stoica和Hearst成功为基因分配GO编码,他们通过从生物医学文本中查找分配给靶基因的同源类似物的GO编码来分配GO术语。Fyshe和Szafron针对蛋白质的亚细胞定位对文献摘要进行分类,利用GO作为一个附加的信息资源。文献摘要的分类也是Hglund等人的预测亚细胞位置方法一个组成部分。,14,摘要技术展望,生物学文本摘要技术的研究是稳定的持续进行的应用于现实需要更多的任务驱动性摘要的研究更多的一致性多文档生成的摘要技术研究,15,超信息抽取,16,处理非文本材料(Processingnon-textualmaterial),目前现状:大多数关于BM语言处理系统仅应用在文本信息方面,而不提供其他重要数据,如图像(例如,图表)。新兴研究:应用图像处理以及NLP的方法来分析图形图像及与其关联的文本,或考虑特殊形式的文本,如化学化合物。,17,处理非文本材料,第一个面向BM文献中图像的系统:亚细胞定位图像搜索(SLIF)系统SLIF提取并分析特定类型的图像,即来自BM全文文章的荧光显微镜图像。利用几何力矩,文字的处理和形态学图像处理提取BM全文期刊文章的所有图形图像,识别这些描绘荧光显微镜图像,然后确定捕捉亚细胞位置数字特征(即,计算SLF6特征和将输出结果转换为单一的分数)。,18,处理非文本材料各个方法的评价,图像标题提取法的准确率/召回率是98/77%。通过寻找水平和垂直的空白部分来进行递归细分,从而把图像分解成网格。分解法的准确率为83%,召回率为60%。利用以灰度柱状图的为特点的k-近邻分类算法来识别荧光显微镜图,这一方法查准率达到97%,查全率为92%。多细胞图像分割成单细胞图像。由此产生的二进制图像包含的对象为相对应的细胞。此算法查准率/查全率达到了62/32%。所有的方法都证明了它们在实验的准备,细胞类型和显微镜方法中产生差异以及出版时图像交替的稳健性。,19,处理非文本材料,定义了在BM全文文章出现的5个类别的图像,并采用监督的机器学习算法的支持向量机(SVMs)自动分类图形图像进入这些类别。对于给定的554张附注释的图形图像:当只应用图像特征(亮度和基于边缘特征)时,分类器的F-值达到50.74%,当应用文本特征(标题中的词袋和多元语法)时,F-值达到68.54%。当融合图像特征和文字特征时,结合分类算法的F-值达到73.66%。,20,处理非文本材料,共有1600有注释的图形图像,利用SVM分类器来区分图形型和实验型图像,准确率达到95;而能够区分三种类型的实验型图像的准确性为93。46个图像特征(如柱状图和边缘方向柱状图)用于分类任务。他们发现,在文本分类任务可以受益于将这些图像的特征的综合。,图形图像,图形型:条形图,线形图和其他图表,实验型:凝胶电泳,荧光显微镜和其他显微镜,其他类型,21,处理非文本材料,图像提供重要证据,但不参照相关文本常无法理解。为此,Yu审查了三种相关文字:图片标题,摘要中出现的相关句子和全文主体中出现的相关的句子得出结论认为,摘要中的句子可以用来概括图像内容,其他相关的文本描述通常只描述实验程序而不包括实验的指征和结论。,22,处理非文本材料,该系统将图像和摘要句子的关系可视化。BioEx可以通过相关的摘要句子来获得图像。他们邀请那些对文章进行图像注释的119为科学家来评价BioEx界面,与其他两个无法通过摘要句子来获得图像基础界面进行比较。87.8的科学家更倾向于BioEx用户界面。图像和摘要句子的关系通过基于摘要句子和图像标题单词等级相似性的层次聚类算法实现的。准确率达到72,相应的召回率为33。,23,处理非文本材料,化合物与图像相关的描述是非线性性质的。Rhodes等人开发了分子相似性搜索引擎,以区分专利语料库中类似的化合物。该系统首先在文本中识别化学名称,将这些名称转换为相应的复合结构,然后为每个结构分配一个IUPAC(国际理论和应用化学联合会)的国际化学标识符(InChI)代码。从InChI代码和基于文本的向量空间模型中抽取特征,然后应用到索引和检索相关的化合物。评价发现,相似性搜索优于基于文本的搜索。,24,处理非文本材料,主要开发从数据库中检索医学图像的系统。ImageCLEFmed:医学图像检索IPAL(ImageProcessingandApplicationLaboratory,图像应用和处理实验室,Image&PervasiveAccessLab):自动医学检索达到了最高平均准确率(MAP:0.3095)。IPAL融合了UMLS作为知识基础,并发现它增强了以文本为基础和可视化检索。,25,超信息抽取,26,问答系统(Questionanswering,QA),问答系统:高精度的信息检索,而不是从庞大的全文资料库中得到一个文献列表,QA试图对问题提供一个简短的,具体的答案,并且通过提供支持信息和链接原始资料文献把他们放入到上下文中。QA近来主要应用在一些限定的领域中。临床领域中较早出现并相对活跃,而基因组学只是最近才解决的。问答系统一般包含问题分析,查询制定,信息检索,答案提取,摘要和显示。,27,问答系统相关研究,Demner-Fushman和Lin:随后识别并提炼PICO文本来回答临床问题;他们发现具有领域特异性的知识能够增强信息检索,对于BM领域中的QA:Zweigenbaum是最易获得的,Huang等人:映射出基于问题/病人,治疗,比较治疗,治疗结果(PICO)的临床问题,Yu等人实现了医疗问答系统,并比较问答系统与信息检索系统的实用性,Jacquemart和Zweigenbaum:在法国进行了一项临床问答系统的可行性研究,28,问答系统,TREC/GenomicsTrack(基因组追踪)已经成为基因组学领域的问答系统的驱动力量。基因组追踪单任务注重于为生物学问题检索出特定的短文(两三个短句)(例如:PrnP在疯牛病中的作用?)。31个团队参与了基因组追踪并得到以下平均准确度:文献检索0.01980.5439(中位数:0.3083)段落检索0.00070.1486(中位数:0.0345)检索0.0110.4411(中位数:0.1581),29,问答系统,最好的执行系统综合了基于规则的字典和统计学方法,以识别主题词的变化,同义词,上位词和下位词以及其他相关的主题词,发现他们大大地加强了问答系统的性能。另一个高效能系统结合了4个独立信息检索系统的结果(Essie,EasyIR,SMART和Theme),并发现融合大大优于独立的系统。许多团队已经研究了高级信息检索模型:Jiang等人:语言模型和相关性反馈Caporaso等人:探讨了潜在语义分析Divoli等人:考虑了问题和全文文献的结构HaiqingZheng(复旦大学,计算机科学和工程系)等人:在句法树结状构的基础上选择与问题相似句子,并发现浅层句法分析提高答案抽取的性能。,这些模型没有提高段落检索性能,30,结构框架,文本抽取事实,IE初始工序,有注释文本集&大规模评价,关系抽取,识别生物实体的模块或文章中的概念,检测出生物实体之间的关系,超信息抽取,摘要技术,处理非文本材料,问答系统,知识发现,简明确定和表明文献最重要方面,节省阅读时间,含有丰富信息的非文本信息如表格和图片,为形成的问题提供精确的答案,真正的TM不仅给出文章中存在的直接事实,还有助于揭示生物学实体间的间接关系,评价&面向用户系统,理解用户需求,NER,(TM的最重要的必要条件),对系统和结果质量的评价有助于评估产生数据的可信度,对用户需求的实际掌握可引领技术发展,31,有注释文本集&大规模评价,理解用户需求,32,评价&面向用户系统(ASSESSMENTANDUSER-FOCUSEDSYSTEMS),近年来,BMTM团队在广义上的TM系统的大规模比较评价中的进步包括:大批注释文本资源(“语料库”)的发展进行共享任务的基础结构。随着对比较系统评价的关注的增加,近来一些工作偏离了基于NLP应用的既定范畴的发展,朝向了以谨慎评价用户需求的发展方向。构建共享任务目标:满足BM研究人员实际的工作流程。,33,有注释文本集&大规模评价(Annotatedtextcollectionsandlarge-scaleevaluation),评价是一个基本工具,决定一个生物自然语言处理(BioNLP)方法或系统是否有效地达到规定的目标以及成功完成一个任务和达到预期结果的程度。BioNLP研究人员关注试验结果的可重复性,可比较性和可行性。知识发现竞赛(KDDCup)开创了相关方法论并在TREC中继续研究。评价方法包括:产生检验文献集和开展可靠有效评价方法。“GENIA语料库”标记着BM领域的检验文献集的开始。,34,有注释文本集&大规模评价,刻画科学文本的载信息片段的特征:(i)关注主题(科学的,普通的或方法学)(ii)极性(正向,负向,缺乏知识)(iii)确定性(0-3度)(iv)证据(片段中缺乏,涉及或存在)(v)方向/趋势(高/低水平或试验结果的上升/下降)从BM文献抽取101条语句,以这些语句注释的高一致性为基础使用以上方法大量收集的注释正在刚刚起步。,35,有注释文本集&大规模评价,2001年,Pyysalo等人对BioInfer(生物医学领域信息抽取语料库)集合中的1,100条语句的注释。这一集合建立于GENIA语料库的实体注释,包括关系,命名实体和句法从属关系的注释。关于这些检验集的信息及其有效性可在“生物医学自然语言处理语料库”网站找到。/ccp/corpora/pubs.shtml,36,有注释文本集&大规模评价,BioCreAtIvE(CriticalAssessmentofInformationExtractioninBiologys)评价的目的是找出文本中涉及的基因,基因名称标准化和蛋白间相互作用的抽取。Morgan等人以BioCreAtIvE的任务是为MEDLINE摘要中所有人类基因和蛋白质查询EntrezGene标识符为例,分析评价其任务完成情况以及准备文本集的相关问题。,37,理解用户需求(Understandinguserneeds),用户需求,行为和与工具交互作用的研究是决定需要哪种生物医学工具和服务以及它们是否有用的一个有效途径。近期的努力方向:考虑到用户需求,将NLP方法的应用到支持研究人员和数据库管理者的工具的高级性能。开发系统主要是为了解决特殊任务和用户群体例如,科学文献的个人数字图书馆的特殊有机体数据库的维护或创造。,38,理解用户需求,特点:以用户观察和用户反馈为基础的反复完善该工具综合的NLP包括涉及基因和相关的名词短语的识别该工具导航到涉及基因列表和可视化线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机关事业单位工人招聘《机动车驾驶员》技师考试题库及答案
- 2024年公路水运检测师桥隧模拟题及答案
- 2019年1月国开电大法律事务专科《行政法与行政诉讼法》期末纸质考试试题及答案
- 2025 年小升初成都市初一新生分班考试数学试卷(带答案解析)-(人教版)
- 江苏省2025年会计从业资格《会计基础》模拟试题
- 2025起重机械检验员年终总结400字
- 社区网格长安全知识培训课件
- 泸州市合江中学高2024级高一上学期期末考试地理试题(试卷)
- 工厂托盘出售合同范本
- 农机管路维修合同范本
- 基于学习科学的小初衔接英语教学新路径
- 小孩办理身份证授权委托书
- 外科学 泌尿系统损伤
- 齐鲁名家 谈方论药智慧树知到期末考试答案2024年
- 八年级英语下学期阅读理解20篇
- (高清版)DZT 0227-2010 地质岩心钻探规程
- 专家委员会组建方案
- 柠檬酸在提高尿素呼气试验诊断幽门螺杆菌感染准确性中作用护理课件
- 急诊科急诊超声检查在腹部外伤中的应用培训
- 妇产科学课件:妊娠合并病毒性肝炎
- 阿米巴经营模式在企业中的应用
评论
0/150
提交评论