




已阅读5页,还剩109页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,生物医学文本挖掘及其应用,中国医科大学 医学信息学系 崔雷,目的,介绍生物信息学文本挖掘工具文本挖掘不再是信息专业的领域,2018/1/17,例子:二者关系进行性多灶性白质脑病(progressive multifocal leukoencephalopathy,PML) 抗体antibodiesMonoclonal antibodies,efalizumab(依法珠单克隆抗体),自然语言处理,让计算机替我们看文献吧!比较难:计算机需要专门的知识才能读懂文本。自然语言处理(Natural Language Processing ,NLP):专门训练计算机掌握这种知识的学科。生物医学文本挖掘(Biomedical text mining )是一个专门处理生物学、医学和化学文本的分支学科。也叫BioNLP有些人把NLP当做text mining的同义词。,5,Biomedical text,生物医学文本的格式多种多样:病历科研论文序列注释公共健康指南文本的内容多样化,如习惯用语临床有临床上的行话实验室有自己对蛋白的命名方式这种差异造成了文本挖掘应用往往面向特定类型的文本。尤其是对Medline文摘记录的分析。易获取免费,基本概念(1),术语(Term):专门领域里的名称。术语集(terminology):术语的集合。生物医学文本中到处是术语,是医学知识的基本构件。如各种细胞的名称,蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域的名称。名称如此重要, 需要在文本中识别之,这个工作称为生物医学文献中的命名体识别(NER,Named Entity Recognition )。,基本概念(2),尽管术语的定义似乎很明确,但是很难精确定义。early progressive multifocal leukoencephalopathyRefer toearly progressive multifocal leukoencephalopathy progressive multifocal leukoencephalopathymultifocal leukoencephalopathyLeukoencephalopathy,基本概念(3),Terminology:手工构建的,因此是受控的。HUGO:基因术语集ICD:国际疾病分类法。Gene Ontology:基因本体。不仅仅是术语列表,还包括:术语表+同义词=thesaurus 术语表+术语之间的关系=taxonomies, ontology一旦一段文本与其中一个词表对应上,就和其他资源建立起联系了。,9,人工标引,手工匹配,Medline abstracts,Medical Subject Headings (MeSH),Leukoencephalopathy,progressive multifocal,10,11,gene normalization,自动匹配:,2018/1/17,HGNC database of human gene names HUGO Gene Nomenclature Committee/,2018/1/17,网上在线检索的基因名称信息,14,2018/1/17,下载的基因名称信息,2018/1/17,NER的原理,文本(PubMed Abstracts),软件,名称(基因名,蛋白质名),词表,词表之间的联系,词表太多,又创建了词表,把术语集匹配起来,词表之词表,超级词表。metaBioThesaurus:多个词表中蛋白质的同义词 Unified Medical Language System(UMLS):一体化医学语言系统,120多个词表,4百万个术语。,18,/pirwww/iprolink/biothesaurus.shtml,2018/1/17,2018/1/17,2018/1/17,术语识别工具,Whatizit:识别多种术语,通过网页。Abner:单机版,识别5种术语:蛋白、DNA、RNA、细胞株、细胞类型。更专指的术语识别工具:PepBank :用于肽类LSAT:用于alternative transcripts 提高 PubMed检索效果:semedico , novo|seekGoPubMed/GoGene,24,http:/www.ebi.ac.uk/webservices/whatizit/info.jsf,25,/bsettles/abner/,A(Whatizit):蛋白-蓝色,疾病-深红,基因本体-浅红,化学物质-深红,物种-红色B(ABNER):蛋白和细胞株C(BIOCreAtIvE metaserver ),27,发现关系,识别术语之后,下一步自然是寻找术语之间的关系。发现关系的最简单途径就是共现:在同一段文字中同时出现的两个术语可能有关联。例如,某种蛋白质与一种疾病总是在同一文摘中出现,有理由假设该蛋白与疾病的某个方面有关。共现的次数越多,越有意义。可以定量排序,通过统计处理排除偶然的关联。,2018/1/17,关联度,假设有t1和t2两个词共现,最简单的信度指标就是含有这两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。点间互信息p为文章数除以文章总数。,2018/1/17,关系抽取:共现,GoDisease:/输入leukoencephalopathy, progressive multifocalmh,2018/1/17,返回结果:,所有提及PML的文摘中的基因。 出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。,2018/1/17,关系抽取:确切关系,明确描述的关系:比共现更好的证据。例如: We describe a PML in a 67-year-old woman with a destructive polyarthritis(多关节炎) associated with anti-JO1 antibodies treated with corticosteroids PML与抗-JO1抗体有明确关系。 将这种关系简化为三元体:两个名词+一个动词。PML is associated with anti-JO1 antibodies识别动词:词性标注:part-of-speech (POS) tagger三元体表述因其简单而功能强大,但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。,2018/1/17,Semantic Knowledge Representation,SKR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。,2018/1/17,/,其中MetaMap是SKR系统的核心组件。MMTx是完成MetaMap功能的Java工具包,它进行的分析是语义层次上的分析。,2018/1/17,MetaMap工作原理,/m/user_content.aspx?id=42340,/m/user_content.aspx?id=42340,/m/user_content.aspx?id=42340,/m/user_content.aspx?id=42340,2018/1/17,MetaMap工作原理:切分,“ocular complication of myasthenia gravis” (重症肌无力的眼部并发症)“ocular complication”和“of myasthenia gravis”“ocular complication”分为“mod(ocular),head(complication),2018/1/17,MetaMap工作原理:产生变形体,Ocularadj,0=”Eyenoun,2=”s”同义词Eyesnoun,3=”si”同义词的复数Opticadj,4=”ss”同义词的同义词Ophthalmicadj,4=”ss”同义词的同义词Ophthalmianoun,7=”ssd”同义词的同义词的变形Oculusnoun,3=”d”变形Oculinoun,4=”di”同义词的复数,2018/1/17,2018/1/17,检索候选词及候选词的评价,检索超级词表,检索到包含有至少一个变形体的候选字串集合。计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数,计算输入短语与候选词之间的匹配程度:中心度:即包含中心词;变形情况:距离倒数的平均值;覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段按照匹配程度排列这些候选词。,2018/1/17,2018/1/17,关系抽取:PPI,protein-protein interactions (PPI):文本挖掘的重头戏利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词直接动词有to bind, to stabilize, to phosphorylate间接的动词有to induce, to trigger, to block。 文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质。常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕获这些变异的规则。捕获磷酸化的模式,应当依次含有:一种酶的名字磷酸化的动词一种基质的名字,2018/1/17,发现关系的工具,FACTA:Medline文本中概念共现情况。MedGene 和BioGene:利用共现发现基因优先级别。Endeavour 和G2D 利用文本和其他数据源分析基因优先级别。 PolySearch利用启发式加权技术,给不同的共现不同的权重。Anni使用文本轮廓测量术语之间的关系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用语言模式发现磷酸化过程中的激酶、基质和磷酸。 E3Miner发现泛素化,包括上下文信息。,2018/1/17,http:/text0.mib.man.ac.uk/software/facta/main.html,2018/1/17,GoDisease+iHOP+Cytoscape,2018/1/17,发现:Discovery,Besides finding relationships, text miners are also interested in discovering relationships Swanson:undiscovered public knowledge【见例子1】,2018/1/17,文本挖掘的应用实例,Swanson关联研究及其工具Arrowsmith 的使用Bitola的使用用文献轮廓挖掘微阵列表达数据Damien ChaussabelMedlineR,2018/1/17,背景与意义,发表文献,研究深入,知识分裂fragmentation of scientific knowledge,文献量,穷经皓首并老死不相往来,2018/1/17,Don R. Swanson的研究,跨学科间一定存在着潜在的未被发现的关联文献间隐性的关联如何发现隐性关联?寻找非相关互补性文献text-based informaticsliterature-based discovery,2018/1/17,Don R. Swanson的研究,两种互补的文献:一类文献(AB):摄入A可能导致某种生理改变B另一类文献(BC):B作用于某种疾病C即A作用于C。两种非相关的文献:两种文献从没有或很少被共同引用并且也不相互引用。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。,2018/1/17,Medline文献集合,Don R. Swanson的研究,潜在的联系,雷诺氏病文献,食用鱼油文献,血液粘稠度红细胞脆性,血液粘稠度红细胞脆性,2018/1/17,闭合式的知识发现,2018/1/17,2018/1/17,ARROWSMITH 3.0,,2018/1/17,4822,2018/1/17,2018/1/17,2018/1/17,2018/1/17,Asthma famous?,2018/1/17,哮喘名人,2018/1/17,SYK:脾酪氨酸激酶,2018/1/17,SYK:脾酪氨酸激酶,过敏性鼻炎,Syk inhibitors as treatment for allergic rhinitis.2008【SYK抑制剂治疗过敏性鼻炎】An intranasal Syk-kinase inhibitor (R112) improves the symptoms of seasonal allergic rhinitis in a park environment.2005【鼻内SYK抑制剂(R112)改善公园里过敏性鼻炎症状】,痛风,Crystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase.2007【晶体诱发的中性粒细胞活化:Ia类磷脂酰肌醇3激酶的SYK依赖性活化】Crystal-induced neutrophil activation. VII. Involvement of Syk in the responses to monosodium urate crystals.2001【晶体诱发的中性粒细胞活化:SYK参与对尿酸钠晶体反应的程度】,2018/1/17,过敏性鼻炎SYK痛风,过敏性鼻炎,痛风,抑制剂,治疗,中性粒细胞活化,晶体,诱发,PI3K,SYK,2018/1/17,2018/1/17,B:基因和分子序列等语义类型,2018/1/17,TOLL receptor,2018/1/17,可作为生物武器的潜在病毒,能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。A:病毒毒力遗传方面(virulence- genetic)C:病毒疾病传播力病毒的昆虫媒介传播(insect vectors)空气传播(air)在空气中的稳定性(stability of viruses in air)通过与A和C有共同联系B找出更多符合条件的病毒。将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B),2018/1/17,发现科研机构间潜在的合作方向,潜在合作方向美国斯坦福大学哥伦比亚大学医学信息学研究领域发现科研机构合作与交流的题目结果:更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处)内容详细、明确:能体现出研究所使用的具体方法和侧重点,2018/1/17,开放式的知识发现,2018/1/17,BITOLA http:/www.mf.uni-lj.si/bitola/,输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。,2018/1/17,BITOLA,2018/1/17,2018/1/17,2018/1/17,syk,2018/1/17,2018/1/17,2018/1/17,2018/1/17,2018/1/17,内容,Swanson关联研究及其工具Arrowsmith 的使用Bitola的使用用文献轮廓挖掘微阵列表达数据Damien ChaussabelMedlineR,2018/1/17,运用文献轮廓挖掘微阵列表达数据,Mining microarray expression data by literature profilingDamien ChaussabelMedlineR,2018/1/17,Damien ChaussabelAlan Sher,Immunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USAGenome Biology 2002, 3(10):RESEARCH0055.,2018/1/17,目标,建立一种挖掘技术该技术以对文献轮廓literature profiling的分析为基础文献轮廓:对于某一个主题(如某基因)而言,有相关文献集合对于该基因的文献集合,分析某些单词在文摘中出现的频次。,2018/1/17,文献轮廓,基因B,基因C,基因A,相关文献,主题词1 频次主题词2 频次主题词3 频次 主题词n 频次,2018/1/17,研究步骤,检索文献分析文本过滤数据聚类分析,2018/1/17,1.检索文献,从基因开始,分别找到与各种基因相关的论文标题中含有基因名字的论文。人类基因命名委员会(Human Gene Nomenclature Committee, HGNC):官方名称、缩写、别名/,2018/1/17,2018/1/17,1.检索文献,建立数据库包括HGNC定义的10,500多种已知的人类基因 用PubMed查询格式的URL,例如: protein kinase C eta/htbin-post/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5DPRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti)上述纪录按照GenBank和Locus Link的ID排列该数据库可以作为Excel表格下载,2018/1/17,1.检索文献,选70种基因,每一种基因的相关文献以XML格式下载用Excel的宏命令抽取文摘,另存作为文本分析样本,Papers on Gene 70,Papers on Gene 3,Papers on Gene 2,Papers on Gene 1,2018/1/17,2.分析文本,对于每一个基因的相关纪录的内容,分析文摘中单词出现的情况。【TF】统计文摘中含有特定单词的文献数。【DF】例如:对于GADD45B基因的相关文献,有18.7%的文摘中含有单词“Proliferation”。,Abstracts on Gene 1,2018/1/17,3.过滤数据,每一种基因有几万条记录。对文献中发现的每一个单词,标上其出现的频次数。这些单词大多数对发现基因信息没有用途:没有特异性:if, because, cell, identified 很少使用:在很少的文献中出现。第三类单词:在某一种基因的文摘中出现频率高【TF】。在所有文献中出现频率(基准率)低【DF】。可以提供基因的相关信息。,2018/1/17,RANTES,Y轴上的点为与RANTES基因相关的单词,在25%以上的论文中出现过。随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均值。如果基因足够的话,单词的平均出现率趋于稳定。出现率低于5%的单词传递有关该基因的重要信息。如infection, secreted, chemokine 等。,2018/1/17,3.过滤数据,基准率:在所有已知的人类基因中随机抽取基因(250种)统计单词出现频率的平均值,2018/1/17,3.数据过滤,单词过滤的标准:通过设定基准率(5%),去掉在全部科技文献中经常出现的单词每一个单词在每一种基因上的出现率与基准率的差值25%通过两个基因过滤的单词:一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用。70个基因,25,000种单词,只保留下来101种。可以调整单词过滤的阈值:下调阈值,增加了噪音,检索到更多的单词。,2018/1/17,3.数据过滤,2018/1/17,4.聚类分析,通过单词出现情况,给具有同样的文献分布特征的基因进行分组。经过几轮过滤之后,确定了单词表,将该表用于建立一个单词-基因矩阵。矩阵中对应的是每一种基因和单词出现值。采用基因聚类分析的软件:Cluster/TreeView,2018/1/17,聚类分析,2018/1/17,4.聚类分析,蓝色:nuclear factors橙色:receptor-ligand pair绿色:interferon-related,红色:chemokines紫色:MHC class I antigen-presentation pathway,黄色阴影:单词在文摘中出现的水平,2018/1/17,4.聚类分析,基因的功能分组明显与免疫反应有关。蓝色:控制炎症反应和细胞凋亡的转录因子,这些基因和TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同时出现较多。 绿色:最大的一组基因,与interferon 有关(也叫 IFN和IFN-alpha,)。STATs基因是干扰素信号传导专门需要的因子。 红色:专门面向趋化因子(chemokines)。紫色:基因全部是I类MHC抗体表达通路基因。这些基因专门编码把蛋白降解为肽的蛋白。根据抽取词所表示的概念可以发现有价值的信息,用于快速探索和评估复杂数据集中的生物学意义。,2018/1/17,4.聚类分析,2018/1/17,聚类分析,2018/1/17,单词出现模式的分析,2018/1/17,不同关联程度的基因组,通过文献分布特征发现的关联一组基因在功能上的关联程度,2018/1/17,用文献轮廓挖掘鼻咽癌微阵列表达数据,黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所)目的:探索鼻咽癌异常信号通路。方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据挖掘方法。从Medline文献数据库中提取与基因相关的文献并分析词的频率,再根据重复发生和共发生的过滤标准提取功能相关的词。最后根据词的发生频率对基因进行功能聚类。结果:基因表达谱的112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。结论:鼻咽癌的发生发展可能由特殊的信号通路引起。,2018/1/17,用文献轮廓挖掘大肠癌转移芯片表达谱,黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室肿瘤研究所)目的:寻找新的大肠癌转移相关基因。方法:根据大肠癌转移芯片的表达谱,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类,进一步结合文献及已有的分子生物学检测结果进行分析。结果:发现两个新的可能与大肠癌转移相关的基因TlAM1和NM23H1。,2018
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 游戏娱乐品牌传播策略
- 医疗事件抽取-洞察及研究
- 天津国际留学方案咨询
- 油墨厂耐壬苯试验细则
- 化肥厂检测供应商档案细则
- 浙江省杭州市保俶塔教育集团2025-2026学年八年级上学期9月月考数学试卷(无答案)
- 电池厂产品检验标准实施细则
- 宠物美容培训学校入学合同书6篇
- 脂脉康安全性评价-洞察及研究
- 显示器亮度均匀性-洞察及研究
- 2025年南充房地产市场分析报告
- T-GXAS 342-2022 缺血性脑卒中血管内介入手术护理规范
- 医疗机构依法执业自查管理办法
- 小心小火点大班安全教案
- 牙科设备供货及售后支持方案
- 采血错误安全教育警示
- 教育部《中小学校园食品安全和膳食经费管理工作指引》知识培训讲座
- 2024年-2025年电梯检验员考试题库及答案
- 【初中英语】15天背完英语3500词
- 工地交通安全知识培训
- 万以内加减法单元测试练习题大全附答案
评论
0/150
提交评论