




已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物医学文本挖掘研究的体会,中国医科大学 信息管理与信息系统(医学)系,主要内容,开展的课题 “运用文本数据库中元数据关联规则进行知识发现的研究” 文本挖掘工具 课题申请的体会,运用文本数据库中元数据关联规则进行知识发现的研究,文本数据库:PubMed 元数据:关于数据的数据 ,MeSH主题词 关联规则:association rule,在同一个事件中出现的不同项的相关性,如在一次购物活动中所购商品的相关性(尿布啤酒:30%40%) 事件:一篇论文;不同项:MeSH主题词 MeSH主题词在同一篇文章中出现有规律吗? 可否利用这种关联规律来发现知识?,背景知识,知识发现(KDD):从数据中正规提取隐含的、以前未知的并且可能有用的知识。 数据挖掘:在数据中正规地发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程。 一般可以把数据挖掘当作知识发现的一个具体步骤。,背景知识,文本挖掘,Text Mining:文本挖掘 Literature Based Discovery (LBD):基于文献的发现 Knowledge Discovery in Biomedical Literature (KDiBL):生物医学文献知识发现,背景知识,Cimino的研究 哥伦比亚大学。 如果在一篇文献纪录中同时存在“疾病类主题词/化学诱导副主题词”和“药物类主题词/副作用副主题词”这样的组合的话,那么可以建议该疾病由该化学物质(药物)引起。 If /chemically induced AND /adverse effects Then is Caused by . 形成规则。 将这样的规则运用的具体的其他文献集合中,就会发现文献中报道了大量的具体疾病是由某一种具体药物引起的。形成关系。,背景知识,规则的文字形式: “如果某一文献记录中含有属于1类的主题词A并且和副主题词X在一起,AND 该引文还包括属于2类的主题词B并且和副主题词Y在一起,那么 建议A和B通过关系Z相关(A和B有Z关系)。” 根据Medline主题词和副主题词在同一篇文献中出现的情况,建立起主题词和副主题词之间的关联规则,然后将这些规则返回到具体的文献中形成了具体概念之间的关系。,本课题目标,寻找发现规则的方法。 将获得规则用于某一领域,得到具体的关系。 运用具体的关系开发出专题的知识库。,技术路线,下载专题文献,截取高频M/S,共词聚类分析,高频M/S组合,形成待检规则,得不到关系,得到关系,返回具体文献,发现新知识,形成规则,Swanson模式,专家评价,开发知识库,分析样本:下载文献,三个层次 微观层次:各个大类下的10个末级主题词 中观层次:针对每一种副主题词进行检索 宏观层次 :直接以大类名为检索策略,/dan/medkit/,关键点,确定高频主题词截取阈值,共词聚类分析最佳分组数目,伪F检验。 候选规则检验。规则是否成立。 规则是否可靠?专家评分,敏感度等。 不成立组合的分析:swanson模式,关系? 知识库开发。,取得的成果,方法是可行的。得到的规则。 开发出相应的数据挖掘平台。 BICOMS MeSH_Manager 建立各种专题、主题的知识库。,规则样例,今后的方向,应用领域上,向生物信息学靠拢; 实行中,寻求获得经济效益的可能; 学科上,最终目标是知识发现; 方法上,探索本体论在医学领域中的应用。,二、数据挖掘工具,文本挖掘的主要内容 术语识别 信息抽取 发现关系,Text Mining Tools,Semantic Knowledge Representation/语义知识表征项目,SKR http:/0-/ 美国国立医学图书馆,1998年启动 文本中所包含知识进行正确表达 利用美国国立医学图书馆现有的资源,尤其是一体化医学语言系统(UMLS)的知识库和SPECIALIST系统所提供的自然语言处理工具,开发出可以表达生物医学文本的实用程序。,(1)我们使用血液过滤方法来治疗伴有难治性高血钾的地高辛过量 (2)命题(proposition),大写的谓词(如TREATS、CAUSES等)表示的是个体之间的关系,这种关系都是在UMLS语义网络中所规定的语义关系;每一个体也是来自于UMLS超级词表中的规范化的概念。 命题的集合组成了对文本(1)的语义表达,从上面例子可以看出,尽管这种表达并不完全,但是还是把文本中的主要概念及其关系表达出来了。,MetaMap Indexing,MMI,超级匹配标引,主动标引项目(Indexing Initiative project)的一部分。 MetaMap用于对生物医学文献,尤其是MEDLINE中的记录进行自动标引。 MetaMap在指定的记录中寻找的概念,根据这些概念在文本中出现的位置(如标题)以及该概念的独特性排序,按照一定阈值选取标引词。 目前美国国立医学图书馆的标引人员在MEDLINE标引中使用MMI生成的概念排序作为参考。,MataMap 和SemRep,MetaMap最初是为了改善MEDLINE检索而开发出来的,用通过MetaMap发现的超级词表概念来代替文本。,EDGAR和ARBITER,EDGAR (Extraction of Drugs, Genes and Relations) 在MEDLINE中确定药物、基因关系的程序。 以前面几项工具为基础,以癌症治疗有关的药物和基因作为研究的主要领域,从文本中确认药物、基因和细胞株的名称。 ARBITER (Assess and Retrieve Binding Terminology) 从生物医学文本中抽取大分子键联关系。,Medline文献集合,Don R. Swanson的研究,潜在的联系,雷诺氏病 文献,食用鱼油 文献,血液粘稠度 红细胞脆性,闭合式的知识发现,ARROWSMITH 3.0,,可作为生物武器的潜在病毒,能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力 病毒的昆虫媒介传播(insect vectors) 空气传播(air) 在空气中的稳定性(stability of viruses in air) 通过与A和C有共同联系B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B),发现科研机构间潜在的合作方向,利用Arrowsmith程序,发现美国斯坦福大学和哥伦比亚大学在医学信息学研究领域的潜在合作方向 尝试将这种方法运用到寻求发现科研机构合作与交流的领域中。 结果表明,利用Arrowsmith所挖掘的科研合作与交流的内容详细、明确,能体现出研究所使用的具体方法和侧重点,能更好地体现出两个机构研究内容的相似点(可以合作之处)和不同点(可以相互交流、学习之处)。,开放式的知识发现,BITOLA http:/www.mf.uni-lj.si/bitola/,输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。,BITOLA,BITOLA:open,BITOLA:close,BITOLA:close,BITOLA:close,MedlineR,用于Medline文献数据挖掘的手写开放性R语言资源库-MedlineR。 MedlineR库包括: 在NCBI Pubmed数据库查找医学文献的程序 构建共现矩阵的程序 检索词的网络拓扑结构的可视化程序。 这个库的开放特性使得读者在R统计程序语言中免费扩展。只用10行代码来分析主题词的相关性。对于生物信息学家和统计学家来说,MedlineR是建立更加复杂的文献数据挖掘应用的基础。,MedlineR,为生物医学家和统计学家建立的文献数据挖掘工具的免费资源库 MedlineR的源代码可以从/pub/medlineR中获得。,MedlineR,MedlineR,结果是可视化的网状结构:每个节点代表一个基因,每条边代表一个文献中的联系。Pajek,MedlineR,下载R统计软件(包括XML程序包) 下载Pajek软件 复制粘贴MedlineR的命令 填入需要分析的基因名称 运行R 运行pajek,htt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 充满正能量课件
- 催收大额账户课件
- 金融集团总裁聘用及风险控制管理体系协议
- 校园安全教官派遣与学校安全工作全面合作协议
- 项目管理合同国际工程合作与知识产权保护
- 精英驾校学员培训合同协议书(含车辆保险)
- 2025广州仓库租赁合同范本参考
- 音乐喷泉设备研发、生产、销售、安装及培训合同
- 美术教育机构美术教师作品展示聘用合同范本
- 离婚协议书:共同抚养子女及财产合理分配合同
- 2025租房合同范本下载参考
- 2025广东广州市公安局招聘交通辅警150人(第二批)笔试参考题库附答案解析
- 2025新疆维吾尔自治区人民检察院招聘聘用制书记员(14人)笔试模拟试题及答案解析
- (2025秋季)人教版八年级物理上册1.2 运动的描述(教学设计)
- 膜性肾病课件
- 网络意识形态课件
- 河南省天立教育2025-2026学年高三上学期开学联合考试语文含答案
- 2025年市场监督管理局公务员招录面试题及答案解析
- 《MATLAB数值计算基础与实例教程 》课件-第10章 其他数值计算的优化问题
- 2024-2025学年苏教版(2024)小学数学三年级上册(全册)教学设计(附目录P303)
- 党史宣讲面试题目及答案
评论
0/150
提交评论