




已阅读5页,还剩109页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物医学文本挖掘及其应用 中国医科大学医学信息学系崔雷 目的 介绍生物信息学文本挖掘工具文本挖掘不再是信息专业的领域 2020 2 5 例子 二者关系进行性多灶性白质脑病 progressivemultifocalleukoencephalopathy PML 抗体antibodiesMonoclonalantibodies efalizumab 依法珠单克隆抗体 自然语言处理 让计算机替我们看文献吧 比较难 计算机需要专门的知识才能读懂文本 自然语言处理 NaturalLanguageProcessing NLP 专门训练计算机掌握这种知识的学科 生物医学文本挖掘 Biomedicaltextmining 是一个专门处理生物学 医学和化学文本的分支学科 也叫BioNLP有些人把NLP当做textmining的同义词 5 Biomedicaltext 生物医学文本的格式多种多样 病历科研论文序列注释公共健康指南文本的内容多样化 如习惯用语临床有临床上的行话实验室有自己对蛋白的命名方式这种差异造成了文本挖掘应用往往面向特定类型的文本 尤其是对Medline文摘记录的分析 易获取免费 基本概念 1 术语 Term 专门领域里的名称 术语集 terminology 术语的集合 生物医学文本中到处是术语 是医学知识的基本构件 如各种细胞的名称 蛋白质 医学设备 疾病 基因突变 化学物质名 蛋白质域的名称 名称如此重要 需要在文本中识别之 这个工作称为生物医学文献中的命名体识别 NER NamedEntityRecognition 基本概念 2 尽管术语的定义似乎很明确 但是很难精确定义 earlyprogressivemultifocalleukoencephalopathyRefertoearlyprogressivemultifocalleukoencephalopathyprogressivemultifocalleukoencephalopathymultifocalleukoencephalopathyLeukoencephalopathy 基本概念 3 Terminology 手工构建的 因此是受控的 HUGO 基因术语集ICD 国际疾病分类法 GeneOntology 基因本体 不仅仅是术语列表 还包括 术语表 同义词 thesaurus术语表 术语之间的关系 taxonomies ontology一旦一段文本与其中一个词表对应上 就和其他资源建立起联系了 9 人工标引 手工匹配 Medlineabstracts MedicalSubjectHeadings MeSH Leukoencephalopathy progressivemultifocal 10 11 genenormalization 自动匹配 2020 2 5 HGNCdatabaseofhumangenenamesHUGOGeneNomenclatureCommitteehttp www genenames org 2020 2 5 网上在线检索的基因名称信息 14 2020 2 5 下载的基因名称信息 2020 2 5 NER的原理 文本 PubMedAbstracts 软件 名称 基因名 蛋白质名 词表 词表之间的联系 词表太多 又创建了词表 把术语集匹配起来 词表之词表 超级词表 metaBioThesaurus 多个词表中蛋白质的同义词UnifiedMedicalLanguageSystem UMLS 一体化医学语言系统 120多个词表 4百万个术语 18 http pir georgetown edu pirwww iprolink biothesaurus shtml 2020 2 5 2020 2 5 2020 2 5 术语识别工具 Whatizit 识别多种术语 通过网页 Abner 单机版 识别5种术语 蛋白 DNA RNA 细胞株 细胞类型 更专指的术语识别工具 PepBank 用于肽类LSAT 用于alternativetranscripts提高PubMed检索效果 semedico novo seekGoPubMed GoGene 24 http www ebi ac uk webservices whatizit info jsf 25 http pages cs wisc edu bsettles abner A Whatizit 蛋白 蓝色 疾病 深红 基因本体 浅红 化学物质 深红 物种 红色B ABNER 蛋白和细胞株C BIOCreAtIvEmetaserver 27 发现关系 识别术语之后 下一步自然是寻找术语之间的关系 发现关系的最简单途径就是共现 在同一段文字中同时出现的两个术语可能有关联 例如 某种蛋白质与一种疾病总是在同一文摘中出现 有理由假设该蛋白与疾病的某个方面有关 共现的次数越多 越有意义 可以定量排序 通过统计处理排除偶然的关联 2020 2 5 关联度 假设有t1和t2两个词共现 最简单的信度指标就是含有这两个词的文章数c t1t2 但是要标准化 去掉两个词各自出现频次对共现次数的影响 点间互信息p为文章数除以文章总数 2020 2 5 关系抽取 共现 GoDisease http godisease org 输入 leukoencephalopathy progressivemultifocal mh 2020 2 5 返回结果 所有提及PML的文摘中的基因 出现次数越多的基因 越可能与PML有关联 如果某基因在PML中不成比例地高于其他疾病 则该基因可能与PML有特殊关系 2020 2 5 关系抽取 确切关系 明确描述的关系 比共现更好的证据 例如 WedescribeaPMLina67 year oldwomanwithadestructivepolyarthritis 多关节炎 associatedwithanti JO1antibodiestreatedwithcorticosteroids PML与抗 JO1抗体有明确关系 将这种关系简化为三元体 两个名词 一个动词 PMLisassociatedwithanti JO1antibodies识别动词 词性标注 part of speech POS tagger三元体表述因其简单而功能强大 但是忽略了文章中的重要的细节 比如有些证据是来自于临床病例报告 2020 2 5 SemanticKnowledgeRepresentation SKR 是基于UMLS进行自然语言处理 提取文献中概念的系列在线工具 2020 2 5 http mmtx nlm nih gov 其中MetaMap是SKR系统的核心组件 MMTx是完成MetaMap功能的Java工具包 它进行的分析是语义层次上的分析 2020 2 5 MetaMap工作原理 2020 2 5 MetaMap工作原理 切分 ocularcomplicationofmyastheniagravis 重症肌无力的眼部并发症 ocularcomplication 和 ofmyastheniagravis ocularcomplication 分为 mod ocular head complication 2020 2 5 MetaMap工作原理 产生变形体 Ocular adj 0 Eye noun 2 s 同义词Eyes noun 3 si 同义词的复数Optic adj 4 ss 同义词的同义词Ophthalmic adj 4 ss 同义词的同义词Ophthalmia noun 7 ssd 同义词的同义词的变形Oculus noun 3 d 变形Oculi noun 4 di 同义词的复数 2020 2 5 2020 2 5 检索候选词及候选词的评价 检索超级词表 检索到包含有至少一个变形体的候选字串集合 计算出与输入的短语词相匹配的候选词 然后用4种指标的加权平均组成的语言学评价函数 计算输入短语与候选词之间的匹配程度 中心度 即包含中心词 变形情况 距离倒数的平均值 覆盖面和内敛度 测量候选词与文本的匹配程度和有多少个片段按照匹配程度排列这些候选词 2020 2 5 2020 2 5 关系抽取 PPI protein proteininteractions PPI 文本挖掘的重头戏利用三元体表达 构建PPI网络 节点是蛋白质 动词为边 分析文本挖掘出来的PPI网络时 应当注意阅读和理解支撑信息 例如 蛋白质间相互作用可以是直接的 也可以是间接的 取决于动词直接动词有tobind tostabilize tophosphorylate间接的动词有toinduce totrigger toblock 文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质 常用的捕获文本变异的方法就是把各种表达方式辨认出来 并写下捕获这些变异的规则 捕获磷酸化的模式 应当依次含有 一种酶的名字磷酸化的动词一种基质的名字 2020 2 5 发现关系的工具 FACTA Medline文本中概念共现情况 MedGene和BioGene 利用共现发现基因优先级别 Endeavour和G2D利用文本和其他数据源分析基因优先级别 PolySearch利用启发式加权技术 给不同的共现不同的权重 Anni使用文本轮廓测量术语之间的关系 iHOP 挖掘PPI最流行的工具 RLIMS P利用语言模式发现磷酸化过程中的激酶 基质和磷酸 E3Miner发现泛素化 包括上下文信息 2020 2 5 http text0 mib man ac uk software facta main html 2020 2 5 GoDisease iHOP Cytoscape 2020 2 5 发现 Discovery Besidesfindingrelationships textminersarealsointerestedindiscoveringrelationshipsSwanson undiscoveredpublicknowledge 见例子1 2020 2 5 文本挖掘的应用实例 Swanson关联研究及其工具Arrowsmith的使用Bitola的使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR 2020 2 5 背景与意义 发表文献 研究深入 知识分裂fragmentationofscientificknowledge 文献量 穷经皓首并老死不相往来 2020 2 5 DonR Swanson的研究 跨学科间一定存在着潜在的未被发现的关联文献间隐性的关联如何发现隐性关联 寻找非相关互补性文献text basedinformaticsliterature baseddiscovery 2020 2 5 DonR Swanson的研究 两种互补的文献 一类文献 AB 摄入A可能导致某种生理改变B另一类文献 BC B作用于某种疾病C即A作用于C 两种非相关的文献 两种文献从没有或很少被共同引用并且也不相互引用 互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构 2020 2 5 Medline文献集合 DonR Swanson的研究 潜在的联系 雷诺氏病文献 食用鱼油文献 血液粘稠度红细胞脆性 血液粘稠度红细胞脆性 2020 2 5 闭合式的知识发现 2020 2 5 2020 2 5 ARROWSMITH3 0 http arrowsmith psych uic edu 2020 2 5 4822 2020 2 5 2020 2 5 2020 2 5 2020 2 5 Asthmafamous 2020 2 5 哮喘名人 2020 2 5 SYK 脾酪氨酸激酶 2020 2 5 SYK 脾酪氨酸激酶 过敏性鼻炎 Sykinhibitorsastreatmentforallergicrhinitis 2008 SYK抑制剂治疗过敏性鼻炎 AnintranasalSyk kinaseinhibitor R112 improvesthesymptomsofseasonalallergicrhinitisinaparkenvironment 2005 鼻内SYK抑制剂 R112 改善公园里过敏性鼻炎症状 痛风 Crystal inducedneutrophilactivation IX Syk dependentactivationofclassIaphosphatidylinositol3 kinase 2007 晶体诱发的中性粒细胞活化 Ia类磷脂酰肌醇3激酶的SYK依赖性活化 Crystal inducedneutrophilactivation VII InvolvementofSykintheresponsestomonosodiumuratecrystals 2001 晶体诱发的中性粒细胞活化 SYK参与对尿酸钠晶体反应的程度 2020 2 5 过敏性鼻炎 SYK 痛风 过敏性鼻炎 痛风 抑制剂 治疗 中性粒细胞活化 晶体 诱发 PI3K SYK 2020 2 5 2020 2 5 B 基因和分子序列等语义类型 2020 2 5 TOLLreceptor 2020 2 5 可作为生物武器的潜在病毒 能够成为生物武器 致病性 传播性 同时涉及到病毒这两个特性的文章却特别少 A 病毒毒力遗传方面 virulence genetic C 病毒疾病传播力病毒的昆虫媒介传播 insectvectors 空气传播 air 在空气中的稳定性 stabilityofvirusesinair 通过与A和C有共同联系B找出更多符合条件的病毒 将得到的文献经过一些系列的处理 Arrowsmith列出了三个有意义的B LIST 病毒的集合 通过进一步的统计学分析和查阅文献 最终找出相对有意义的病毒 B 2020 2 5 发现科研机构间潜在的合作方向 潜在合作方向美国斯坦福大学哥伦比亚大学医学信息学研究领域发现科研机构合作与交流的题目结果 更好地体现 相似点 可以合作之处 和不同点 可以相互交流 学习之处 内容详细 明确 能体现出研究所使用的具体方法和侧重点 2020 2 5 开放式的知识发现 2020 2 5 BITOLAhttp www mf uni lj si bitola 输入单个的概念 疾病A 找到该概念的第一层相关概念并加以归类 药物B 从第一层相关概念 药物B 出发 找到它们的相关概念 并加以归类 基因C 检验基因和疾病是否有关联 如果没有 该基因与疾病有潜在的联系而且并没有文献报道 提示 与疾病 生理学反应或者其他表型相关的新基因 药物或者神经科学 2020 2 5 BITOLA 2020 2 5 2020 2 5 2020 2 5 syk 2020 2 5 2020 2 5 2020 2 5 2020 2 5 2020 2 5 内容 Swanson关联研究及其工具Arrowsmith的使用Bitola的使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR 2020 2 5 运用文献轮廓挖掘微阵列表达数据 MiningmicroarrayexpressiondatabyliteratureprofilingDamienChaussabelMedlineR 2020 2 5 DamienChaussabelAlanSher ImmunobiologySection LaboratoryofParasiticDiseases NationalInstituteofAllergyandInfectiousDiseases NationalInstitutesofHealth Bethesda MD20892 USAGenomeBiology2002 3 10 RESEARCH0055 2020 2 5 目标 建立一种挖掘技术该技术以对文献轮廓literatureprofiling的分析为基础文献轮廓 对于某一个主题 如某基因 而言 有相关文献集合对于该基因的文献集合 分析某些单词在文摘中出现的频次 2020 2 5 文献轮廓 基因B 基因C 基因A 相关文献 主题词1频次主题词2频次主题词3频次 主题词n频次 2020 2 5 研究步骤 检索文献分析文本过滤数据聚类分析 2020 2 5 1 检索文献 从基因开始 分别找到与各种基因相关的论文标题中含有基因名字的论文 人类基因命名委员会 HumanGeneNomenclatureCommittee HGNC 官方名称 缩写 别名http www genenames org 2020 2 5 2020 2 5 1 检索文献 建立数据库包括HGNC定义的10 500多种已知的人类基因用PubMed查询格式的URL 例如 proteinkinaseCetahttp www3 ncbi nlm nih gov htbin post Entrez query db 0 form 1 term PRKCH 5Bti 5D OR PKC L 5Bti 5D OR PRKCL 5Bti 5D OR protein 20kinase 20C 20eta 5Bti 5D PRKCH ti ORPKC L ti ORPRKCL ti ORproteinkinaseCeta ti 上述纪录按照GenBank和LocusLink的ID排列该数据库可以作为Excel表格下载 2020 2 5 1 检索文献 选70种基因 每一种基因的相关文献以XML格式下载用Excel的宏命令抽取文摘 另存作为文本分析样本 PapersonGene70 PapersonGene3 PapersonGene2 PapersonGene1 2020 2 5 2 分析文本 对于每一个基因的相关纪录的内容 分析文摘中单词出现的情况 TF 统计文摘中含有特定单词的文献数 DF 例如 对于GADD45B基因的相关文献 有18 7 的文摘中含有单词 Proliferation AbstractsonGene1 2020 2 5 3 过滤数据 每一种基因有几万条记录 对文献中发现的每一个单词 标上其出现的频次数 这些单词大多数对发现基因信息没有用途 没有特异性 if because cell identified 很少使用 在很少的文献中出现 第三类单词 在某一种基因的文摘中出现频率高 TF 在所有文献中出现频率 基准率 低 DF 可以提供基因的相关信息 2020 2 5 RANTES Y轴上的点为与RANTES基因相关的单词 在25 以上的论文中出现过 随机选取基因 计算这些词的出现率 计算这些词在不同基因文献中出现的平均值 如果基因足够的话 单词的平均出现率趋于稳定 出现率低于5 的单词传递有关该基因的重要信息 如infection secreted chemokine等 2020 2 5 3 过滤数据 基准率 在所有已知的人类基因中随机抽取基因 250种 统计单词出现频率的平均值 2020 2 5 3 数据过滤 单词过滤的标准 通过设定基准率 5 去掉在全部科技文献中经常出现的单词每一个单词在每一种基因上的出现率与基准率的差值 25 通过两个基因过滤的单词 一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用 70个基因 25 000种单词 只保留下来101种 可以调整单词过滤的阈值 下调阈值 增加了噪音 检索到更多的单词 2020 2 5 3 数据过滤 2020 2 5 4 聚类分析 通过单词出现情况 给具有同样的文献分布特征的基因进行分组 经过几轮过滤之后 确定了单词表 将该表用于建立一个单词 基因矩阵 矩阵中对应的是每一种基因和单词出现值 采用基因聚类分析的软件 Cluster TreeView 2020 2 5 聚类分析 2020 2 5 4 聚类分析 蓝色 nuclearfactors橙色 receptor ligandpair绿色 interferon related 红色 chemokines紫色 MHCclassIantigen presentationpathway 黄色阴影 单词在文摘中出现的水平 2020 2 5 4 聚类分析 基因的功能分组明显与免疫反应有关 蓝色 控制炎症反应和细胞凋亡的转录因子 这些基因和 TNF theinflammatorymediatortumornecrosisfactor death 或者 apoptosis 同时出现较多 绿色 最大的一组基因 与 interferon 有关 也叫 IFN 和 IFN alpha STATs基因是干扰素信号传导专门需要的因子 红色 专门面向趋化因子 chemokines 紫色 基因全部是I类MHC抗体表达通路基因 这些基因专门编码把蛋白降解为肽的蛋白 根据抽取词所表示的概念可以发现有价值的信息 用于快速探索和评估复杂数据集中的生物学意义 2020 2 5 4 聚类分析 2020 2 5 聚类分析 2020 2 5 单词出现模式的分析 2020 2 5 不同关联程度的基因组 通过文献分布特征发现的关联一组基因在功能上的关联程度 2020 2 5 用文献轮廓挖掘鼻咽癌微阵列表达数据 黄仲曦 姚开泰 第一军医大学病理教研室肿瘤研究所 目的 探索鼻咽癌异常信号通路 方法 根据鼻咽癌微阵列表达谱 采用基于文献轮廓的数据挖掘方法 从Medline文献数据库中提取与基因相关的文献并分析词的频率 再根据重复发生和共发生的过滤标准提取功能相关的词 最后根据词的发生频率对基因进行功能聚类 结果 基因表达谱的112个差异表达基因聚成16组功能类别 4组暗示EBV感染 6组显示鼻咽癌变过程 2组参与能量代谢 1组提示蛋白的异常磷酸化 2组与其它疾病相关 1组与肌肉组织活性相关 肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现 结论 鼻咽癌的发生发展可能由特殊的信号通路引起 2020 2 5 用文献轮廓挖掘大肠癌转移芯片表达谱 黄仲曦 孙青 丁彦青 姚开泰 第一军医大学病理教研室肿瘤研究所 目的 寻找新的大肠癌转移相关基因 方法 根据大肠癌转移芯片的表达谱 采用基于文献轮廓的数据挖掘方法 从Medline文献数据库中提取基因的相关文献并分析词的频率 再基于重复发生和共发生的过滤标准提取功能相关的词 最后基于词的发生频率对基因进行功能聚类 进一步结合文献及已有的分子生物学检测结果进行分析 结果 发现两个新的可能与大肠癌转移相关的基因TlAM1和NM23H1 2020 2 5 GenCLIP 2020
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 针灸学治疗考试试题及答案
- 沿海三副考试试题及答案
- 航海操作考试题及答案
- 2025年甘肃省委宣传部直属事业单位选聘考试试题(含答案)
- 2024年中西医结合临床执业医师卫生资格定期考核题库(附含答案)
- 北京消防培训知识课件
- 护理查房复习试题及答案
- 传染病及突发公共卫生事件培训测试题(附答案)
- 2025年中小学“学宪法、讲宪法”知识竞赛题库及参考答案
- 2025低压电工资格考试题(含答案)
- GB/T 3325-2024金属家具通用技术条件
- 矿山安全生产法律法规
- GB/T 44670-2024殡仪馆职工安全防护通用要求
- THXCY 001-2024 草种质资源调查与收集技术规程
- 2024连续油管技术规范
- 2024版专升本宣讲课件完整版
- 双向情感障碍患者个案护理查房
- 知识题库-人社劳动知识竞赛测试题及答案(十二)
- GB/T 25849-2024移动式升降工作平台设计、计算、安全要求和试验方法
- 人工智能在机械设计中的应用
- 银行新员工入职培训课件
评论
0/150
提交评论