![[图文]生物信息学数据挖掘-_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/e37d6f68-26d9-4595-9c4f-cee4b4ee1e47/e37d6f68-26d9-4595-9c4f-cee4b4ee1e471.gif)
![[图文]生物信息学数据挖掘-_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/e37d6f68-26d9-4595-9c4f-cee4b4ee1e47/e37d6f68-26d9-4595-9c4f-cee4b4ee1e472.gif)
![[图文]生物信息学数据挖掘-_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/e37d6f68-26d9-4595-9c4f-cee4b4ee1e47/e37d6f68-26d9-4595-9c4f-cee4b4ee1e473.gif)
![[图文]生物信息学数据挖掘-_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/e37d6f68-26d9-4595-9c4f-cee4b4ee1e47/e37d6f68-26d9-4595-9c4f-cee4b4ee1e474.gif)
![[图文]生物信息学数据挖掘-_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/e37d6f68-26d9-4595-9c4f-cee4b4ee1e47/e37d6f68-26d9-4595-9c4f-cee4b4ee1e475.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据挖掘在生物信息学中的应用 l l l l l l ( 1 数据清理, 数据集成, 异种、分布式数据库的语义集成。 许多国家和研究组织都建立了生物序列数据库、蛋白质结构和功能数据库, 为人们提供 了丰富的信息。但是这些数据分散, 且存储介质多样, 在同一数据库中存在着大量具有 重复信息的序列及一些高度相似的数据, 造成数据冗余。因此对这种异构的和广泛分布 的数据库的语义集成就成为一项重要任务。数据挖掘中的数据清理、数据集成方法有 助于该问题的解决。 ( 2 DNA 序列相似搜索和比对。 为识别一个新发现的基因和一个已知基因家族之间的进化关系, 确定他们的同源性或相 似性, 通常需要序列比对
2、, 找出它们之间的最大匹配, 从而定量给出其相似程度。由于序 列数据是非数字的, 其内部不同种类核苷酸之间的精确交叉扮演着重要的角色。因此探 索高效的搜索和比对算法在序列分析中非常重要。 ( 3 基因组特征及同时出现的基因序列的分析。 对于基因家族的成组序列来说, 必须阐明多个序列之间的关系, 才能揭示整个基因家族 的特征。多序列比对在识别一组相关序列中有重要生物意义。多比对算法的计算量可 观, 为降低算法复杂性, 必须研究有实用价值的比对算法。利用关联规则、聚类分析有 助于发现一组序列之间的差异以及相似性关系, 以便对一个基因家族的特征有基本了解。 另外在生物医学研究上, 人们发现疾病的产生
3、大多数是由多基因决定的, 利用关联规则 分析帮助确定在目标( 疾病 样本中同时出现的基因种类。 2013-12-3 生物信息学数据挖掘 21 l l l l l l l l ( 4 路径分析: 发现在不同阶段的致病因。 引起一种疾病的基因不止一个, 不同基因在疾病的不同阶段发挥作用。利用路径分析、 演变分析等找到在不同阶段的致病遗传基因序列, 可开发不同阶段的治疗药物,从而取得 更有效的治疗效果。 ( 5 生物数据可视化和可视的数据挖掘。 由于生物数据的复杂性和高维性, 既不能以数字公式表示, 也不能以逻辑公式表示, 可借 助各种可视化工具以图、树、方体、链的形式展现其复杂结构和序列模式。常用
4、的生 物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时, 将经过数据挖 掘工具得到的数据结果也以图形、图像的形式展现给用户, 便于用户寻找数据间规律和 关系。 ( 6 生物文献的挖掘。 Internet 上生物文献日益增多, 人们通过搜索引擎获取相关信息, 但检索结果数目巨大, 准确率不高, 而且一般搜索结果只能给出标题和摘要, 不能给出文章总的关键词句。特 别是生物文献数据中, 大多数蛋白质名称都是复合词, 比较复杂, 有的却采用普通的词汇 命名与其常用词义相混导致引擎搜索错误, 甚至在一篇文献中同一种蛋白质有好几种命 名出现, 增加了搜索困难。利用路径遍历模式、链接分析、自然
5、语言处理等技术寻找文 献中关键词如蛋白质名称, 或捕捉上下文关系, 可提高检索速度和准确率。 ( 7基于隐私保护的数据挖掘。 数据挖掘技术为生物工作者提供了有效工具的同时也引发了隐私保护问题。比如研究 单位的保密实验数据个人的医疗诊断记录、病史记录都有可能被误用。通过在数据挖 掘过程中使用限制数据访问, 模糊数据, 减少不必要分组, 有目的增加噪声数据等方法来 达到保护隐私的目的 9。目前在该领域的研究尚处于起步阶段。, 生物信息学数据挖掘 22 2013-12-3 生物信息学数据挖掘的现状 l 2000网易杯全国大学生数学建模竞赛题目 DNA序列分类 l 近10年国家在863、973计划、国家自然科学基金重 大项目开始参与国际生物信息学合作 对于生物信息或基因的数据挖掘和通常的数据挖掘相 比,无论在数据的复杂程度、数据量还有分析和建立 模型的算法而言,都要复杂得多。从分析算法上讲, 更需要一些新的和好的算法。现在很多厂商正在致力 于这方面的研究。但就技术和软件而言,还远没有达 到成熟的地步。 2013-12-3 生物信息学数据挖掘 23 生物信息学数据挖掘课题的展望 l l 计算机科学技术是生物信息学的基本工具。 当前,生物信息学在国内外的发展基本上都处于 起步阶段,各国所拥有的条件也大体相同。 l 科学数据的大量积累将导致重要科学规律的发现。 因此,有理由相信,当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浅论马克思主义关+于人的全面发展思想简析
- 介入个案护理比赛策划与实施要点
- 违法强制拆除协议书
- 输液致死纠纷协议书
- 饭店宴席预定协议书
- 养生馆店长合同协议书
- 转让私人墓地协议书
- 酒店蛋糕采购协议书
- 酒店预定服务协议书
- 买卖合同和居间协议书
- 2025春季学期国家开放大学专科《高等数学基础》一平台在线形考(形考任务一至四)试题及答案
- 新零售智慧门店解决方案手册
- 大件机械运输合同协议
- 2025年北京市通州区九年级初三一模英语试卷(含答案)
- 《烟气脱硫脱硝技术》脱硫考试试卷试题答案
- 医药伦理相关知识试题及答案
- 2025年中考物理模拟猜题卷3(含答案)
- 第二章城市轨道交通屏蔽门门体结构课件
- 记录及台账填写规范
- 《国家综合性消防救援队伍队列条令(试行)》课件
- 学校食堂出入库制度
评论
0/150
提交评论