已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
收稿日期 :2003-09-14基金项目 :国家自然科学 (青年 基金资助项目 (作者简介 :方 艳 (1979 , 女 , 山东兖 州人 , 硕士 研究生 , 研 究方向 为计算机软件与理论。数据挖掘在生物信息学中的应用方 艳(北京师范大学 信息科学学院 , 北京 摘 要 :生物信息学是一门新兴的交叉学科。人类基因组计划的启动和实施使得核酸、 蛋白质数据迅速增长 , 如何从海量 数据中获取有效信息成为生物信息学迫切要解决的问题。数据挖掘与生物信息学有很好的结合点 , 在生物信息学领域的 应用潜力日益受到人们的重视。文中介绍了数据挖掘的概念、 生物数据的挖掘步骤 , 初步探讨了数据挖掘在生物信息领域 的应用潜力及生物信息学挖掘工具的开发和应用。研究证明数据挖掘技术是生物信息处理的强有力工具。数据挖掘在生 物信息学中的应用将取得更大的进展。关键词 :数据挖掘 ; 生物信息学 ; 人类基因组计划 ; 数据库知识发现中图分类号 :TP311. 52 文献标识码 :A 文章编号 :1005-3751(2004 04-0001-03The Application of Data Mining in BioinformaticsFANG Yan(College of Information Science, Beijing Nor mal University, Beijing , ChinaAbstr act:Bioinformatics i s an emerging interdiscipline. With the startup and implementation of Human Genome Plan, nucleic acid and pro 2tein data has been increased rapidly. It is an urgent problem that how to gain useful information from plentiful data. T here is a good combi 2nation between data mining and bioi n formati cs. T he potential application of data mining in bioinformatics has been given more and more at 2tention. T his paper mainly generali zes the definition of data mining and introduces the steps of knowledge discovery in bio-data. Also di s 2cuss the potenti al application in bioinformatics and the development and application of data mining tools i n bi oinformatics. T he research has proved that data mining is a strongly tool in bio-data processing. The application of data mini ng i n bioinformatics will gai n more develop 2ment.Key wor ds:data mining; bioinformatics; human genome project; KDD(knowledge discovery in database0 引 言计算机技术的发展使分子生物学经历了信息革命时 代。生物信息学 (Bioinformatics 是 20世纪 80年代末随着 人类基因组计划 (Human Genome Project, H GP 的启动而 兴起的一门新的交叉学科 , 也常被称为基因组信息学。广 义上讲生物信息学是指利用先进的数据管理技术、 数据分 析模型、 计算软件对各种生物信息数据 (特别是分子生物 学数据 进行提取、 储存、 处理和分析 1。就基因分析角度 而言 , 生物信息学主要是指核酸与蛋白质序列数据、 蛋白 质三维结构数据的计算机处理和分析 2。生物信息学的 诞生及发展 , 使得核酸、 蛋白质结构和功能的数据 , 各种疾 病相关数据及生物文献数据都飞速增长。但由此也带来 一系列问题 :一方面 , 日益增长的数据对信息的采集和处 理提出了空前的要求 , 从各种图谱的分析、 大量序列片段的联配、 计算机克隆、 寻找基因、 预测结构和功能 , 到数据 和研究结果的可视化 , 无不需要高效率的算法和程序 ; 另一方面 , 如何从已经积累的海量数据和知识出发 , 从 DNA 序列中识别编码蛋白质的基因 , 以及调控基因表达的各种 信号 , 预测蛋白质的功能和结构 , 解读生物的遗传密码 , 进 行药物设计等 , 是对计算机工作者和生物学家的巨大挑 战。数据挖掘技术是解决上述问题强有力的工具。数据 挖掘是近年来新兴的一种科学计算技术与数据分析方法 , 它能够有效地从大量数据中提取潜在的信息与知识。各 国研究者们也相继提出并验证了多种有效的数据挖掘算 法。数据挖掘在科学发现、 商业零售及信用管理等领域得 到了越来越广泛的应用。在生物信息领域 , 计算机工作者 与生物学家合作 , 研究提出了一系列的挖掘算法和挖掘模 式 , 并应用于生物数据 , 取得了传统生物计算技术无可比 拟的效果。1 数据挖掘的定义数据挖掘也称为数据库知识发现 (Knowledge Disc ov 2第 14卷 第 4期 2004年 4月 微 机 发 展 Micr ocomputer Development Vol. 14 No. 4Apr. 2004ery in Database, KDD , 是从数据库中识别出有效的、 新颖 的、 潜在有用的、 并且最终可理解的模式的非平凡过程 3。 (1 有效性。要求挖掘前要对被挖掘的数据进行预处 理 , 具备该特性 , 才能保证挖掘出来的信息的可靠性 ; (2 新颖性。要求发现的模式应该是未知的 , 靠直觉 无法发现的信息和知识 ;(3 潜在有用性。发现的知识将来有实际效用 , 即这 些信息或知识对于所讨论的业务或研究领域是有效的、 是 有实用价值和可实现的。常识性的结论或已被人们掌握 的事实或无法实现的推测都是没有意义的 ;(4 最终可理解性。要求发现的模式能被用户理解 , 目前它主要是体现在简洁性上。发现的知识要可接受、 可 理解、 可运用 , 最好能用自然语言表达所发现的结果 ; 并不 要求发现放之四海皆准的知识 , 也不是要去发现崭新的自 然科学定理和纯数学公式 , 更不是什么机器定理证明。任 何发现的知识都是相对的 , 是有特定前提和约束条件 , 面 向特定领域的。数据挖掘是在已有的大量数据中寻找模式的决策支 持过程 , 它从理论和技术上继承了知识发现领域的成果 , 同时又借鉴了许多其他领域的理论和算法 , 如机器学习 (machinelearning 、 模式识别 (pattern re cognition 、 人工智 能 (a rtific ial-intelligent 以及统计学 (stat ist ic s 等。因此 , 数据挖掘是一门交叉学科 , 它把人们对数据的应用从低层 次的简单查询 , 提升到从数据中挖掘知识 , 提供决策支持。2数据挖掘的步骤数据挖掘过程是反复的、 不断求精的过程 , 该过程要 求是非平凡的 , 要有一定的智能性和主动性。同时在不同 的应用领域也有不同的数据挖掘算法。因此迄今为止还 没有一套完整、 统一的数据挖掘理论体系来指导如何获取 有用信息。研究者们提出了数据挖掘的一般步骤 , 以此指 导不同领域内的数据挖掘。以下概括了生物信息数据挖 掘的一般步骤。(1 理解数据的生物学意义。在进行数据挖掘之前 , 首先理解现有数据的生物学意 义、 定义问题 , 确定数据挖掘的目标 , 制定数据挖掘的方法 与进行计划等 4。在该过程中 , 确定挖掘目标 , 了解要挖 掘的信息与知识是保证整个数据挖掘过程成功进行的前 提和保证。(2 数据预处理。数据预处理通常包括数据清理与集成、 数据选择与变 换两部分。原始生物数据通常是有噪声的 , 不完全的 , 不 一致的。因此要对现有的原始数据进行净化处理 , 包括矫 正、 去除或忽略噪声 , 决定如何处理某些特殊值 (例如 :空 值 等等。通过对分布广泛的异构数据库进行语义集成 , 可以从数据库或数据仓库中检索分析与挖掘任务相关的 数据 , 并将这些数据转换或统一成适合挖掘的形式 , 建立 适合挖掘算法的数据分析模型。(3 数据挖掘。该步针对已确定的数据分析模型实施特定的数据挖 掘方法。数据挖掘的算法繁多 , 对于生物数据 , 常见的包 括 :人工神经网络、 动态规划、 决策树、 遗传算法、 最近邻技 术、 马尔可 夫链 模型、 隐马 尔可夫 链模 型、 可 视化 技术 等 5。通常数据挖掘结果的效果在很大程度上取决于被 挖掘的数据 , 方法的选择很多时候也取决于专家积累的经 验。不同的算法作用于同一数据库 , 对数据的理解角度也 不同 , 因此挖掘获得的模式或规则也具有多样性。在此过 程中 , 不仅要强调不同方法的特征 , 而且还要注重与生物 学家之间建立广泛的交流 , 将计算机获得的实验结论与人 工分析的结果相比较 , 并根据专家的经验进行求证 , 以此 来检验方法的合理性。(4 模式评估。数据挖掘可以产生大量的模式或规则 , 但其中只有少 量是生物学家真正感兴趣的。模式评估即从已产生的模 式或规则发现有趣 (interesting 的模式。在评估过程中 , 首先要考察模式的可理解性 , 只有发现的信息可以被使用 者所理解 , 才能为使用者做出决策提供基础。再次 , 在一 定程度上有趣模式必须是新颖的、 有效的以及潜在有用 的。这要求该模式所发现的信息具有创新意义 , 对于新的 或测试用的生物数据同样适用 , 并且生物学家可以从该模 式中获取关键的信息。目前模式评估主要采用客观度量 (评分函数 , 支持度等 和反映特定用户需要和兴趣的主观 度量相结合的方法。(5 知识表示。采用知识表示技术和可视化技术向用户展示挖掘的 知识。运用知识表示技术将数据挖掘得到的知识符号化 , 并用特定的数据结构 (逻辑与物理两方面 进行描述与存 储。在此基础上 , 充分利用可视化技术 , 将单纯的数字、 字 符表示转化为图形、 图表等简单、 明了、 易于理解的形式。 只有通过直观的表达 , 用户才能理解模式 , 并采取相应的 策略。3数据挖掘在生物信息学中的应用潜力序列分析、 基因表达、 蛋白质结构预测、 药物发现及设 计是生物学领域的关注点。已有许多有意义的挖掘模式、 挖掘算法应用在这些方面并取得相应成果。研究证明数 据挖掘是生物信息处理的强有力工具。目前数据挖掘在 生物信息领域的研究重点主要表现在以下几个方面 6: (1 数据清理 , 数据集成 , 异种、 分布式数据库的语义 集成。许多国家和研究组织都建立了生物序列数据库、 蛋白 质结构和功能数据库 , 为人们提供了丰富的信息。但是这 些数据分散 , 且存储介质多样 , 在同一数据库中存在着大 量具有重复信息的序列及一些高度相似的数据 , 造成数据冗余。因此对这种异构的和广泛分布的数据库的语义集 成就成为一项重要任务。数据挖掘中的数据清理、 数据集 成方法有助于该问题的解决。(2 DNA 序列相似搜索和比对。为识别一个新发现的基因和一个已知基因家族之间 的进化关系 , 确定他们的同源性或相似性 , 通常需要序列 比对 , 找出它们之间的最大匹配 , 从而定量给出其相似程 度。由于序列数据是非数字的 , 其内部不同种类核苷酸之 间的精确交叉扮演着重要的角色。因此探索高效的搜索 和比对算法在序列分析中非常重要。(3 基因组特征及同时出现的基因序列的分析。 对于基因家族的成组序列来说 , 必须阐明多个序列之 间的关系 , 才能揭示整个基因家族的特征。多序列比对在 识别一组相关序列中有重要生物意义。多比对算法的计 算量可观 , 为降低算法复杂性 , 必须研究有实用价值的比 对算法。利用关联规则、 聚类分析有助于发现一组序列之 间的差异以及相似性关系 , 以便对一个基因家族的特征有 基本了解。另外在生物医学研究上 , 人们发现疾病的产生 大多数是由多基因决定的 , 利用关联规则分析帮助确定在 目标 (疾病 样本中同时出现的基因种类。(4 路径分析 :发现在不同阶段的致病因。引起一种疾病的基因不止一个 , 不同基因在疾病的不 同阶段发挥作用。利用路径分析、 演变分析等找到在不同 阶段的致病遗传基因序列 , 可开发不同阶段的治疗药物 , 从而取得更有效的治疗效果。(5 生物数据可视化和可视的数据挖掘。由于生物数据的复杂性和高维性 , 既不能以数字公式 表示 , 也不能以逻辑公式表示 , 可借助各种可视化工具以 图、 树、 方体、 链的形式展现其复杂结构和序列模式。常用 的生物数据可视化工具有语义镜技术、 信息壁技术、 基因 调控网格等 7。同时 , 将经过数据挖掘工具得到的数据结 果也以图形、 图像的形式展现给用户 , 便于用户寻找数据 间规律和关系。(6 生物文献的挖掘。Internet 上生物文献日益增多 , 人们通过搜索引擎获 取相关信息 , 但检索结果数目巨大 , 准确率不高 , 而且一般 搜索结果只能给出标题和摘要 , 不能给出文章总的关键词 句。特别是生物文献数据中 , 大多数蛋白质名称都是复合 词 , 比较复杂 , 有的却采用普通的词汇命名与其常用词义 相混导致引擎搜索错误 , 甚至在一篇文献中同一种蛋白质 有好几种命名出现 , 增加了搜索困难。利用路径遍历模 式、 链接分析、 自然语言处理等技术寻找文献中关键词如 蛋白质名称 , 或捕捉上下文关系 , 可提高检索速度和准确 率 8。(7 基于隐私保护的数据挖掘。数据挖掘技术为生物工作者提供了有效工具的同时 也引发了隐私保护问题。比如研究单位的保密实验数据 , 个人的医疗诊断记录、 病史记录都有可能被误用。通过在 数据挖掘过程中使用限制数据访问 , 模糊数据 , 减少不必 要分组 , 有目的增加噪声数据等方法来达到保护隐私的目 的 9。目前在该领域的研究尚处于起步阶段。4生物信息挖掘工具的开发与应用随着多年的研究与发展 , 已有很多数据挖掘、 机器学 习系统和工具用于生物信息处理。一般的数据挖掘分析 系统有 :SAS Enterprise Mine r, IB M Intelligent Miner, S GI MinS et 等。一些专用的综合软件包在生物信息处理中发 挥了巨大作用。 GCG(Genetic s Computer Group 主要用于 核酸序列分析和蛋白质序列分析。 Stade n 是 DNA 和蛋白 质序列分析的软件包。此外还有用于大规模测序的 Se 2 quencher, 用于快速克隆的 VectorNT I 等 2。 GeneMine 是 由 Molec ular Application Group 开发的生物信息学数据挖 掘系统 , 该系统可以用于生物信息数据的过滤、 计算和聚 类操作 , 并支持进一步的综合分析和可视化。目前世界数 据库巨头 ORACLE, IB M 纷纷将生物信息挖掘工具分别 嵌入至 ORACLE 9i, DB 2中 , 大大提高了生物数据的安全 性和分析的准确性。5结束语序列分析、 基因表达、 同源研究、 蛋白质结构预测以及 药物设计为数据挖掘提供了广阔的研究空间 , 也显示了数 据挖掘在这些方面的发展潜力。利用数据挖掘技术 , 将帮 助人们认识生物数据所蕴涵的结构和功能信息 , 进而彻底 了解生物数据所代表的生物学意义 , 帮助人们认识自然界 各种生物的遗传信息 , 认识病毒和细菌的真正面目 , 研制 与开发新药物等等。相信在不久的将来 , 数据挖掘在生物 信息学领域的应用会取得突破性的进展。参考文献 :1钟 扬 , 张 亮 , 赵 琼 . 简明生物信息学 M.北京 :高等 教育出版社 , 2001.2Attword T K, Parry-Smith D J. 生物信息学概论 M. 罗静 初等译 . 北京 :北京大学出版社 , 2002.3Fayyad U M, Piatetsky-Shapiro G, Smyth P, et al. Knowl 2 edge Discovery and Data mining:Toward a Unifying Frame-workM. ProKD D-96. Menlo Park, CA:AAAI -Press, 1996. 82-88.4胡文丰 , 张正国 . 生物医学数据挖掘 J.国外医学生物医学 工程分册 , 2003, 26(1 :11-15.5Baldi P, Brunak S. BIOINFORMATICS:The Machi ne Learn 2 ing Appro achM.北京 :中信出版社 , 2002.6Han Jiawei, Kamber M. 数据挖掘概念与技术 M.范 明 , 孟小峰译 . 北京 :机械工业出版社 , 2001.7杨锡南 , 孙 啸 . 生物信息学中基因数据可视化 J.计算机 与应用化学 , 2001, 18(5 :403-409. (下转第 17页 表 1Shell 控件的主要方法ReportShell1PageHeader 方法 打印报表头ReportShell1PageFooter 方法 打印报表尾ReportShell1ReportBefore 方法 定位到主视图第一个记录ReportShell1RowPri nt 方法 打印主视图一条记录Ma sterS hel l1BodyBefore 方法 打印子视图前生成动态查询Ma sterS hel l1RowPrint 方法 打印子视图一条记录Ma sterS hel l1GroupAfter 方法 每打印子视图 一条记 录后移 到子 视 图下一条记录ReportShell1GroupAfter 方法 每打印主视图 一个记 录及子 表后 移 到主视图下一条记录/实现动态数据连接With ReportPrinter, Qry Master do begin/新起一页时打印表头If ReportShell. Is NewPage then begin/设置表头字段字体样式SetFont(-宋体 . , 12 ;/绘制表头表格SetTab(1. 0, pjCenter, 3, 1, BOX LINEALL, 10 ;SetTab(NA, pjCenter, 3, 1, BOXLINEALL, 10 ;Println(#9-字段名 1. #9-字段名 2. ;end;, /设置数据字体样式, /绘制数据表格PrintTab(FieldByName(-字段 1. . AsStr i ng ;/输出数据Print(#9+FieldByName(-字段 2. . AsString ;end;2 如果子视图是动态生成的 , 必须在打印子表前生成 动态查询 , 可在 MasterShell1B odyB efore 方法中生成动态查 询 , 主要代码如下 :/生成子视图 QryDetail1with QryD etail1do begin, end;Open;/生成子视图 QryDetai l2with Qry Detail2do begin, end;Open;Qry Detail1. first;Qry Detail2. first;3 打印子视图记录时 , 注意判断子视图是否打印完 毕 , 然后动态连接到子视图执行打印数据输出。若是一对 多的主从报表 , 这里要打印两个子视图数据 , 如下所示 : /打印子视图 QryDetail1With ReportPrinter, QryD etail1do begi nif not EOF then begin/打印表头和小标题If ReportShell. IsNewPage then begin, end;/打印数据,end;end/打印子视图 QryDetail2With ReportPrinter, QryD etail2do begi nif not EOF then begin/打印表头和小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护士医美顾问招聘面试题及答案
- 公务员面试例题面试题及答案
- 公务员面试聚餐面试题及答案
- 公务员面试建议面试题及答案
- 公务员面试基本思路面试题及答案
- 广汽集团校招面试题及答案
- 2025广东中山市人力资源和社会保障局南头分局就业见习岗位招募参考题库及答案详解一套
- 2026年安徽新闻出版职业技术学院单招职业技能考试必刷测试卷必考题
- 2026年郑州卫生健康职业学院单招职业适应性测试题库附答案
- 2026年浙江农林大学暨阳学院单招职业适应性考试题库完美版
- 压铸模具基础知识培训课件
- 风电厂冬季安全培训课件
- 2024年华北电力大学公开招聘辅导员笔试题含答案
- 2025云南昆明元朔建设发展有限公司第一批收费员招聘20人备考考试题库附答案解析
- 制冷设备验收方案(3篇)
- 中药汤剂煎煮法课件
- 2025北师大版三年级数学上册 第六单元 单元教学设计
- 乡村新材料新技术应用与发展
- 家庭教育手机管理课件
- 2025年青海省中考语文试卷(含答案解析)
- 导管相关血流感染与控制
评论
0/150
提交评论