哈尔滨医科大学《数据挖掘》第1章绪论_第1页
哈尔滨医科大学《数据挖掘》第1章绪论_第2页
哈尔滨医科大学《数据挖掘》第1章绪论_第3页
哈尔滨医科大学《数据挖掘》第1章绪论_第4页
哈尔滨医科大学《数据挖掘》第1章绪论_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘: 绪论,第1,数据 电子商务网站的日志 银行帐务数据 顾客购物的数据,为什么要进行数据挖掘? 商业观点,为什么要进行数据挖掘? 科学观点,医学、科学、工程技术界 正快速积累大量数据 (GB/hour) 地表、海洋和大气的 全球观测数据 基因组数据 数据挖掘技术可以帮助处理这些数据 干旱和飓风等生态扰动与全球变暖关系? 海洋表面温度对地表降水量和温度影响? 蛋白质结构预测、多序列比对、生物 化学通路建模、种系发生学,什么是数据挖掘,定义 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。 数据挖掘技术用来探查大型数据库,发现先前未知的有用模式,什么是数据挖掘?什么不是,什么是数据

2、挖掘? 把搜索引擎得到的相似数据合并在一起 (e.g. Amazon rainforest, A,) 利用网络数据分析哪些歌星在中国的名气最高,什么不是数据挖掘? 在电话本里搜 索电话号码 利用搜索引擎 如“Google”搜索“Amazon,数据挖掘利用了来自如下一些领域的思想: ()统计学的抽样、估计、假设检验 ()人工智能、模式识别、机器学习 的搜索算法建摸技术、学习理论 ()最优化、进化算法、 信息论、信号处理、 可视化、信息检索 ()数据库技术、并行计算 、分布式计算 传统的方法可能不适合 数据量巨大 数据维度高 数据异种性(具有序列 和三维结构的DNA数据,数据挖掘的起源,人工智能、

3、 机器学习 和模式识别,统计学,数据挖掘,数据库技术、并行技术、分布式技术,数据挖掘的任务,预测 使用已知变量预测未知变量的值. 描述 导出潜在联系的模式(相关、趋势、聚类、异常,数据挖掘的任务,分类 预测 聚类 描述 关联分析 描述 异常检测 预测,分类 例子,categorical,categorical,continuous,class,Training Set,Learn Classifier,聚类,Intracluster distances are minimized,Intercluster distances are maximized,关联分析: 定义,用来发现描述数据中强关

4、联特征的模式,所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式; 找出具有相关功能的基因组、识别一起访问的Web页面、理解地球气候系统不同元素之间的联系,Rules Discovered: Diaper - Milk Diaper, Milk - Beer,数据挖掘的挑战,可伸缩 高维性 异种数据和复杂数据 数据的所有权和分布 非传统数据,可伸缩,高维性,异种数据和复杂数据,2. DIP数据库,DIP数据库是专门存储蛋白质相互作用信息的数据库。该数据库中也包含人工检查的可靠信息和自动计算方法所获取的高通量数据,3.MIPS数据库,MIPS数据库是一个跨物种的综合性数据库,包含多种数据库信息。其中的CYGD数据库提供了比较完整酵母蛋白质互作信息。而MIPS哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质互作信息,4.BioGrid数据库,BioGrid数据库是一个包含多物种蛋白质互作信息的数据库。数据库中包含来自多个物种的互作信息,其中即包括物理互作信息也包括遗传互作信息,主要记录蛋白质互作在内的生物分子间的相互作用信息,并将其中的信息分为经过人工检查的可信信息和高通量数据信息,1. BIND数据库,数据的所有权和分布,内容安排,数据 探

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论