医学数据挖掘与分析_第1页
医学数据挖掘与分析_第2页
医学数据挖掘与分析_第3页
医学数据挖掘与分析_第4页
医学数据挖掘与分析_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第章医学数据挖掘与分析第一页,共36页。28.1 数据挖掘的基本概念数据挖掘的基本概念8.1.1 数据挖掘的定义8.1.2 数据挖掘的内容8.1.3 数据挖掘的功能第二页,共36页。38.1.1 数据挖掘的概念数据挖掘的概念 数据挖掘就是从大量的、不完全的、有噪声的、数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又有潜在的有用信息和知识的过事先不知道的、但又有潜在的有用信息和知识的过程。程。 这个定义包括几层含义:数据源必须是真实的、这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的,发

2、现的是用户感兴趣的知识,大量的、含噪声的,发现的是用户感兴趣的知识,发现的知识要可接受、可理解、可运用,并不要求发现的知识要可接受、可理解、可运用,并不要求发现放之四海皆准的知识,仅支持特定的发现问题。发现放之四海皆准的知识,仅支持特定的发现问题。 数据挖掘一般有以下几个主要步骤:数据收集;数据挖掘一般有以下几个主要步骤:数据收集;数据整理;数据挖掘;数据挖掘结果的评估;分析数据整理;数据挖掘;数据挖掘结果的评估;分析决策。决策。第三页,共36页。48.1.2 数据挖掘的内容数据挖掘的内容1广义知识(广义知识(Generalization)2关联知识(关联知识(Association)3分类知

3、识(分类知识(ClassificationClustering)4预测型知识(预测型知识(Prediction)第四页,共36页。58.1.3 数据挖掘的功能数据挖掘的功能1自动预测趋势和行为自动预测趋势和行为2关联分析关联分析3聚类聚类4概念描述概念描述5偏差检测偏差检测第五页,共36页。8.2 常用的数据挖掘技术8.2.1 决策树8.2.2 关联规则8.2.3 聚类分析第六页,共36页。78.2.1 决策树决策树第七页,共36页。8基本概念基本概念 决策树方法决策树方法(decision tree)是通过一系列是通过一系列规则对数据进行分类的过程。具体讲是利用规则对数据进行分类的过程。具体

4、讲是利用信息论中的互信息信息论中的互信息(信息增益信息增益)寻找数据库中寻找数据库中具有最大信息量的属性字段,建立决策树的具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建一个节点,再根据该属性字段的不同取值建立树的分支,在每个分支子集中重复建立树立树的分支,在每个分支子集中重复建立树的下层节点和分支的过程。的下层节点和分支的过程。第八页,共36页。9决策树种类决策树种类n按照分类精确度和树复杂程度的大小,分为单个决策树和多按照分类精确度和树复杂程度的大小,分为单个决策树和多个决策树,多个决策树是由单个决策树合并得到。个决策树,多个决策树是由单个决策树合并得到。n根据

5、分割内部节点时使用统一的还是不同的算法,分为单一决策树根据分割内部节点时使用统一的还是不同的算法,分为单一决策树和复合决策树。其中,单一决策树又可分为单变量(特征)决策树和复合决策树。其中,单一决策树又可分为单变量(特征)决策树和多变量决策树,前者在树中每一内部节点处由数据的单一属性决和多变量决策树,前者在树中每一内部节点处由数据的单一属性决定树的分支,后者在内部节点处由通过数学或逻辑算子将某些属性定树的分支,后者在内部节点处由通过数学或逻辑算子将某些属性组合起来的新属性决定树的分支;复合决策树中常用的算法有决策组合起来的新属性决定树的分支;复合决策树中常用的算法有决策树算法、线性判别函数和树

6、算法、线性判别函数和K最临近分类器。最临近分类器。n根据每一树叶子节点内是否只含有相同类别的对象,可分为确定根据每一树叶子节点内是否只含有相同类别的对象,可分为确定性决策树和非确定性决策树。性决策树和非确定性决策树。n根据分类或预测变量的特征,分为分类树和回归树,分类树根据分类或预测变量的特征,分为分类树和回归树,分类树是对离散变量做决策树,回归树是对连续变量做决策树。是对离散变量做决策树,回归树是对连续变量做决策树。第九页,共36页。10决策树特点决策树特点决策树学习属于机器学习的范畴,是一种类似于判别分析的决策树学习属于机器学习的范畴,是一种类似于判别分析的有监督的学习方法。从统计角度看,

7、与假定数据源呈一固定概率分有监督的学习方法。从统计角度看,与假定数据源呈一固定概率分布,然后进行参数估计的常规分类方法相比,决策树属于严格布,然后进行参数估计的常规分类方法相比,决策树属于严格“非非参参”方法,对于输入数据高维属性和分类标识具有更好的弹性和稳方法,对于输入数据高维属性和分类标识具有更好的弹性和稳健性。决策树对于问题的分类是基于逻辑,而不是像传统统计分类健性。决策树对于问题的分类是基于逻辑,而不是像传统统计分类模型一样基于样本的统计属性。决策树分类耗时短,占用计算机资模型一样基于样本的统计属性。决策树分类耗时短,占用计算机资源少,效率高。分类结果简单、明确、结构直观,适用于较大规

8、模源少,效率高。分类结果简单、明确、结构直观,适用于较大规模的数据集研究。与神经网络和贝叶斯分类相比,决策树更容易理解,的数据集研究。与神经网络和贝叶斯分类相比,决策树更容易理解,能处理缺失值,同时处理有数值型、两分类和多分类,有序型变量能处理缺失值,同时处理有数值型、两分类和多分类,有序型变量的数据,能清楚显示对分类或预测有意义的变量,并可生成一些规的数据,能清楚显示对分类或预测有意义的变量,并可生成一些规则则(从根节点到每个叶子节点对应的路径就是从根节点到每个叶子节点对应的路径就是“规则规则”)为决策提供为决策提供依据。依据。第十页,共36页。11决策树应用决策树应用n疾病诊断治疗疾病诊断

9、治疗n基因与高分子序列分析基因与高分子序列分析n医院信息系统挖掘医院信息系统挖掘n医疗政策分析医疗政策分析n医疗卫生保健医疗卫生保健n医疗资源利用评价医疗资源利用评价第十一页,共36页。128.2.2 关联规则关联规则第十二页,共36页。13基本概念基本概念关联规则是形如关联规则是形如 X =Y的表达式,其的表达式,其中中X和和Y是不相交的项集。关联规则的强度是不相交的项集。关联规则的强度可以用它的支持度和置信度来度量。支持可以用它的支持度和置信度来度量。支持度确定规则可以用于给定数据集的频繁程度确定规则可以用于给定数据集的频繁程度,而置信度确定度,而置信度确定Y在包含在包含X的事务中出现的事

10、务中出现的频繁程度。的频繁程度。第十三页,共36页。14关联规则种类关联规则种类n基于规则中处理的变量的类别,关联规则可以分基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。为布尔型和数值型。n基于规则中数据的抽象层次,可以分为单层关联基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。规则和多层关联规则。n基于规则中涉及到的数据的维数,关联规则可以基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。分为单维的和多维的。第十四页,共36页。15关联规则算法关联规则算法nApriori算法算法n基于划分的算法基于划分的算法 nFP-树频集算法树频集算法 第十五页,共

11、36页。16关联规则挖掘过程关联规则挖掘过程 首先,先从收集的数据集合中找出所有的高频首先,先从收集的数据集合中找出所有的高频项目组。既指某一项目组出现的频率相对于所有项目组。既指某一项目组出现的频率相对于所有记录而言,必须达到某一水平;然后利用前一步记录而言,必须达到某一水平;然后利用前一步骤的高频项目组来产生规则,在最小支持度的限骤的高频项目组来产生规则,在最小支持度的限制下,若一规则所求得的信赖度满足最小支持度,制下,若一规则所求得的信赖度满足最小支持度,称此规则为关联规则。其中同层关联规则可以采称此规则为关联规则。其中同层关联规则可以采用两种支持度策略:用两种支持度策略:(1) 统一的

12、最小支持度。对于不同的层,都使用同统一的最小支持度。对于不同的层,都使用同一个最小支持度。一个最小支持度。(2) 递减的最小支持度,不同层次的最小支持度也递减的最小支持度,不同层次的最小支持度也不同,较低层次的最小支持度相对较小。不同,较低层次的最小支持度相对较小。第十六页,共36页。17关联规则的应用关联规则的应用 关联技术的主要应用领域是商业,它的主要挖掘关联技术的主要应用领域是商业,它的主要挖掘对象是事务数据库。利用关联技术从交易数据库发现对象是事务数据库。利用关联技术从交易数据库发现规则的过程称为购物篮分析(规则的过程称为购物篮分析(market basket analysis)。通过

13、对商业数据库中的海量销售记录进)。通过对商业数据库中的海量销售记录进行分析,提取出反映顾客购物习惯和偏好的有用规则行分析,提取出反映顾客购物习惯和偏好的有用规则(或知识),可以决定商品的降价、摆放以及设计优(或知识),可以决定商品的降价、摆放以及设计优惠券等,也可以把得到的信息应用到促销和广告中,惠券等,也可以把得到的信息应用到促销和广告中,还可以服务于还可以服务于cross-sale。 关联技术不但在商业分析中得到了广泛的应用,关联技术不但在商业分析中得到了广泛的应用,在其他领域也得到了应用,包括工程、医疗保健、金在其他领域也得到了应用,包括工程、医疗保健、金融证券分析、电信和保险业的错误校

14、验等。融证券分析、电信和保险业的错误校验等。第十七页,共36页。188.2.3 聚类分析聚类分析第十八页,共36页。19基本概念基本概念 聚类是人类一项最基本的认识活动,如聚类是人类一项最基本的认识活动,如“物以类聚,人以群物以类聚,人以群分分”。所谓聚类就是按照事物的某些属性,把事物聚集成类,使类。所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽量小,类内的相似性尽量大。间的相似性尽量小,类内的相似性尽量大。 其数学描述为:设给定数据集合其数学描述为:设给定数据集合 ,其,其中中i 为数据对象,根据数据对象间的相似程度将数据集合分成为数据对象,根据数据对象间的相似程度将数据集

15、合分成 组组 ,并满足:,并满足:则该过程称为聚类,则该过程称为聚类, 称为簇。称为簇。 聚类的基本方法经常是定义两个对象之间的距离,也可采用不聚类的基本方法经常是定义两个对象之间的距离,也可采用不依赖于距离的方法:首先定义一个优化目标,再优化得到某个局部依赖于距离的方法:首先定义一个优化目标,再优化得到某个局部最小值。最小值。, 2 , 1|nivViVCjjiCC VCiki1 , 2 , 1|kjCj), 2 , 1( ,niCi第十九页,共36页。20聚类分析方法的分类聚类分析方法的分类 聚类分析方法很多,通常是针对数据库中的记录,根据聚类分析方法很多,通常是针对数据库中的记录,根据一

16、定的分类规则,合理地划分记录集合,确定每个记录所在一定的分类规则,合理地划分记录集合,确定每个记录所在类别(如,类别(如, -平均算法、平均算法、 -中心点算法、基于凝聚的层中心点算法、基于凝聚的层次聚类和基于分裂的层次聚类等)。一般来说,对于相同的次聚类和基于分裂的层次聚类等)。一般来说,对于相同的数据集,若采用不同的聚类方法,可能有不同的划分结果。数据集,若采用不同的聚类方法,可能有不同的划分结果。(1) 按聚类的标准分,有统计聚类方法和概念聚类方法按聚类的标准分,有统计聚类方法和概念聚类方法(2) 按聚类的对象分,有数值聚类方法和符号值聚类方法按聚类的对象分,有数值聚类方法和符号值聚类方

17、法(3)按聚类尺寸分,有基于距离聚类、基于密度聚类和基于)按聚类尺寸分,有基于距离聚类、基于密度聚类和基于连续的聚类连续的聚类第二十页,共36页。21聚类常用的算法聚类常用的算法聚类问题本质上是一个优化问题,即通过一种迭代运算使得系统的聚类问题本质上是一个优化问题,即通过一种迭代运算使得系统的目标函数达到一个极小值。该目标函数为划分的评价函数。通常采目标函数达到一个极小值。该目标函数为划分的评价函数。通常采用距离作为划分的评价标准,对数值属性主要采用欧氏距离,而对用距离作为划分的评价标准,对数值属性主要采用欧氏距离,而对符号属性则通常采用符号属性则通常采用Hamming距离。距离。基于划分的聚

18、类算法通过优化一个评价函数把数据集划分为基于划分的聚类算法通过优化一个评价函数把数据集划分为 个部分。个部分。当采用聚类内的距离的平方作为评价函数时,聚类内的所有点向聚当采用聚类内的距离的平方作为评价函数时,聚类内的所有点向聚类中心汇集,因此采用基于距离的划分评价函数方法得到的聚类是类中心汇集,因此采用基于距离的划分评价函数方法得到的聚类是球形的。一般,不同的评价函数会优先选择不同的聚类结构。球形的。一般,不同的评价函数会优先选择不同的聚类结构。(1) -平均法平均法(2) -中心点方法中心点方法(3) 层次聚类层次聚类第二十一页,共36页。22聚类分析的应用聚类分析的应用 经济领域:经济领域

19、: 生物学领域:生物学领域: 有贡献的研究领域有贡献的研究领域:n数据挖掘数据挖掘(聚类可伸缩,各种复杂形状类的识别,聚类可伸缩,各种复杂形状类的识别,高维聚类等高维聚类等)n统计学统计学(主要集中在基于距离的聚类分析,发现球主要集中在基于距离的聚类分析,发现球状类状类)n机器学习机器学习(无指导学习无指导学习-聚类不依赖预先定义的类,聚类不依赖预先定义的类,不等同于分类不等同于分类)n空间数据技术空间数据技术第二十二页,共36页。8.3 数据挖掘在医药领域的应用1数据挖掘在DNA分析中的应用2数据挖掘在疾病辅助诊断中的应用3数据挖掘在药物开发中的应用4数据挖掘在中医药研究中的应用第二十三页,

20、共36页。24数据挖掘在数据挖掘在DNA分析中的应用分析中的应用 随着人类基因组计划(随着人类基因组计划(Human Genome Project)以及分析生物学、信息科学的发展,)以及分析生物学、信息科学的发展,DNA、RNA以及蛋白质等生物数据空前增长,同时功能基因以及蛋白质等生物数据空前增长,同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。数据挖掘技术可以应用研究取得成果的决定性步骤。数据挖掘技术可以应用于异构、分布

21、式基因数据库的语义集成、于异构、分布式基因数据库的语义集成、DNA序列间序列间相似搜索和比较、基因组合和基因间连锁互换现象的相似搜索和比较、基因组合和基因间连锁互换现象的关联分析以及可视化工具和遗传数据分析。关联分析以及可视化工具和遗传数据分析。第二十四页,共36页。25数据挖掘在疾病辅助诊断中的应用数据挖掘在疾病辅助诊断中的应用 采用数据挖掘可以通过对患者资料数据库中大量采用数据挖掘可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规则,这样根历史数据的处理,挖掘出有价值的诊断规则,这样根据患者的年龄、性别、辅助检查结果、生理生化指标据患者的年龄、性别、辅助检查结果、生理生化指

22、标等就可以做出诊断结论,从而排除了人为因素的干扰,等就可以做出诊断结论,从而排除了人为因素的干扰,客观性强,此外由于处理的数据量很大,因此所得到客观性强,此外由于处理的数据量很大,因此所得到的诊断规则有着较好的应用普遍性。目前国外已有不的诊断规则有着较好的应用普遍性。目前国外已有不少这方面的成功案例,如采用贝叶斯学习分类方法对少这方面的成功案例,如采用贝叶斯学习分类方法对男女患者的男女患者的CT图像进行自动诊断、利用关联规则找图像进行自动诊断、利用关联规则找出头部创伤患者作出头部创伤患者作CT检查的适应症以及将数据挖掘检查的适应症以及将数据挖掘用于肝癌遗传综合征的自动检测、铀矿工人中非恶性用于

23、肝癌遗传综合征的自动检测、铀矿工人中非恶性呼吸系统疾病流行的种族差异的研究都取得了理想的呼吸系统疾病流行的种族差异的研究都取得了理想的效果,显示出数据挖掘技术用于疾病辅助诊断的广阔效果,显示出数据挖掘技术用于疾病辅助诊断的广阔的应用前景。的应用前景。第二十五页,共36页。26数据挖掘在药物开发中的应用数据挖掘在药物开发中的应用 在新药的研究、开发过程中,先导化合物(在新药的研究、开发过程中,先导化合物(lead compound)的发掘是关键环节,有两种基本途径,)的发掘是关键环节,有两种基本途径,是随机筛选与意外发现。是随机筛选与意外发现。是定向发掘。是定向发掘。 到目前为止国内外在天然药物

24、研究领域主要采用到目前为止国内外在天然药物研究领域主要采用的是随机筛选,但是采用这种方法的开发周期长、研的是随机筛选,但是采用这种方法的开发周期长、研究费用高,采用数据挖掘技术建立的药物开发系统可究费用高,采用数据挖掘技术建立的药物开发系统可以用来寻找同药效学相关的有效化学物质基础,确定以用来寻找同药效学相关的有效化学物质基础,确定药效基团,指导新药的研究与开发,从而缩短新药的药效基团,指导新药的研究与开发,从而缩短新药的研究开发周期,降低研究开发费用。研究开发周期,降低研究开发费用。第二十六页,共36页。27数据挖掘在中医药研究中的应用数据挖掘在中医药研究中的应用 目前,数据挖掘技术正逐渐在

25、中医药研究中得到应用,成为促目前,数据挖掘技术正逐渐在中医药研究中得到应用,成为促进中医药科研发展和实现中医药现代化的重要组成部分。姚美村等进中医药科研发展和实现中医药现代化的重要组成部分。姚美村等综合文献指出对中医药理论和实践进行信息化、数字化、知识化能综合文献指出对中医药理论和实践进行信息化、数字化、知识化能够克服中医名词术语过于繁杂造成的中医发展障碍,对于中医药信够克服中医名词术语过于繁杂造成的中医发展障碍,对于中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一,该问题息进行文本数据挖掘是促进中医药信息结构化的途径之一,该问题的解决,克服了中医发展的最大障碍,极大的促进中医药现代

26、化发的解决,克服了中医发展的最大障碍,极大的促进中医药现代化发展的进程。展的进程。 数据挖掘技术在中药指纹图谱、化学成分研究等方面也有文献报数据挖掘技术在中药指纹图谱、化学成分研究等方面也有文献报道。冯雪松等对中药指纹图谱的特点及数据挖掘技术在其中的应用作道。冯雪松等对中药指纹图谱的特点及数据挖掘技术在其中的应用作了综述。同时分析指出中药指纹图谱具有统计数学中多元随机分布的了综述。同时分析指出中药指纹图谱具有统计数学中多元随机分布的“模糊性模糊性”,利用模糊数学、统计学、计算机技术等建立一种同时反,利用模糊数学、统计学、计算机技术等建立一种同时反应这两种特征数据库,存储中药指纹图谱信息,在此基

27、础上应用数据应这两种特征数据库,存储中药指纹图谱信息,在此基础上应用数据挖掘技术发现和解析其中潜在的信息,以评价和控制中药质量及研究挖掘技术发现和解析其中潜在的信息,以评价和控制中药质量及研究中药定量组效关系。在中药计算机化学研究中,陈凯先等认为对大量中药定量组效关系。在中药计算机化学研究中,陈凯先等认为对大量中药化学成分进行药效基团的建模研究,并对中药化学成分数据库进中药化学成分进行药效基团的建模研究,并对中药化学成分数据库进行柔性搜索,能够为更充分利用中药化学成分所含的化学信息提供技行柔性搜索,能够为更充分利用中药化学成分所含的化学信息提供技术支持。术支持。第二十七页,共36页。28数据挖

28、掘在中医药研究中的应用数据挖掘在中医药研究中的应用 在方剂研究方面,姚美村等应用数据挖掘技术对消渴病复方配伍规律进行了关在方剂研究方面,姚美村等应用数据挖掘技术对消渴病复方配伍规律进行了关联规则分析,将联规则分析,将中医方剂大辞典中医方剂大辞典中治疗消渴病的三消方剂共中治疗消渴病的三消方剂共106个输入设计好个输入设计好的数据库中(以的数据库中(以MS的的Access为数据库工具,建立数据库),选择为数据库工具,建立数据库),选择SAS公司的数据公司的数据挖掘系统挖掘系统EnterpriseMiner(EM)4. 1为工具,应用其中的关联规则方法进行消渴病为工具,应用其中的关联规则方法进行消渴

29、病复方特征的关联性研究。结果显示单味药、两味药组合、三味药组合的应用规律与复方特征的关联性研究。结果显示单味药、两味药组合、三味药组合的应用规律与历代中医在消渴病治疗用药方面的论述是一致的。蒋永光等从历代中医在消渴病治疗用药方面的论述是一致的。蒋永光等从中医大辞典中医大辞典方剂方剂分册分册中筛选出中筛选出1355首脾胃方;按照数据挖掘技术中对原始数据的预处理要求,进首脾胃方;按照数据挖掘技术中对原始数据的预处理要求,进行方剂数据的规范化、结构化和数字化处理;根据方剂的数据特点,选用聚类分析、行方剂数据的规范化、结构化和数字化处理;根据方剂的数据特点,选用聚类分析、对应分析和频繁集方法,进行多角

30、度、多层次和量化的分析和处理,并形成了有关对应分析和频繁集方法,进行多角度、多层次和量化的分析和处理,并形成了有关技术规则和处理程序。就脾胃方的核心药物、方剂结构、药对药组和技术规则和处理程序。就脾胃方的核心药物、方剂结构、药对药组和“方药证方药证”的的对应关联所进行的数据挖掘,结果基本符合中医脾胃方组方用药的一般规律和特点,对应关联所进行的数据挖掘,结果基本符合中医脾胃方组方用药的一般规律和特点,并发现了一些值得深入研究的特殊配伍现象和模式。研究表明,数据挖掘与传统的并发现了一些值得深入研究的特殊配伍现象和模式。研究表明,数据挖掘与传统的数据处理方法不同,能以线性和非线性方式进行数据解析,适

31、宜对包含大量模糊和数据处理方法不同,能以线性和非线性方式进行数据解析,适宜对包含大量模糊和非量化数据的中医方剂配伍规律的研究。但由于数据挖掘对数据质量的要求高,因非量化数据的中医方剂配伍规律的研究。但由于数据挖掘对数据质量的要求高,因而数据预处理在方剂数据挖掘中工作量大,技术性强,是实现方剂配伍规律的知识而数据预处理在方剂数据挖掘中工作量大,技术性强,是实现方剂配伍规律的知识发现的关键所在。发现的关键所在。第二十八页,共36页。8.4 常用数据挖掘工具1QUEST2MineSet3DBMiner4MATLAB第二十九页,共36页。30QUEST QUEST是是IBM公司公司Almaden研究中

32、心开研究中心开发的一个多任务数据挖掘系统,目的是为新发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数一代决策支持系统的应用开发提供高效的数据开采基本构件。据开采基本构件。第三十页,共36页。31QUEST特点特点n提供了专门在大型数据库上进行各种开采的功能:提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。策树分类、递增式主动开采等。n各种开采算法具有近似线性(各种开采算法具有近似线性(O(n))计算复杂度,)计算复杂度,可适用于任意大小的数据库。可适用于任

33、意大小的数据库。n算法具有找全性,即能将所有满足指定类型的模式算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。全部寻找出来。n为各种发现功能设计了相应的并行算法。为各种发现功能设计了相应的并行算法。第三十一页,共36页。32MineSet MineSet是由是由SGI公司和美国公司和美国Standford大学联合开发的多任务数据挖掘大学联合开发的多任务数据挖掘系统。系统。MineSet集成多种数据挖掘算法和集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。掘、理解大量数据背后的知识。第三十二页,共36页。33Mi

34、neSet特点特点nMineSet以先进的可视化显示方法闻名于世。以先进的可视化显示方法闻名于世。n支持多种关系数据库。可以直接从支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过的表读取数据,也可以通过SQL命令执行查询。命令执行查询。n多种数据转换功能。在进行挖掘前,多种数据转换功能。在进行挖掘前,MineSet可以可以去除不必要的数据项,统计、集合、分组数据,转去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。据项,对数据采样等。n操作简单、支持国际字符、可以直接发布到操作简单、支持国际字符、可以直接发布到Web。第三十三页,共36页。34DBMiner DBMiner是加拿大是加拿大SimonFraser大学大学开发的一个多任务数据挖掘系统,它的前开发的一个多任务数据挖掘系统,它的前身是身是DBLearn。该系统设计的目的是把关。该系统设计的目的是把关系数据库和数据开采集成在一起,以面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论