数据仓库与数据挖掘技术_第1页
数据仓库与数据挖掘技术_第2页
数据仓库与数据挖掘技术_第3页
数据仓库与数据挖掘技术_第4页
数据仓库与数据挖掘技术_第5页
已阅读5页,还剩76页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术

ElectronicCommerce夏火松

数据仓库与数据挖掘技术教案第6章数据挖掘基本算法本章内容:6.1分类规则挖掘6.2预测分析与趋势分析规则6.3数据挖掘的关联算法6.4数据挖掘的聚类算法6.5数据挖掘的统计分析算法6.6数据挖掘的品种优化算法6.7数据挖掘的进化算法6.1分类规则挖掘分类与估值1分类为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程。应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等实践应用参照课本6.1分类规则挖掘

分类与估值2估值估值(estimation)与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定的数目,估值的量是不确定的。

3分类方法与步骤

方法:决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。步骤:模型创建、模型使用6.1分类规则挖掘分类与估值4评估分类方法要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。6.1分类规则挖掘6.1.2决策树父节点子节点子节点叶节点子节点子节点子节点根节点图6.1一般决策树结构叶节点父节点6.1分类规则挖掘6.1.2决策树1.决策树的构造过程ID3算法应用如下:信息量计算公式:I(s1,s2,…sm)=-(6.1)其中,pi为si占整个类别的概率利用属性A划分当前样本集合所需要的信息(熵)的计算公式为:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:字段为:(年龄(取值:<30,30~40,>40>);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N))记录为14个,具体数据如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分类规则挖掘

6.1.2决策树1.决策树的构造过程决策树的构造算法:

决策树的构造算法可通过训练集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)为一个训练实例,它有n个属性,分别列于属性表(A1,A2,…,An)中,其中ai表示属性Ai的取值。Cj∈C={C1,C2,…,Cm}为x的分类结果。从属性表中选择属性Ai作为分类属性;若属性Ai的取值有ki个,则将T划分为ki个子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的属性取值A为第i个值;接下来从属性表中删除属性Ai;对于每一个Tij(1≤j≤K1),令T=Tij;如果属性表非空,返回第1步,否则输出。6.1分类规则挖掘

6.1.2决策树2.分类器定义:输入的数据含有千万个记录,每个记录又有很多个属性,其中有一个特别的属性叫做类(例如信用程度的高,中,低)。具体步骤:1)树的建立。2)树的修剪,SLIQ采用了MDL(最小叙述长度)的方法来修剪树。

6.1分类类规规则则挖挖掘掘决决策策树树3..决决策策树树的的可可扩扩展展性性4..基基于于决决策策树树方方法法的的数数据据挖挖掘掘工工具具KnowledgSEEKER6.1分类类规规则则挖挖掘掘贝叶叶斯斯分分类类1..贝贝叶叶斯斯信信任任网网络络如如何何工工作作边缘主区域手机呼叫服务区域noyes外界图6.3简单的贝叶斯网图6.1分类类规规则则挖挖掘掘贝叶叶斯斯分分类类2..贝贝叶叶斯斯定定理理与与朴朴素素贝贝叶叶斯斯分分类类贝叶叶斯斯定定理理:P(H|X)=P(X|H)P(H)/P(X)其其中中,,P(H|X)表表示示条条件件X下H的概概率率,,也也称称为为条条件件概概率率或或称称为为后后验验概概率率(posterioriprobabilities)。。朴素素贝贝叶叶斯斯分分类类::假定定有有m个类类C1,……Cm,对对于于数数据据样样本本X,分分类类法法将将预预测测X属于于类类Ci,当当且且仅仅当当P(Ci|X)>P(Cj|X),6.2预测测分分析析与与趋趋势势分分析析规规则则预预言言的的基基本本方方法法预言言((prediction))是是一一门门掌掌握握对对象象变变化化动动态态的的科科学学,,它它是是对对对对象象变变动动趋趋势势的的预预见见、、分分析析和和判判断断,,也也是是一一种种动动态态分分析析方方法法。。预测测的的基基本本步步骤骤::确定定预预测测目目标标,,包包括括预预测测对对象象、、目目的的、、对对象象范范围围;;收集集分分析析内内部部和和外外部部资资料料;;数据据的的处处理理及及模模型型的的选选择择;;预测测模模型型的的分分析析、、修修正正;;确定定预预测测值值。。6.2预测测分分析析与与趋趋势势分分析析规规则则定定量量分分析析预预测测时间间序序列列法法回归归预预测测非线线性性模模型型灰色色预预测测模模型型GM((1,,1))组合合预预测测6.2预测测分分析析与与趋趋势势分分析析规规则则预测测的的结结果果分分析析预测测的的结结果果分分析析要要考考虑虑到到的的因因素素::相反反的的预预测测结结果果胜出出裕裕度度成本本收收益益分分析析6.2预测测分分析析与与趋趋势势分分析析规规则则趋趋势分分析挖挖掘分析时时间序序列数数据需需要注注意以以下方方面:长时间间的走走向周期的的走向向与周周期的的变化化季节性性的走走向与与变化化不规则则的随随机走走向6.3数据挖挖掘的的关联联算法法关关联联规则则的概概念及及分类类1.关关联规规则的的概念念定义1设设I={i1、i2、i3,……,im}是由由m个不同同的数数据项项目组组成的的集合合,其其中的的元素素称为为项(item),,项的的集合合称为为项集集,包包含k个项项的的项项集集称称为为k项集集,给给定定一一个个事事务务((交交易易))D,即即交交易易数数据据库库,,其其中中的的每每一一个个事事务务((交交易易))T是数数据据项项I的一一个个子子集集,,即即,,T有一一个个惟惟一一的的标标积积符符TID;;当当且且仅仅当当时时,,称称交交易易T包含含项项集集X;那那么么关关联联规规则则就就形形如如““X=>Y”的的蕴蕴涵涵式式;;其其中中,,,,,,ФФ,,即即表表示示满满足足X中条条件件的的记记录录也也一一定定满满足足Y。关关联联规规则则X=>Y在交交易易数数据据库库中中成成立立,具具有有支支持持度度s和具具有有置置信信度度c。这也也就就是是交交易易数数据据集集D中具具有有支支持持度度s,即即D中至至少少有有s%的的事事务务包包含含,描描述述为为::support(X=>Y)=比如如Support(X=>Y)=同同时时购购买买商商品品X和Y的交交易易数数总交交易易数数同时时交交易易数数据据集集D中具具有有置置信信度度c,即即D中包包含含X的事事务务至至少少有有c%同同时时也也包包含含Y,描描述述为为::confidence(X=>Y)=比如如购购买买了了商商品品X,同同时时购购买买商商品品Y可信信度度,,confidence(X=>Y)=同同时时购购买买商商品品X和Y的交交易易数数购买买了了商商品品X的交交易易数数一般般称称满满足足一一定定要要求求的的规规则则为为强强规规则则。。通通常常称称满满足足最最小小支支持持度度和和最最小小置置信信度度的的关关联联规规则则为为强强关关联联规规则则((strong))。。一一般般将将最最小小支支持持度度简简记记为为minsup和最最小小置置信信度度简简记记为为minconf。6.3数据据挖挖掘掘的的关关联联算算法法关关联联规规则则的的概概念念及及分分类类2关关联联规规则则的的分分类类分类标准类别规则中所处理的值布尔关联规则,量化关联规则规则中所涉及的数据维单维关联规则和多维关联规则规则中所涉及的抽象层单层关联规则和多层关联规则规则中的扩充最大的模式和频繁闭项集关联特性分类分析与相关分析6.3数据据挖挖掘掘的的关关联联算算法法简简单单形形式式的的关关联联规规则则算算法法((单单维维、、单单层层和和布布尔尔关关联联规规则则))1..简简单单形形式式的的关关联联规规则则的的核核心心算算法法找到到所所有有支支持持度度大大于于最最小小支支持持度度的的项项集集,即即频频集集,有有k个数数据据频频集集称称为为k项频频集集.找找出出所所有有的的频频集集由由apriori算算法法实实现现。。Apriori性性质质具具有有一一个个频频集集的的任任一一非非空空子子集集都都是是频频集集。。使用用第第1步步找找到到的的频频集集产产生生期期望望的的规规则则apriori算算法法的的详详细细介介绍绍见见课课本本。。6.3数据挖挖掘的的关联联算法法简简单形形式的的关联联规则则算法法(单单维、、单层层和布布尔关关联规规则))2频频集算算法的的几种种优化化方法法基于划划分的的方法法基于hash的的方法法基于采采样的的方法法减少交交易的的个数数6.3数据挖挖掘的的关联联算法法简简单形形式的的关联联规则则算法法(单单维、、单层层和布布尔关关联规规则))3其其他的的频集集挖掘掘方法法FP-growth方法法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3数据挖挖掘的的关联联算法法多多层和和多维维关联联规则则的挖挖掘多层关关联规规则多维关关联规规则关联规规则价价值衡衡量的的方法法货货篮子子分析析存在在的问问题详见课课本6.3数据挖挖掘的的关联联算法法关关联分分析的的其他他算法法发现关关联的的更好好方法法统计相相关以以外的的理解关关联有效可可行的的市场场篮子子分析析挖挖掘序序列模模式序列模模式的的概念念及定定义序列模模式挖挖掘的的主要要算法法GSP算法法描述述PrefixSpan算算法关联规规则挖挖掘——一个个例子子最小值值尺度度50%最小可可信度度50%对于AC:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基基本思思想:频繁项项集的的任何何子集集也一一定是是频繁繁的关键步步骤::挖掘掘频繁繁集频繁集集:是指指满足足最小小支持持度的的项目目集合合频繁集集的子子集也也一定定是频频繁的的如,如如果果{AB}是是频繁繁集,,则{A}{B}也也一定定是频频繁集集从1到到k((k-频繁繁集))递归归查找找频繁繁集用得到到的频频繁集集生成成关联联规则则Apriori算法法连接:用Lk-1自连接接得到到Ck修剪:一个k-项项集,,如果果他的的一个个k-1项项集((他的的子集集))不是是频繁繁的,,那他他本身身也不不可能能是频频繁的的。伪代码码:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for(k=1;Lk!=;k++)dobeginCk+1=candidatesgeneratedfromLk;foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedintLk+1=candidatesinCk+1withmin_supportendreturnkLk;Apriori算法——例子数据库D扫描DC1L1L2C2C2扫描DC3L3扫描D如何生生成候候选集集假定Lk-1中的项项按顺顺序排排列第一步步:自自连连接Lk-1insertintoCkselectp.item1,p.item2,……,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,……,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步步:修修剪剪forallitemsetscinCkdoforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何计计算候候选集集的支支持度度计算支支持度度为什什么会会成为为一个个问题题?候选集集的个个数非非常巨巨大一笔交交易可可能包包含多多个候候选集集方法:用hash-tree存放候候选集集树的的叶子子节节点点of存存放放项项集集的的列列表表和和支支持持度度内部部节节点点是一一个个hash表表Subset函函数数:找找到到包包含含在在一一笔笔交交易易中中的的所所有有候候选选集集生成候选选集的例例子L3={abc,abd,acd,ace,bcd}自连接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,删除除acdeC4={abcd}提高Apriori效效率的方方法基于Hash的的项集计计数:如果果一个k-项集在在hash-tree的路径径上的一一个计数数值低于于阈值,,那他本本身也不不可能是是频繁的的。减少交易易记录:不包包含任何何频繁k-项集集的交易易也不可可能包含含任何大大于k的的频繁集集分割:一个项集集要想在在整个数数据库中中是频繁繁的,那那么他至至少在数数据库的的一个分分割上是是频繁的的。采样:在给给定数据据的子集集上挖掘掘,使用用小的支支持度+完整性性验证方方法动态项集集计数:在添添加一个个新的候候选集之之前,先先估计一一下是不不是他的的所有子子集都是是频繁的的。Apriori够快快了吗?—性性能瓶瓶颈Apriori算法的的核心:用频繁的的(k–1)-项集集生成候选的频繁k-项集集用数据库库扫描和和模式匹匹配计算算候选集集的支持持度Apriori的瓶颈:候选集生生成巨大的候候选集:104个频繁1-项集集要生成成107个候选2-项项集要找尺寸寸为100的频频繁模式式,如{a1,a2,…,a100},你你必须先先产生21001030个候选集集多次扫描描数据库库:如果最长长的模式式是n的的话,则则需要(n+1)次数数据库扫扫描6.4数据挖掘掘的聚类类算法聚聚类分析析的概念念与分类类聚类分析析概念聚类分析析方法的的分类类别算法分裂(划分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(给予选择的方法)层次法BIRCH算法(平衡迭代归约和聚类)、CURE算法(代表聚类)、CHAMELEON算法(动态模型)基于密度的方法DBSCAN算法(基于高密度连接区域)、OPTICS算法(对象排序识别)、DENCLUE算法(密度分布函数)基于网格的方法STING算法(统计信息网格)、CLIQUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)基于模型的方法统计学方法、神经网络方法6.4数据挖掘掘的聚类类算法聚聚类分析析中两个个对象之之间的相相异度计计算方法法区间标度度变量计计算方法法二元变量量计算方方法标称型、、序数型型和比例例标度型型变量计计算方法法混合类型型的变量量计算方方法6.4数据挖挖掘的的聚类类算法法划划分方方法典型的的划分分方法法:k-平均均和k-中心心点基于簇簇的重重心技技术::k-平均均方法法基于有有代表表性的的对象象的技技术::k-中心心点方方法大型数数据库库中的的划分分方法法:基基于选选择的的K-中心点点CLARANS方方法6.4数据挖挖掘的的聚类类算法法层层次方方法凝聚的的和分分裂的的层次次聚类类凝聚层层次聚聚类方方法AGNES分裂层层次聚聚类方方法DIANA利用层层次方方法的的平衡衡迭代代归约约和聚聚类综合的的层次次聚类类方法法BIRCH利用代代表点点聚类类一种新新颖的的层次次聚类类算法法CURE一个利利用动动态模模型的的层次次聚类类算法法动态模模型的的聚类类法chameleon(变色色龙)6.4数据挖挖掘的的聚类类算法法基基于密密度的的方法法一个基基于高高密度度连接接区域域的聚聚类方方法DBSCAN聚聚类类方法法通过对对象排排序识识别聚聚类结结构OPTICS聚聚类分分析方方法基于密密度分分布函函数的的聚类类基于一一组密密度分分布函函数的的聚类类算法法DENCLUE6.4数据挖挖掘的的聚类类算法法基基于网网格的的方法法统计信息网网络STING是一种基基于网格的的多分辨率率聚类技术术聚类高维空空间CLIQUE(clusteringinquest,CLIQUE)聚类类算法6.4.7基于模模型的聚类类方法增量概念聚聚类算法COBWEB6.4.8模糊聚聚类算法6.5数据挖掘的的统计分析析算法6.5.1辨别方方法6.5.2回归模模型6.5.3优点与与缺点6.6数数据挖掘的的品种优化化算法6.6.1品种优优化品品种种优优化化算算法法6.7数据据挖挖掘掘的的进进化化算算法法遗遗传传算算法法如何何工工作作优缺缺点点神神经经网网络络算算法法如何何工工作作无指指导导的的学学习习竞争争学学习习自组组织织特特征征映映射射模模型型优缺缺点点6.7数据据挖挖掘掘的的进进化化算算法法神经经网网络络模模型型性别区域职位B类客户年龄交易额受教育的年限图6.10神经网络模型C类客户跳槽客户隐节点隐节点A类客户隐节点隐节点第7章章非非结结构构化化数数据据挖挖掘掘本章章内内容容:7.1Web数数据据挖挖掘掘7.2空空间间群群数数据据挖挖掘掘7.3多多媒媒体体数数据据挖挖掘掘7.1Web数数据据挖挖掘掘非非结结构构化化数数据据源源Web数数据据挖挖掘掘的的难难点点对数数据据来来源源分分析析异构构数数据据环环境境半结结构构化化的的数数据据结结构构解决决半半结结构构化化的的数数据据源源问问题题文本本总总结结XML与与Web数数据据挖挖掘掘技技术术XML的的产产生生与与发发展展XML的的主主要要特特点点7.1Web数数据据挖挖掘掘非非结结构构化化数数据据源源XML在在Web数数据据挖挖掘掘中中的的应应用用两个个或或更更多多异异质质数数据据库库之之间间进进行行通通信信的的应应用用大部部分分处处理理负负载载从从Web服服务务器器转转到到Web客客户户端端的的应应用用Web客客户户端端将将同同样样的的数数据据以以不不同同的的浏浏览览形形式式提提供供给给不不同同的的用用户户的的应应用用需要要智智能能Web代代理理根根据据用用户户个个人人的的需需要要裁裁减减信信息息内内容容的的应应用用7.1Web数数据据挖挖掘掘Web挖挖掘掘分分类类Web挖掘Webcontentmining(Web内容挖掘)Webstructuremining(Web结构挖掘)Webusagemining(Web访问挖掘)Searchresultmining(搜索结果再挖掘)Generalaccesspatterntracking(一般访问模式跟踪)Customizedusagetracking(定制的使用跟踪)Webpagecontentmining(Web页面内容挖掘)图7.1Web挖掘分类Web挖挖掘掘三三种种方方法法比比较较Web内容挖掘Web结构挖掘Web访问挖掘处理数据类型IR方法数据库方法Web结构挖掘用户访问挖掘无结构和半结构化数据半结构化数据主要数据自由文本、HTML标记的超文本HTML标记的超文本文档内及文档间的超链接Serverlog,proxyserverlog,clientlog表示方法词集、段落、概念、IR的三种经典模型OEM关系图关系表、图处理方法TFIDF、统计、机器学习、自然语言理解数据库技术机器学习、专有算法(如HITSpagerank)统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多维数据库、站点创建与维护页面权重分类聚类、模式发现用户个性化、自适应Web站点、商业决策7.1Web数数据据挖挖掘掘Web挖挖掘掘的的基基本本构构架架访问者注册用户网站交易信息浏览信息数据库、数据仓库Web日志文件WebSerer中其他信息数据预处理模块结构数据挖掘模块Web挖掘的基本构架页面访问情况Web结构模式Web内容模式知识非结构数据挖掘模块7.1Web数数据据挖挖掘掘内内容容挖挖掘掘信息检索(informationretrieve,,IR)方方法数据库方法7.1.4Web结构构挖掘Rank方法法7.1.5Web访问问挖掘对Web日志志进行清洗、、过滤和转换换以及剔除无无关记录采用用统统计计学学、、模模式式识识别别、、人人工工智智能能、、数数据据库库数数据据挖挖掘掘等等领领域域的的成成熟熟技技术术在在Web的的使使用用记记录录中中挖挖掘掘知知识识Web使使用用挖挖掘掘中中的的模模式式分分析析7.1Web数数据据挖挖掘掘利利用用Web日日志志的的聚聚类类算算法法客户户群群体体的的模模糊糊聚聚类类算算法法用户户访访问问兴兴趣趣的的算算法法客户户群群体体聚聚类类的的Hamming距距离离算算法法基于模糊理论论的Web页页面聚类算法法Web页面聚聚类的Hamming距距离算法7.1Web数据挖掘掘电子商务中的的Web挖掘掘电子商务中Web挖掘的的作用电子商务中Web挖掘的的基本问题电子商务中的的数据挖掘工工具文本信息挖掘掘工具用户访问模式式挖掘工具用户导航行为为挖掘工具综合性的Web分析工具具7.2空间间群数据挖掘掘空空间群数据据挖掘概念从空间数据中中抽取隐含的的知识、空间间关系、空间间及与非空间间之间的有意意义的特征或或模式。空空间群数据据挖掘分类空间检索空间拓扑叠加加分析空间模拟分析析7.2空间间群数据挖掘掘空空间数据挖挖掘的体系结结构空间数据结构查询与优化原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象和属性抽取物理级底层特性处理设计图7.4空间数据挖掘的体系结构对象级特征处理语义概念级处理用户空间数据处理7.3多媒体体数据挖掘多多媒体数据据挖掘的概念念多多媒体数据据挖掘的分类类图像数据挖掘掘视频数据挖掘掘音频数据挖掘掘7.3多媒体体数据挖掘多多媒体数据据挖掘的体系系结构原始数据媒体数据摄取媒体编码存档浏览引擎分类特征抽取查询引擎工具交互式学习索引的生成用户图7.5功能驱动的多媒体挖掘体系结构基于底层特性的索引与检索元数据与数据抽取原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象级的索引与检索物理级底层特性处理设计图7.6信息驱动的多媒体挖掘的结构对象级特征处理语义概念级处理用户多媒体处理第8章离群群数据挖掘本章内容离群数据挖掘掘概念离群数据挖掘掘分类离群数据挖掘掘算法市场营销离群群数据的特点点第8章离群群数据挖掘8.1离群群数据挖掘的的概念8.2离群群数据挖掘的的分类基于统计学基于距离的方方法基于偏移高维数据的离离群数据探测测基于规则的分分类离群数据据挖掘方法基于密度(density-based)的离离群挖掘方法法8.3离群数据挖掘掘的算法基于统计的方方法基于距离的离离群数据方法法基于距离的离离群数据定义义基于距离的离离群数据挖掘掘的算法分类类及算法描述述基于距离的算算法的改进基基于偏离的的离群数据挖挖掘序列离群数据据技术OLAP数据据立方体技术术8.3离群数据挖掘掘的算法高高维数据的的离群数据挖挖掘基基于小波的的离群数据挖挖掘时序数据的离离群数据挖掘掘基于聚类的离离群数据CL(δ)8.4市场营销离群群数据挖掘市场营销离群群数据挖掘特特点基基于分形的的市场营销离离群数据挖掘掘模型几个定义第9章数据据挖掘语言与与工具选择本章内内容9.1数数据挖挖掘语语言及及其标标准化化9.2数数据挖挖掘研研究热热点9.3数数据挖挖掘工工具的的选择择9.1数数据挖挖掘语语言及及其标标准化化数数据挖挖掘语语言分分类类别特点功能代表数据挖掘查询语言数据挖掘原语五种原语DMQL数据挖掘建模语言基于XML的语言文档类型定义、通用模式PMML通用数据挖掘语言集成全面OLEDBforDM9.1数数据挖掘语语言及其标标准化9.1.1数据挖挖掘语言分分类数据挖掘查查询语言(5种数据据挖掘原语语定义)。。任务相关数数据原语被挖掘的知知识的种类类原语背景知识原原语兴趣度测量量原语被发现模式式的表示和和可视化原原语9.1数数据挖掘语语言及其标标准化9.1.1数据挖挖掘语言分分类数据挖掘建建模语言头文件(aheader))数据模式((adataschema)数据挖掘掘模式((adataminingschema))预言模型模式式(apredictivemodelschema)预言模型定义义(definitionsforpredictivemodels))全体模型定义义(definitionsforensemblesofmodels)选择和联合模模型、全体模模型的规则((rulesforselectingandcombiningmodelsandensemblesofmodels))异常处理的规规则(rulesforexceptionhandling)9.1数据据挖掘语言及及其标准化数数据挖掘语语言分类通用数据挖掘掘语言数据挖掘模型型(DataMiningModel,DMM)预言联接操作作(PredicationJoinOperation)OLEDBforDM模式行行集合(SchemaRowsets)分分析与评价价9.2数据挖挖掘的研究热热点网站的数据挖挖掘生物信息或基基因的数据挖挖掘文本的数据挖挖掘9.3数据挖掘工具具的选择评评价数数据挖挖掘工工具的的优劣劣指标标数据准准备数据访访问算法与与建模模模型的的评价价和解解释用户界界面9.3数据挖挖掘工工具的的选择择通通用数数据挖挖掘产产品与与工具具POLYANALYSTIBMDB2lntelligentMiner和并并行可可视化化探索索者PVEDBMinerBO的的BusinessMinerSPSS股股份公公司((SPPSCHAID)SAS研究究所股股份公公司((SAS,JMP))NeuralWare股股份公公司信息发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论