




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,第6章数据挖掘原理,6.1数据挖掘的基本概念6.2数据挖掘的过程6.3数据挖掘的常用方法和技术6.4数据挖掘的知识表示,2,从OLTP到数据挖掘,数据库应用的规模和深度点线面互联网在线分析处理(OLAP)在线事务处理决策支持(DS)(OLTP)数据挖掘(DataMining),3,6.1数据挖掘的基本概念,数据挖掘(ataMining):又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。,4,数据挖掘的发展,“从数据中发现有用模式”历来有很多称法,如:数据挖掘(datamining)知识提取(knowledgeextraction)信息发现(informationdiscovery)信息收获(informationharvesting)数据考古(dataarchaeology)数据模式处理(datapatternprocessing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。,5,数据挖掘的发展,7080年代:知识发现与数据挖掘结合1989年6月:在美国底特律举行了第一届“从数据库中知识发现”的国际学术会议,在这次会议中第一次使用了KDD这个词来强调“知识”是数据驱动(data-driven)发现的最终结果。1995:加拿大召开第一届知识发现与数据挖掘国际学术会议,6,数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如Informix,Oracle,IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等。第一本关于数据挖掘的国际学术杂志DataMiningandKnowledgeDiscovery于1997年3月创刊。国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。,7,DM系统的体系结构(1)DW的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW系统的结构:,用户界面,结果输出,数据挖掘核心,知识库,数据仓库,数据库,文件系统,其他数据源,ODBC或其他专用数据库接口,8,6.2.1数据挖掘步骤:第一步:数据准备;第二步:数据挖掘第三步:评价第四步:巩固和运用6.2.2数据挖掘的对象:6.2.3数据挖掘的任务:,6.2数据挖掘的过程,9,1.数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:数据的选择:选择相关的数据数据的净化:消除噪音、冗余数据数据的推测:推算缺失数据数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等数据的缩减:减少数据量,6.2.1数据挖掘步骤:,10,2.挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。,11,3.评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。,12,4.巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。,13,6.2.2数据挖掘的对象:,根据信息存储格式“用于挖掘的对象有关系数据库;面向对象数据库;数据仓库;文本数据;多媒体数据库;以及全球网web数据.目前用于数据挖掘的数据源主要是关系数据库;数据仓库和全球网web数据.,14,6.2.3数据挖掘的任务,主要有:1.数据约简2.分类3.聚类4.关联规则发现,15,1.数据约简,目的是对数据进行浓缩,给出它的紧凑描述,最简单的数据约简方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值、或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据约简。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。为了不遗漏任何可能有用的数据信息“数据库中所包的数据或信息总是最原始、最基本的信息但人们有时希望能从较高层次的视图上处理或浏览数据因此需要对数据进行不同层次上的泛化以适应挖掘目的要求!数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。多维数据分析方法是一种数据仓库技术,也称作联机分析处理。,16,数据仓库是面向决策支持的集成的稳定的不同时间的历史数据集合。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作。这类操作的计算量特别大,因此一种很自然的想法是:把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库,17,多维数据分析方法进行数据约简,针对的是数据仓库。数据仓库存储静态的历史数据,为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是:直接对用户感兴趣的数据视图(用一般的sql查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先将泛化数据存储在数据仓库中,方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系,有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识:如生成特性规则、判别规则、分类规则以及关联规则等。,18,2.数据分类,分类在数据挖掘中是一项非常重要的任务。目前在商业上应用最多。分类的目的是找到一个分类函数或分类模型。该模型能把数据库中的数据项映射到给定类别中的某一个。分类目的是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和基于事例的学习“对应的知识表示为判别函数和原型事例。,19,机器学习方法包括决策树法和规则归纳法。神经网络方法主要是前向反馈神经网络算法,该算法本质上是一种非线性判别函数。粗糙集理论是一种新的分类方法。其主要原理是在对数据库泛化的基础上,根据对象的属性值的不同将对象分成不同的等价类,然后找出具有相同分类能力,而且简化的属性集合,经过进一步的操作,将获得的知识以产生式规则表示出来。,20,3.数据聚类,聚类是把一组个体按照相似性归成若干类别。即:物以类聚。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法也主要包括统计方法、机器学习方法、神经网络方法。,21,4.关联规则发现,挖掘关联规则主要是针对事务型数据库,特别是售货数据,由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如“可以帮助如何摆放货架上的商品”把顾客经常同时买的商品放在一起“帮助规划市场,减少库存,对市场变化提供预测。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。在事务数据库中存在非常多的关联规则。事实上,人们结合领域知识,选取适当挖掘方法抽取那些满足一定的支持度和可信度的关联规则。,22,6.3数据挖掘的常用方法和技术,通常采用的方法为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中可细分为前向神经网络、自组织神经网络、自组织特征映射、竞争学习等。数据库方法主要是多维数据分析或OLAP方法。另外还有面向属性的归纳方法。,23,数据挖掘常用技术,生物学方法人工神经网络遗传算法信息论方法决策树集合论方法约略集模糊集最邻近技术统计学方法可视化技术,24,生物学方法神经网络方法,神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。,25,生物学方法神经网络方法,神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型:前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。反馈式网络:以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。自组织网络:以ART模型、Koholen模型为代表,用于聚类。,26,生物学方法遗传算法,遗传算法(GeneticAlgorithms,简记为GI):是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。遗传算法的研究历史比较短,是从20世纪60年代末期到70年代初才开始的,当时的一些学者从试图解释自然界中生物的复杂适应过程入手,模拟生物进化的机制来建立人工系统的模型。经过近30的发展,现已取得了理论研究的进展和丰硕的应用成果。目前,以遗传算法为核心的进化算法已与模糊系统理论、人工神经网络等一起成为人工智能研究中的热点,受到许多学科的共同关注。,27,生物学方法遗传算法,遗传算法的研究与生物进化理论和遗传学密切相关。生命的基本特征包括生长、繁殖、新陈代谢和遗传与变异。生命是进化的产物,现代的生物是在长期的进化过程中发展起来的。达尔文提出了用自然选择来解释生物的进化过程,该学说包括遗传、变异、生存斗争和适者生存三个方面。生物进化是非常复杂的,它将涉及诸如染色体、脱氧核糖核酸、遗传因子、种群、基因、进化、选择、复制、交叉、变异、编码与解码等许多名词术语,而且许多现象尚无法用现有的进化理论来解释。,28,生物学方法遗传算法,遗传算法的基本思想:从代表问题的可能潜在解集的一个种群开始,一个种群是由经过基因编码的一定数量的个体组成,每个个体是染色体带有特征的实体,染色体是多个基因的集合,它决定了个体的形状和外部表现;通过模拟基因编码形成初代种群,然后按照适者生存和优胜劣汰的原则逐代演化产生出越来越好的近似解;在每一代,根据问题域中个体的适应度大小进行选择,并借助遗传算子进行组合交叉和变异,从而产生出代表新的解集的种群;以上过程将导致种群象自然进化一样的后代种群比前代种群更加适用于环境,末代种群中的最优个体经过解码可以作为问题的最优近似解。,29,生物学方法遗传算法,遗传算法中的三个基本操作:选择:即通过适应度的计算确定重组或交叉的个体,并确定被选个体将产生多少个子代个体。交叉:又称为基因重组,即结合来自父代种群中的信息产生新的个体。变异:即交叉之后子代的基因按小概率扰动所产生的变化。遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,因此可以应用于函数优化、组合优化、生产调度、自动控制、机器人智能控制、图像处理、模式识别、机器学习、数据挖掘等众多领域。,30,信息论方法,信息论是研究信息的测度及其性质、信息传输和信息处理系统的一般规律的学科分支。其研究内容主要包括:以编码理论为中心的所谓狭义信息论,它研究信息的测度、信息的容量、信源特性、信源编码、信道和信息系统模型等;信号处理技术,它研究信号和噪音分析、信号的过滤与检测,以及有关理论;以计算机为中心的信息处理技术与理论,例如模式识别、自学习理论、自动机器翻译等。在数据挖掘中,决策树(decisiontree)是一种广泛使用的图解法决策分析工具,它把影响各行动的有关因素(自然状态、概率、损益值等)用树型图表示,可直观形象地表示出各条件和所允许的行动以及各种结果中间的关系。,31,决策树方法,决策树:用树结构表示决策集,这些决策产生规则,用于对数据集进行分类。决策树的建立:利用训练集生成一个测试函数,根据不同取值建立树的分支,再在每个分支子集中重复建树的分支的过程,即可建立决策树。然后对决策树进行剪枝处理,即可得到规则。典型的决策树方法:ID3、分类回归树(CART)、C4.5等。,32,集合论方法约略集,约略集(RoughSet)又称为粗糙集和粗集,是由波兰华沙理工大学Z.Pawlak教授等提出的研究不完整数据、不精确知识的表达、学习和归纳的理论与方法。约略集方法与使用统计学方法或模糊集合论方法处理不精确数据的方法不同,它是以对观察和测量所得数据进行分类的能力为基础的,为智能信息处理提供了有效的理论基础和处理技术。,33,集合论方法约略集,约略集理论是Z.Pawlak于1982年在计算机与信息科学国际杂志上发表的论文“RoughSets”中首先提出的一个分析数据的数学理论。在分类的意义下,这个理论定义了模糊性与不确定性的概念,由于最初的研究大多是用波兰文发表的,因此,这项研究在当时并未引起国际计算机学界的重视,研究地域局限在东欧各国。到了80年代末,这个理论引起了世界各国学者的注意,人们对约略集理论的主要兴趣在于它恰好反映了人们以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。如医学、药学、工业、工程技术、控制系统、社会科学、地球科学、开关电路、图象处理和其他许多方面都已经成功地实现了它的应用。,34,精确集与约略集,令U是全域,XU,若X是任意基本集的并,则X是R(区分关系)可定义的,否则是R不可定义的;R可定义集也称作R精确集(RExactSets),它在U的知识库中可以被定义,而R不可定义集不能在该知识库中定义,称为R非精确集(RInexactSets)或R约略集(RRoughSets)。,35,约略集上近似与下近似,约略集的基本观点:用一个二元关系来建构集合的近似。信息系统S=(U,T,V,)的不可区分集合RB(x)(在约略集理论中即等价类xB)是用来近似任何子集XU的基石。如果用属性B不能精确地定义集合X,这时可以考虑用等价关系B导出的等价类近似地定义集合X,给出集合X的下近似和上近似的定义。根据X的上下近似,可以将U分为三个区域:正区域,负区域和边界区域。,36,概念X的上下近似图解,37,集合论方法约略集,约略集理论用于分类规则挖掘:发现不精确数据或噪声数据的内在结构联系。其基本思想是建立样本数据内部的等价类,而这些等价类是按照下近似和上近似“约略地”定义的。对于每一个等价类可以产生相应的判定规则,对于下近似可建立确定性规则,对于上近似可建立不确定性规则(含可信度),并用判定表表示这些规则。约略集理论用于特征归约和相关分析:找出描述给定数据集中所有概念的最小属性子集。约略集理论用于属性化简及其规则筛选:减少数据库系统中的冗余属性,提高数据库中所隐含知识的可理解性。,38,集合论方法模糊集方法,模糊性是客观存在的,系统的复杂性越高,精确化能力就越低,也就意味着模糊性越强。在进行分类规则挖掘时,如果采用精确值作为阈值或边界是比较苛刻的,引入模糊集的隶属函数后可以使分类更加接近于现实。基于模糊集理论的分类方法通常需要将属性值转换为模糊值,然后使用模糊规则对给定样本数据进行分类。模糊集合理论还可以用于对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析等。,39,统计学分析方法,在数据挖掘中,统计学可应用于预测、聚类规则挖掘和时序数据的趋势分析等。预测是数据分析的一种重要形式,通过建立连续值函数模型,可以预测数据的未来变化趋势。连续值的预测可以使用统计学中的回归统计技术建模,如线性回归、多元回归、非线性回归、广义线性回归(对数回归、泊松回归等)。许多问题可以用线性回归方法解决,而更多的问题则可以对变量进行变换,使得非线性的问题转换为线性的问题加以处理。,40,统计学分析方法预测,在数据属性之间存在两种关系:函数关系:能用函数公式表示的确定性关系,可以采用回归分析的方法;相关关系:不能用函数公式表示,但仍是相关确定的关系,可以采用相关分析和主成分分析等方法。,41,统计学分析方法聚类分析,统计学方法还可以应用于基于模型的聚类分析。例如,概念聚类是一种基于模型的聚类方法,它对于一组为标记的对象,产生一个分类模式。这种聚类不仅能够确定相似对象的分组,还可以发现每一个分组的特征描述,即每一个分组代表了一个概念或类。概念聚类的大多数方法采用了统计学的途径,在决定概念或聚类时使用概率度量,用概率描述导出的概念。,42,可视化技术,可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚、更直观。例如,把数据仓库中的多维数据或者把由数据挖掘获得的模式和规则变成多种图形,这对揭示数据的状况、内在本质及规律性起到了重要的作用。,43,数据挖掘的类型建立预测模型,预测(prediction):是构造和使用模型评估给定的样本数据可能具有的属性值或值区间。离散数据的预测:可以使用分类分析的方法连续数据的预测:可以使用回归分析的方法。用于建立预测模型(PredictiveModeling)的常用方法:线性回归多元回归非线性回归广义线性模型(对数回归和泊松回归)决策树预测遗传算法和神经网络,44,数据挖掘的类型,关联规则挖掘:给定一组Item和记录集合,挖掘出Item间的相关性。参数:最小置信度、最小支持度特征规则挖掘:又称为特征抽取或数据概括,即从数据库中将大量相关数据由低层抽象到高层的过程。方法:数据立方体法、面向属性归纳法。分类规则挖掘:找出分类特征(显式的或隐式的),按特征分类记录方法:分类树、学习系统,45,数据挖掘的类型,聚类规则挖掘:对具体的或抽象的对象按相似程度分类记录的过程。方法:随机搜索聚类法特征聚类CF树基于划分的聚类法基于密度的聚类法,46,数据挖掘的类型,序列模式挖掘:又称为因果规则挖掘,即分析数据间的前后(因果)关系参数:最小置信度、最小支持度模式相似性挖掘:在对时间数据库或空间数据库中搜索相似模式。方法:模式匹配相似性搜索,47,数据挖掘的类型Web数据挖掘,Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。Web数据挖掘包括Web使用模式挖掘、Web结构挖掘和Web内容挖掘等。基于Web数据挖掘的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。,48,Web数据挖掘,Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。,49,6.4数据挖掘的知识表示,知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识。知识表示是知识组织的前提和基础,任何知识组织方法都是要建立在知识表示的基础上。目前普遍应用的传统知识表示方法有一阶谓词逻辑表示法、产生式表示法、框架表示法、脚本表示法、语义网络表示法等。知识的表示形式有:规则、决策树、知识基(浓缩数据)、网络权值、公式和案例。,50,知识是智能的基础。为了使计算机具有智能,使它能模拟人类的智能行为,就必须使它具有知识。但知识是需要用适当的模式表示出来才能存储到计算机中去的,因此关于知识的表示问题就成为人工智能中的一个重要的研究课题。,知识定义、分类及表示,51,知识(knowledge)知识是人们在长期的生活及社会实践中积累起来的对客观世界的认识与经验,人们把实践中获得的信息关联在一起,就获得了知识。如:把“大雁向南飞”与“冬天就要来临了“这两个信息关联在一起,得到了如下一条知识:“如果大雁向南飞,则冬天就要来临了。”,52,知识反映了客观世界中事物间的关系,不同事物或者相同事物间的不同关系形成了不同的知识。如:“雪是白色的”是一条知识,它反映了雪与颜色之间的关系。在人工智能中,这种知识称为“facts”。而“如果头疼且流鼻涕,则可能是患了感冒“,反映了头疼流鼻涕与感冒之间的一种因果关系。在人工智能中,这种知识,即用“如果则”关联起来的知识称为“rules”。,53,人们所涉及到的知识是十分广泛的。有的属多数人所熟悉的,有的只是有关专家才掌握的专门领域知识。对于“知识”难以给出明确的定义,只能从不同侧面加以理解。Feigenbaum认为知识是经过削减、塑造、解释和转换的信息。简单地说,知识是经过加工的信息。Bernstein说知识是由特定领域的描述、关系和过程组成的。Hayes-Roth认为知识是事实、信念和启发式规则。,54,从知识库观点看,知识是某论域中所涉及的各有关方面、状态的一种符号表示。知识可从(范围,目的,有效性)加以三维描述。其中知识的范围是由具体到一般知识的目的是由说明到指定知识的有效性是由确定到不确定。例如“为了证明AB,只需证明AB是不可满足的”这种知识是一般性、指示性、确定性的。而像桌子有四条腿这种知识是具体的、说明性、不确定性的。,55,2.知识的特性,(1)相对正确性(RelativelyCorrect)知识是人们对客观世界认识的结晶,并且受到长期检验。因此在一定条件和环境下,知识一般是正确的,可信任的。这里的一定条件和环境是必不可少的,是知识正确性的前提。(2)不确定性(Uncertainty)知识并不总是只有“真”与“假”这两种状态,而是在“真假”之间存在很多中间状态,知识的这一特性称为不确定性。,56,知识不确定性的原因很多。概括起来有以下几种:由随机性引起的不确定性由模糊性引起的不确定性由不完全性引起的不确定性由经验引起的不确定性(3)可表示性与可利用性(RepresentationandUtility)知识是可用适当形式表示出来的,如:语言、文字、图形、神经网络等,所以它才得以被存储并被传播;知识当然也可被利用,我们时时都在利用它解决各种问题。,57,按知识的作用范围分:常识性知识,领域性知识。常识性知识人们普遍知道的知识,适用于所有领域;领域性知识面向某个具体领域的知识,是专业性知识,专家系统主要是以领域性知识为基础建立起来的。,3.知识的分类,58,按知识的作用及表示分:事实性知识,过程性知识,控制性知识事实性知识(陈述性知识)用于表示描述领域内有关概念、事实、事物的属性及状态等;事实性知识一般采用直接表达的形式,如用谓词公式表示等。过程性知识主要指领域知识,用于指出如何处理与问题相关的信息以求得问题的解,由领域内的规则、定律、定理及经验构成;其表示方法既可以是一组产生式规则,也可以是语义网络等。,59,控制性知识又称深层知识或元知识,是关于如何运用已有的知识进行问题求解的知识,又称“关于知识的知识”。例如问题求解中的推理策略(正向推理及逆向推理);信息传播策略(如不确定性的传递算法);搜索策略(广度优先、深度优先、启发式搜索等);求解策略(求第一个解、全部解、严格解、最优解等)。,60,按知识的确定性来分:确定性知识,不确定知识确定性知识可以指出其值为“真”或“假”的知识,是精确性知识;不确定性知识指具有“不确定”特性的知识,它是对不精确、不完全及模糊性知识的总称。,61,按知识的结构及表现形式:逻辑性知识,形象性知识逻辑性知识反映人类逻辑思维过程的知识,如人类的经验性知识。这种知识一般都具有因果关系及难以精确描述的特点,它们通常是基于专家的经验,以及对一些事物的直观感觉。在下面讨论的知识表示方法中,一阶谓词逻辑表示法,产生式表示法都是用来表示这种知识的;形象性知识在人类的思维中,还有一种是形象思维,通过事物的形象(如:一棵树,看过之后在脑子里建立起的概念)建立起来的知识,成为形象性知识。目前人们正在研究利用神经元网络连接机制来表示这种知识。,62,从抽象、整体的观点来分:零级知识,一级知识,二级知识零级知识指问题领域内的事实、定律、定理、方程等常识性知识和原理性知识;一级知识具有经验性和启发性的知识;二级知识如何运用上述两级知识的知识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 品牌定位策略与市场营销精准化的结合路径
- 保温装饰装修材料的耐久性与长期节能效益评估
- 利用乡土资源提升学生科学探究能力的策略
- 提升国际营销能力开拓多元化市场渠道
- 跨学科整合促进小学英语词汇学习的多元化
- 枸杞产业融资支持与资本运作分析
- TPO防水材料施工安全管理与施工效率研究
- 计算机中级职称考试试题及答案
- 创新驱动发展与高科技产业培育
- 产教融合背景下的课程体系改革
- 食品生物技术导论ppt课件
- 水利工程设计标准化管理手册
- 非油气探矿权变更延续申请登记书
- 鱼塘补偿协议书范文
- 蓝花花钢琴谱
- 印度白内障小切口手术学习笔记
- 卢春房副部长讲话《树立质量意识,强化风险控制,持续纵深推进铁
- 成型周期公式及计算
- 第11章分析化学中的分离与富集方法
- 管桩垂直度检测报告
- FMEA培训资料(PPT 57页)
评论
0/150
提交评论