知识工程及应用 课件全套 第1-7章 绪论、知识获取-基于知识的系统及应用_第1页
知识工程及应用 课件全套 第1-7章 绪论、知识获取-基于知识的系统及应用_第2页
知识工程及应用 课件全套 第1-7章 绪论、知识获取-基于知识的系统及应用_第3页
知识工程及应用 课件全套 第1-7章 绪论、知识获取-基于知识的系统及应用_第4页
知识工程及应用 课件全套 第1-7章 绪论、知识获取-基于知识的系统及应用_第5页
已阅读5页,还剩310页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论知识及其演进知识工程及其发展主要内容大数据环境下知识工程挑战制造企业知识工程知识及其演进知识的定义《现代汉语调典》中的解释:知识是人们在改造世界的实践中所获得的认识和经验的总和。《韦伯斯特词典》中的解释:知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认识,是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总和。知识及其演进知识的定义《中国大百科全书·教育》中的“知识”:就它反映的内容而言,是客观事物的属性与联系的反映,是客观世界在人脑中的主观映象。现代认知心理学认为:知识是存在于人的大脑皮层中有组织地呈现的东西,是信息在记忆中的存储、整合和组织。知识是经过组织的信息,是结构化信息网络或系统的一部分。知识及其演进知识的定义在人工智能领域,知识是经过消减、塑造、解释和转换的信息,是信息接受者通过对信息的提炼和推理而获得的正确结论,由特定领域的描述、关系和过程组成。图书馆学认为:知识不仅存在于人的大脑之中,还存在于书籍、地图、磁带等不断更新的载体之中。知识是某种论域的某些方面的符号表达,是某种论域的某些方面的一种模型。知识及其演进数据、信息、知识、智能、智慧知识及其演进数据、信息、知识、智能、智慧知识及其演进知识的分类1)含义——广义知识和狭义知识。2)作用范围——常识性知识和领域性知识。3)性质——陈述性知识和程序性知识。4)形式——隐形知识和显性知识。5)来源——直接知识和间接知识。6)深度——感性知识与理性知识。7)属性——物化知识与非物化知识。8)内容——有自然、社会、思维、人文、管理、研发、生产等不同类别的知识。知识工程及其发展知识工程的提出1977年,美国斯坦福大学人工智能专家费根鲍姆教授(E.A.Feigenbaum)在第五届国际人工智能会议上首次提出了“知识工程”的概念。利用自动机对知识进行获取,不操作和利用的工程称之为知识工程。知识工程是利用人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。恰当运用专家知识的获取、表达和推理过程的构成与解释是设计基于知识的系统的重要技术问题。知识工程及其发展知识工程的发展知识工程及其发展新一代知识工程传统的知识工程面临着的两个主要困难:(1)知识获取困难:隐性知识、过程知识难以表达。(2)知识应用困难:知识表示的规模有限,难以适应

大规模开放应用的需求。传统知识工程与知识管理、大数据相结合被称为新一代的知识工程,是依托IT技术,最大程度的实现信息关联和知识关联,并把关联的知识和信息作为企业智力资产,以人机交互的方式进行管理和利用,在使用中提升其价值,以此促进技术创新和管理创新,提高企业核心竞争力,推动企业持续稳定发展的全部相关活动。知识工程及其发展知识工程的研究内容基础研究:知识工程中的基础理论与方法的研究,主要包括知识的获取、知识的表示以及知识的运用和处理。实际知识系统的开发研究:知识工程的研究目标是构造高性能的知识系统,实际知识系统的开发研究内容有实用知识获取技术,知识系统体系结构、实用知识表示方法和知识库结构,实用推理和解释技术,实用数据库、知识库管理技术,知识系统调试、分析与评价技术,知识系统的硬件环境等。知识工程及其发展知识工程的研究内容知识工程环境研究:包括知识工程的基本支撑硬件和软件、知识工程语言、知识获取工具、系统骨架工具和知识库管理工具等。企业知识工程体系建设与实施方法研究:主要包括知识群化、知识外化、知识整合、知识内化、知识应用和知识创新。在知识工程过程中,知识不断地被群化、外化、整合和内化,显性知识和隐形知识在不同阶段螺旋形动态转化和上升,随时可用于企业的各项活动和创新。大数据环境下知识工程挑战(1)知识表示方面,如何使知识既具有显式的语义定义,又便于大数据环境下的知识计算与推理。(2)知识获取与融合方面,如何在知识稀疏和大数据环境下研究知识引导的知识获取方法,获得大规模和高精度的知识,碎片化知识的刻画和融合。

(3)在知识计算和推理方面,研究深度学习和逻辑规则相结合的知识推理和演化方法,以提升新知识发现的能力。制造企业知识工程知识与企业能力企业信息化与企业知识化企业知识化的核心是对知识进行不断开发、持续创新、高效管理和广泛应用,解决这一问题最有效的办法就是全面实现企业管理信息化、智能化、集成化,以最快的时间、最高的性价比提供满足用户要求的个性化产品。企业核心能力来自于独特的、异质的、路径依赖的、不易为外界获取和模仿的知识体系。企业如何进行知识管理,即如何获取、创造、运用知识成为企业核心能力培育的关键问题。制造企业知识工程企业知识管理知识工程与智能制造知识是实现智能的基础。智能制造即把人的智能从隐性知识提炼为显性知识,进行模型化、算法化处理,再把各种模型化的知识嵌入到物理设备中,由此而赋予机器一定的自主能力,让机器具有一定程度的“智能”。知识管理的核心是知识,它的对象是人和组织,知识管理是在组织中构建一个知识系统,通过知识的获取与积累、内化共享、应用的循环,使人与知识紧密结合,创造集体智慧,从而提高创新能力,以帮助企业做出正确决策,应对市场变迁。谢谢!第二章知识获取同济大学“智能制造工程专业联盟”教材编委会概述数据挖掘主要内容机器学习Web挖掘文本挖掘图挖掘应用案例概述第一节概述一、知识获取的概念

二、知识获取的来源三、知识获取的过程四、知识获取的主要方法五、基于神经网络的知识获取方法概述一、知识获取的概念

知识获取是将某种知识源的专门知识转换为计算机中知识采用的表示形式。这些专门知识是关于特定领域的特定事实、过程和判断规则,而不包括有关领域的一般性知识或关于世界的常识性知识。

知识获取是构造知识系统的关键和主要工作,包括获取事实和规则、从规则中演绎新的事实,精炼和维护知识,构建知识系统需要的完整的、一致的知识库。概述通常情况下,知识获取工作的完成需要由相关专家和知识工程师(分析员)全力配合,共同完成。20世纪七八十年代的传统知识工程时期所采用的知识都是由知识工程师进行手工处理的,这就要求知识工程师具有专家的知识水平,而且知识工程师常常把推理和专家知识结合到整个程序中。如今,知识系统通常将推理过程与知识分开,并将知识放入知识库中。知识工程师的工作是帮助专家建立知识系统,其重点是知识获取。知识工程师最困难的任务是帮助专家完成知识转换,构建领域知识以及统一和形式化领域中的概念。专家也可以通过智能编辑程序将其知识直接转换为可以在计算机中运行的知识。编辑程序必须具有启发式对话的能力,并且可以将获取的知识存储在知识库中。概述

为了加快知识获取的过程,有必要选择合适的知识获取工具。知识获取工具可以是简单的程序,也可以是复杂的系统。简单的知识获取工具就是一种知识库编辑程序,其功能如下:1)简化知识库的输入并自动进行一些记录工作。2)检查语法以避免输入和语法错误。3)保持知识库的一致性和完整性。复杂的知识获取工具还应有如下功能:1)根据现有知识库中的信息,协助完成知识库的输入和求精。2)直接同领域专家展开会谈并提取相关领域知识。3)能够动态地检查知识库的一致性与完整性。4)机器学习的功能。概述二、知识获取的来源1、在企业内部获取知识

(1)对现有的已掌握的知识进行收集整理

1)面向人的知识源来做收集工作

2)面向文献资料的知识源来做收集工作

(2)对未来日常工作所产生的知识进行收集整理2、从企业内网服务器挖掘文档资料3、从外购专利库中获取知识4、互联网上获取知识5、从电子布告栏(BBS)中获取知识概述三、知识获取的过程

知识获取的整个过程可以大致分为四个阶段,这四个阶段之间存在着重叠和反复。1、明确问题的性质,建立问题求解模型

此阶段的目的是建立一个粗略的问题解决模。在此阶段,知识工程师和领域专家应密切合作,以确定问题的性质、系统的作用,并梳理解决问题的专家思路。

以下问题通常在这一阶段需要着重考虑:

(1)问题求解的目标及其类型;

(2)问题是如何划分成子问题的;

(3)问题求解中涉及的主要概念及它们的关系;

(4)信息流的特征,哪些信息是由用户提供的,哪些信息是应当导出的;

(5)问题求解策略。

在此阶段,知识工程师利用与领域专家的联系来熟悉领域知识并建立该领域的重要概念,从而为下一步工作做好准备概述2、确定知识表示形式,建立问题求解的基本框架

此阶段是形式化领域知识的过程。在此过程中,有必要对关键概念、信息流特征和子问题进行形式化,并根据问题的性质选择合适的系统框架或专家系统构建工具。形式化过程中有三个主要因素:假设空间、基本过程模型和数据表征。为了理解假设空间的结构,必须对概念进行形式化,确定它们之间的关系,并确定概念的粒度和结构。因此应该关注以下问题:(1)将概念描述为结构化对象或将其视为基本实体;(2)概念之间的因果关系或时空关系是否重要,是否应明确表达,以及假设空间是否有限;(3)假设空间由预定类型组成或通过某种过程生成;(4)是否应考虑假设的层次;(5)是否存在与最终假设和中间假设有关的不确定性或其它决定性因素;(6)是否应考虑不同的抽象级别。概述3、实现知识库,建立原型专家系统

在形式化阶段,已经明确了知识表示形式和问题求解策略,同时也已经选定了系统框架或构造工具,接下来便是把前一阶段形式化的知识映射到选定的表示框架中。前一阶段产生的形式化知识与选定的表示框架所要求的数据结构、推理规则与控制策略可能有不匹配之处,这一阶段要消除这些不匹配实现原型知识库。如果这些不匹配不能消除,则要考虑重新选择系统框架或构造工具。4、测试与精炼知识库这一阶段的任务是通过运行实例发现知识库和推理机制的缺陷。通常出现的导致性能不佳的因素有以下几种:(1)输入输出特性,即数据获取与结论表示方面存在缺陷。例如:含义模糊、提问难于理解,使得存在错误或不充分的数据进入系统。结论过多或者太少,没有适当地组织和排序,或者详细的程度不适当。(2)推理规则有错误、不一致或不完备。(3)控制策略有问题,不是按专家采用的“自然顺序”解决问题。概述

在测试过程中,实例的选择应考虑到所有方面,包括“典型”情况和“边缘”情况。根据测试结果,确定是否修改原型系统。修改过程包括重新实现、重新形式化,甚至重新定义问题的性质。测试和修改过程可以重复进行,直到系统达到令人满意的性能,这一过程被称为求精。求精过程可大致分为五个步骤,如下图所示。概述四、知识获取的主要方法

知识获取是知识工程师和领域专家共同合作的过程,可以分为交互式和非交互式知识获取过程。交互式(也称为主动式)是当知识工程师提出询问时,领域专家回答,在交互中获取领域知识。非交互式(也称为被动式)中知识工程师不会干扰领域专家的工作,而是以观察方式获取领域知识。这种获取知识的方式比交互式更难,但在某些情况下只能用这种方式完成。以下是知识获取的一些主要方法。

1、面谈法

2、模拟法

3、口语记录分析

4、多维度量法

5、概念分类法

上述每种方法都有其自身的特点,但也有其局限性。由于人类专家知识的多样性和复杂性,经常需要采用多种不同的方法来提取专家知识。概述五、基于神经网络的知识获取方法

常用的实现知识自动获取的方法是基于神经网络的知识获取方法,该方法能够有效解决专家系统的知识获取瓶颈问题。人工神经网络是一种具有自组织、自学习和自适应特点的大规模信息并行处理系统,能够在智能系统中很好地自动获取知识,即通过实例学习获取知识,基于神经网络的知识求精以及从神经网络提取规则知识。1、通过学习获取知识

神经网络通过学习训练实现知识获取。学习过程是先根据应用问题选择神经网络的模型和结构,再选择学习算法,对求解问题有关的样本进行学习,通过学习调整神经网络的联接权值,完成知识的自动获取。

目前,知识获取最常用的神经网络是采用BP算法的多层前馈神经网络,它由输入层、隐含层和输出层构成。其中隐含层可以有一层或多层,相邻层的神经元之间相互连接,但同一层的神经元之间不相互连接。输入信号从输入层向前传播到输出层,成为输出信号,这种神经网络也常被称为BP神经网络。概述概述2、基于神经网络的知识求精

知识求精是知识获取不可缺少的一步。通常情况下,得到的初始知识库常常存在一些问题,比如知识不完全、知识之间不一致、有的知识不正确等,因此需要对初始知识库调试、修改与补充。

基于神经网络的知识求精方法的流程如图2-3所示,图中的初始规则集即初始知识库,训练样本即专家例证,由3个步骤组成:第1步:将初始规则集转化为初始神经网络。第2步:用训练样本和学习算法训练初始神经网络,也就是知识的求精过程。第3步:提取求精后的规则知识。概述3、从神经网络中提取规则

通过神经网络获取的知识是分布式的、隐式的、难于理解的,因此从神经网络提取规则十分重要,下面介绍一种用神经网络来获取规则知识的典型方法。首先用如图2-4

所示的三层BP神经网络来学习训练样本,并用公式(2-1)获取输出节点b和输入节点a之间的逻辑相关程度度量(越小,a和b之间相关程度越大)

式中,是原始输入节点a和隐含层节点j之间的连接权值,是附加输入节点b(对应于某个输出节点)和隐含层节点j之间的连接权值。

然后用一个如图2-5所示的单层神经网络对样本进行学习,获取输出节点b与输入节点a之间的逻辑不相关(无关)程度度量Weightab;最后将Weightab和SSEab的乘积Productab作为a和b之间的因果关系度量。若Productab接近于0,则a是b的逻辑前提,将b的所有逻辑前提(ai)进行“逻辑与”,得到如下的逻辑规则:概述数据挖掘第二节数据挖掘一、

数据挖掘概述

二、

数据挖掘的构成和分类

三、

数据挖掘的方法四、

数据挖掘的过程五、

数据挖掘的发展数据挖掘一、数据挖掘概述数据挖掘起源于知识发现(KnowledgeDiscoveryinDatabase,KDD),是知识发现的一个关键步骤。1989年8月,GregoryI.Piatetsky-Shapiro等人在美国底特律的国际人工智能联合会议首次提出知识发现和数据挖掘的概念。知识发现的过程是一种以知识用户为中心的人机交互探索过程,通过从数据中识别有效的、潜在有用的、最终可理解的模式。它包括数据清理、数据集成、数据过滤、数据转换、数据挖掘、模式评估、知识表示和其他处理过程。每个步骤相互影响并形成一个螺旋上升的过程。数据挖掘是知识发现最重要的一步。有时可以不加选择地使用知识发现和数据挖掘。数据挖掘数据挖掘二、数据挖掘的构成和分类一个典型的数据挖掘系统由以下主要部分组成:(1)数据仓库或其他信息库:这是一个或一组数据库、数据仓库、展开的表或其他类型的信息库,可以在数据上进行数据清理或集成。(2)数据库或数据仓库服务器:根据用户的数据挖掘请求数据库或数据仓库服务器负责提取相关数据。(3)知识库:领域知识,用于指导搜索或评估结果模式的兴趣度。(4)数据挖掘引擎:这是数据挖掘系统最基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类、演变和偏差分析。(5)模式评估:该部分通常使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上,它是使用兴趣度阈值过滤发现的模式。(6)图形用户接口:该模块使用户和挖掘系统对接,允许用户与系统进行交互,制定数据挖掘查询或搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式进行可视化处理。数据挖掘三、数据挖掘的方法

利用数据挖掘进行数据分析常用的方法或关键技术主要有:关联分析、时序模式、聚类、分类、偏差检测和预测等6项,它们分别从不同的角度对数据进行挖掘,用于描述对象内涵、概括对象特征、发现数据规律、检测异常数据等。1、关联分析关联分析是从数据库中发现知识的一种重要方法。若两个或多个数据项的取值之间重复出现且概率很高时,那么就可以断定它们之间存在着某种关联,因而可以建立起这些数据项的关联规则。2、时序模式通过时间序列发现具有高重复概率的模式,并在此强调时间序列的影响。在时序模式下,有必要找出一个规则,即在一定的最短时间内该比率始终高于一定的最小百分比(阈值)。数据挖掘4、分类

分类在数据挖掘中使用最广泛。在聚类的基础上,分类是找出所确定类的概念描述,该类描述表示此类数据的整体信息。通常,它由规则或决策树模式表示,可以将数据库中的元组映射到给定类别。5、偏差检测

数据库中可能存在很多异常情况,因此找到这些异常情况以引起人们的注意也很重要。偏差包括以下内容:分类异常示例、模式异常、观测结果与模型预测的偏差、量值随时间变化。6、预测预测是使用历史数据找出变化规律,建立模型,并使用该模型预测未来数据的类型和特征的手段。3、聚类

数据库中的数据可以根据其内部的距离关系划分为一系列有意义的子集,即类。简而言之,就是在原本没有划分类别的数据集中,根据其内容的“距离”的概念集成了多个类别。在同一类别中,个体之间的距离较小,而在不同类别中的个体之间的距离较大。数据挖掘四、数据挖掘的过程一般来说,数据挖掘过程有五个步骤:确定挖掘目的、数据准备、进行数据挖掘、结果分析、知识的同化。图2-7

数据挖掘过程有五个步骤数据挖掘五、数据挖掘的发展目前,对KDD的研究主要围绕理论、技术和应用这三个方面展开。多种理论与方法的合理整合是大多数研究者采用的有效技术。

21世纪以来国内外数据挖掘的新发展主要是对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD中的应用;对海量数据的处理;将粗糙集和模糊集理论融合用于知识发现;以及研究中文文本挖掘的理论模型与实现技术等。

在应用构造智能专家系统方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心。使用数据挖掘技术解决大型或者复杂的应用问题是数据挖掘研究领域重要的任务。机器学习第三节机器学习一、

机器学习概述二、

机器学习的发展三、

机器学习的方法四、

机器学习的过程五、

机器学习在数据挖掘领域的应用机器学习一、机器学习概述

机器学习(MachineLearning)是一种研究学习的理论,其通过计算机模型,模拟或实现人类的学习行为,给予计算机学习能力,进而获取新的知识或技能,或者重新组织已有的知识结构,使之不断改善自身性能的过程、原理和方法。机器学习是人工智能的研究核心,是计算机具有智能的重要标志。机器学习也是一种知识获取手段,由计算机取代部分知识工程师和领域专家的工作。

人们研究机器学习的目的主要是希望理论上能够从认知科学的角度研究人类学习的机理,工程上开发具有学习能力的计算机系统。二、机器学习的发展数值表示和参数调整概念学习和语言获取归纳学习、类比学习等神经网络知识发现和数据挖掘20世纪50年代中期20世纪60年代初期20世纪70年代中后期20世纪80年代中后期21世纪初期机器学习三、机器学习的方法

与人类有着多种多样的学习方法一样,机器学习也有很多方法。根据机器学习所采用的学习策略、知识表示方法及其应用领域,可把机器学习方法划分为6类:1、机械学习(rotelearning)2、通过采纳建议学习(learningbyadvicetaking)3、通过例子学习((learningfromexamples)4、通过类比学习(learningbyanalogy)5、基于解释的学习(explanation-basedlearning)6、通过观察学习((learningfromobservationanddiscovery)机器学习四、机器学习的过程机器学习系统的一般结构。机器学习五、机器学习在数据挖掘领域的应用

在大数据环境中,机器学习算法的设计与实现涉及很多方面,包括分布式计算,数据流技术,云技术等。结合这些技术,机器学习算法可以有效地处理数亿个数据对象,并快速训练模型,从而获得有价值的知识。机器学习技术已广泛用于企业数据挖掘中,例如推荐系统、智能语音识别、搜索引擎等。大数据的发展,关键技术和评估指标的开发与研究对机器学习方法的研究工作提出了新的挑战和要求。

当前,大数据技术已广泛应用于电信、金融和医疗保健等许多行业和领域。在实际应用中如何从高维、稀疏、异构和动态的大数据中获取模式,迫切需要深层机器学习的理论和技术来进行指导。由此,可以预见,以下几个领域必然会受到未来的机器学习研究的关注:(1)超高维数据采样和特征提取。(2)借助Hadoop和Spark等分布式计算平台设计和实现分布式机器学习算法。(3)研究机器学习算法的泛化能力,执行效率和可理解性。Web挖掘第四节Web挖掘一、

Web挖掘概述二、

Web挖掘的分类三、

Web挖掘的过程四、

Web挖掘技术的应用Web挖掘一、Web挖掘概述

随着Internet/Web技术的快速普及和发展,如何在这个全球最大的数据集合中发现有用信息,成为数据挖掘研究的热点,由此产生了Web挖掘。Web挖掘是指通过数据技术在万维网(WWW)数据中发现潜在和有用的模式或信息。Web挖掘研究涵盖了许多研究领域,包括数据库技术、信息获取技术、统计、机器学习和神经网络等。与传统的数据和数据仓库不同,Web上的信息是半结构化或非结构化的,并且是动态的,易于混淆。它必须经过必要的数据处理,否则很难直接从网页上进行数据挖掘。二、Web挖掘的分类

根据在挖掘过程中使用的数据类别不同,Web挖掘通常可以被分成如下三种类别:Web内容挖掘、Web用法挖掘、Web结构挖掘。

Web内容挖掘是一个从Web内容、数据、文档中获取潜在的、有价值的知识或模式的过程。Web用法挖掘是挖掘用户访问时Web在服务器留下的访问记录,挖掘的对象是保留在服务器上的日志信息,也称Web访问信息挖掘。Web结构挖掘是从WWW的组织结构和链接关系中获取知识,主要通过对网站结构的分析、变形和归纳,对网页进行分类,以方便信息搜索。Web挖掘三、Web挖掘的过程

1.查找资源:从目标Web文档中得到数据,除了在线Web文档,还包括电子邮件、电子文档新闻组以及网站的日志数据,甚至是通过Web形成的交易数据库中的数据。

2.信息选择和预处理:从取得的Web资源中剔除无用信息,并对信息进行必要的整理。例如,从Web文档中自动去除广告链接,去除多余格式标记、自动识别段落或字段并将数据组织成规整的逻辑形式甚至是关系表。

3.模式发现:在同一个站点内部或在多个站点之间自动进行模式发现。

4.模式分析:验证、解释上一步骤产生的模式。该任务可以是机器自动完成,也可以是与分析人员进行交互完成Web挖掘四、Web挖掘技术的应用当前,Web数据挖掘的研究重点已从理论转向应用,Web数据挖掘在以下实际生活领域被普及:(1)电子商务(2)网页搜索(3)知识定向服务(4)政府部门文本挖掘第五节文本挖掘一、

文本挖掘的概述二、

文本挖掘的发展三、

文本挖掘的方法四、

文本挖掘的过程五、

文本挖掘的研究与应用文本挖掘一、文本挖掘的概述

文本挖掘是指从文本文件中提取有价值的知识,并利用它更好的组织信息的过程。通过使用基于案例的推理,可能性理解和其他神经网络智能算法,并结合文字处理技术,通过分析大量非结构化文本源(例如文档、电子表格、客户电子邮件、网页等),提取或标记关键字的概念以及文字之间的关系,根据内容对文档进行分类,从而发现和提取隐藏的未知知识,最终形成用户可以理解的有价值的信息和知识。文本挖掘是知识获取的一个分支,是人工智能研究领域中自然语言理解和计算机语言学的结合用于基于文本信息的知识发现,是一个跨学科领域,涉及许多技术,例如数据挖掘、信息检索、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率论和图论等。二、文本挖掘的发展

文本挖掘的产生主要是人们发现传统的信息检索技术不能满足海量数据的处理需求。特别是随着互联网时代的到来,用户可以获得大量的非结构化文本数据,包括技术数据、业务信息、新闻报道、娱乐信息和其他类别的文档,这些数据构成了一个巨大的异构开放的分布式数据库。文本挖掘三、文本挖掘的方法

目前,对于自然语言处理的方法主要包含三类:基于语言学和人工智能的方法、基于语料库和统计语言模型的方法、混合的方法。第一种方法是一种理性主义方法,又称为基于规则的方法;第二种方法是一种经验主义方法,又称为基于统计的方法;混合的方法是指理想主义方法和经验主义方法的有机结合。从语句分析的角度讲,文本知识获取的方法主要有两种:基于语句分析的方法和基于语境的方法。文本分析法首先对文本进行词性标注,然后将出现频率高的词语识别为领域概念,最后人工验证概念以及人工标注。从学习的角度讲,文本知识获取方法主要有机器学习方法和基于记忆的方法。采用的机器学习算法主要有:关联学习算法和自底向上学习算法。四、文本挖掘的过程文本挖掘处理主要经过三个阶段:文档预处理、特征信息提取和数据挖掘。文本挖掘五、文本挖掘的研究与应用

拉丁语系国家的研究人员最早展开了对文本挖掘的研究。他们的研究主要包括了诸如文本的表示方法以及对相关模型的建立;结合自然语言理解领域的基础进行更深层次语义挖掘的相关研究;针对文本数据高维性问题的特征提取以及降维方法的研究;针对目标特点选择不同类型的挖掘算法,来解决文本的分类、聚类问题;结合不同领域的文本挖掘的应用,如应用在金融证券领域的股票预测、科学研究领域文献的挖掘以及Internet上的主题检测、Web挖掘、自动问答等。目前使用比较广泛的文本挖掘系统有KDT、IBMBusinessIntelligence、TextVis等。

国内的文本挖掘研究除紧跟国际前沿外,有相当一部分研究集中在如何充分利用中文文本特点进行更好的文本挖掘上。围绕中文文本的处理,特别是结合自然语言理解技术,找到适合中文文本的快速高效方法从而更好地设计和开发中文文本挖掘应用。中国知网的学位论文学术不端行为检测系统,拓尔思的文本检索系统TRS,香港科技大学的中文自动问答系统等都是针对不同目标实施的不同的文本挖掘应用实例。图挖掘第六节图挖掘一、

图挖掘概述二、

图挖掘的主要内容三、

图挖掘的应用四、

图挖掘的发展图挖掘一、图挖掘概述1、图挖掘的概念

图挖掘(GraphMining)是指利用图模型从海量数据中发现和提取有用知识和信息的过程。图挖掘已广泛应用于商务管理、市场分析、生产控制、科学探索和工程设计等领域。图挖掘所涉及的领域主要是图的聚类、图的分类和频繁子图(子结构)挖掘等,其中频繁子图挖掘的目的是找到在图集中频繁出现的子图集模式。2、图数据的定义

图是最常用的数据结构之一,能够描述事物之间错综复杂的关系。图是由若干节点和连接点与点之间的边所构成的结构,用于描述节点对象之间的特定关系,每一个节点代表一个对象,用边来表示节点之间的确定关系。各节点的位置可以变化,而且点与点之间的连线也可以为任意距离,并没有长短之分,具有拓扑性质。在图论中,网络是顶点和边的集合,通常用G=(V,E)表示,V表顶点,E表示边。顶点代表现实世界中的各类实体,两点的之间的边表示两个实体的关联关系。作为一种常见的数据结构,采用图论知识来描述各类实体间的数据关系,形式上更生动准确易于理解。图挖掘

边的存在可能性为1表示边一定存在。因此,确定图(定义2.1)可以看作所有边的存在可能性皆为1的特殊的不确定图。不确定图模型图挖掘右图表明了图同构与子图同构的不同。其中,图(b)、图(a)同构,图(c)、(a)子图同构图。图同构与子图同构图挖掘二、图挖掘的主要内容1、图的匹配2、图数据关键字查询3、频繁子图挖掘4、图的聚类5、图的分类三、图挖掘的应用1、社交网络2、隐私保护3、软件缺陷定位4、生物网络5、Web挖掘图挖掘四、图挖掘的发展

近年来,越来越多的图数据结构在我们的日常生活中出现,例如社交网络、生物信息学领域、Web应用等,这对图数据挖掘提出了更多的新要求:(1)如何有效、高效管理大量的图数据(图数据库);(2)如何针对现实的数据利用图结构进行建模;(3)如何从图数据中挖掘出感兴趣的模式,如频繁模式、显露模式等。同时,在过去的数年中,图数据挖掘的相关论文在数据挖掘领域的主流会议,如ICDM、SigKDD、SiamDM等中有逐年递增的趋势;围绕图挖掘的主题展开的Workshop越来越多,包括有关链接分析和群组检测、多维数据挖掘的KDDWorkshop以及有关图、树、序列挖掘的EuropeanWorkshop。同时,越来越多的国内外重要期刊明确提出对有关图挖掘方面的文章的征集。应用案例第七节应用案例案例一、知识获取在制造业的应用:数控机床ICAID系统数控机床ICAID系统是面向机床行业提供的一种基于知识的工业设计解决方案,系统的使用者是机床的设计主体,包括工业设计师与机床工程师。其目的是针对装备制造关键共性技术-工业设计技术,进行研究、应用,发挥提升产品质量的作用,解决机床行业和制造业的设计问题。该系统以基于因特网的计算机辅助工业设计概念(InternetbasedcomputeraidedindustrialdesignICAID)为原型和研究基础,通过引入基于网络的设计和基于知识的设计等理念和技术,在网络环境下建立一个工业设计师和机床工程师共同参与的、由知识驱动的计算机辅助工业设计系统,系统的建立依赖于知识的收集和获取。应用案例有研究表明,对于典型数控车床和立式加工中心的设计,工程师习惯在造型设计时以侧视图和侧面轮廓为起点,先勾画出合理的侧面形式,再进行正面和其他部件的设计。这种由侧视图入手的设计思路比较合适小型立式加工中心这种侧面造型特征明显而正面形式较简单的情况,可作为在造型设计初期产生机床产品基本形式和各种变形可能的入口,并应用到辅助设计系统中去。

基于这一发现,结合Flash软件和Web交互技术,可针对数控车床类产品设计一个基于机床工业设计实际经验的侧面轮廓草图绘制和三维概念生成的原型系统。将侧面轮廓定义为由若干关键节点组成的连接线,并事先预设若干个关键造型控制点。设计者通过自由拉伸这些控制点的位置,调节曲率等参数来达到自己预想的轮廓效果,然后模拟出立体的设计效果,并进行适当的人机关系分析。

在试验中,设计者结合多年机床造型设计的经验,根据机床种类和结构布局的特点,提取出了数控车床的8种典型侧面轮廓形式,并设计开发了针对数控车床的侧面轮廓草图设计与查询系统。设计者可将确认的侧面轮廓拉伸成有立体效果的机床形体,并和实际比例的人体模板(参照《中国成年人人体尺寸》)进行人机尺度分析等有关使用者要素的比较性分析研究,作为门、窗和把手等的位置以及大小的设计依据等。应用案例系统测试本身也是一个获取设计知识和应用知识的过程,可以看成是一种知识获取的有效方法。以系统设计中的专家样本为研究对象,建立对这类问题较科学的研究体系,并从试验分析中进行知识的提取和建模,是建立知识系统的基础。ICAID系统(Http://)建立了有2000个方案的造型设计图库,并以其为基本设计工具进行了大量数控机床产品的实际设计,其中有以侧面轮廓入手完成的南京数控机床公司CK1480型数控车床的外观造型设计,该产品在2003北京国际机床展上展出,验证了这种表达造型设计知识的方式和设计思路的可行性。在系统测试中还发现,机床工程师对其独立设计的外形方案很难有完全的把握,在一些关键环节还希望得到有经验的工业设计师对色彩搭配、尺寸和造型比例等方面的帮助和指导。这再次体现了建立设计知识应用系统的必要性,也说明有效的设计评价也是造型设计过程的一个必不可少的重要阶段。由于方案的设计和评价过程存在不同的心理衡量标准,因此设计过程使用的设计知识系统和评价过程的决策知识系统应该有所不同。应用案例案例二、图挖掘在零件加工特征识别中的应用零件加工特征识别是从零件CAD模型中获得具有一定加工意义的几何形体,是CAD/CAPP集成的基础,是工艺数字化的关键。基于图的模式匹配法是加工特征识别常用的方法之一。构建零件属性邻接图(AAG图),通过分解生成最小属性邻接图MAAG集合,与预定义的加工特征基本单元的AAG匹配,在此基础上进行聚类,可完成零件基本加工特征和复合加工特征的识别。谢谢!第三章知识表示

同济大学“智能制造工程专业联盟”教材编委会第一节概述第二节一阶谓词逻辑表示法目录第三节框架表示法第四节语义网络第五节产生式表示法第六节过程表示法第七节状态空间表示法第八节面向对象表示法第九节基于范例表示法目录第十节基于ROUGHSET表示法第十一节基于神经网络的知识表示第十二节基于本体的知识表示法第十三节知识图谱中的知识表示第一节概述一、知识表示的含义利用计算机能够接受并进行处理的符号和方式,来表示人类在改造客观世界中所获得的知识。二、知识表示的准则完整表示领域知识助力知识推理便于知识的管理与维护便于知识的理解和实现第一节概述三、知识表示的发展简史20世纪60年代中期,开始作为一个独立的研究课题20世纪60年代后期,专注于语义网络表示模式20世纪70年代语义网络、一阶谓词逻辑、框架和产生式系统等重要表示方法的出现,标志着知识表示成为一个独立研究的领域,并且在不断的发展中。第二节一阶谓词逻辑表示法一、谓词逻辑表示规则基本组成部分:谓词符号、变量符号、函数符号和常量,并用圆括号、方括号、花括号和逗号隔开,以表示论域内的关系。例如:“张三是学生”,用最简单的原子公式:Student(张三)。Student是谓词符号,张三是常量。某学生在某房间:

Inroom[Student(x),Room(y)]

Inroom,Student,Room谓词符号x,y变量符号第二节一阶谓词逻辑表示法一、谓词逻辑表示规则用联词(与)、(或)以及→(蕴涵,或隐含)等,组合多个原子公式构成比较复杂的合式公式。例如:“张三和李四”可写成:

Student(张三)Student(李四)学生李四住在一幢黄色的房子里:Lives[Student(李四),House(x)]Color[House(x),Yellow]如果该书是张三的,那么它是蓝色(封面)的:

Owns[Student(张三),Book-1]→Color(Book-1,Blue)第二节一阶谓词逻辑表示法二、谓词逻辑表示的演算

两个合式公式的计算表PQP

QP

QP

Q¬PTTTTTFFTTFTTTFTFFFFFFFTT第三节

框架表示法一、框架理论1975年Minsky提出的,作为理解视觉、自然语言对话和其它复杂行为的基础一个框架可以形式地表示如下:FRAME<框架名>

槽名1:侧面名11:侧面值11

侧面名12:侧面值12……

侧面名1m:侧面值1m……

槽名n:侧面名n1:侧面值n1

侧面名n2:侧面值n2……

侧面名np:侧面值np第三节

框架表示法一、框架理论举例一个饭店框架

框架名:<饭店>种类:是否含住宿:<是,否>类别:<自助餐厅,商务餐厅,快餐,其他>地址:营业时间:缺省值<10:00-22:00>场所大小(平方米):人均消费(元):食品风味:地域特色:<中式,美式,法式,意大利风味,日式,韩国料理,其他>缺省值<中式>菜系:<鲁菜,川菜,粤菜,苏菜,闽菜,浙菜,湘菜,徽菜>缺省值<浙菜>特色菜:<片皮鸭、红烧肉、黑椒牛肉、……>相关服务:是否提供停车服务:<是,否>

是否提供预订服务:<是,否>第三节框架表示法二、框架的性质及特点描述事物时,如果进一步描述其中某细节,那么可以扩充为额外一些框架。能够借助框架作出判断能够借助框架来了解一些事物能够通过一系列的实例来修正框架对某些事物的不完整描述重要性质表现在:能够预测相关信息第三节框架表示法二、框架的性质及特点可以描述类型的含义、事件和行为,是一种经过组织的结构化知识表示方法。然而框架结构并没有形成对应的理论架构,框架、槽和侧面等单位没有明确的语义。可以组成框架网络,反映有层次或很复杂的关系,代表完整的知识结构,能够说明复杂的知识内容。附加过程是关键特征,可以融合描述性知识和过程性知识,形成有机的一体化系统。已经推出很多基于框架理论的通用知识语言,但是增加用户建立知识库的负担。框架的主要特点:第四节语义网络一、语义网络的概念和结构1968年J.R.Quillian首先提出语义网络1972年Simon确定语义网络的基本概念语义网络为一个带标识的有向图,其中带有标识的结点表示问题领域中的物体、概念、事件、动作或势态,结点之间的有向弧也带有标识,表示结点之间的语义联系。有时又将弧称为联想弧,所以语义网络又称为联想网络。第四节语义网络一、语义网络的概念和结构典型的语义联系有四类:(1)分类建立在个体的值与类之间。把一组同样类型的个体值划归在某种类型之下,这种个体值叫做类的实例,构成Instance-of关系第四节语义网络一、语义网络的概念和结构典型的语义联系有四类:(2)聚类常使用part-of表示个体与其组成成分之间的关系。第四节语义网络一、语义网络的概念和结构典型的语义联系有四类:(3)泛化常使用is-a表示个体属于一种确切的类型。第四节语义网络一、语义网络的概念和结构典型的语义联系有四类:(4)联合常使用member-of表示个体与整体之间的联系,当个体概念不重要而需要强调整体的某些性质时则引入。第四节语义网络二、语义网络特性传递方式“特性传递”是将高层概念的特性继承下来。有三类:(1)直接传递(pass)子结点直接把父结点的属性继承过来。第四节语义网络二、语义网络特性传递方式“特性传递”是将高层概念的特性继承下来。有三类:(2)附加传递(add)子结点综合父结点的特性和自身特性,不发生矛盾时可以推出新的特性。第四节语义网络二、语义网络特性传递方式“特性传递”是将高层概念的特性继承下来。有三类:(3)排斥传递(exclude)子结点特性与父结点特性不相容情况下,仅取子结点的特性,抑制父结点特性的传递。第四节语义网络三、联结词在语义网络中的表示方法(1)合取合取命题通过引入“与”结点来表示(2)析取析取命题通过引入“或”结点来表示。(3)否定对于基本命题的否定,可以直接采用~ISA,~AKO及~part-of的有向弧来标识(4)蕴含通过引入蕴含关系结点来表示规则中前提条件和结论之间的因果联系第五节产生式表示法最初来源于逻辑学家Post在1943年提出的一种计算形式体系Newell和Simon(1972)之后修改了产生式规则产生式适合于表示有下列特点的领域知识:①领域知识由许多相对独立的知识元组成,彼此间关系不密切,不存在结构关系,例如化学反应等;②领域知识多是经验性的,没有精确、统一的理论,例如医疗诊断等;③领域问题的求解过程可被表示为一组相对独立的操作,一个操作可被表示为一条或多条产生式规则。第五节产生式表示法一、产生式表示法的基本形式特别适合表示“如果P则Q”的因果关系,通常的表示形式为:P→Q或者IFPTHENQ其中,P指的是一组前提,Q指的是一个或多个结论。解释为“若前提P被满足,那么可推出结论Q”例如:r1:IF动物飞行AND产蛋THEN该动物为鸟类其中,r1是该产生式规则的编号不确定性规则知识的产生式的主要形式是:

P→Q(置信度)或者IFPTHENQ(置信度)其中,置信度表示知识正确的可能性例如:r2:IF发烧THEN感冒(0.6)第五节产生式表示法二、产生式系统一个典型的产生式系统由三个主要部分组成:知识库也叫规则库。涵盖了关于问题领域的通用性知识。全局数据库具有解决确定问题的事实依据。推理机

运行问题求解过程的规则解释程序第五节产生式表示法三、产生式的复合形式可交换的产生式系统

当一个产生式系统对于任何一个综合数据库D具备如下性质时,称作可交换的产生式系统:①设R是适用于D的规则集,当使用R中任一条规则改变D的状态后,该R对D依然适用;②假设满足目标条件,那么当R中任一个可适用的规则所生成的新综合数据库依然满足目标条件;③如果对D使用某一规则序列,获得新的综合数据库D’,那么当改变规则的使用次序后,依然可以获得D'。

对于可交换的产生式系统,求解时只需要选用任一个规则序列就可对问题求解,而不必探索多个序列,从而节省了时间,提高了求解的效率。第五节产生式表示法三、产生式的复合形式可分解的产生式系统如果全局数据库的每一个状态都用一切可能的规则进行匹配,就会得到很多个匹配序列,造成时间和空间的浪费。为了避免这种情况的发生,可根据全局数据库的状态分成几个可独立处理的子库,分别对它们应用规则求解。由于把初始数据库分解为若干个子库,这就减少了组合情况,加快了问题求解的步伐。像这样可把全局数据库进行分解,从而尽快求得问题的解的产生式系统称为可分解的产生式系统。第五节产生式表示法四、产生式表示的优缺点自然性模块性有效性清晰性优点:效率较低缺点:不能表示具有结构性的知识第六节过程表示法一、过程表示法的概念将知识包含在若干过程之中,这些过程就是一小段程序,处理某些特殊事件或特殊状况。每个过程都包含说明客体和事件的知识,以及在说明完好的情况下的运行知识。过程通常用子程序或模块实现。在问题求解中,当需要使用某个过程时,调用相应的程序并执行。过程表示法的知识库是一组过程集合。过程表示模式可以表示启发式知识,能够产生更好的推理过程的特定论域信息,在模拟人们的缺省推理等非形式推理方面也有很大优势。第六节过程表示法二、过程表示法的过程规则激发条件包含推理方向和调用模式两部分。演绎操作由多个子目标组成,当满足前面的激发条件时,执行演绎操作。状态转换对综合数据库的增、删、改。返回过程规则的最后一个语句,指出将控制权返回到调用该过程规则的上一级规则。包括四部分:第六节过程表示法三、过程表示法的优缺点有利于表示启发式知识能实现扩充逻辑推理(如缺省推理等)具有高度模块化的优点能够通过类比进行推理优点:知识隐含在过程之中难于修改和证明缺点:固定的控制信息限定了其他可能的方法第七节状态空间表示法一、状态空间表示法的定义一种基于解答空间的问题表示和求解方法,其基础是状态和操作符。系统的一种简单的数学描述,特别适合于数字计算的时间范畴表示法,是现代控制原理中重点研究的问题。来自早期的问题求解系统和博弈程序,自身不是一种知识表示形式,只是利用它在问题的多种可能状态集合中作出更好的选择,来表示问题的结构。状态空间搜索模式包含一个规则集合,一条规则即为一个变换算子,完成状态1到状态2的转移。执行一个算子序列就是问题求解。第七节状态空间表示法二、状态空间表示法的组成(1)状态状态是描述问题求解过程中不同时刻状态的数据结构。通常用一组变量的有序集合表示:Q=(q0,q1,…,qn)元素qi(i=0,1,2,…,n)是集合的分量,称作状态变量。当赋值给每一个分量时,便有一个具体的状态。包括四部分:第七节状态空间表示法二、状态空间表示法的组成(2)算符导致状态的分量发生一定变化,把问题从一个状态变成另一个状态的操作称为算符。算符可分为走步、规则、过程、数学算子、运算符号或逻辑符号等。比如,在产生式系统中,每一条产生式规则就是一个算符;在下棋程序中,一个算符即为一个走步。包括四部分:第七节状态空间表示法二、状态空间表示法的组成(3)状态空间表示一个问题的全部状态和所有可用算符构成的集合叫作问题的状态空间。通常有三部分组成:问题的一切可能初始状态构成的集合S;算符集合F;目标状态集合G。使用三元组表示:(S,F,G)。状态空间的图示形式叫做状态空间图。其中,节点表示状态;有向弧表示算符。包括四部分:第七节状态空间表示法二、状态空间表示法的组成(4)问题的解从问题的初始状态集S开始,进行一系列的算符运算,达到目标状态。从初始状态至目标状态所用算符的序列组成了问题的一个解。包括四部分:第八节面向对象表示法一、对象、消息和方法对象::=<ID,DS,MS,MI>标识符ID又称对象名,用于表示一个特定的对象。数据结构DS能够描述对象当前的内部状态或其具有的静态属性,并且通常由一组<属性名属性值>表示。方法集合MS用于说明对象所具有的内部处理方法或对受理消息的操作过程,反映对象自身的智能行为。消息接口MI为对象相关内部方法和接收外部信息驱动唯一的对外接口。此处的外部信息就是消息。当接收者受理发送者的某一消息时,首先需要对该消息属于哪一消息模式进行判断,找出内部方法与之匹配,接着执行与该消息相联的方法,处理相应的消息或响应某些信息。一个对象的形式定义由四元组表示:第八节面向对象表示法二、类、类层次和继承性类的概念是将具有共同属性的一组对象归为一类。类的定义为具有相同外部特征和内部实现的一组对象的抽象。在一个类的上层有超类,而在其下层有子类,因此形成了类的层次结构,称为类层次。继承分为多重继承和简单继承。如果一个类可以直接继承多个类描述的特征就是多重继承。如果一个类只能具有一个超类或只能继承一个类描述的特征则是简单继承。所有面向对象的语言都提供了一套机制用于继承,用户通常可以通过特定的关键字提供期望的映射类型,并且可以在某些情况下附加信息。第八节面向对象表示法三、面向对象知识表示与语义网络、框架系统的比较结构化的知识表示方法包括语义网络、框架系统和面向对象知识表示,其中面向对象知识表示是其中最为结构化的方法。语义网络具有灵活性的优点,可以无限制地定义网络中的节点和有向弧。语义网络的主要不足在于难以开发和维护的系统,而面向对象方法的封装性能够有效地克服语义网络的这一弊端。框架结构与面向对象的结构很类似,知识都可以使用类的概念按一定的层次结构来组织。第九节

基于范例表示法一、范例的定义基于范例问题求解方法是将以前已解决的问题经验与当前需要解决的问题联系在一起,把需要解决的问题称为目标,而过去已经解决的问题称为范例。当目标与范例之间存在相似性,其推理求解过程依赖于这种相似性,推理源于目标之间相似元素的相互映射。范例是从与目标域同一个一般的问题域中抽取的,因而具有相同的结构。范例是在同一问题类别中原先已求解过的实例。第九节

基于范例表示法二、范例的表示知识的表示不仅应该使知识成为一个结构化和组织化的系统,而且还应该确保记忆的知识是易于存取、检索以及学习的。心理学的研究者专注于记忆的一般理论,并提出了许多记忆模型,例如情节记忆episodicmemory)、语义网络(semanticnetwork)和联想记忆(associativememory)等。Schank的动态记忆理论将知识记忆在一些结构中。主要有以下四种类型的结构:记忆组织包(MemoryOrganizationPacket,MOP),剧本(Script),场景(Scene),主题记忆包(ThematicOrganizationPacket,TOP)。第九节

基于范例表示法三、语义记忆单元语义记忆单元是在学习、分析、理解和记住知识的过程中重点关注的概念、模式、主题等,以及据此形成的知识本身的特征,这些因素能够有效地将知识内在联系在一起。语义记忆单元的功能是概括具体知识和具体问题的某个方面,并认识到具体知识和具体问题的更抽象的本质。对于很新的知识,把其中的概念作为首要的记忆对象。随着关于此类知识的积累愈加丰富,在具备了关于具体问题的分析能力之后,便可从中概括出一些抽象的概念性的认识。第九节

基于范例表示法四、记忆网记忆网是通过使用语义记忆单元作为结点并连接语义记忆单元之间的各种关系而建立的网络;模型所记忆的知识相互间不是孤立存在的,而是一个集成的体系,它们通过某种内在的因素彼此间形成紧密或松散的有机联系。其它表达方式表示的理论知识与具体范例可以被记忆和使用;对较为特殊的知识的记忆,可以通过对结点施加约束达到目的;相似的知识可以被内涵结点组织起来;记忆单元能够作为一个主体,独立地完成某些任务。第十节基于RoughSet表示法一、粗糙集的基本概念粗糙集(Roughset)理论是一种研究不精确、不确定性知识的数字工具,由波兰科学家Pawlak在1982年提出。粗糙集把客观世界或对象世界抽象为一个信息系统,或知识表达系统S,也称属性-值系统。S=<U,A,V,f>式中,U是一组对象(或事例)的有限集合,称为论域;如果有n个对象,则U可表示为:U={x1,x2,....,xn}。A表示有限个属性的有限集合,设存在m个属性,则A={a1,a2,....,am};而V表示属性的值域集,V={V1,V2,...,Vm},其中Vi表示属性Ai的值域;进一步可以将有限集合A划分为两个不相交的集合,分别为条件属性集C和决策属性集D,C和D满足A=C∪D且C∩D=∅,其中D一般只有一个属性;f表示信息函数(informationfunction),f:U×A→V,f(xi,aj)∈Vj。第十节基于RoughSet表示法二、基于粗糙集的知识表示知识表达系统可以方便地使用表格来表达知识,并且知识的表格表达法可以认为是一种特殊的形式语言,使用符号表示等价关系,这样的数据表就是知识表达系统。可以通过知识表达系统的定义来描述与知识库有关的所有定义。故知识系统内的任一等价关系在知识系统数据表中以一个属性和属性表示的关系的等价类进行表示,表中的列可以描述某些范畴的名称,而整个数据表则将相应的知识库中所有范畴的描述包含在内,包括所有能从表中数据推导出的一切可能的规律,其中数据标志是用于描述表达系统对知识库中有效事实和规律的方法。第十一节基于神经网络的知识表示一、人工神经网络的基本思想假设信息处理是通过大量称为“单元”的简单处理元件交互进行的,每个单元都对上层的单元发出激励或抑制信号。“并行性”是指网络针对全局的,所有的目标都同时进行处理;“分布性”是指信息分布在整个网络内部,每个节点及其连线上只表达部分信息,而不是一个完整的概念。人工神经网络学习过程所获得的知识,分布式地存储于网络连结权系数中,使网络有很高的容错性和鲁棒性。人工神经网络的自组织、自适应学习功能,大大放松了传统识别方法所需的约束条件,使对某些识别问题显示出极大的优越性。第十一节基于神经网络的知识表示二、BP神经网络的知识表示BP网络模型是一个常用的神经网络模型。网络由输入层、隐含层、输出层组成,相邻的层均全连接。输入信号进入输入层要先向前传播到隐节点,隐节点将输入数据加权累加,经过激活函数后,再把隐节点的输出信息传播到输出节点,给出输出结果。节点内的激活函数可取为Sigmoid函数(又称S函数),其公式如下:第十一节基于神经网络的知识表示二、BP神经网络的知识表示BP算法的训练过程由正向传播和反向传播组成。在正向传播中,输入信息从输入层经隐含层处理,并传向输出层,每一层神经元的状态只影响下一层神经元的状态。当数据向前传递至输出层时,将与期望输出进行对比,如果不能得到期望的输出,则将计算出损失函数,即误差信号,此刻转入反向传播,将误差信号沿原来的连接通路返回,通过修改各层神经元的权值和偏置,使得误差信号最小。第十一节基于神经网络的知识表示二、BP神经网络的知识表示神经网络结构的示意图如图所示,设输入层的输入数据为;输出层数据为

。隐含层数据设为,表示隐含层的第层的第列神经元的值。神经网络结构示意图第十一节基于神经网络的知识表示三、神经网络表示的特点最主要的特点是以分布方式表达信息。神经网络可以拥有大量知识,若神经网络输入层有N个神经元,并且以二进制逻辑作为输入模型,就可提供2N个知识表示的样本数。采用隐式表达式表示知识,这与其他知识表示方法不同,后者基本上均为显式表达。通过神经网络表达知识,可以实现知识的联想功能,因此在模式识别、图像信息压缩和优化等领域的应用取得了较大的进展,即使图像失真或者畸变也可以进行一定程度上的识别。在一定程度上模拟了专家凭直觉解决不确定性问题的过程。第十二节

基于本体的知识表示法本体(Ontology)最初是一个哲学上的概念,意为一切存在的根本凭借和内在依据,是多样性的世界赖以存在的共同的基础。1994年TomGruber提出:“本体是对概念化的清晰的描述(Anontologyisanexplicitspecificationofaconceptualization)。本质上,本体是一个或几个领域的概念以及反映这些概念间的关系的集合。关系反映了概念间的约束和联系,它本身也是概念,关系之间也可能构成新的关系”。1998年,Studer等人对上述定义进一步解释,“概念化涉及通过标识某个现象的相关概念而得到这个现象的抽象模型。显式地指出所用到的概念的类型,以及定义概念使用的约束。形式化是指本体应该是机器可读的。共享反映了这样一个观念,即本体获取了一致的知识,它不是某个个体私有的,而是可以被一个群体所接受的”。第十二节 基于本体的知识表示法一、本体在知识工程领域的研究(1)知识表示本体:本体不限于某种特定领域来对知识描述的语言进行研究。典型的有KIF(KnowledgeInterchangeFormat)、OIL(OntologyInterchangeLanguage)、Ontolingua等。(2)通用或常识本体:涵盖多个领域并建立庞大的人类常识知识库,以解决计算机软件中的脆弱性问题,例如漏洞等。主要研究如SUMO、Cyc工程等。(3)领域本体:它可以在特定区域中被重用,并提供特定区域中概念的定义与概念之间的关系,以及该领域中发生的活动及其主要理论和基本原理等,例如医学概念本体,生物知识库等。本体通常被分为以下5种类型:第十二节 基于本体的知识表示法一、本体在知识工程领域的研究(4)语言学本体:它是一种关于诸如语言和词汇之类的本体。以WordNet为例,它是Princeton大学开发的一个庞大的语言知识库系统,以词汇源文件作为核心,一个源文件都包含一组“synsets”单元,每组“synsets”单元都由一组同义词、一组关系指针以及其他信息组成,由关系指针表示的关系包括继承和反义。(5)任务本体:共享问题解决方法和推理的研究与领域无关。具体的研究主题包括:通用任务、任务方法结构、与任务相关的体系结构、任务结构和推理结构等。例如Chandrasekaran等人的关于任务和问题求解方法本体的研究。本体通常被分为以下5种类型:第十二节 基于本体的知识表示法二、基于本体的知识表示1.冲压工艺领域本体的定义根据TomGruber对本体的定义以及冲压工艺领域的特点,对冲压工艺领域本体定义如下:冲压工艺领域本体是对冲压工艺领域中存在的概念的一种详尽的特征化描述,即是对冲压工艺领域内的概念、关系、属性和规则四要素的一种描述,是实现领域知识共享和重用的基础。以冲压工艺设计的领域本体为例:第十二节 基于本体的知识表示法二、基于本体的知识表示具体的:定义1设O是冲压工艺领域D的本体,则O={({C},{Re},{A},{Ru})|Ci∈D,i=1..m,Rej∈D,j=1..n,Ak∈D,k=1..p,Rul∈D,l=1..q},其中C称为概念集合,Re称为关系集合,A称为属性集合,Ru称为规则集合。定义2概念是冲压工艺领域中规范化的、公认的术语,是具有相同属性或行为的对象的集合。它除了指一般意义上的概念,还可以指冲压工艺方面的任务、功能、行为等。如圆孔、弯曲是一般意义上的概念,毛坯排样、条料排样是冲压的行为,将这些也作为概念来处理。以冲压工艺设计的领域本体为例:第十二节 基于本体的知识表示法二、基于本体的知识表示具体的:定义3关系是领域概念间的连接或关联。关系存在于多个概念之间。关系本身在概念化的过程中可以概念的形式存在,关系之间也可以构成新的关系。冲压工艺概念间的关系主要有精度约束和靠近约束等。定义4属性是领域中的概念所具备性质的抽象。属性反映概念的特性,包含类型特性和语义描述。类型特性指属性的名称、属性的类型(如字符型,整型等)等。语义描述指属性的功能和目的,记录属性的内容。定义5规则Rule=(Condition,Conclusion,CF),其中Condition表示前提,Conclusion表示结论,CF表示可信度。以冲压工艺设计的领域本体为例:第十二节 基于本体的知识表示法二、基于本体的知识表示2.冲压工艺领域本体的BNF范式是对本体定义的形式化描述,是领域本体的知识表示,也是本体构建的基础。其BNF范式如下:①<冲压工艺领域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论