




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)基于文本挖掘的主题分类专家系统的设计和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 文本挖掘是数据挖掘、机器学习、自然语言理解及相关自动文本处理等理论和技术 相结合的产物,是信息检索与数据挖掘领域的研究热点与核心技术,它得到了越来越多 研究人员的关注。我们承担的清史图像数据库管理系统是国家清史办公室的重点科研项 目,其中主题分类专家系统是基于文本挖掘的相关技术构建的。 在该主题分类系统的开发过程中,笔者研究了高效准确的分词方法,更有利于施用 的规则模型,精确度更高的规则匹配算法。具体如下: 1 讨论了逆向最大匹配的分词算法,然后针对系统处理对象的特点,提出了一些 改进方法。 2 针对清史图像图片名称命名特点,提出了一个新的规则归纳算法。 3 讨论了几种近似字符串匹配算法,指出其不足之处,然后对基于编辑距离的 p a l r - w i s e 比较算法作了改进,实验结果证明改进后的算法提高了规则匹配的准 确率。 笔者在s q ls e v e r 2 0 0 0 平台上用v b n e t 开发了该专家系统,一方面利用s q l s e v e r 2 0 0 0 等关系数据库强大的信息管理能力增强了系统对知识的存储、管理和运用的 能力,另一方面又借助v b n e t 优秀的综合开发能力实现了快速开发。该主题分类专家 系统通过系统测试,结果比较令人满意。 关键词:文本挖掘;主题分类;专家系统 a b s t r a c t t e x tm i n i n gi san e wi n t e r d i s c i p l i n a r yf i e l dt h a tc o m b i n e st h ed i s c i p l e so f d a t am i n i n g , m a c h i n el e a r n i n g , n a t u r a ll a n g u a g e1 m d e r s t a n d i n ga n dt e x ta u t o m a t i cp r o c e s s i n gt e c h n i q u e s i t i st h eh o ts p o ta n dt h ec o r et e c h n o l o g i e so fi n f o r m a t i o nr e t r i e v a la n dt h ed a t am i n i n g d o m a i nr e s e a r c h m a n yr e s e a r c h e r sh a v eb e e ni n t e n s i v e l yc o n d u c t e do ni t t h eq m gd y n a s t y i m a g ed a t a b a s em a n a g e m e n ts y s t e mw h i c hu n d e r t a k e nb y1 l si st h en a t i o n a lh i s t o r yo ft h e q m gd y n a s t yo f f i c ek e ys c i e n t i f i cr e s e a r c hi t e m , a sap a r to fi t , t h ec a t e g o r i z a t i o na x p e r t s y s t e mi sp r e c i s e l yb a s e do nt h et e c h n i q u e so f t e x tm i n i n g d u r i n gc o n s t r u c t i o no f t h ec a t e g o r i z a t i o ns y s t e m ,w e h a ss t u d i e d :t h em o r ee f f t :c t i v ea n d m o r ea c o u r a t em c t h o do fw o r d ss e g m e n t a t i o n ;t h em o d do ft h er e g u l a rw h i c hc 趾m o r e a d v a n t a g c o u st ou s e ;t h em o l ea c c u r a c yr u l em a t c h i n ga l g o r i t h m s s p e c i f i c a l l y , a sf o l l o w s : 1 d i s c u s s e dt h eb a c k w a r dm a x i m u mm a t c h i n ga l g o r i t h m ,t h e ni nv i e w o ft h e c h a r a c t e r i s t i c o f s y s t e m p r o c e s s i n g o b j e c t , p r o p o s e ds o m e i m p r o v e m e n t m e t h o d 2 i nv i e wo ft h ec h a r a c t e r i s t i co ft h eq i n gd y n a s t yi m a g en a m i n g , an e wa l g o r i t h mo f r u l ei n d u c t i o nh a sb e e np r o p o s e d 3 d i s c u s s e ds o v e r a lk i n d so fa p p r o x i m a t es t r i n gm a t c h i n ga l g o r i t h m ,p o i n t e do u tt h e i r d e f i c i e n c y , t h e ni m p r o v e sp a i r - w i s em e t h o db a s e d0 1 1e d i td i s t a n c e , t h ee x p e r i m e n t a lr e s u l t p r o v e dt h a tt h ei m p r o v e da l g o r i t h me n h a n c e dt h ea c c u r a c yo f r u l em a t c h i n g t h i s , x p a ts y s t e mh a sb e e nd e v e l o p e db yr e e n e t so f v b n e tb a s e d 0 1 1s q ls e v e r 2 0 0 0 t h ec a p a c i t i e so fk n o w l e d g es t o r a g e , m a n a g e m e n ta n du s a g eo ft h es o f t w a r eh a v eb e e n e n h a n c e db yt h eh e l po fs q ls e v e r 2 0 0 0 a n dt h er a p i dd e v e l o p m e n to fs o f t w a r eh a sb e e n a c c o m p l i s h e di nt h ev i r t u eo fv b n e t t h i sc a t e g o r i z a t i o ne x p e r ts y s t e mp a s s e dt h es y s t e m t e s ta n do b t a i n e dg o o dr e s u l t k e yw o r d s :t e x t m i n i n g ) s u b j e c tc l a s s i f i c a t i o n ) e x p e r ts y s t e m i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得缀犬弘其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名 磊万鹇 签字日期:加刀年年月z z 日 学位论文版权使用授权书 本学位论文作者完全了解敌锻大孚有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅本人授权缓锨太砻可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以呆用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 舞石妫 签字日期:矽。7 年牛月2 日 学位论文作者毕业去向: 工作单位: 通讯地址: 导师签名 签字日期 电话 邮编 巷函 j 。刀年年月移曰 第1 章绪论 第1 章绪论 1 1 文本挖掘研究现状 机器学习( m a c h i n el e a r n i n g ) 一般被定义为一个系统自我改进的过程“”,从最初 的基于神经元模型以及函数逼近论的方法研究,到以符号演算为基础的规则学习和决策 树学习的产生,和之后的认知心理学中归纳、解释、类比等概念的引入,至最新的计算 学习理论和统计学习的兴起,机器学习一直都在相关学科的实践应用中起着主导作用 4 7 3 。一些针对特定学习任务的算法已经产生,关于学习的理论认识已开始逐步形成,人 们也开发出很多实践性的计算机程序来实现不同类型的学习,一些商业化的应用也已出 现。在数据挖掘领域,机器学习算法理所当然地被用来从包含设备维护记录“1 、借贷申 请、金融交易、医疗记录等此类信息的大型数据库中发现有价值的信息。随着对计算机 认识的日益成熟,机器学习必将在计算机科学和技术中扮演越来越重要的角色。 我们可以通过一些专项成果看到机器学习这门技术的现状:计算机已经能够成功地 识别人类的讲话、预测肺炎患者的康复率、检测信用卡的欺诈、在高速公路上自动驾驶 汽车、以接近人类世界冠军的水平对弈西洋双陆棋这样的游戏等。已有很多理论成果能 够对训练样例数量、假设空间大小和已知假设中的预期错误这三者间的基本关系进行刻 画。在过去的十年中,无论是应用、算法、理论,还是生物系统的研究,都取得了令人 瞩目的进步。 现在自然语言处理中大多数机器学习的研究都借助了语音识别中特定的统计技术 如嘲:隐马尔科夫模型( h i d d e nm a r k o vm o d e l s ,h m m s ) 、概率上下文无关语法 ( p r o b a b i l i s t i cc o n t e x tf r e ec j r d m m a l 瞎,p c f g s ) 其它各种学习算法包括决策树、规则 归纳、神经网络、基于示例的方法、贝叶斯( b a y e s i a n ) 网络方法、归纳逻辑程序、基 于理解的学习。遗传算法也能用于自然语言处理,并且在特定的应用中有其优势。另外, 一些特别的机器学习算法如主动学习、推进( b o o s t i n g ) 算法、修正学习、有知识背景 的构造归纳学习、理论修正、经验评价法、p a c ( p r o b a b l ya p p r o x i m a t e l yc o r r e c t ) 学 习等对处理自然语言问题是非常有用的。 基于文本挖掘的主题分类专家系统的设计和实现 以上表明,机器学习能为自然语言处理提供一系列非传统的学习方法的同时,还能 提供一般的方法论的指导。反过来,自然语言处理为机器学习提出了各种有趣的和富有 挑战性的问题。1 9 9 9 年c l a i r ec a r d i e 和r a y m o n dj m o o n e y 编辑出版了机器学习杂 志的一本专辑,该专辑收集了当时在自然语言处理领域机器学习技术的典型应用。其中 还介绍了一些端到端的自然语言应用,如g o l d i n g r o t h 的感知上下文的拼读修正系 统,以及完整的信息抽取系统。该专辑特别提到s o d e r l a n d 的概念抽取模式和b i k e l 的 能够准确识别姓名、日期、时间、数字的系统,这些主要都涉及到文本微观信息处理与 相应的机器学习技术。 文本挖掘是以半结构( 如w e b 网页) 或者无结构( 如纯文本) 的自然语言文本为对 象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的 规律的过程。机器学习是数据挖掘的方法之一,它通过从数据中归纳或发现规律,以达 到改进某种”性能的目的。大多数数据挖掘方法都可以应用于文本挖掘,现在各种机器 学习方法几乎都应用到了自然语言处理的不同方面,包括词法、句法分析、歧义消除和 理解、会话过程和信息抽取以及机器翻译。然而,传统的人工智能中的机器学习对计算 语言学的研究贡献有限。这是因为基于机器学习和基于经验的自然语言处理需要通过相 互交流、相互促进才能发展。 , 目前文本挖掘技术正处在发展阶段,世界上一些大学、机构和公司都在致力于 i n t e r n e t 文本数据挖掘系统的研究和开发。比如:w e bw a t c h e r 与p e r s o n a lw e b w a t c h e r ( c m u 研制开发) 、a l i a v i s t a d i s c o v e r y ( d e c ) 、m e g a p u t e r 公司开发的t e x t m i n i n g 系统。 由于中文语言模式与西文的差别,目前中文信息的处理技术尚完全不成熟。国内的 一些机构和学校都处在研究阶段,许多研究人员对文本挖掘技术和文本分类技术进行了 大量的研究。如复旦大学对于大规模文本的检索、分类和摘要的研究,东北大学可视化 文本挖掘模型,中国科学院计算机技术研究所的文本数据挖掘技术研究等。 经过2 0 多年的研究,中文文本自动分类技术在有些方面已经有了一定的进展,现已 广泛应用于图书分类、网站导航以及基于内容的电子邮件自动分检系统等方面。最近, 国内外又有研究者尝试采用分类技术进行文本相关性检索,为用户提供一种以文献作为 2 第l 章绪论 检索入口进行智能扩检的检索途径。如p r b m e d 就为用户提供了自动查找相关文献的功 能;在国内,中国医学科学院信息研究所胡铁军等于2 0 0 0 年就开始了该方面的研究,现 已取得了重大的突破。因为自然语言理解技术本身存在的问题,在当前的计算机技术条 件下,还不可能处理具有高度不确定性和模糊性的文章,因此各分类系统只能在有限的 领域内获得成功,主要原因包括:分词算法的不足、分类主题词表更新较慢、分类方法 的缺陷、知识库规模较小。距实用化、商品化还有一定的距离。 1 2 文本挖掘的研究意义 随着文本信息的快速增长,特别是i n t e m o t 上信息的增加,大量的文字信息开始以 计算机可读的形式存在,并且其数量与日剧增。如果仅仅通过入工的手段对庞大的原始 文档进行组织和整理,不仅在人力、物力、财力上是极大的浪费,而效果也未必会很理 想:相比之下,若能由计算机直接对文档信息进行过滤、分类,把用户真正感兴趣的部 分提交给用户,就能使用户从繁琐的文档处理工作中解放出来,并能极大地提高信息的 利用率。因此,为适应信息时代的发展,当人们面对海量的电子文档信息时,就迫切需 要先进的信息管理技术,从而把大量的文本有序地组织起来,以便于用户更有效地获取 所需要的信息。在这种环境下,文本挖掘成为数据挖掘领域的研究热点与核心技术,它 采用数据挖掘,机器学习,自然语言处理信息检索和知识管理等领域的技术来解决信息 过载的问题。文本挖掘可以帮助我们处理和分析无结构的自由文本,提取其中潜在的有 价值的知识。 在文本挖掘这个概念产生之前,就存在着对文本和文本集合的分析和处理,从中提 取有用的信息和知识。最早对文本的分析和处理是人工进行的,随着计算机网络的发展 和在线文本信息的激增,人工分析文本已不能满足要求,也无法完成如此大量文本的分 析和处理。众所周知,清史编纂需要大量的图片,为便于存储和检索,所有图片将被分 成多个类别:政治图片、经济图片、文化图片、艺术图片、贸易图片等等几十个种类。 清史专家必须把这些图片根据图片名称对其进行主题分类,将其划分到上述的类别中 去,几十万条图片名称需要一个清史专家以每天分类一千条的速度工作近一年才能完全 分类,这样的工作显然是很繁重单调的,而计算机恰恰很适合完成此类的工作。本文探 基于文本挖掘的主题分类专家系统的设计和实现 讨的主题分类专家系统采用了文本的自动分类和聚类分析等技术,用于把大量的图片根 据其名称归入到不同主题的类别中,以便于管理、浏览和进一步的分析。最终实现目标 是:用户提供( 输入) 若干个图片的图片名称,程序根据用户提供的分类索引信息,将 该图片归入最合适的一个或几个类别中去,并将分类结果以适当的方式存储。其中,用 户提供的分类索引信息结构为:不同主题( 卷目) 包含若干个不同篇目,不同篇目又分 别包含若干个不同类别,如下图所示: 图1 1 清史匿像主题分类索引信息结构示意图 这项课题研究的意义主要有如下几点: 1 、把清史专家从繁重单调的体力劳动中解脱出来,提高他们的工作效率。 2 、寻找利用新的计算机技术来进行文本微观信息处理的方法。 智能化的信息化处理技术特别是文本挖掘技术正越来越成为人们不可缺少的重要 工具。互联网的普及和网络信息的急剧膨胀和海量扩张更是给文本挖掘等深层语言处理 技术提供了广阔的应用场景和无尽的现实需求。 3 、为今后进行类似的图片主题分类工作提供资料。 在此专家系统的知识库中,存储大量的有关图像信息分类方面的知识规则,这些知 识规则可以被反复的使用,所以今后如果进行类似的图片分类工作。可以将此系统中知 识库中的若干条知识规则提取出来并直接施用,可以节省在规则归纳过程中花费的大量 时间。 4 第1 章绪论 1 3 论文的组织和主要内容 本文讨论了清史图像数据主题分类专家系统的分析设计,包括清史图片主题分类实 现机理的分析,图像数据类型的分析,系统运作流程的分析;机器学习方法的研究,即 通过分析研究对比现有机器学习方法,确定一种最适合此专家系统知识规则获取的机器 学习方法,并设计出知识规则归纳和图片分类的算法;清史图像数据主题分类专家系统 软件的开发与应用。 第二章讲述了专家系统的基本结构和专家系统开发过程中的一些基本技术。 第三章讲述了文本挖掘技术的研究。 第四章探讨了主题分类专家系统的实现方法,具体包括:中文分词技术,关于规则 匹配问题的研究,着重介绍了改进后的适合本专家系统的分词算法和编辑距离匹配算 法。 第五章展示了本专家系统的各个功能模块,并对系统分类结果做出评价。 5 基于文本挖掘的主题分类专家系统的设计和实现 第2 章专家系统概述 2 1 引言 专家系统是人工智能应用研究的重要领域,它能够以人类专家的水平完成特别困难 的某一专业领域的任务。专家系统的创始人e a f e i g e n b a u m 教授指出,几乎所有的专家 系统的工作效率至少比入高1 0 倍,而且能提高解决问题的质量,继承和发展专家经验。 他将专家系统定义为:专家系统是一个智能计算机程序,它利用知识和推理过程来解决 那些需要杰出人物的专家知识才能解决的复杂问题,所用的知识和推理过程可认为是最 好的领域专家的专门知识模型。所以说,专家系统即是一种在相关领域中具有专家水平 解题能力的智能程序系统,它能利用领域专家多年积累的经验与专门知识,模拟人类专 家的思维过程,求解需要专家才能解决的困难问题。在设计专家系统时,知识工程师的 任务就是使计算机尽可能模拟人类专家解决某些实际问题的决策和工作过程,即模仿人 类专家如何运用他们的知识和经验来解决所面临问题的方法、技巧和步骤。 专家系统的基本特征是: 1 ) 具有专家水平的专业知识 专家系统要达到人类专家解决问题的水平就必须具有专家级的知识,专家系统的性 能水平取决于其知识库的大小和质量。 2 ) 能够进行有效的推理 7 专家系统必须具有适用于该领域的推理机制,能够根据用户提供的已知事实,运用 掌握的知识,进行有效的推理,以实现对问题的求解。 3 ) 具有交互能力 专家系统多为交互式系统,一方面它需要与领域专家及知识工程师进行对话以获取 知识,另一方面它也需要通过与用户对话以得到求解问题时所需的已知事实。 4 ) 具有解释能力 即能向用户解释它的推理过程,回答用户的一些问题,能为得出的结论给出适当的 证明。 6 第2 章专家系统概述 2 2 专家系统的基本结构 专家系统的结构是指专家系统各组成部分的构造方法和组织形式。系统结构的选择 恰当与否,是与专家系统的适用性和有效性密切相关的。选择什么结构最为恰当要根 据系统的应用环境和所执行任务的特点而定。 下图是专家系统基本结构模块和各个模块相互作用的示意图: 图2 1 专家系统结构示意图 知识库用于存储某领域专家系统的专门知识,包括事实、可操作与规则等。为了建 立知识库,要解决知识获取和知识表示问题。知识获取涉及知识工程师如何从专家那里 获取专门知识的问题;知识表示则要解决如何用计算机能够理解的形式表达和存储知识 的问题。 综合数据库又称为全局数据库或总数据库。它用于存储领域或问题的初始数据库和 推理过程中得到的中间数据信息,即被处理对象的一些事实。 基于文本挖掘的主题分类专家系统的设计和实现 推理模块是专家系统的“思维”机构,用来模拟领域专家的思维过程,控制并执行 对问题的求解。它根据已知事实,利用知识库中的知识,按一定的推理方法和控制策略 进行推理,得出问题的答案或证明某个假设的正确性。 解释模块能够向用户解释专家系统的行为,包括解释推理结论的正确性以及系统输 出其他候选解的原因。 用户界面是专家系统与用户、领域专家或知识工程师进行信息交换的媒介,用于完 成输入输出工作。领域专家或知识工程师通过它输入知识,更新、完善知识库i 一般用 户通过它输入欲求解的问题及已知事实;系统通过它输出结果或者向用户索取进一步的 事实嘲。 知识库管理模块是知识库的支撑平台。用户或者领域专家通过知识库管理模块对知 识库中的知识进行添加、修改和优化。 , 自学习模块通过对实例的归纳学习而自动获取知识,丰富知识库中的知识,从而使 专家系统不断的自我完善。 2 3 设计开发专家系统的基本技术 专家系统的设计开发包括系统的设计、实现、测试、评价,以及开发工具和语言的 选择等内容嘲,可分为两大部分一是针对知识的开发内容,即如何来获取知识和利用知 识,主要涉及知识库的构造和推理机制的实现:二是专家系统的软件开发,主要涉及软 件开发方法和具体实现形式。 知识获取和表示就是把解决问题所用的专门知识从某些知识来源中提炼出来,并表 示成计算机能接受和使用的方式。可能的知识来源包括专家、书本、数据库以及人们的 经验。到目前为止,任何一个专家系统的知识库都还需要在知识的不断积累中进行修改、 提炼,逐步完善。 专家系统的基础是知识的存储和利用,知识获取是得到知识的唯一途径。知识获取 的任务就是将人类已有的知识从大脑或书本中抽取出来,表示成计算机能理解的形式, 然后输入到计算机中,为专家系统能够完成领域专家所能完成的工作提供知识基础。 第2 章专家系统概述 知识库用于存放解决问题所需要的专家知识和经验,是专家系统的核心。一般来说, 知识包括说明性知识和过程性知识两种类型。说明性知识是指反映问题以及问题各个中 间求解状态的知识,是一种静态知识。过程性知识是指如何求解问题的知识,是一种动 态知识,专家系统的水平主要取决于动态知识。构建专家系统的知识库主要包括这两类 知识的表示和获取两个方面的工作。 2 3 1 知识表示 知识表示是为了描述世界所做的一组约定,是知识的符号化和形式化的过程呻1 。知 识表示方法就是在模拟信息在人脑中的储存和处理方式的基础上,研究如何设计各种数 据结构,以便将已获得的某个专业领域的各种知识以计算机内部代码的形势加以合理地 描述和存储。知识表示的目的在于通过知识的有效表示,使专家系统能够利用这些知识 进行推理和做出决策。 目前,人工智能领域已存在多种知识表示方法,如产生式表示法、框架表示法、谓 词表示法等,产生式表示法又称为规则表示法,它模拟人类大脑记忆模式中各种知识块 之间的大量存在的因果关系,以“i f t h e n ”的产生式规则的形式表达知识“”,即: 球pt h e nq 其中,p 代表条件;q 代表结果。其含义式:如果条件p 被满足,则可推出结论q 或执行q 所规定的动作。 用产生式规则表示知识的优点是; 1 ) 结构上的模块化:可对单条产生式规则进行增添、删除或修改,而不用考虑它与 其它规则的关系。 2 ) 形式上的单一性:采用单一的知识表示形式易于被其它人所理解和接受。 3 ) 表达上的自然性:表示形式与人们求解问题时的思维形式非常相似,贴近自然语 言。 正是基于产生式表示法的上述优点,所以在清史图像名称主题分类专家系统中使用 较多的就是这种知识表示方法。但这种知识表示方法的不足之处就在于推理效率低及过 分依赖已有经验。 9 基于文本挖掘的主题分类专家系统的设计和实现 框架表示法是七十年代初提出来的种知识表达方法。在该方法中,所要描述的对象 是用一种称之为框架的数据结构来表示的,它的项层是框架名,用于表示所要描述的对 象,其下层是由一些称为槽的结构组成,用于表示对象的各个方面伽。每个槽都有它自 己的名称和填入槽的值。槽的下面又可以设侧面,作为对槽的进一步说明。槽或侧面的 取值可以是二值逻辑的真或假,可以是实数值,可以是文字或其它形式的定义域,还可 以附有一组与它有关的条件或过程( 程序) 。当向槽或侧面填写值时,必须满足这些条件 或调用这些过程。框架下层的槽或侧面也可以是一种子框架,子框架本身还可以进一步 分层。对于实际中的复杂对象,单用一个框架往往是难以表示的,必须借用多个框架来 表示,这种由按一定方式联系起来的多个框架组成的系统称为框架系统。 在知识的逻辑表示方法中,知识是借助于原子公式或由原子公式组合而成的台式公 式表示的。在实际中一般只用一阶谓词演算,例如人工智能语言p r o l o g 就是以它为 基础的。 2 3 2 知识获取 所谓知识获取就是将人类已有的知识从外部知识源中抽取出去,表示威计算机能理 解的形式,并输入计算机内的转换过程嘲。知识获取的主要任务是为专家系统获取知识, 建立起健全、有效的知识库,以满足求解领域问题的需要。清史图片名称主题分类专家 系统知识获取的方式可分为直接和间接两类: 1 ) 直接获取方式 这种方式的过程是:清史专家向系统提供一定数量的数据及资料,系统运用理解、 分析、归纳的能力从大量的原始数据、资料中归结、精炼出有用的信息资料,并将其转 化成形式规范的数据,而后将这些数据按一定格式整理成知识,形成知识库。 2 ) 间接获取方式 这种方式在日前用得较多,也较为成熟。其过程是:清史专家先将自己的知识用语 言及书面的形式整理出来,知识工程师在清史专家的帮助下对他们提供的知识迸行分 析、总结和简化,形成易于被计算机理解的知识表示形式,借助知识编辑器之类的工具, 将知识输入系统的知识库中。 1 0 第2 章专家系统概述 另外,在此系统中用到的知识获取的具体方法有: 1 ) 机械式侧 这是一种最简单、最基本的学习方法。它不需要任何推理依靠知识工程师,通过 程序设计或人机交互直接将知识编码输入计算机内。 2 ) 传授式 知识工程师通过阅读大量有关清史的书籍文献并与渍史专家进行交流,以获得有关 主题分类的一些背景知识、深层知识和经验知识,然后将这些知识分析整理成一定的知 识表现形式,通过知识编辑器输入计算机中,构成知识库。 3 ) 归纳式 这是一种从特殊情况推导出一般规律的学习方法。环境向系统提供一系列实例样 本,系统通过归纳推理,将这些例子进行推广,虽然归纳得到的知识不象演绎学习的结 论那样可靠,存在很强的可证伪性,但对于认识的发展与完善具有重要意义嘲。归纳学 习又可分为事例学习和观察与发现学习。归纳学习有助于对已学的知识进行抽象归纳, 从而对其形成更深刻的理解m 1 。这种学习方式对领域理论要求较少,故本系统多用此类 的学习方式对已有知识进行处理。笔者通过分析清史图像名称的特征,结合汉语表达方 式的特点,提出了一个适于本文主题分类专家系统规则归纳的算法,算法的具体步骤如 下: s t e p1 从样本实例库中间选取一个样本实例a = ( s ,l ) 。 s t e p2 将该样本实例分词,然后对所得词串进行清理,最后得到的词串设为 w - - - - ( w 1 ,w 2 w n ) s t e p3 从w 1 开始,依次对w 中所有词查找匹配初始规则库中的规则( 匹配过程中 运用编辑距离匹配法确定相似度,若相似度大于某一个阈值,便认为成功匹配, 被匹配上的规则设为r = ( p ,q ,x ,y ) ) , i 若在完全遍历初始规则库之前能够成功匹配,对每条成功匹配上的规则 做如下判断:被匹配的规则与当前样本实例所属类别是否相同? ( 1 ) 若相同:将被匹配规则更新为( p ,q ,x + l ,y + k 1 ) ( 2 ) 若不相同:生成一条对应的新规则( 釉,l ,0 ,0 ) ( 其中1 = 舻 n ) 基于文本挖掘的主题分类专家系统的设计和实现 将被匹配规则更新为( p ,q ,x + 1 ,y k 2 ) i i 若无新的规则生成,即所有的词在先前的所有规则中均无法成功匹配,则 生成新规则( s ,l ,0 ,0 ) s t e p4 继续处理下一个样本实例,直到最后一个样本实例。 其中 s 为图片名称 l 为该样本实例所属类别 p 为规则前件 q 为该规则后件 x 为该规则被匹配的次数 y 为该规则成功施用的度量值 k 1 = 相似度率奖励数值 k 2 = 相似度 惩罚数值 2 3 3 推理机设计 推理机( i n f e r e n c ee n g i n e ) 是专家系统中实现基于知识推理的部件,是基于知识的推 理在计算机中的实现,主要包括推理和控制二个方面,是知识系统中不可缺少的重要组 成部分。 推理是指依据一定的规则从已有的事实推出结论的过程嗍。专家能够高效地求解复 杂的问题,除了他们拥有大量的专门知识外,更重要的是他们能够合理选择及有效运用 知识。基于知识的推理所要解决的问题是如何在问题求解过程中,选择和运用知识,完 成问题求解。传统的形式化推理技术是以经典逻辑为基础的。谓词逻辑中由一组已知事 实,根据公理系统推出某些结构的演绎过程,称为演绎推理方式嗍。演绎是人类思维的 一种主要表现形式,但由于人工智能研究的特点,严格的演绎方式不能够处理所有的问 第2 章专家系统概述 题,各种非经典逻辑推理方式的研究已成为专家系统和人工智能各个领域研究的重要内 容之一。 本文论述的专家系统知识库中的知识是清史专家的主观判断和经验总结,或是根据 这些已有的判断归纳学习而来的,是不确定和模糊的,因此,本专家系统采用不精确正 向推理方法。推理机的程序算法流程如下图所示: 图2 2 主题分类专家系统推理机的程序算法流程图 基于文本挖掘的主题分类专家系统的设计和实现 2 3 4 基于关系数据库技术的专家系统 众所周知,专家系统性能取决于其所拥有的知识数量、质量及它对知识的管理和运 用能力。早期专家系统的知识库多采用文件管理系统的模式,即将各种知识以文件形式 存储于计算机中例。这种模式存在很多缺点。例如,知识存储结构不清晰,冗余性大; 访问速度慢,使用效率低,不利于查询;可扩充性差,管理能力弱等。而主题分类专家 系统将涉及对图片名称字符串的切分,这牵涉到必须有一个足够大的词典可供查询,另 外还要用到大量的领域知识和专家经验,对知识存储和管理的要求很高。为了满足这些 要求,就必须将数据库技术引入到专家系统的开发中来,必须要妥善利用数据库所具备 的强大数据信息查询管理功能来提高知识的存储和管理能力m 。 专家系统中知识库的主要功能是对知识进行存储和管理,而数据库则是对数据进行 存储和管理,因此它们在功能上是相似,虽在处理对象上则有所不同,但数据库的大部 分管理技术对知识库同样适用。另外,专家系统的推理与数据库中的检索也是相似的, 都是一种匹配过程。因此,基于关系数据库技术的专家系统具有以下优点: 1 ) 利用关系数据库完善的数据信息管理功能能够对知识库中的各种知识进行集中 管理,可以方便地对这些知识进行存储和修改,方便了维护人员对已有知识的访问和管 理维护。 2 ) 利用关系数据库强大的数据信息检索功能能够使得专家系统的推理机在进行规 则匹配、查找时所需的时间大大缩短,从两使整个系统指定任务所需时间更短。 3 ) 使用关系数据库作为专家系统所需访问数据的存储器可以将程序和数据彻底分 离,提高了各功能模块的逻辑独立性。 4 ) 由于存储数据的文件皆为数据库文件,所以这些数据具备良好的可移植性,主题分类 专家系统的知识库中的知识、规则等可以很方便的被类似的分类专家系统调用。 2 3 5 面向对象设计方法 面向对象中的对象就是我们实际生活中可以感触或意识到的人或物的真实写照,而 系统分析和程序设计中的对象是这些实际人和物的数学抽象。对象的概念与我们的思维 逻辑是完全对应的,因此面向对象方法比传统的软件工程方法更容易被人们理解。对象 1 4 第2 章专家系统概述 是一种对自己负责的东西,它知道自己的类型,它包含数据,知道自己的状态,它包含 代码,可以执行操作,对象和其他对象之间可以有关联,对象还可以与其他对象进行通 信。 面向对象的思想和方法不仅仅指面向对象的程序设计,还包括系统开发的一整套原 理:需求分析、业务建模、系统设计、数据库设计、程序设计和其他相关问题。面向对 象方法从建模、分析、设计到编码实现了无缝过渡。面向对象技术有以下的优点: 1 ) 维护简单。模块化是面向对象编程中的一个特征。实体被表示为类和同一命名空 间中具有相同功能的类,我们可以在命名空间中添加一个类而不会影响该命名空间的其 它成员。 2 ) 可扩充性。面向对象编程从本质上支持扩充性。如果有一个具有某种功能的类, 就可以很快地扩充这个类,创建一个具有扩充的功能的类。 3 ) 代码重用。由于功能是被封装在类中的,并且类是作为一个独立实体而存在的, 所以提供一个类库就可以使以前的代码得以反复使用。 面向对象的方法克服了原有软件系统规模庞大、研制周期长、维护费用高、软件系 统过于复杂、应用软件不易集成等困难。面向对象的软件开发方法o m t ( o b j e c t m o d e l i n gt e c h n i q u e ) 。这是一种自底向上和自顶向下相结合的方法,而且它以对象建模 为基础,不仅考虑了输入、输出数据结构,实际上也包含了所有对象的数据结构。从以 上的分析可以看出面向对象技术在软件设计当中占有非常重要的地位。 2 3 6 三层架构的设计概述 所谓三层体系结构,是指在客户端与数据库之间加入了一个中间层,也叫组件层, 该层负责处理业务逻辑的实现。通常情况下,客户端不直接与数据库进行交互,而是通 过c 0 m d c o m 通讯与中间层建立连接,再经由中间层与数据库进行交互。三层体系的应 用程序将业务规则、数据访问、合法性校验等放到了中间层进行处理。“三层”并非是 指物理上的三层,“三层”是指逻辑上的三层,即使这三个层放置到同一台机器上。 1 1 表示层 表示层是信息系统的用户接口部分,即人机界面,是用户与系统间交互信息的窗 基于文本挖掘的主题分类专家系统的设计和实现 1 :3 ,主要功能是指导操作人员使用界面、输入数据、输出结果。表示层同时也提供一定 的安全性,确保用户不会看到机密信息。该层需要以适当的形式显示由中间层动态传送 的数据信息。 2 ) 中间层 中间层是应用的主体,包括了系统中核心的和易变的企业逻辑( 规划、运作方法、 管理模式等) ,它是表示层和数据层的桥梁,它响应表示层的用户请求,执行任务并从 数据层抓取数据,并将必要的数据传送给表示层。是整个分层模型中最为重要的一层。 这一层为表示层提供功能调用,同时又调用数据层所提供的功能来访问数据库。 3 ) 数据层 数据层即数据库管理系统( d b m s ) ,负责管理对数据库的读写和维护,能够迅速执 行大量数据的更新和检索,并响应应用服务器的数据请求。它的物理实现可以在莱一种 数据库管理系统中,也可以是多个异构数据库的集合,这种数据库可以驻留在多种平台 上。 在三层结构中,表示层和中间层之问的数据交换要尽可能简洁,尽量保证一次业务 处理在表示层和中间层之间进行的数据交换少。表示层放在客户端,中间层放在应用服 务器上,数据层放在数据库服务器上。由于企业逻辑与用户界面相分离,独立出应用服 务器,在很大程度上解决了两层结构所面临的问题。具体说三层结构具有如下的优越性: 1 ) 可扩展性、可维护性、可管理性。在三层结构中,用户界面的改变同企业逻辑的 改变互相隔离,互不影响,便于系统的修改和维护,大大增强了系统的灵活性。这对软 件开发者以及用户都有好处。 2 ) 更好的实现安全性。在三层结构中,系统可以把关键性的企业逻辑放在应用服务 器上进行集中管理,而不需要放在每台客户机上。对企业敏感数据的访问也可通过应用 服务器来进行,而不是由客户机直接进行存取。这就增强了系统的安全性。比如在企业 应用的配送系统中,各部门根据各自口令进入各自的应用,不会影响其它部门的工作。 3 ) 易于实现分布式应用程序系统。在三层结构中,客户机可共享应用服务器提供的 数据和功能等技术资源,有利于提高系统的性能和开发效率。 1 6 第2 章专家系统概述 2 4 小结 本章首先简要介绍专家系统基本概念和基本构件,然后针对清史图像主题分类工作 流程的特殊性,分别论述了该主题分类专家系统知识的表示方法和获取方法,提出了一 个有效的规则归纳学习算法,最后简述了数据库技术在本专家系统中的应用和软件开发 所采用的三层结构的基本概念,为以后的编码设计实现提供了重要、坚实的理论基础。 1 7 基于文本挖掘的主题分类专家系统的设计和实现 第3 章文本挖掘 3 1 数据挖掘, 文本挖掘作为数据挖掘的一个重要分支,因此在研究文本数据挖掘的同时有必要对 数据挖掘进行阐述。 数据挖掘( d a t am i n i n g ) 是一个交叉学科领域,是人工智能、机器学习与数据库技术 相结合的产物,受数据库系统、统计学、机器学习和信息科学等多个学科影响,它是 数据库知识发现o d ) 中专门负责发现知识的核心环节:而k d d 是一个交互式、循 环反复的整体过程。k d d 是从数据集中识别出有效的、新颖的、潜在有用的,以及最 终可理解的模式的非平凡过程。尽管k d d 除了包括数据挖掘以外,还包括数据准备、 发现结果、解释评估等诸多环节嘲。下图描述了数据挖掘的大致过程: 日坚护 囹熹夺 原始数据 目标数据待挖掘数据 模式知识 图3 1 数据挖掘过程示意图 数据挖掘是从大量的、小完全的、有噪声的、模糊的、随机的数据集中识别有 效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程“”。它是一门涉及面 很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、 模糊数学等相关技术嘲。一个数据挖掘系统的理想情况是一个自治学习的智能体 ( a g e n t ) ,它能够自动地探索游泳的和令人感兴趣的信息跚,并以适当的形式报告其发现 结果。完全自治的目标是很难做到的,因为决定什么是令人感兴趣的最终是用户而不是 计算机,事实上,大多数数据挖掘系统或多或少都要依靠用户的参与。 第3 章文本挖掘 数据挖掘可粗略地理解为三步:数据准备、数据挖掘,以及结果的解释评估。如今, 越来越多的数据挖掘技术应用到文本挖掘领域“”。 3 。2 文本挖掘 文本挖掘( t e x tm i n i n g ) 也称为文档挖掘( d o c u m e n tm m i n g ) ,文本数据挖掘( t e x td a t a m i n i n g ) 以及文本数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nt e x t u a ld a t a b a s e ) 旧。 一般认为文本挖掘是指在大量文本集合或语料库上,发现其中隐含的、令人感兴趣 的、有用的模式和知识嘲。大多数作用于数据库中的知识发现功能,例如:依赖关系分 析、分类、聚类、偏差检测等,在文本挖掘中都能够或者有可能被实现。显然这种定义 将文本挖掘视为数据挖掘从有结构的数据库到无结构文本的一种跳跃,或者说文本挖掘 是数据挖掘的一个特殊的应用或方面。 文本挖掘是一门新的研究领域,通过采用数据挖掘、机器学习、自然语言处理、信 息检索和知识管理的技术以解决信息过载的问题。它涉及文档集合的预处理、中间形 式的处理( 分类、聚类、趋势预测、关联规则等) 以及结果的可视化。将其用于文本数据 中可以发现其隐含知识,即进行知以获取与发现。在此基础上,将获取的知识应用于相 关领域可以有效地改变相应系统的性能。文本挖掘的对象为自然语言,所以与一般的数 据挖掘不同,它不可避免的涉及到语言学领域的知识。文本挖掘技术处理的文本数据来 源具有多样性,因而文本在进行处理前一般都需要进行预处理,比如:对于h t m l 类 型的文本文件一般预处理的必须步骤为去除h t m l 的语法标签;这些文本数据呈半结构 化或者无结构化;文本数据特点之一就是高维,文本向量的维数可以高达上万,一般的 数据挖掘、数据检索的方法由于计算量过大、代价高昂而不具有可行性,因而有必要对 现有方法加以改变以适应高计算量、高资源消耗的文本处理特点,同时也可以研究文本 表示的新方法;文本检索本身是语义检索,由于一词多义、一字多义,在时间和空间上 的上下文相关等情况,文本检索本身就具有内在相关、非确定性、非精确性等特点,传 统的严格关键词布尔检索方法难于适应具有上述特点的文本检索,因而有必要在检索词 表示、文本表示、匹配算法等各方面进行语义性扩充或者研究。 文本挖掘的主要任务包括: 1 9 基于文本挖掘的主题分类专家系统的设计和实现 1 ) 文本分类:文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确 定一个类别“1 3 。这样用户不但能够方便地浏览文本,而且可以通过限制搜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网教育的智慧生态环境
- 荆州理工职业学院《二外法四》2023-2024学年第二学期期末试卷
- 广西中医药大学赛恩斯新医药学院《暖通空调综合课程设计》2023-2024学年第二学期期末试卷
- 武汉信息传播职业技术学院《英语诗歌欣赏》2023-2024学年第二学期期末试卷
- 桂林航天工业学院《建筑设计原理》2023-2024学年第二学期期末试卷
- 辽宁经济职业技术学院《小学数学研究》2023-2024学年第二学期期末试卷
- 白城师范学院《机电设备故障诊断与维修技术》2023-2024学年第二学期期末试卷
- 玉溪农业职业技术学院《证券投资顾问业务》2023-2024学年第二学期期末试卷
- 广西建设职业技术学院《数字信号处理C》2023-2024学年第二学期期末试卷
- 石家庄经济职业学院《机械工程综合实验》2023-2024学年第二学期期末试卷
- 2024年湖北水利发展集团有限公司招聘笔试冲刺题(带答案解析)
- (完整版)韩国商法
- 2024中国南水北调集团东线有限公司招聘笔试参考题库含答案解析
- 2024猫砂行业调研报告(比亿奇、LORDE)-解数咨询
- 2024年上海市行政执法类公务员招聘笔试参考题库附带答案详解
- 2024年安徽皖丰长能投资有限责任公司招聘笔试参考题库附带答案详解
- 复方氨基酸注射液(17AA-II)-临床用药解读
- 客房服务员:高级客房服务员考试题
- T-CI 179-2023 泥石流泥位流速毫米波雷达监测技术规程
- 劳模人物王进喜 (模板)
- 跨行业合作与创新
评论
0/150
提交评论