(应用数学专业论文)常识知识问答系统中知识库构建的研究与设计.pdf_第1页
(应用数学专业论文)常识知识问答系统中知识库构建的研究与设计.pdf_第2页
(应用数学专业论文)常识知识问答系统中知识库构建的研究与设计.pdf_第3页
(应用数学专业论文)常识知识问答系统中知识库构建的研究与设计.pdf_第4页
(应用数学专业论文)常识知识问答系统中知识库构建的研究与设计.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(应用数学专业论文)常识知识问答系统中知识库构建的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学硕士研究生学位论文 7 3 9 0 9 第1 页 摘要 知识库作为问答系统中用来储存知识的仓库,在整个系统中起到了非常重要 的作用。一个功能和知识完备的知识库能够大大提高问答系统的效率与准确率。 因此本文主要讨论问答系统的知识库构建的思想方法。 本文知识库的设计主要针对常识知识问答系统,由于常识知识的领域范围较 广,知识的稳定性较差,因此知识的搜集和分类整理以及长期的维护将是知识库 的一项重要任务。为了克服传统的基于知识库的问答系统需要建立大规模知识库, 消耗大量的人力物力,以及基于传统信息检索与信息提取的问答系统答案准确性 不高的缺点:同时充分发挥前者问答准确,可以进行一定的推理计算的优点,本 文将上述两种方法结合起来扬长避短,构建高效的知识库。本文主要从以下几 个方面进行了研究: 1 基于问题的面向对象知识表示方法是本文构建知识库的主要方法,它是 以面向对象表示法为主体,每个对象以一个单独的文本来描述。将用户针对该对 象经常提出的问题的类型名作为类或对象的属性名,能够回答该问题的文本内容 作为属性的值。本文将用户问题分为十类,每一类对应一个属性名称,该属性名 称作为标记将标注到描述对象的文本中。 利用基于问题的面向对象的知识表示方法,可以避免人工将知识形式化为知 识点的繁杂过程。 2 研究利用“简单向量距离法”对入库的文本进行自动分类。 3 研究利用特征词典通过对句子进行特征提取的方法对原始文本进行自动标 汜。 本文对于知识的搜集分类以及文本的标注均采用机器自动为主,人工干预为 辅的策略,在减少入力的同时大大提高了准确率。 4 利用本文构建的知识库高效准确地获取答案的方法。 关键词:问答系统,知识表示,面向对象,知识库,特征提取,相似度 第1 i 页河南大学硕士研究生学位论文 a b s t r a c t k n o w l e d g eb a s ea sas t o r e h o u s ef o rs t o r i n gk n o w l e d g e i nt h eq u e s t i o na n s w e r i n g s y s t e mp l a y s a l l i m p o r t a n t r o l ei nt h ew h o l e s y s t e m ak n o w l e d g e b a s e w i t h s e l f - c o n t a i n e df u n c t i o n sa n dk n o w l e d g ec a n c o n s u m e d l yi m p r o v ee f f i c i e n c y a n d a c c u r a c yo f aq u e s t i o na n s w e r i n gs y s t e m s oi nt h i sp a p e r , t h ei d e aa n df u n c t i o no f c o n s t r u c t i n gk n o w l e d g e b a s ei sm a i n l ys t u d i e d i nt h i sp a p e r , k n o w l e d g eb a s es t u d i e di sg e n e r a lk n o w l e d g eb a s e b e c a u s e g e n e r a l k n o w l e d g e c o n t a i n sal a r g en u m b e ro ff i e l d sa n dh a s p o o rs t a b i l i t y , i ti si m p o r t a n t f o ra k n o w l e d g eb a s et oc o l l e c t ,c l a s s i f ya n dm a i n t a i nap l e n t yo fk n o w l e d g e i no r d e rt o o v e r c o m et h ew e a k n e s st h a ta l a r g e - s c a l ek n o w l e d g e n e e db ec o n s t r u c t e di na c o n v e n t i o n a lq u e s t i o na n s w e r i n gs y s t e mb a s e dk n o w l e d g e ,w h i c hw o u l dc o n s u m ea f l o o do fm a n p o w e ra n dm a t e r i a lr e s o u r c e s ,a n da n s w e r so ft h eq u e s t i o na n s w e r i n g s y s t e mb a s e dc o n v e n t i o n a li n f o r m a t i o nr e t r i e v a la n di n f o r m m i o ne x t r a c t i o nh a v el o w a c c u r a c ya n dw e l ld e v e l o pt h ea d v a n t a g e st h a ta n s w e r sa r ee x a c ta n dr e a s o n i n ga n d c o m p u t i n g c a nb ed o n e i nt h i sp a p e rt h et w om e t h o d sa b o v ea r ec o m b i n e dt oc o n s t r u c t a ne f f i c i e n tk n o w l e d g eb a s e t h er e s e a c h o f k n o w l e d g e b a s ei nt h i sp a p e ri sa sf o l l o w s : 1 q u e s t i o n - b a s e do b j e c t - o r i e n t e dk n o w l e d g er e p r e s e n t a t i o n m e t h o di st h em a i n m e t h o du s e dt oc o n s t r u c t k n o w l e d g e b a s ei nt h i s p a p e r i t i sb a s e do nt h e o b j e c t - o r i e n t e dr e p r e s e n t a t i o nm e t h o d e v e r yo b j e c ti sd e s c r i b e db yat e x t t h et y p e s o ft h eq u e s t i o n so f t e na s k e db yu s e r st ot h ec l a s so ro b j e c ta r eu s e da st h e i ra t t r i b u t e s a n dt h ec o n t e n to ft h et e x tt h a tc a na n s w e rt h eq u e s t i o n sa r eu s e da st h ev a l u e so ft h e a t t r i b u t e s i nt h i sp a p e r , t h eq u e s t i o n sa s k e db yu s e r sa r ed i v i d e di n t ot e nt y p e s ,a n d e v e r yt y p ec o r r e s p o n d st oa na t t r i b u t e t h en a m e s o ft h e s ea t t r i b u t e sw o u l db em a r k e d i nt e x t sa sm a r k e r s t h e q u e s t i o n - b a s e do b j e c t - - o r i e n t e dk n o w l e d g er e p r e s e n t a t i o nm e t h o db e i n gu s e d c a l la v o i dt h ec o m p l i c a t e dp r o c e s st h a tk n o w l e d g ei sf o r m a l i z e di n t ok n o w l e d g ep o i n t s b ym a n p o w e r 2 t h et e x t ss t o r e di n t ok n o w l e d g eb a s ea r ea u t o m a t i c a l l yc l a s s i f i e db yu s i n gt h e v e c t o rs p a c em o d e l 3 t h eo r i g i n a lt e x t sa r ea u t o m a t i c a l l ym a r k e db ym a k i n gu s eo ft h ef e a t u r e d i c t i o n a r yt oe x t r a c tf e a t u r e so f s e n t e n c e s i nt h i sp a p e r , k n o w l e d g ei sc o l l e c t e da n dc l a s s i f i e da n dt e x t sa r em a r k e dm a i n l y 河南大学硕士研究生学位论文第l l 页 b yc o m p u t e r sa u t o m a t i c a l l yw o r k i n g ,p o s t e r i o r l yb ym a n p o w e r t h em e t h o dc a n r e d u c em a n p o w e ra n d g r e a t l yi m p r o v ea c c u r a c y 4 t h em e t h o dt h a tc a no b t a i na n s w e r sb ym a k i n gu s eo ft h ek n o w l e d g eb a s ei n t h ep a p e r k e yw o r d s :q u e s t i o na n s w e r i n gs y s t e m ,o b j e c t o r i e n t e d ,k n o w l e d g er e p r e s e n t a t i o n , k n o w l e d g e b a s e ,f e a t u r es e l e c t i o n ,s i m i l a r i t y 河南大学硕士研究生学位论文第1 页 第1 章绪论 1 1 自然语言理解与问答系统 自然语言理解n l u ( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) ,有时也称为计算语 言学,它是研究如何利用计算来理解和生成自然语言的。一般把人工设计的像 b a s i c 语言、f o r t r a n 语言、a d a 语言、等等语言称为人工语言,而自然语言 就是人们日常使用的语言。自然语言和各种符号语言一样,是人们进行推理和 交流的桥梁,由于语言在智能活动中具有重要的作用,当计算机在不同领域逐步 替代人类完成各项工作时,人们也期待着计算机在自然语言的处理上能够接近甚 至达到人的智能水平。因此,自然语言理解着力于研究如何让计算机理解自然语 言,而且已成为人工智能研究中最活跃的领域之一。在过去二十几年里自然语言 理解领域发展了许多新技术、新概念,许多国家都投入巨大的人力、物力、财力 研究用于自然语言同计算机进行通讯的课题,其中包括问答系统的研究与开发。 问答行为在人们的闩常生活中是非常常见的,也是重要的,因此问话的理解, 答话的自动生成也就成为自然语言理解研究的重要课题之一。早期的问答系统, 未充分采用自然语言理解的技术,问话的理解仅仅采用简单的模式匹配,理解的 行为非常的少,因此对于句式灵活多样的口语,这种形式的“理解”显得“呆板”、 “木纳”,使得许多问话都无法分析识别,直接导致了系统的准确性降低。那么采 用上述方法提高准确率的方式除了限制问话的旬式外就只有采用增加句型模板的 方法了这样会加重系统的负担,增加人们维护的工作量,代价是巨大的。随着 自然语言理解研究的深入,更多的采用n l u 技术的问答系统将会摒弃模板匹配这 种笨拙的方法,采用统计的方法并且结合自然语言的规则将会使得问答系统对自 然语言的理解更加准确、灵活。 1 。2 论文的目的和意义 对于基于知识库的问答系统来说,知识库的构建是相当重要的部分。由于知 识的更新较为频繁,因此知识库的构建必须具有易于维护、组织和管理的特点。 早先的知识库,通常使用关系数掘库来组织,同时利用库中二维表来表示知识。 这样做有两点不足:第一,知识在入库的时候需要经过处理,变成记录的形式以 第2 页河南大学硕士研究生学位论文 适应二维表的存放,因此以文本或其它多媒体形式( 本文主要讨论文本形式的知 识,其它形式的知识这罩不作讨论) 存在的知识需要人工对其进行形式化和结构 化爿可放入库中。当然,可以使系统具有自动从文本中提取知识,并以记录的形 式放入库中的功能但是当今具有这种功能的智能技术还很不成熟,正确率相当 的低。这样,如果不进行人工干预,知识库的质量是相当低的,这势必会影响到 系统其它模块的性能。以至最终的结果。但是,如果人工对库进行修正,又会增 加人力资源的代价。第二。需要对关系数据库中的记录经常地进行维护,比如添 加、修改、删除等操作是数据库维护中必须的。由于该知识库的维护操作非常频 繁,因此所需的代价无论是人力、物力还是时间都是非常大的。这个代价在接个 系统的丌发过程中是相当可观,不可忽视的,而且知识库在整个问答系统中也是 起着重要的作用。众所周知,数掘库的维护是必要的。所需要的操作例如添加、 修改、删除也都必不可少,那么要减小这个代价就要从减小这些操作的工作量入 手。因此,本文不再利用关系数据库的二维表来存储知识,而是使用文件系统和 关系数据库相结合的管理方式,将知识的文字描述直接以文本的形式存入库中, 不再做人工提炼,关系数掘库主要用来对文本进行管理,其中的每条记录是文本 的名称及其对应编码,而且编码还体现了文本所描述的知识之间的层次和关系。 知 = 的表示不再用记录的方式,而是采用基于问题的面向对象的知识表示法。 基于问题的面向对象表示法是以无结构的原始文本作为知识来源,不需要太 多太烦杂的人工形式化豹过程,克服了上述以二维表的记录形式表示知识的缺陷。 但是,众所周知原始文本的信息提取技术现在还不成熟准确率相当地低,单 纯地以原始文本的形式入库会给系统其它模块的信息提取任务带来很大的困难; 而且将知识以记录的形式存储于二维表中,这种形式在检索方面的效率远远地高 于原始文本,但是其缺点也是相当明显的。所以综合上述两种方法,取长补短, 将知识的文本描述仍以文本的形式存放。结合关系数据库的优势,利用二维表来 存储文本的名称和编码,其中的编码还可体现知识的层次及之间的关系,立体地 直观地表现了知识体系。不仅能提高检索的效率,而且人工的维护也省时省力。 上文提到了由于信息提取技术的局限性导致了系统从原始文本中抽取信息的 精度较低,而通常因特网上的信息提取准确性相对较高,这是因为网页上的文本 有h t m l 标记,这为信息的检索带来了便利。受到h t m l 标记的启发,为了提 高原始文本的信息提取精度,本文同样为原始文本做了标记,这些标记是基于问 题的,每个标记与问题的疑问点相对应,这样就可以根据所提问的问题迅速地在 文本中找到所需的信息或者信息的范围。关于标记的产生和标注,在本文第二章 的第三节有详细的描述。相比无结构的原始文本来说,简单的标记使得信息提取 的效率提高了个新的层次。 海南大学硕士研究生学位论文第3 页 1 3 问答系统概述 早在2 0 世纪6 0 年代人工智能研究刚开始的时候,就提出了让计算机用自然 语言来回答人们的问题,这就是自动问答系统。第一个问答系统“e l i z a 是 j a s e p hw e i z e n b a u m 在1 9 6 6 年实现的。问答系统在2 0 世纪8 0 年代的自然语言处 理领域曾风行一时,因为t u r i n g 实验告诉人们,如果计算机能够像人一样与人进 行对话,就可以认为计算机有智能,所以研究者们为了探索语言理解技术,纷纷 研究自然语言问答系统。但是,由于当时的条件限制,所有的实验都是在受限的 领域进行的,甚至是固定段落上进行的,所以自动阀答一直被限制在特殊领域的 专家系统。此后,由于大规模文本处理技术的兴起,问答系统的研究受到了冷落 f 3 】。 1 3 1 国内外的研究现状 最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的 愿望也重新促进了自动问答技术的发展。最近有越来越多的公司和科研院所参与 了自动问答技术的研究。比如,微软和i b m 等著名的跨国公司。在每年一度的文 本信息检索( t r e c ) 会议上自动问答( q u e s t i o n a n s w e r i n gt r a c k ) 是最受关注 的主题之一。越来越多的大学和科研机构参与了t r e c 会议的q u e s t i o n a n s w e r i n g t r a c k 。在2 0 0 0 年1 0 月召丌的a c l 2 0 0 0 国际计算语言学学术会议上,有一个专 题讨论会,题目是“o p e n d o m a i n q u e s t i o n a n s w e r i n g ”1 3 1 。 问答系统的现阶段研究,主流的研究方法大致可以分为两类:基于知识库和 基于传统的信息检索与信息提取( i r i e ) 。基于知识库的问答系统,包括c y c 、 n k i ( u s ) 、n k i ( c h i n a ) 等。这类系统的优点是,问答准确,可以进行一定的推理 计算;缺点是,需要建立大规模知识库,消耗大量的人力物力。基于传统i r ( + i e ) 的闽答系统,又可分为两类; 第一类:将多个w e b 页面或者链接提交给用户,让用户自己寻找答案。典型 的系统又a s k j e e v e s ( v g w v v a s k c o m ) 、e n c a r t a ( e n e a r t a m s n t o m ) 等。这类系统相对筒 单。但是仅仅以页面和链接作为用户问题的答案,显然不够准确。严格的说, 这不能算是一个完全意义上的问答系统。 第二类:从大量网页检索到答案,然后以自然语言的方式提交给用户。比较 典型的。是t r e c 比赛中q a ( q u e s t i o n a n s w e r i n g ) t r a c k 。这类系统技术成熟, 易于丌发,但是答案准确性不够,其工作过程基本上是机械搜索,对文本理解和 第4 页河南大学硕士研究生学位论文 推理涉及较少1 4 j 。 1 国外研究现状 目前,国外已经丌发出些相对成熟的问答系统。麻省理工( m i t ) 开发出 一个问答系统s t a r t ,从1 9 9 3 年开始发布在i n t e r n e t 上,网址如下: h t t p :w w w a i m i t e d u p r o j e c t s i n f o l a b 。可以回答一些有关地理、历史、文化、科 技、娱乐等方面的简单问题。比如:对于问题“w h a ti st h el o n g e s tr i v e ri nt h e w o r d ? ”s t a r t 将会回答“w i t hal e n g t ho f 4 ,1 8 0m i l e s t h en i l er i v e ri st h el o n g e s t r i v e ri nt h ew o r l d ”另一个比较成熟的问答系统a n s w e rb u s 的网址是: h t t p :m i s s h o o v c r s i u m i c h e d u z z h e n g q a - n e w 。a n s w e r b u s 是一个多语种的自动问 答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大 利语和葡萄牙语的问题【3 1 。 2 国内研究现状 尽管国内在该领域的研究起步较晚,但是在近几年却取得了较快地发展,并 且有越来越多的科研机构参与到该项研究中来。中国科学院从2 0 世纪8 0 年代开 始组织有关科学知识库的研究并拨专项经费支持。十多年来,已建成涉及物理、 化学、生物等领域的十几个科学数据库,在科研工作中发挥了积极作用。据了解, 还有许多单位和部门也都- 丌发了与各自领域有关的专业数据库,但这些数据库的 联网使用情况及其效果报道不多。在最近有关知识库的开发与研究中,以盘古知 识库和f 在建立的国家知识基础设施海量知识库最为引人瞩目。 ( 1 ) 陆汝钤院士主持丌发的盘古知识库并以此为后台的对话系统a u t o t a l k s y s t e m 。a u t o t a l k s y s t e m 是国家自然科学基金重点项目“常识知识的实用性研究” 的一个子课题,是一个具有常识知识的对话系统。a u t o t a l k 的任务是模仿一个学 龄前儿童( 小于等于6 岁) 与人交谈,其输入输出都是文本式自然语言。 ( 2 ) 由曹存根研究员率领的课题组,正在建立国家知识基础设旌n k i ( n a t i o n a lk n o w l e d g ei n f r a s t r u c t u r e ) 海量知识库,并在此基础上搭建n k i 问答系 统。n k i 问答系统是基于n k i 海量知识库的重要应用。可以对国家地理知识库、 城市天气预报知识库、人物知识库、计算机知- 【 库、中医疾病知识库、中国民族 节开知识库、中国民族知识库、世界民族知识库、中国朝代知识库、腧穴知识库、 考古学石器时代知识库、体育运动项目知识库、中医证型知识库、中国音乐作品 知识库、外国音乐作品知识库、外国音乐人物知识库、军备知识库、军事人物知 识库、军事条约和法规知识库、中国帝王知识库、药膳知识库、数学知识库、天 文学知识库等1 6 个学科领域共2 3 个知识库的知识进行查询。用户可以通过自由 的自然语言的提问方式获取所需要的知识,输入形式可以多样化。 河南大学硕士研究生学位论文第5 页 1 3 2 存在的主要问题 图灵( t u f i n g ) 曾提出了著名的图灵测试,如果计算机能通过这个测试,就 可以说计算机已经具有了人类的思维。在图灵测试中,参加者是计算机、被实验 的人以及主持实验的人。由主持人提出问题计算机和被实验的人来回答,被实 验者在回答问题时尽可能地向主持人表示他是“真正的”人,计算机也尽可能逼 真地模仿人的思维。如果主持人通过听取对问题的回答分辨不出哪个是人的回答 时。便可认为被实验的计算机是有智能的了。但是,目前计算机科学离这个智能 的目标还很遥远。对于目前的问答系统来说,还不能像人类一样能自如地回答用 户提出的各种问题。问答系统并不具备任何思维和推论能力,它只能从已有的知 识库中搜索相关的答案。所以问答系统所能回答的问题受限于知识库。如果库中 没有相应的内容,那么问答系统就不能正确地回答出用户提出的问题。而且,目 前问答系统的准确率还比较低,在t r e c 会议中,一般的问答系统的准确率都在 3 0 左右。 当前,大多数的问答系统都是基于知识库的问答系统。所谓基于知识库的问 答系统就是拥有一个或多个知识库,并利用检索、推理等技术,来理解与求解用 户问题的问答系统。一般来说,知识的数量与质量是一个基于知识库的问答系统 性能是否优越的决定性因素因此,基于知识库的问答系统的主要特征是有一个 或者多个知识库,其中存储一个或者多个领域的知识。那么知识库的好坏将直接 影响这种问答系统的性能的优劣。因此知识库本身所存在的问题也直接影响了整 个系统。目前知识库还存在着一些无法逾越的问题,例如: ( 1 ) 知识获耿的瓶颈问题。现在还有相当数量的知识库是手工构建的。不可否 认。由于知识提取技术的不成熟,采用机器自动进行知识获取势必会降低知识库 的质量,而人工构建知识库虽然保证了库的质量,但同时也增加了工作量,耗费 了成本。 ( 2 ) 知谚 库维护的困难。出于知识的动态性,使得知识库需要经常的进行维护。 添加、修改、删除等数据库维护中通常的操作更是必不可少。尤其是当知识库非 常庞大的时候,其维护对整个系统来说是一个不容忽视的大工作量。 ( 3 ) 知识库的完备性和不确定性 本文针对上述知识库存在的问题提出了基于问题的面向对象的知识表示方 法来构建知识库。在该方法中,机器可以从不同的渠道自动地获取知识对象的文 本拙述并分类存放到相应的库中,在一定程度上解决了知识获取的瓶颈问题。对 于知识库的维护,本文设计为机器自动与人工参与相结合,一定程度地减轻了人 工维护的工作量。 第6 页河南大学硕士研究生学位论文 1 4 常识知识问答系统的模型和论文的组织结构 本文设计的常识知识问答系统和一般的问答系统在模型结构上基本相同,所 不同的是后台知识库的组织结构,及其相应的对问题的分析和知识库的答案提取 技术的不同。这些不同将会使整个系统的性能产生较大的改变。常识知识问答系 统的模型如图1 一l 所示。 礴谢蜜 圈i l常识知识闷誉系统的模型 由图1 1 可以看出,知识库是问答系统一个重要的组成部分,是问答系统的 强大的知识后盾。没有知识库,问答系统就犹如一副空壳无法运作,知识库是问 答系统的知谚 储备为高效准确的回答用户的闯题提供了保障。因此本文对问答 河南大学硕士研究生学位论文第7 页 系统的知识库构建进行了较为深入的研究。 本文由六个部分组成,具体如下: 第1 章绪论:概述了问答系统及其与自然语言理解的联系,介绍了本文研究 课题的目的和意义。 第2 章关于常识知识表示的研究:重点研究知识库构建中的知识表示方法。 第3 章文本自动分类:介绍文本自动分类技术。 第4 章文本自动标记:介绍如何将无结构的文本标记为类x m l 的半结构化 形式。 第5 章知识库答案提取的研究:介绍从本文所设计的知识库中提取答案的方 法。 第6 章应用实例儿童自然语言对话智力玩具系统的设计模型:介绍利用 本文所设计的知识库作为后台,开发的一个应用实例儿童自然语言对话智力 玩具系统的设计模型。 第8 页 河南大学硕士研究生学位论文 第2 章关于常识知识表示的研究 2 1 知识表示概述 定义2 1 1 知识就是人们对客观事物( 包括自然的和人造的) 及其规律的认 识,还包括人们利用客观规律解决实际问题的方法和策略等 2 2 1 。它是信息经过加 工整理、解释、挑选和改选而成的。 定义2 1 ,2 所谓知识表示,就是将已获得的有关知识以计算机内部代码的形 式加以合理地描述、存储,以使有效地利用这些知识【5 】。它是指面向计算机的知 识描述或表达形式和方法。其实质就是知识的符号化,便于计算机对知识进行存 储和处理。 众所周知,面向人的知识表示可以是语言、文字、数字、符号、公式、图表、 图形、图像等多种形式。这些表示形式是人所能接受、理解和处理的形式。但面 向人的这些知识表示形式,目前还不能完全直接用于计算机,因此就需要研究适 于计算机的知识表示模式。具体来讲,就是要用某种约定的( 外部) 形式结构来 描述知议,而且这种形式结构还要能够转换为机器的内部形式,使的计算机能方 便地存储、处理和利用 2 2 1 。 研究知识表示是研究用机器表示知识的可行性、有效性的般方法,是一种 数据结构与控制结构的统一体,既考虑知识的存储又考虑知识的使用【5 】。知识表 示的方法灵活多样,不同的知识表示方法都有其针对性和局限性,有时同一领域 的知识用不同的方法来表示因此,知识表示的方法应根据具体情况而定。在实 际应用中所采用的知识表示同知识的组织、知识的结构和知识的使用方式密切相 关,知识表示方法可以从以下几个方面来衡量: 表示能力:具备将问题求解中的各类形式化知识完全表示出来的能力: 可理解性:便于理解和实现: 可操作性:能使基于知识的推理有效地、符合逻辑地进行; 结构性:便于知识系统的维护、管理及扩充,并有利于推理的进行【6 l 。 知识表示是建立专家系统及各种知识系统的重要环节,也是知识工程的一个 重要方面。经过多年的探索,现在已经提出了不少的知识表示方法,诸如:一阶 谓词逻辑、产生式规则、语义网络、框架、面向对象、脚本、过程等。这些表示 法都是显式地表示知识,亦称为知识的局部表示。另一方面,利用神经网络也可 以表示知识,这种表示是隐式地表示知识,亦称为知识的分布表示。 在有些文献中把知识表示还分为陈述表示和过程表示。陈述表示是把事物 河南大学硕士研究生学位论文第9 页 的属性、状态和关系逻辑地描述出来;而过程表示则是把事物的行为和操作、解 决问题的方法和步骤具体地、显式地刻划出来。一般称陈述表示为知识的静态表 示,称过程表示为知识的动态表示。对于同一条知识,既可陈述表示,也可过程 表示。 随着知识系统复杂性的不断增加,人们发现单一知识表示方法已不能满足需 要。于是又提出了混合知识表示。另外,还有所谓的不确定或不精确知识的表示 问题。所以,知识表示目前仍是人工智能、知识工程中的一个重要研究课题。 2 2 常识知识 2 2 1 常识知识的有关概念 定义2 2 1 常识知识是通用性知识,是人们普遍知道的知识,可用于所有的领 域【2 射。它是人类社会中经过长期验证使用,众所周知、不言自明的知识。 从人与自然的关系来说,常识应是那些经过人类社会千百年实践检验固定下 来的,对于大多数情况而言正确地反映了对客观世界规律的认识。常识有可能有 例外,但在没有迹象表明当前情况属于例外时,按常识处理,一般应合理、正确。 从人与人的关系来既,常识应是一种公共性的、约定性的知识,一种由于其“众所 周知”而无需在每次交往中显式说明的知识。因此,常识使人际交往更简便、经济。 为了使人与计算机的交互尽可能地像人际交往一样简便、经济,为了使计算 机求解问题的知识环境更有利于问题的求解,必须考虑使计算机具有常识,包括 常识内容和常识机制。 常识对人类想要做的许多事情是足够的。随着人类对客观世界描述希望更糟 确时,科学知识会渐渐地与常识相分离。 2 2 2 常识知识和专业知识的区别 定义2 2 2 所谓专业知谈又称为领域知识,是面向某个具体领域的知识,只有 相应专业领域的人员才能掌握并用来求解领域内的有关问题郾j 。 常识知识与专业知识有很大的不同,专业知识的重要性是人所共知的。它被 广泛应用于各类专家系统和应用软件之中,而常识知识的重要性却往往被忽略。 著名学者m c c a r t h y 曾指出:缺乏常识是当前专家系统的一大弱点1 2 ”。例如,许 多医学专家系统不知道“死”这个概念,当然很难要求这样的专家系统起到和医 第1 0 页 河南大学硕士研究生学位论文 生一样的作用。常识知识与专业知识的第二个区别是:人类积累的专业知识虽浩 如烟海,但比起常识知识来,专业知识还只是冰山一角。常识知识范围之广袤, 是专业知识所不可比拟的。它们的第三个区别是:专业知识一般都是形式化了的, 或比较便于形式化,而常识知识却极难形式化i 7 1 。 出于以上这些原因,在国际人工智能界,一直公认常识性知识的处理是人工 智能的核心难题,有无常识是入和计算机的最根本区别,把常识问题能否解决和 人工智能是否能够实现联系起来1 7 】。 2 2 3 常识知识的重要性 常识知识的重要性值得关注。 ( 1 ) 对有常识的机器将发现很多商业价值的应用。如“家用机器人”,这样一 个机器能做像保持房间干净、洗衣、做饭、进行日常的家庭维护( 如更换烧掉的 灯泡) 及洗盘子等等的闩常家庭工作。但是像这样一个机器人必须拥有的足够的 常识知识才可以处理同常问题。例如:从洗碗机出来的东西放到哪儿去? 怎么告 诉机器人吸尘气需要打扫? 放在冰箱中的生菜一般保持多久? 等等。 ( 2 ) 让专家系统更有用。专家系统仅仅在专门知识非常有限的领域内执行良 好。一般的常识知识至少使它们能认识到用户什么时候想要那个区域以外的信息。 它也允许系统更准确地预测什么时候它的知识和手头的任务相关。什么时候不相 关。 ( 3 ) 扩展一个专家系统的知识中常识知识的结构也是重要的。在推理中都熟悉 的类推和比喻。空问比喻尤其普遍。例如,我们说量子电动力学超过了我们的知 识范围:洁癖紧挨着信仰;m a r y 的薪水高于j o h n 的,等等。有充分的理由怀疑 比喻不只是简单的语苦巧合。事实上,很多好的主题的概念化基础是基于空间和 其它常识思想的。因此,一个拥有世界的基本常识概念化的专家系统可以几乎不 再需要扩大和修改来扩展它的知识库。 ( 4 ) 在理解自然语言方面,常识知识也起到了重要的作用。 2 2 4 常识知识表示的难点 尽管常识知识具有相当的重要性,但是其知识表示的难度却相当大。 ( 1 ) 数量巨大。一个专家系统的专业知识一般可用几百条或几千条事实和规 则来表示。一个具有普通人类级智能的系统需要多少知识昵? 没有人知道确切的 数字。d o u gl e n a t 设法建立这样的事实的知识库称为c y c ,他认为需要1 0 0 河南大学硕士研究生学位论文第ll 页 万到1 0 0 0 万的事实 g u h a l e n a t1 9 9 0 ,l e n a t & g u h a1 9 9 0 ,l e n a t1 9 9 5 1 。在1 9 9 0 年,c y c 的作者说: 3 4 年以来,a i 一直在设法摆脱这样一个事实:可能并没有任何优雅的、不费 力的方法去获得这个巨大的知识库,而是要花大量的力气( 至少刚开始时) 来人 工输入每一个断言 g u h a & l e n a t1 9 9 0 ,p 3 3 1 。 ( 2 ) 缺乏规律性。专业知识比较有规律,其主要部分较易总结成条文,常识及 其推理的特性广泛,模糊且复杂,规律少,例外多,不易总结成条文。例如,s o w a 把常识比喻为“知识汤” 2 5 1 ,曹存根把知识比做知识云【2 6 1 1 2 7 1 。 ( 3 ) 难以定义其边界。常识世界的概念化将可能涉及到很多实体、功能和关系, 它们可能会扩散到整个概念化中。其知识领域无限,且边缘模糊。 ( 4 ) 用来描述世界的很多语句仅仅是一个大概,具有不确定性、近似性、模糊 性、时变性、非单调性等特点。 以上的这些难点成为阻碍常识知识表示发展的瓶颈。因此,克服这些瓶颈将 可以有效地推动常识表示的发展。所以本文采用基于问题的面向对象表示方法来 表示常识知识。尽管该方法并不能彻底改变常识知识的特性。但是可以尽可能的 降低其知识表示的难度。 2 3 基于问题的面向对象常识知识表示 定义2 3 1 问题,是指提问者对某个主题的知识所提出的询问。这些询问一般 是有疑而问,期待被问者或对方回答,以获得新的信息【_ ”。 定义2 _ 3 2 疑问点,是指疑问句中的询问重点【4 引。 定义2 3 ,3 问题类型是指问题的分类,本文对问题的分类依据问题的疑问 点,相同疑问点的问题归为一类。 定义2 3 4 属性标注,是指将代表属性的符号标记在相应的文字前面,以显示 该文字的属性。 定义2 3 5 原始文本,是指未经属性标注过的文本。 定义2 3 6 标注文本,是指已经进行了属性标注的文本。只有此类文本才可以 存储在知识库中。 定义2 3 7 文本。是指原始文本和标注文本的统称。 本文第1 章第3 节所提到了问答系统的现阶段研究,有两类主流的研究方法: 基于知识库和基于传统的信息检索与信息提取( i r i e ) 。将两种方法做一下比较。 基于知识库的方法优点是:问答准确,可以进行一定的推理计算;但是,需要建 立大规模知识库,消耗大量的人力物力。基于传统的信息检索与信息提取( i r i e ) 第1 2 页河南大学硕士研究生学位论文 这类系统虽然易于丌发,但是答案准确性不够,其工作过程基本上是机械搜索, 对文本理解和推理涉及较少。通过比较上述两种方法的优劣,本文考虑将它们结 合起来,扬长避短,将无结构的原始文本作为知识来源,不需要太多太烦杂的人 工形式化的过程,在降低答案获取难度的同时提高准确率。鉴于上述原因本文提 出了基于问题的面向对象的知识表示方法来建立知识库。 2 3 1 基本思想 基于问题的面向对象的知识表示方法是以面向对象表示法为主体框架,每个 对象以一个单独的文本来描述。将问题作为类或对象的属性名,能够回答该问题 的文本内容作为该属性的值。这种设计思路的产生是从问题出发来分解处理原始 文本的。利用本文所介绍的知识表示方法来构建知识库,当获取答案时,需要对 对象或类的文本描述进行信息提取,而不是从关系数据库中查找记录数据。该方 法所用到的关系数据库仅仅用来构建类和类及类和对象间的关系。因此该方法不 需要构建复杂的数据库,仅仅需要在原始文本中可能回答某类问题的地方做一个 对应浚类问题的标记。 基于问题的面向对象的知识表示方法中对象的属性名称即为问题的类型名 称,将问题与知识对象的属性一一对应起来。本文所研究的问答系统是基于知识 库的问答系统,因此构建知识库是问答系统的重点任务之一。如上所述,由于基 于知识库的问答系统有需要建立大规模知识库,耗费人力物力的缺点,所以本文 考虑简化知识库中知识的表示方法,尽可能减少其人工形式化的工作。在这一点 上。受到基于传统的信息检索与信息提取( i r i e ) 的方法的启发,本文知识库中 的知识都以原始文本的形式存在,一个文本描述一个知识对象。这样就避免了人 工形式化的操作。但基于传统的信息检索与信息提取( i r i e ) 的方法,正是由于 从未形式化或半形式化的无结构文本中检索并提取信息,导致了效率较从结构化 知识中检索提取的低。在问答系统中,问答的准确性是系统一个非常重要的技术 指标,因此在降低构建知识库工作量的同时,问答效率的提高也是值得注视的。 因此本文分析了对文本的三种处理方式( 未形式化、半形式化、形式化) 的工作 量,考虑采用一个折中的处理方式即半形式化的方法对文本进行简单的处理。该 处理操作,本文采用机器自动和人工校正相结合的方式,机器自动为主,人工校 正为辅。这种形式化处理类似于网页的x m l 标记,本文设计在原始文本中也进 行标记。标记的名称为知识对象属性的名称。将属性名称也即问题的类型以类 x m l 的形式标注在原始文本中,这样的标记直接与问题类别相对应,在分析了问 答系统用户提出的问题类型后即可找到答案或答案的范围,缩小了直接在原始文 河南大学硕士研究生学位论文第l3 页 本中进行检索的范围,提高了答案提取的精度。利用本文的方法,可以使系统快 速地在某个主题的文本中找到可能的候选答案句,以缩小信息提取的处理范围, 达到快速准确获取答案的目的。 2 3 2 面向对象的知识表示方法 一、面向对象的基本概念 面向对象的知识表示方法近几年得到了大力发展。这种表示方法考虑了现实 世界与面向对象解空间的关系,其目标是姆现实世界的问题尽可能简单化。面向 对象的知识表示方法采用数据抽象和信息隐蔽技术,以抽象数据类型为基础,将 数据和对数据的操作放在一起,作为一个楣互依存、不可分割的整体来处理,并 将这种整体抽象成一种新的数据类型类。通过类继承和对象间的消息激发机 制就实现了推理,从而较好地描述了现实世界的结构模型。类的概念反映了人类 认识事物普遍性的抽象。继承性则实现了从一般到特殊的演绎过程。面向对象的 表示方法以对象作为知识分割实体,自然地体现了各种知识媒体之阉的相互作用, 将知识对象进行封装,便于知识库的维护和修正【s 1 。 在面向对象表示法中,有一下几个基本概念: ( 1 ) 对象( o b j e c t ) 。对象是由一组数据和与该组数据相关的操作构成的实体。 如一个对象叫m e ,会有一组表征自身的数据: n a m e :l i m i n g a g e :2 0 相应地操作为 b i r t h d a y ( 岁数) :每年实现a g e + l ( z ) 类( c l a s s ) 。类由一组变量和一组操作的描述组成,它描述了一组具有相 同属性和操作的对象。每一个对象都属于某一类,每个对象都可由相关的类生成, 类生成对象的过程就是例化。 ( 3 ) 消息( m e s s a g e ) 。消息是由( o b j e c t ,s e l e c t o r , a r g u m e n t s ) 表示。其中= o b j e c t 是消息要发往的对象,s e l e c t o r 是要求该对象完成的操作,a r g u m e n t s 是s e l e c t o r 可选的参数【5 1 。消息是对象之间相互请求或相互协作的途径,是要求某个对象执 行其中某个功能的说明。对象闻的联系只能通过消息的传递来进行。某一对象在 执行相应的操作时,又可以请求其他对象完成某种操作。对象只有在收到消息时 才可被激活哪。 ( 4 ) 继承( i n h e r i t a n c e ) 。个类拥有另一个类的全部变量和操作,这种拥有就 是继承,继承是面向对象

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论