(计算机应用技术专业论文)房地产投资开发经验重用的tcbr实现研究.pdf_第1页
(计算机应用技术专业论文)房地产投资开发经验重用的tcbr实现研究.pdf_第2页
(计算机应用技术专业论文)房地产投资开发经验重用的tcbr实现研究.pdf_第3页
(计算机应用技术专业论文)房地产投资开发经验重用的tcbr实现研究.pdf_第4页
(计算机应用技术专业论文)房地产投资开发经验重用的tcbr实现研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理工大学硕士论文摘要2 0 0 5 年2 月 摘要 本课题的任务是采用基于文本案例的推理( t c b r ) 技术,构造房地产投资 开发经验重用系统,并研究在该系统中,如何实现文本案例表示,信息实体解析, 案例的提取以及案例学习等内容。 c b r ( c a s e b a s er e a s o n i n g ) 是一种人工智能的推理方法,它以实例作为其 最基本的推理单元,当一个新的待解决问题提出以后,我们可以把它抽象为一个 新实例,为了解决这个问题我们从实例库中找出一个和新实例最相近的实例,其 解决方案就可作为新问题的参考。我们还可以对实例进行修改,使之更符合问题 的要求。修改后的实例成为一个新学习到的实例被存到实例库中,如果下一次碰 到类似的问题就可以此作为参考。这是一般c b r 系统的原理,它只是对领域经验 的自学习做了大量的工作。而房地产投资开发经验有结构不易确定、来源多种多 样等特性。针对这些特性,我们采用c b r 的一个分支:基于文本的案例推理 ( t e x t u a lc b r ,t c b r ) 来完成推理和学习系统的构建。在系统构建和t c b r 理论 研究过程中,产生了许多新的特性,本论文将对这些特性进行详细的研究,分析 和验证。 在本论文中,首先对房地产开发经验重用系统的选题背景和现状进行了阐 述,并对本课题的研究内容和意义进行了介绍。从中我们可以看出,将t c b r 技 术和实例提取网c r n 应用到房地产投资开发经验重用上,可以为广大地产投资者 起到一个智能辅助决策的作用,并推动c b r 和t c b r 技术的应用领域研究。接下 来,我们详细介绍了t c b r 、c r n 和其中关键术语的概念和定义,并介绍了构造 c r n 的详细过程以及相关计算函数。在c r n 构造过程中,提出了一种新型的实例 与问题相关度评价的计算模型并进行详细的分析。然后本文详细说明了c r n 在本 系统中实现的算法,结构和实现过程,包括信息实体的解析、实例的相关值计算 等内容。 实例的学习是c b r 系统中重要的组成部分,论文在接下来的部分提出了种 实例学习的方法,并对这种方法的发展提出了设想。在案例学习过程中,对于可 能产生的实例冗余问题,提出了一种可行的解决办法。 在文章的后面,我们对系统的优势和缺陷进行了介绍,主要进行了现有的房 昆明理工大学硕士论文摘要2 0 0 5 年2 月 地产业帮助系统和本系统的比较,以及传统基于关键字的查找和本系统基于信息 实体的c r n 实例提取网的提取之间的性能和特点比较。由此看出。将t c b r 技 术和c r n 推理结构应用于此类型的系统中不失为一种可行的实用的解决方案。 文章最后对系统进行了总结,并做出了展望。期望将来能将自然语言理解机 制应用于问题的解析以及实例的学习过程,并能完成一种半自动或自动学习的算 法机制。并且,在实例提取之后的实例改编在t c b r 中也是个需要研究的方 向。 关键词: 房地产投资开发、经验重用、c a s e - b a s e dr e a s o n i n g 、c b r 、t e x t u a lc b r 、 c a s er e t r i e v a ln e t s 、实例学习。 昆明理工大学硕士论文摘要2 0 0 5 年2 月 a b s t r a c t t c b ru s e d 玎qe x p e i u e n c er e u s eo fr e a l t y ,s i n v e s t m e n t a b s t r a c t t h et a s ko ft h i sd i s s e r t a t i o ni st os t u d yh o wt ob u i l dae x p e r i e n c er e u s i n gs y s t e m o fr e a l t y si n v e s t m e n ta n de x p l o i t a t i o nu s i n gt e x t u a lc b rt e c h n o l o g ya n dh o wt o a c h i e v et h ed e s c r i p t i o no ft e x t u a lc a s e s ,t h ep a r s i n go fi n f o r m a t i o ne n t i t i e s ,t h e r e t r i e v a la n dl e a r n i n go fc a s e si nt h i ss y s t e m c b r ( c a s e b a s er e a s o n i n g ) i so n eo fa ir e a s o n i n gm e t h o d sa n db a s e do nt h e c a s e s w h e nan e wp r o b l e mi sc a l t l eu pw ea b s t r a c ti ti n t oan e wc a s ea n df i n dao l d s i m i l a re a s ef r o mt h ec a s eb a s e s ow ec a ng e ts o m eu s e f u ls u g g e s t i o n sf r o mt h eo l d c a s e i f t h eo l dc a s ei sn o tf i tt ot h en e wc a s e ,t h e nw ea d a p tt h eo l do n et of i tt h en e w c o n d i t i o n i ft h i si ss u c c e s s f u lt h ea d a p t e dc a s ei ss t o r e di n t ot h ec a s eb a s ea n dw h e n t h es a m ec o n d i t i o nc o m e su pa g a i nw ew i l lg e ts o m eu s e f u li n f o r m a t i o nf r o mt h i s s t o r e dc a s e t h i si sg e n e r a lc b rs y s t e m sp r i n c i p l e i to n l yd o e ss o m ew o r ki nt h e p r o b l e md o m a i n ss e l f - l e a r n i n g b u t t h e e x p e r i e n c eo fr e a l t y s i n v e s t m e n ta n d e x p l o i t a t i o na l w a y sh a su n c e r t a i ns t r u c t u r ea n d i t ss o u r c e sa r em a n ya n dv a r i e d s ow e u s et e x t u a lc b r ( ae m b r a n c h m e n to fc b r ) t ob u i l dc a s er e t r i e v a la n dl e a r n i n g m o d u l e s o m en e wf e a t u r e sc o m eu pa n dw ew i l ls t u d y , a n a l y z ea n dt e s tt h e mi nt h i s d i s s e r t a t i o n i nt h i sd i s s e r t a t i o n ,w ef i r s te x p a t i a t e do nt h et o p i cs e l e c t i o n sb a c k g r o u n do ft h e s y s t e ma n di n l r o d u e e dt h er e s e a r c h i n gc o n t e n ta n dp u r p o r t f r o mt h e s ed e s c r i p t i o n , w ec a ns e et h eu s i n go ft c b ra n dc r nt e c h n o l o g yi nt h i ss y s t e mc a nh e l pm a n y i n v e s t o ra sai n t e l l i g e n ta s s i s t a n td e c i s i o n - m a k e ra n dp r o m o t et h es t u d yo ft h ec b r a n dt c b rt e c h n o l o g y sa p p l i c a t i o n s i r s u c c e s s i o n ,w er e c o m m e n dt h ec o n c e p t i o n a n dd e f i n i t i o no ft c b r ,c r na n ds o m ek e yt e r m s , a n dw ee x p a t i a t eo nt h eb u i l d i n g p r o c e s so fc r na n ds o m ec o r r e l a t i v ec o m p u t i n gm o d e la n df u n c t i o n i nt h eb u i l d i n g i i i j 墅婴里盟堡主堕苎= 塑塞二 ! ! ! ! 笙! 旦 p r o c e s s w ep u tf o r w a r dan e w l yc o m p u t i n gf u n c t i o no fc a s e s 。c o r r e l a t i v ed e g r e ea n d m a k eap a r t i c u l a ra n a l y s i s t h e nw ee x p a t i a t eo nt h er e a l i z a t i o n sa r i t h m e t i c ,s t r u c 眦 a n d p r o c e s so fc r ni nt h i ss y s t e mw h i c hi n c l u d et h ep a r s i n go fi n f o r m a t i o ne n t i t i e s a n dt h ec o r r e l a t i v ed e g r e e sc o m p u t i n go f c a s e s c a s el e a r n i n gi st h em o s ti m p o r t a n tp a r to fac b r s y s t e m i nt h i sd i s s e r t a t i o n ,w e p u tf o r w a r dac a s el e a r n i n gm e t h o di nt c b ra n dc o n c e i v ei t sd e v e l o p m e n t i nc a s e l e a r n i n gp r o c e s s ,w ec o m eu pw i t haf e a s i b l es e t t l et os o l v et h ec a s er e d u n d a n t p r o b l e mi nt h i ss y s t e m a tt h el a t t e rp a r to ft h i sd i s s e r t a t i o n ,w ed i s c u s st h ea d v a n t a g ea n dl i m i t a t i o no f t h i ss y s t e mi n c l u d i n gt h ec o m p a r i s o nb e t w e e n e x i s t i n gr e a l i t ya s s i s t a n th e l p e ra n do b r s y s t e m ,t h ec o m p a r i s o no fp e r f o r m a n c ea n dc h a r a c t e r i s t i cb e t w e e nt r a d i t i o n a ls e a r c h b a s e dk e y w o r da n do u rs y s t e m 。sc r nr e t r i e v a lm e t h o db a s e di n f o r m a t i o ne n t i t i e s f r o mt h o s ec o m p a r i s o n s ,w ec a nk n o wi ti saf e a s i b l es o l u t i o na p p l y i n gt h et c b r a n dc r n t e c h n o l o g i e si n t ot h i sk i n do f a s s i s t a n ts y s t e m k e y w o r d s : i n v e s t m e n ta n de x p l o i t a t i o no fr e a l i t y , r e u s eo fe x p e r i e n c e ,c a s e b a s e dr e a s o n i n g , c b r 、t e x t u a lc b r ,c a s er e t r i e v a ln e t s ,c a s el e a r n i n g i v 昆明理工大学硕士论文目录2 0 0 5 年2 月 图表目录 图2 - 1 传统c b r 原理图 图2 - 2c b r 推理循环图 图2 - 3t c b r 实例推理流程图 图3 。lc r n 结构示意图 图4 。1实例链接结构图一 图4 。2 实例库的关系型数据库表示 图4 - 3 系统总体设计图一 图4 4 功能模块结构图 图4 5 双向式c b r 算法原理图 图4 - 6 双向式推理与c r n 结合的推理流程 图5 1 经验学习流程图 图5 - 2 实例学习中自然语言理解摘要的应用 4 5 7 1 ( ) 1 9 一2 0 2 3 2 3 2 4 2 5 一2 7 2 8 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或 我个人) 进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成 果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明 确的说明并表示了谢意。本声明的法律结果由本人承担。 学位论文作者签名: 日 期:遮年弓月f 日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:且论文作者签名:趟 日 注:此页放在封面后,目录前。 昆明理工大学硕士论文第一章2 0 0 5 年2 月 第一章绪论 摘要:本章阐述了论文选题的背景,介绍了房地产投资业领域中智能辅助决策 系统的发展,以此为契机提出了将c b r 推理技术应用于房地产投资业的 经验重用问题上。在本章的后半部分,阐明了论文选题的理论依据以及 论文的研究内容和意义。 关键词:c b r 、t c b r 、房地产、房地产投资、房地产开发、重用、辅助决策a 1 1 论文选题的背景 现实生活中,我们常常会遇到复杂领域或知识不完备的领域里的一些问题, 这些问题很难用公式、模型或规则加以描述、表示。然而如果我们有过解决类似 问题的经验,我们往往会将当时的解决方法作为参考,并根据自己的知识将该方 法稍加修改,使问题得以解决。受人类这一认识过程的启发,人们在处理问题时 如果有经验而无理论依据同样能提供问题的解,于是专家们提出了基于案例的推 理方法,称已有的类似问题及解决方法为案例( 也可以称之为实例) ,则基于案 例的推理就是通过检索案例库中与当前问题相类似的案例,并经过一系列的案例 改编,从而给当前问题提供解决方案的一种推理模式【1o 】【1 瓠。这种推理模式的研 究在近年来得到广泛的关注,不但在理论上,而且在应用上都有了很大的进展。 另一方面,伴随着加入世贸组织以及改革开放步伐的不断深入,中国国内的 生产和生活环境有了很大的变化。人民生活水平不断提高,能够支配的个人资金 不断增多,消费观念也逐渐发生着变化。在政府刺激消费的政策影响下,越来越 多的人不再是把手头的余钱存进银行,而是考虑将这些钱进行投资,以期得到更 快更大的增值,例如迸行股票和期货交易等。相比于股票投资市场,房地产投资 以其风险小、回报大的特性吸引了越来越多的投资者。 然而。房地产投资成功与否有很大的偶然性,受着很多方方面面的影响因素, 如政府政策、法规法律、市场环境和变化、个人资金实力等等,因此,刚进入房 地产投资开发市场的个人投资者通常采用的方式就是多方打听与学习,从理论角 度来看,这就是一种利用别人的经验的过程。因此。我们考虑将基于案例推理技 术与房地产投资开发经验结合,构造一个经验重用系统,以经验重用的方式为个 昆明理工大学硕士论文第一章2 0 0 5 年2 月 人房地产投资者提供辅助决策的案例表述。 1 2 房地产投资开发辅助决策系统的发展现状 鉴于房地产热臼益升温,各大门户网站都推出房地产业的专门频道,为购房 买房、投资开发者提供各种咨询和帮助;并且各种投资指南类的书籍也把房地产 投资作为一个重要的投资类型加以说明。然而,这种帮助和说明形式通常是一篇 篇离散的分析文章,充其量进行了简单的分门别类,对于一个个人购房者或是投 资者来说,找到自己需要的文档资料是很费劲的。还有一种形式是提供房贷方面 的资金需求计算公式,对于地产投资者来说,这种帮助又过于细化,没有一种通 观全局的考虑。 因此,一个根据问题进行针对性查询,并且可以得到相应案例作为问题解决 的建议的房地产投资开发智能辅助决策系统,是很多投资者希望能得到的。 1 3t c b r 推理技术发展现状 t c b r 技术是c b r 推理机制的一个分支。它是为了进行非结构化的自然语言 表示的文档的提取而产生的。较为成功的一个系统是f a l l q ,它是一个在线问答 系统f 3 御。客户提出自然语言表达问题,根据这个问题在系统的实例库( 帮助文 档库) 中寻找到最适合的帮助文档作为解答。如果客户对解答不满意,则由在线 帮助人员对解答进行修改,然后再提供给客户。这种修改过的解答可以作为新的 实例存入实例库。在这个系统中应用了t c b r 的推理技术。然而可以看出,该系 统的实例改编和实例的学习是由人工完成的。 目前来说,t c b r 主要应用于在线问答帮助系统,主要完成相关文档的提取。 然而,由于t c b r 处理的是非结构化的文档,如何进行实例的自动提取、改编和 学习,是一个较为困难的问题。一个发展的方向是把自然语言理解与其相结合。 另外,由于文档的来源可能具有多样性如何减少实例库冗余是一个要研究的方 向。 相对于国外,国内对c b r 及其相关技术的研究还比较少,集中于少数大学 和研究所,商质量的论文和研究团体都很少,这和国外大量的学术团体和论文形 成了鲜明对比,说明我们在这方面还存在很大差距。应用也处于初级阶段,主要 是传统c b r 技术构造简单的应用诊断系统。对于更加深入的t c b r 理论的研究 2 昆明理工大学硕士论文第一章2 0 0 5 年2 月 和应用还很少,而国外的更优化的应用却显然要多得多。 1 4 本课题研究的内容和意义 本课题研究房地产投资开发经验重用问题,将房地产投资开发经验组织成相 应的实例库,并采用基于案例的推理技术进行推理。鉴于房地产投资开发经验来 源和表达的特殊性,我们采用t c b r 推理技术和实例提取网c r n 进行案例的推理。 在研究过程中,除了要根据t c b r 和c r n 技术进行应用系统的构造和实例库 的构建工作以外,还需要根据实际情况,对问题与案例相关度计算函数进行改进, 并且对相似案例的解决方案进行研究:除此之外,在实际应用系统中,对t c b r 推理系统中实例学习问题进行相应的探讨,并采用合适的方法处理实例库冗余问 题。 本课题的研究意义在于将t c b r 推理技术和c r n 实例提取网应用在房地产投 资开发经验重用系统上,并对c r n 中实例相关性计算函数提出了一个实际计算模 型,不但考虑了关键字个数的因素,而且考虑了关键字对实例的相关度因素。希 望本课题的研究能促进国内对非结构化文档的实例提取技术研究水平的提高,以 及t c b r 推理技术在实际中的应用。 昆明理工大学硕十论文第二章 2 0 0 5 年2 月 第二章利用c b r 技术构建房地产投资开 发经验重用系统 摘要:本章首先介绍了c b r 推理技术的相关基本理论,包括基本原理和c b r 推理的四个过程,然后介绍了使用t c b r 和c r n 技术构建房地产投资开 发经验重用系统的必要性。 关键词:c b r 、t c b r 、c r n 、房地产、投资开发、经验重用。 2 1c b r 基本理论介绍 2 1 1c b r 概念及基本原理 c b r ,它的全称为c a s eb a s e dr e a s o n i n g ( 基于实例的推理) ,是在软件智 能化的大趋势下迅速发展起来的,同事它也是针对于规则的r b r ( r u l e b a s e d r e a s o n i n g ) 系统的众多缺点而提出来的阍。 c b r 的基本原理是:当一个新的待解决问题提出以后,我们可以把它抽象为 一个新实例,为了解决这个问题我们从实例库中找出一个和新实例最相近的实 例,其解决方案就可作为新问题的参考,如果对此方案有什么不满意,可进行修 改,修改后的实例成为一个新学习到的实例被存到实例库中,如果下次碰到类 似的问题就可以此作为参考【2 】。传统c b r 原理图见图2 - - i : 图2 - i 传统c b r 原理图 从上面可咀看到c b r 的原理和人们日常解决问题的方法基本相同,当我们碰 到一个不熟悉的新阔题时,我们通常会回忆起以往的成功经验,并以之为参考做 出新的解决方案,如果方案成功,则这次经验被作为成功经验记下来,若失败, 则作为失败经验记下来,这就是我们不断学习的过程。 则作为失败经验记下来,这就是我们不断学习的过程。 昆明理工大学硕士论文第二章2 0 0 5 年2 月 2 1 2c b r 的四个过程 从上面的c b r 的基本原理可以看出,c b r 的推理和学习是一个循环过程,以 前的学习内容可以作为后面的推理结果。一般来说,c b r 的一个循环可以用下面 的四个步骤来描述【1 0 j : 1 ) 提取实例库中跟问题描述最接近的一个或几个实例。 2 ) 重用这些实例中包含的信息和知识来解决问题。 3 ) 对实例进行改编,以便它更能符合问题的描述。 4 ) 保存改编后的实例或新提出的实例,用于以后问题的解决。 这四个步骤的关系见图2 2c b r 推理循环图: 图2 - 2c b r 推理循环图 一个新问题的初始描述定义了一个新实例,它被用来从实例库中检索最接近 的已解决实例。新的f 司题描述和提取出的实侧的解决方案通过重用结合在一起, 形成新的解决的实例。这个实例经过改编以后,在现实环境中进行检验,或者进 行有效性评估;如果出现实例应用失败的结果,还要对这个新的实例进行修复。 在这些工作完成以后,一个有用的已解决新实例就可以保存在实例库中供以后的 昆明理工大学硕士论文第二章 2 0 0 5 年2 月 实例提取,这样就完成了实例的学习工作。 在c b r 推理循环图中,通用知识扮演着一个重要的角色,支持着c b r 循环中 的四个过程。对于不同的c b r 推理技术,通用知识所占的比重和应用的方法各有 所不同。这里的通用知识是指领域相关知识,而不是包含在实例中的特定知识。 在r b r 的系统中,规则的集合扮演着相同的角色。 在房地产投资开发经验重用系统中,使用者通过提问,然后在实例库中寻找 最接近问题的案例作为问题的解决,实现经验的重用。使用者可以把自己的投资 经历作为新案例存储起来,供其他使用者在以后使用,这是一个经验学习过程。 从这两方面来说,c b r 是适用于实现这个系统的技术。然而后面我们会具体说到, 由于系统采用的是文本案例,鉴于其特殊性,系统对于案例的改编的处理还没有 很好的解决办法。 2 2 为什么要使用t c b r 和c r n 要实现房地产投资开发经验的重用,首先要确定这些经验案例的来源租原始 的表达方式,根据这些案例的结构特性,再采用合适的案例推理技术。因此,要 先了解房地产投资开发经验的表述和存储。 房地产投资开发经验表面上呈现为一个个实际的案例,而其本质则是通过这 些案例反应出来的政策法规、经济制度法规、市场环境乃至文化等各种环境条件 和外在因素对投资开发成功与否的影响。我们要构建c b r 的实例库,通过存储的 案例来反应出这种本质。实际中的案例本身是通过自然语言的一段文字来描述 的,需要把这样一段自然语言文本表述成一定格式存储起来以供以后的案例的提 取和经验重用。在通常情况下,使用者对系统提出的问题是自然语言的表述,我 们还需要对这样的表述进行解析,将其转化成为系统能理解和进行推理的表达形 式。 另外,房地产投资开发经验的来源多种多样,它可以是一本书里毫无关联的 一个个案例,也可以是各个部分相互有联系的整本书,也可以是对某个名人的访 谈录,甚至可以是一些新闻报道、政策法规等。从这里也可以看出,房地产投资 开发经验的表达在结构上具有很大的不确定性。 从以上房地产投资开发实例的特性及来源考虑,我们采用一种称为文本化案 6 昆明理工大学硕士论文第二章 2 0 0 5 年2 月 例推理技术( t e x t u a lc b r ,t c b r ) 。这种推理技术是基于案例的推理( c b r ) 的 一种,非常适用于非结构化的案例的提取以及各种结构不确定文档的提取。并且, 它适用于多种类型的文档来源,它的最基本的推理结构是根据不同的提问建立在 内存中的实例推理网c r n 1 3 1 。t c b r 推理的流程图见图2 1 。 图2 3t c b r 实例推理流程图 利用t c b r 解决房产投资开发经验的重用问题,其优势有如下几点: 能够有效解决经验案例在结构上的不确定性问题,可以使用t c b r 的方 法将来源不同、结构不确定的经验案例存储到关系数据库中。以供以后 案例的提取。 相似性是c b r 中的核心概念,因此,用户提出的问题不一定要完全符合 案例本身的问题的描述,只要它们之间有相似性的关联就可以。t c b r 主要采用案例推理网( c a s er e t r i e v a ln e t s ,c r n ) 作为其推理结构, 这个推理结构很好地解决了上述的相似性问题,对于问题描述中同义的 词不同形式的表达更能很好地解析。 c b r 是一个能够自学习的推理机制,新的案例可以被添加到系统中,做 为将来问题的解决。随着问题解决方案的增多,c b r 系统的推理的准确 昆明理工大学硕士论文第二章2 0 0 5 年2 月 度也会逐渐增加。然而,随着案例的数目的增多,传统的固定结构的案 例表达方式显然不能满足要求。c r n 的推理机制能很好解决这个问题, 它将案例本身和案例的表述分离,案例的表述成为一个独立的知识原子 结构。因此,新案例的增加并不影响案例的表述结构,反之,案例的表 述的改变也不会影响到系统中原有的案例。 t c b r 使用c r n 做为其推理结构,这种推理结构是随着闯题的不同而建立 在内存中的,它不是针对问题对整个实例库的查询,而是从问题出发只 查找相关的案例。这样的推理机制能大大提高系统的推理速度和准确 度。在实例库中实例量较大时,它更能体现出查询效率的优势。 8 昆明理工大学硕士论文第三章2 0 0 5 年2 月 第三章t c b r 、c r n 和i e s 摘要:本章首先对t c b r 、c r n 和i e s 等基本概念进行介绍和说明。接下来。详 细介绍了c r n 实例提取网的构建过程以及过程中的各种函数模型。其中, 对实例提取时实例相关值计算过程提出了新型的函数模型。 关键字:t c b r ( t e x t u a lc b r ) 、c r n ( c a s er e t r i e v a ln e t s ) 、i e s ( i n f o r m a t i o n e n t i t i e s ) 、函数模型。 3 1t c b r 、c r n 、i e s 的基本概念 在t c b r 中,最重要的概念是信息实体( i n f o r m a t i o ne n t i t i e s ,i e s ) 和实 例提取网( c a s er e t r i e v a ln e t s ,c r n ) 。 信息实体( i e s ) 类似于传统c b r 结构化实例描述中的“属性一值”对,但 它是一个原子结构,是c r n 中的知识描述的最小单元,不能在进行进一步的分解。 通常情况下使用多个信息实体来描述一个实例。各个实例由不同的信息实体来描 述。不同信息实体之间有相似性,且每个信息实体与它要描述的对应实例之间有 相关性。可以把信息实体看作是实例的关键字。然而,信息实体与通常概念的关 键字又有以下的区别: 1 ) 不同的信息实体之间有相似性关联,而普通的关键字相互之间是独立 的。 2 ) 信息实体根据其表达意义进行分类。而普通的关键字一般没有分类的概 念。 3 ) 信息实体与普通的关键字一样,都对它要表示的内容有关联。不同之处 在于,不同信息实体与它表达的内容的关联程度可以不同,而普通的关 键字每一个与它表示的内容的关联程度都是一样的。 4 ) 就实现来说,信息实体是有层次的,也就是说,实现中,不同的自然语 言表达可以对应的是相同的信息实体。例如:“房地产”、“房产”、“地 产”可以同时对应一个相同的信息实体“房地产”,这是一个两层的树 形匹配结构。这里的处理其实是对同义词e 处理。面普通关键字没有这 样的匹配,一般没有对同义词的处理。 9 昆明理工大学硕士论文第三章 2 0 0 5 年2 月 c r n 是实例提取中的关键结构。在实例提取过程中,首先把用户提出的自然 语言描述的问题解析成不同的信息实体集合。然后根据这个信息实体的集合和实 例库中现有实例库及信息实体库来构造c r n 。因此,不同的问题描述可能产生不 同的c r n ,c r n 存在于一个问题解决过程中的内存中。根据不同信息实体与实例 的相关性,在c r n 中使用相关算法找到最相关的实例描述,从而得到相关文档的 原始表达,见c r n 结构示意图图2 2 。 图3 - 1c r n 结构示意图 3 2c r n 网的构建及实例提取 3 2 1c r n 解决问题的三个基本步骤 利用c r n 推理技术解决问题需要完成以下三个基本步骤: 1 ) 与待解决问题相关的信息实体的激活。这个步骤也可以看做是待解决问 题的解析,将其转化成为信息实体的一个子集q 。我们可以采用语义分析的方法, 把问题转化成为信息实体;还可以采用简单的词语匹配的方法,检查信息实体全 集中的每一个实体,若出现在问题描述中或与问题描述的某一部分是同义的实 体,则把该信息实体放在问题子集q 中。 2 ) c r n 网络信息实体间相似性计算。c r n 网络的节点连线包括两个关系, 一个是信息实体间的相似性关系,一个是信息实体与一个实例闻的相关性关系。 而信息实体间的相似性提供了类似于传统相似性函数中相同属性不同属性值之 l o 昆明理工大学硕士论文第三章2 0 0 5 年2 月 间的比较关系。正因为有了这种关系,即使某一信息实体没有出现在自然语言的 问题描述中,它依然可以通过与其他出现的信息实体的相似性关系与问题联系起 来,而它所描述的实例因此也有了与问题描述的相关关联值。 然而,由上面可知,两个信息实体之间有相似性同时意味着这两个信息实体 本来就是描述相同属性的,只是对应的属性值不同。因此,判断两个信息实体是 否相似以及相似的程度大小,是根据它们对应的属性是否相同,以及值的相似程 度来判断的。 根据问题我们可以得到一个信息实体的子集,然而这个子集并不能完全准确 地表达问题,通过信息实体之间的相似性,我们可以得到与问题描述相关的其他 信息实体的集合,这是一种传播式的激活方式。通过这种方式,我们扩大了搜索 的范围。这种传播式的激活可以有多次迭代,当迭代时严格按照公式( 见后面公 式 1 、 2 、 3 ) 进行扩展,构建出来的c r n 网也称为基本c r n ( b a s i cc a s e r e t r i e v en e t s ,b c r n ) 1 7 1 1 刖。 3 ) 实例相关性计算。信息实体间的相似性计算完后,得到一个信息实体的 子集,c r n 也构建了一半,剩下的工作就是根据集合中的各个信息实体与相应的 实例的相关性关系计算出实例与当前问题描述的关联值大小。而最终的实例提取 就是以此为根据。 在实际实现中,我们设置一个阀值,关联值超过阀值的实例被认为是备选的 实例,或者可以设置关联实例个数限制,按照关联程度从高到低排列和提取。 3 2 2c r n 网的构建 前面提到,对于每次不同的提问,构建成的c r n 也不同。c r n 是根据具体的 问题在内存中生成的网状结构。然而,要根据问题生成c r n ,除了要在数据库中 存储案例和信息实体以外,还必须要有存储在数据库中的两个关系的存在: 信息实体e 。和信息实体p :之间的相似性,用盯( q ,e 2 ) 来表示。 信息实体e 和实例描述c 之间的相关性,用p ( e ,c ) 来表示。 这两个关系的值一般取0 1 之间的一个小数。根据上面c r n 解决问题的步 骤,相应的构建c r n 的过程可以分为下面三个步骤: 第一步,针对一个提出的问题,我们将其解析为一个信息实体的子集。对于 l l 昆明理工大学硕士论文第三章 2 0 0 5 年2 月 实例库中所有的信息实体g e ,问题描述中若出现该信息实体,则有铴( e ) = l , 否则,有d 。( e ) = 0 。这里,我们采用简单的字符串匹配方法。在实际实现中,由 于有同义词的出现,可以建立一个关键字表,多个同义关键字对应一个信息实体。 而匹配的过程则是先以关键字为基础对问题描述进行简单的字符串匹配或是复 杂的语义分析,得到关键字集合以后,再根据关键字与信息实体的对应关系,将 其转化成为信息实体的子集。 这一步也是问题的解析过程,我们得到的解析后的信息实体的集合。也就是 叠i ( 8 ) = 1 ,e e ,是通过存储在内存中a 0 ( e ) 的值来表示它是与问题相关的。 第二步,对于实例库中每一个信息实体eee ,我们计算: 口1 ( 0 = 7 。( 仃( g l ,e ) ) ,o - ( e , ,e ) 。口o ( e 。) ) ,( 1 ) p l 巳局是问题解析出来的信息实体的集合,而以则是一个加权函数,在 一般情况中简单的做和即可。这一步完成后,针对当前问题的c r n 中各个信息实 体之间的相似关联就建立起来了。 通过e 以及上述公式,我们激活了另外些信息实体e e ,它们满足 口( e ) s ,占0 。然而,这个激活过程可以通过以下公式进行无限的扩展: q = 巧( 盯心,e ) 呸_ l 如) ,c r ( e , ,g ) 呸一l ( 色) ) ,( 2 ) 其中,岛g ,曩一2 ,且e r 一:= 扛 为一。( e ) 靠 。靠是计算g 。( e 时的一个 阀值。 这种激活过程只进行了两步( 即只计算到了( 力) 时,这种迭代的计算只 进行了一次。当信息实体和实例的激活严格按照上述的公式进行迭代的c r n 也称 之为基本实例提取网( b a s i cc a s er e t r i e v a ln e t s ,b c r n ) 。 在传统实例提取方法中,对于实例库中每一个实例,我们需要计算表示该实 例的每个属性的属性值与问题描述的对应属性的属性值之间的差异和相似程度, 从而反应出问题描述与该实例的相似程度。在c r n 中,我们计算的口。( p ) 值就反 应了这样的一种属性值之间的差异和相似度的比较,反应了当前“属性一值”对 1 2 昆明理工大学硕士论文第三章 2 0 0 5 年2 月 与所提问题的相关程度。 第三步,对于实例库中的每一个实例c ,我们计算: 口2 ( c ) = n c ( p ( e l , c ) 口1 ( q ) ,p ( e s ,c ) 口l ( 岛) ) ,( 3 ) 这时,c r n 构建完成,信息实体之间有相似性关联,而信息实体与实例之间 有相关性关联。在c r n 中的每一个d ,( c ) 0 案例都是跟当前问题有关联的案例, 只是它们对当前问题的关联程度不同,而口:( c ) 值,就是案例c 与当前问题的关 联程度的数值表示。这个数值我们可以称之为关联值,它反映了当前实例对问题 的关联程度。我们可以提取出关联程度最大的一个或几个案例作为当前问题的解 决。 3 2 3 一个关联值计算函数模型 由上可以看出,口:( c ) 值是实例提取的依据,因此,函数石。( ) 的计算模型 是否能正确反映问题与实例的相关程度就极为重要。常采用的一种方法是和或是 加权和的函数。然而,采用这种方法会产生一个问题,那就是对于某个实例,当 相关的信息实体个数很多,但每个信息实体对实例的关联度较小,能产生一个较 大的关联值:当相关的信息实体个数少,但每个信息实体对实例的关联程度较大, 也能产生一个较大的关联值。也就是说。影响实例与问题的关联值的大小有了两 个因素,一个是实例的关联信息实体个数,一个是信息实体与实例的关联程度。 当仅仅采用和或是加权和( 例如平均值) 的形式时,只是反映了信息实体与实例 的关联程度,并没有反映出与实例关联的信息实体个数的信息。 在某种情况下。需要一种“大而全”的实例来针对问题的解决,这时候,信 息实体个数就较为重要,与问题相关的信息实体个数越多,则表示该实例涉及范 围更“大”:而在另外一种情况下,需要“小而精”的实例,这时候,信息实体 与实例关联度的平均值就更为重要。因此,我们必须设计一个模型,既能反映关 联信息实体个数,又能反映信息实体与实例的关联度。 根据以上的分析,我们提出了下面的戤( ) 函数的一个计算模型,通过一个 权值和来反映出上面所说的影响关联值的两个分量。 首先,我们假设c r n 网中对于实例q ,用g 来表示q 的相关实例的个数, 昆明理工大学硕士论文第三章2 0 0 5 年2 月 令m c = m a x ( c ) ,i = l ,2 ,i 2 。对于第f 个实例c j ,我们令表示与当前实例 相关的信息实体关联度的和或加权和,则通常情况下( 求平均值的形式) : ,2 七叁1 p ( e k , c i m e k ( 4 ) 占为与当前实例相关的信息实体的个数。 此时,我们可以定义实例c 。的关联值函数有下面的形式: 以砷篇+ ( 1 - q ) 嘎,( 5 ) 其中口为一个加权数,是一个0 1 之间的小数。 当口比较大时,反映了实例对相关信息实体个数的要求:当它比较小时,反 映了信息实体相关性对实例关联值的影响。这样的一个模型较好地反映了影响实 例关联值的两个分量的关系,在一般情况下,我们可以设定g 的值为0 5 。 由于我们定义c r n 中的两个关系值是个小数( 见3 2 2 节) ,因此,经过推 理可知,也是o l 间的一个小数,而器( 0 ,1 】,所以得到的实例关联值是 一个o 1 的小数,反映了与问题的相关程度。 3 2 4 使用c r n 网进行推理和求解 t c b r 问题的求解就是相关实例文档的提取,在我们构建好c r n 网络以后, 实例提取就很容易了,我们按照口2 ( c ) 的值从大到小排列实例c ,值越大表明当 前实例与问题相关程度越大。我们可以设置阋值或提取数量来选择值最大的几个 实例作为最终的问题解决的建议。然而,由于文本案例的特殊性,案例改编在系 统中并没有很好的解决。 3 3b c r n 的改进 在前面( 第3 2 节) 介绍的b c r n 中,1 日实例被提取前,任何与初始问题相关 的信息实体都会被逐步激活( 进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论