(计算机科学与技术专业论文)语义相似性度量及其在设计管理系统中的应用.pdf_第1页
(计算机科学与技术专业论文)语义相似性度量及其在设计管理系统中的应用.pdf_第2页
(计算机科学与技术专业论文)语义相似性度量及其在设计管理系统中的应用.pdf_第3页
(计算机科学与技术专业论文)语义相似性度量及其在设计管理系统中的应用.pdf_第4页
(计算机科学与技术专业论文)语义相似性度量及其在设计管理系统中的应用.pdf_第5页
已阅读5页,还剩141页未读 继续免费阅读

(计算机科学与技术专业论文)语义相似性度量及其在设计管理系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语义相似性度量一直以来都是人工智能和心理学领域的研究热点。人工智 能领域的相似性度量模型,以关于相似性的假设为基础,致力于从特定的知识 表述中计算出对象间的相似性。而心理学领域的相似性度量模型,则以实验数 据为基础,致力于模拟人的相似性感受。将心理学的研究成果应用于人工智能 的研究中,是未来发展的方向。本论文以心理学的相似性模型为基础,借鉴人对 相似性认知的产生过程,建立了一个基丁- 模糊比较的o w l 概念语义相似性度量 模型一f u z z y c o n 模型。该模型以o w ld l 描述的本体概念为计算对象,从o w l d l 的语义中计算概念的相似性。 本体概念的相似性度量包含了三个要素:本体概念、语义和相似性。论文在 分析o w ld l 的性质和描述逻辑的相关概念的基础上,利用o w ld l 与描述逻 辑s q - o i n ( j 9 ) 之间的等价关系,将o w ld l 表述的概念转化为s “o _ r n ( d ) 中 的一组公理,并将这组公理规整为以角色为中心的范式( s s n f ) ;在分析概念 的s s n f 基础上,论文提出概念的特性集由概念的显蕴涵子项、隐蕴涵子项和角 色连接概念构成,并论述了这三种元素在相似性度量中的作用。 f u z z y c o n 模型是r o d r i g u e z _ e g e n h o f e r 模型的扩展。论文用模糊集构造概念 特性集的模糊交集和模糊差集;以概念间的相似性函数为基础,构建模糊交 集和模糊差集的隶属函数;用特性权值定义显著性函数,使函数r 的值与概 念特性集中特性的多寡和特性权值的大小成正比。模糊集和特性权值的引入, 使f u z z y c o n 模型的计算结果能表现用户的个性化相似性认识。 论文分析了相似性的产生过程以及心理学中刺激量与心理量的关系,引入 了概念权值来模拟心理量所具有的特征。根据人的心理特点,设定了两个约束 概念权值的因素,以使概念权值具有心理量的特征:讨论了结合构造符、约束构 造符和人的主观性对概念权值的影响。在此基础上,论文提出了概念权值的计 算模型一s a l i e n c e 模型,从概念的定义中计算出权值;证明了在循环t b o x9 - 中, 可在有限的迭代次数中使概念权值趋向一个固定值;给出概念的特性权值的计 算方法,并阐述了特性权值的特点。 论文用实验的方法验证和分析f u z z y c o n 模型与s a l i e n c e 模型的性质。结含 浙江大学博士学位论文 相似值的心理学特点,提出了概念的相似值没有数值意义,只有比较意义这 一论断;针对本体及本体概念的特点,提出本体概念的相似性评价应是在技 术层面上的评价一即计算的结果是否能反映本体建模者的意图,体现本体概 念的特点,符合模型使用者的感受。论文引入了秩和斯皮尔曼秩相关系数等 相似性评价指标,阐述了斯皮尔曼秩相关系数的缺点,提出了一种新的相似 性评价指标一相似性的差异度。利用这些评价指标,论文比较 f u z z y c o n 模 型、w u _ p a l m e r 模型和r o d r i g u e z _ e g e n h o f e r 模型,发现f u z z y c o n 模型在保持这两 个模型特性的同时,具有更高的区分同层次概念间相似性的能力,且差别分辨 度大大优于这两个模型。实验结果表明,f u z z y c o n 模型能适应本体进化的需求, 具有丰富的概念相似性表现力,并且计算结果更符合人的心理感受。 论文最后分析了大规模定制和产品全生命周期管理的特点,提出产品信 息的相似性管理是实现大规模定制和产品全生命周期管理的重要保障。介绍 f u z z y c o n 模型在k p d m 系统中的应用。以o w l 定义产品信息的知识模型,用 知识模型标记k p d m 系统中的信息,通过度量语义标记的相似性来获得产品信 息的相似性。论文将f u z z y c o n 模型扩展到o w l 个体的相似性计算,并将其应用 于k p d m 系统的信息查询、过滤和相似性关联等方面。 关键词:语义相似性、语义网、描述逻辑、本体、o w l 、设计管理 a b s t r a c t s e m a n t i cs i m i l a r i t yh a sf o ral o n gt i m eb e e nas u b j e c to fi n t e n s es c h o l a r s h i p i nt h ef i e l d so fa r t i f i c i a li n t e l l i g e n c ea n dp s y c h o l o g y t h ec o m p u t a t i o n a lm o d e l si n t h ef i e l do fa r t i f i c i a li n t e l l i g e n c eb u i l du p o nas e to fa s s u m p t i o n sa b o u ts i m i l a r i t y , w h i c ha r et i e dt op a r t i c u l a rk n o w l e d g em o d e l t h e ya r e 时t oc o m p u t es i m i l a r i t y f r o ms p e c i f i ck n o w l e d g er e p r e s e n t a t i o ns y s t e m m e a n t i m e ,t h em o d e l si nt h ef i e l d o fp s y c h o l o g ya r eu n d e d i e db yaw e a l t ho fe x p e r i m e n t a ld a t a ,a n dt r yt oi m i t a t et h e a s p e c t so fh u m a np e r c e p t i o no fs i m i l a r i t y a r t i f i c i a li n t e l l i g e n c er e s e a r c h e r sw i l lb e b e n e f i t e df r o mp s y c h o l o g i c a la c h i e v e m e n t s o nt h eb a s i so fp s y c h o l o g i c a ls t u d i e s a b o u ts i m i l a r i t y , w ep r o p o s eam o d e l ,c a l l e dt h ef u z z yc o n t r a s tm o d e l ,t om e a s u r et h e s e m a n t i cs i m i l a r i t yb e t w e e nc o n c e p t se x p r e s s e db yo w ld l t h e r ea r et h r e ek e yf a c t o r si nm e a s u r i n gc o n c e p t ss i m i l a r i t y ,c o n c e p t ,s e m a n d c so ft h ec o n c e p ta n dt h es i m i l a r i t ym o d e l a f t e rt h o r o u g h l ys t u d y i n go w ld la n d s o m er e l a t e dc o n c e p t so fd e s c r i p t i o nl o g i c s ,w et r a n s f o r ma no w ld lc o n c e p tt o as e to fa x i o m si nd e s c r i p t i o nl o g i cs t q o i n ( d ) b yt h ee q u i v a l e n c eb e t w e e no w l d la n ds 秆o i n ( d ) t h es e to fa x i o mi st h e nt r a n s f o r m e dt oas t r u c t u r es u b s u m p t i o nn o r m a lf o r m ( s s n f ) ,a n de x p l i c i t i n c l u s i o ni t e m s ( e c l t e m ) ,i m p l i c i t - i n c l u s i o n i t e m s ( i c i t e m ) ,r o l e - r e s t r i c t e dc o n c e p t s ( r c c o n c e p t ) a r ee x t r a c t e df r o mt h es s n e i t w a sp r o p o s e dt h a tt h ef e a t u r es e to fa no w ld lc o n c e p ti sm a d eu po ft h ee c i t e m s , r c c o n c e p t sa n di c i t e m so ft h ec o n c e p t t h e i ri n f l u e n c eo nt h es i m i l a r i t ym e a s u r e w a ss t u d i e d f u z z y c o nm o d e li s a ne x t e n s i o nt or o d r i g u e z _ e g e n h o f e rm o d e l ,w h i c hi sa n a p p l i c a t i o no f t v e r s k ym o d e l f u z z y s e tw a su s e dt ob u i l dt h ei n t e r s e c t i o ns e ta n dd i f - f e r e n c eo f f e a t u r es e ti nf u z z y c o nm o d e l t h em e m b e r s h i pf u n c t i o no f t h ef u z z ys e ti s c o m ef r o mt h es i m i l a r i t yb e t w e e nc o n c e p ti no n t o l o g y w i t ht h ef u z z ys e t ,f u z z y c o n c a nr e p r e s e n ti n d i v i d u a lv i e wo fs a m e n e s sa n dd i f f e r e n c ef o rf e a t u r e s f e a t u r ew e i g h t w a su s e dt ob u i l ds a l i e n c ef u n c t i o nfi nf u z z y c o nm o d e l ,a n di n a k et h ev a l u eo ff u n c - t i o nfp r o p o r t i o nt ot h eq u a n t i t ya n dw e i g h to ff e a t u r e si nf e a t u r es e t b yt h eu s eo f f u z z ys e ta n d f e a t u r ew e i g h t ,f u z z y c o nm o d e lc a np e r f o r mp e r s o n a l i z e ds i m i l a r i t y 浙江大学博士学位论文 r i l e a s u l 7 7 e a f t e rt h o r o u g h l ys t u d y i n go nt h ep e r c e p t i o no fs i m i l a r i t yi np s y c h o l o g ya n dt h e r e l a t i o n sb e t w e e ns t i m u l u se n e r g ya n ds e n s a t i o n ,w ep r o p o s e dav a r i a b l et oi m i t a t e s o m ea s p e c t so fh u m a nb e i n g ss e n s a t i o n ,c a l l e df e a t u r ew e i g h t ac o m p u t a t i o n a l m o d e lt oc o m p u t ef e a t u r ew e i g h t sf r o md e f i n i t i o n so fo w l c o n c e p t s ,c a l l e ds a l i e n c e m o d e l ,w a sa l s op r o p o s e d ,t h em o d e li n t e g r a t e st h ei n f l u e n c eo fc o m p o s i t ec o n s t r u e - t o t , r e s t r i c tc o n s t r u c t o ra n dh u m a n si n t e n s i o n t w oi t e r a t i v ea l g o r i t h m so ft h em o d e l w e r ep r e s e n t e d ,a n dt h e ya r ep r o v e dt ob ec o n v e r g e n t e x p e r i m e n t sw e r ei n t r o d u c e dt ot e s ta n de v a l u a t et h ef u z z y c o nm o d e la n ds a l i e n c e m o d e l i tw a sp r o p o s e dt h a tt h ev a l u eo fs i m i l a r i t ym e a n sn o t h i n gb u ti t sr a n ki na g r o u p s os i m i l a r i t ym o d e lc a no n l yb ee v a l u a t e di nt e c h n i c a lw a y r a n k a n ds p e a r - m a l l sr a n kc o r r e l a t i o nw e r ei n t r o d u c e dt oe v a l u a t et h es i m i l a r i t yr e s u l t t h ed i s a d v a n t a g eo fs p e a r m a n sr a n kc o r r e l a t i o nw a sd i s c u s s e d as e to fg u i d e l i n e sw e r e a l s op r o p o s e dt oe v a l u a t et h er e s u l tf r o md i f f e r e n tc o m p u t a t i o n a lm o d e l so fs i m i l a r i t y b yt h eg u i d e l i n e s ,t h ef u z z y c o nm o d e lw a sc o m p a r e dw i t ho t h e r s ,a n di t sa d v a n t a g e s w e r ed i s c u s s e d e x p e r i m e n tr e s u l t ss h o wt h a tf u z z y c o nm o d e li sb e t t e ri nd i s t i n g u i s h i n gt h es i m i l a r i t yo f c o n c e p t si nt h es a m el e v e lo f s e m a n t i cn e t , a n dt h ec h a r a c t e r i z a t i o n o fh u m a nb e i n g ss e n s a t i o nc a nb ei m i t a t e db yt h em o d e l f i n a l l y , t h ec h a r a c t e r i s t i co fm a s sc u s t o m i z a t i o na n dp r o d u c to v e r a l ll i f t c y c l e m a n a g e m e n tw a sd i s c u s s e d s i m i l a r i t ym e a s u r ew a sp r o p o s e dt ob et h eu n d e r p r o p o ft h e m t h en e w g e n e r a t i o np r o d u c td e s i g nm a n a g e m e n ts y s t e mb a s e do ns i m i l a r - i t ym e a s u r ew a se x p l o r e d t h es y s t e mu s e so n t o l o g ym o d e lt oc a p t u r et h ed o m a i n k n o w l e d g e ,a n n o t a t e st h ei n f o r m a t i o ni ns y s t e mb yt h eo n t o l o g yc o n c e p ta n ds t o r e s t h ea n n o t a t i o n sa so w li n d i v i d u a l f u z z y c o nm o d e lw a se x t e n d e dt oc o m p u t et h e s i m i l a r i t yb e t w e e no w li n d i v i d u a l s ,a n di ti su s e dt or e t r i e v ea n dc l u s t e ri n f o r m a t i o n i ns y s m m k e y w o r d s :s e m a n t i cs i m i l a r i t y , s e m a n t i cw e b ,d e s c r i p t i o nl o g i c ,o n t o l o g y , o w l , d e s i g nm a n a g e m e n t 表格 2 1 翻z 语言的主要概念构造符及其语义解释 2 1 2 2常用o w ld l 语法与描述逻辑s 伽语法的对应2 6 3 1 秩的例子4 3 5 1 轴承本体中角色的传导系数 6 2 5 2 无兴趣度设定时,蕴涵优先算法迭代一次和迭代两次的计算结果 6 3 5 3 无兴趣度设定时,蕴涵优先算法迭代一次和迭代两次的计算结果 6 5 5 4 设定e ( b a l l _ b e a r i n g ) = 0 9 前后权值6 6 5 5 设定e ( 回l i n d r i c a l - r o l l e r ) = 0 9 前后零部件概念权值 6 8 5 6 设定e ( c y l i n d r i c a l _ r o l l e r ) = 0 9 前后轴承分类概念权值 6 9 5 7 三次迭代计算所得的相似值 7 2 5 8 d e e p _ g r o o v e _ b a l l _ b e a r i n g 与其他轴承分类概念间的相似值 7 4 5 9 设定e ( s i n g l e r o w ) = 0 9 前后的概念间相似值 7 6 5 1 0 设定e ( sr e e l _ b a l l ) = 0 9 前后的概念间相似值7 8 5 1 1 修改 前后的概念间相似值 8 3 5 1 2d e e p _ g r o o v e _ b a l l 与其他轴承本体概念的相似性 8 8 5 1 3w p ,r e 年1 f u z z y c o n 的计算结果比较表9 0 6 1 两面带密封圈的深沟球轴承( 6 2 0 3 2 r l d ) 的c a d 文件与其他设 计文档的相似性1 1 0 插图 汽车的相似概念与相关概念间关系 单词p o l i t e 的心理语言学度量 基于语义距离的相似性 p r o t 6 9 6 0 w l p l u g i n 的结构图 用p r o t 6 9 6 0 w l p l u g i n 定义的轴承本体 原型系统的结构 无兴趣度设定时,蕴涵优先算法计算1 次和2 次的折线比较图 轴承本体中与零部件有关的概念间的蕴涵关系 设定e ( b a l l _ b e a r i n g ) = 0 9 前后权值折线比较图 设定e ( c y l i n d r i c a l j ? o l l e r ) = 0 9 前后零部件概念权值的折线对比图 设定e l ( c y l i n d r i c a l 上o l l e r ) = 0 9 前后轴承分类概念权值的折线对 比图 5 9 设定e ( s i n g l e r o w ) = 0 9 前后的概念间相似值的折线比较图 5 1 0 设定e ( s t e e l _ b a l l ) = 0 9 前后的概念问相似值的折线比较图 5 1 1 修改丘前后的概念间相似值的折线比较图 5 1 2w p ,r e 和f u z z y c o n 的计算结果比较图 5 1 3w p ,r e 和f u z z y c o n 的计算结果差别分辨度 5 1 4 f u z z y c o n 和w p 与r e 的斯皮尔曼秩相关系数 5 1 5f u z z y c o n 署d w p 与r e 的相似性差异度 6 1产品信息、领域本体和语义标记在k p d m 中的关系 6 2 传统的查询方式 6 - 3 基于o w l 个体的查询方式 6 4 产品信息相似查询框图 6 5 产品信息相似过滤框图 ,m 矾斛硒卯醯 加趴跎蹭虬ss! 町町吣 1 2 3 1 2 3 4 5 6 7 8 l 1 1 5 5 5 5 5 5 5 5 浙江大学博士学位论文 6 6 产品信息相似浏览框图 6 7k p d m 的主界面 6 8 深沟球轴承的查询结果 6 9 产品信息的相似性关联 1 0 9 1 1 1 1 1 l 1 1 2 1 1 研究背景 第一章绪论 相似与分类是人的思想和语言中最基本的元素【1 ,它存在于人们生活的每 个角落。无论是从事科学研究还是处理日常琐事,人们总是将相似的信息归类 处理,以减少信息在大脑中的存储量。一直以来,心理学家和人工智能研究者 都努力将人的相似性认识形式化和可计算化。心理学家关心的是用什么样的相 似性理论来解释人的相似性认识,而人工智能研究者更关心如何在计算机上模 拟出人对相似性的判断。 心理学中的相似性研究有着悠久的历史,可以追溯n 2 0 世纪五六十年 代o s g o o d 和q u i l l i a n 对相似性的研究【2 ,3 。在这数十年来的研究中,心理学家给 出了许多的关于人相似性认识的理论及实验数据。在七十年代末以前,几何模 型占据了占统治地位。这一类模型认为人的相似性认识可以用几何空间中的距 离来描述。然而许多心理学实验对几何模型提出了反例。自七十年代末以后,非 几何模型逐渐成为主流【4 】。心理学相似性模型着重于解释和模拟在心理学实验 中观察到的心理现象,故它所产生的结果与人的心理感受具有较高的契合度。 但也由于这一点,心理学的相似性模型的可计算性比较差。 与心理学的相似性模型相比,人工智能的研究偏重于解决具体领域中的 应用问题,并被广泛应用于自然语言理解、范例推理( c a s e - b a s e dr e a s o n i n g , c b r ) 、图像处理和信息检索等领域。在自然语言理解领域中,相似性模型主要 用于分析语义的相似性【5 】。如r e s n i k 利用语义相似性来确定多义词在特定语境 下的语义,消除单词在上下文中的歧义【6 】;文献 7 】用单词的相似性来侦测单词 拼写错误;w u 和p a h n e r 贝利用语义相似性实现动词的英中文翻译 8 。在c b r 领 域,相似性模型是决定c b r 系统是否有效的关键【9 。如文献 1 0 ,1 l ,1 2 ,1 3 ,1 4 1 给 出了多种案例相似性计算函数,并分别分析了它们的特点:文献 1 5 贝j j 给出了一 个属性的非线性组合函数作为c b r 的相似性函数。在图像处理领域,相似性模 型是识别和检索图像的核心技术。如文献【1 6 佣相似性模型来度量人像的相似 性;陈新建等将相似性模型应用于指纹的匹配问题1 1 7 :文献 1 8 ,1 9 将相似性 模型用于图片和视频的检索。在信息检索领域,最常见的应用是将语义相似性 2 浙江大学博士学位论文 模型用于互联网上相似网页的检索 2 0 ,2 1 】;语义相似性模型也被用于d n a 序列 数据库文字标注的检索 2 2 】;j e h 和w i d o m 则提出了一种从相似的参考文献中度 量论文相似性的方法 2 3 1 。 纵观人工智能领域中关于语义相似性模型的研究,语义相似性度量包含了 三个要素:度量对象、语义和相似性。其中语义是描述度量对象的方法,由于描 述方法的不同,使得人工智能不同领域的相似性模型存在着明显的差异。但随 着本体在知识表达领域的应用不断深入,用本体描述度量对象被越来越多的研 究者所采用【2 1 ,2 4 ,2 5 ,2 6 】。这使得基于本体概念的相似性模型具备了成为人工 智能领域的通用语义相似性模型的可能。许多研究者都纷纷投身到这一方向的 研究中【2 7 ,2 8 ,2 9 ,3 0 ,3 1 ,3 2 。 1 2 相似性 在深入讨论相似性模型前,先要明确什么是相似性。心理学家认为相似性 是一种存在于两个感知对象间的关系。它是人的一种心理反应。由于对它内在 的形成机理尚不明确,因此心理学者只能通过观察它的外在表现,来描述相似 性所具有的性质 3 3 。这也是人工智能和心理学的相关研究尚不能给出相似性 的严格定义的原因。因此我们从两个方面来确定相似性的含义,一是明确相似 性与其他类似关系的区别,二是阐明相似性所具有的性质。 1 2 1 语义相关性、语义距离与语义相似性的关系 与相似性最为类似的关系是相关关系。文献 3 4 1 用轿车、汽油和自行车的例 子解释了这两者之间的区别。 “轿车依赖于汽油作为燃料,显然它们之间的相关性比轿车与自 行车更为紧密,但人却普遍认为轿车与自行车之间的相似性大于轿 车与汽油。这个例子表明,相关性不能等同于相似性。即使轿车与汽 油是紧密相关的,但由于这两者之间没有共同的特性,人们也不会 认为它们是相似的。而轿车和自行车都是交通工具,都有轮子并且 可以载人,因此它们是相似的。” 从文献 3 4 1 的分析中,不难看出,是否有共同的特性是相似性存在的前 提 3 5 】。 第一章绪论3 相似性与相关性也不是互斥的关系。r e s n i k 认为,相似性可以被视为一种 特殊的相关性一对象间基于蕴涵关系的相关性。图1 1 形象地表现了汽车的相 似概念与相关概念间的关系。对象间的蕴涵关系体现了对象的共同性,因此蕴 涵关系的相关性等同于相似性 3 4 。 图1 1 :汽车的相似概念与相关概念间关系 语义距离常常被用于度量对象间的相似性。它被视为语义相似性的逆, 即两个对象间的语义距离越小,则语义相似性越大。语义距离与相关性也存 在着密切的关系。如果对象间只存在蕴涵关系,则语义距离与相关性可以互 换。c o l l i n s 和l o f t u s 从更广义的角度分析了语义距离和相关性的关系。他们认 为语义距离和相关性之间存在着细微的差别。如果用网状图表现对象问的关系, 语义距离是对象之间的最短的蕴涵距离,而语义相关性则是对象间所有路径的 综合 3 6 1 。 1 2 2 相似性的直觉 l i n 于1 9 9 8 年在文献【3 7 中提出了一组具有广泛意义的相似性定义。虽 然,l i n 的相似性定义是基于信息学( i n f o r m a t i o n t h e o r e t i c ) 的,但他关于相似性 直觉( i n t u i t i o n ) 的阐述却值得借鉴。l i n 认为相似性的定义应符合下列相似性的 直觉。 直觉1 :对象a 和b 的相似性与它们的共同点有关,共同点越多,相似性越 大: 4 浙江大学博士学位论文 直觉2 :对象a 和b 的相似性与它们的差异有关,差异越大,相似性越小; 直觉3 :当对象n 和扫只存在共同点而没有差异点时,称a 与b 相同,其相似性 最大; 直觉4 :当对象n 和6 只存在差异点而没有共同点时,称a 与b 互斥,其相似性 最小。 l i n 所定义的直觉表明,共同点是相似性存在的关键,两个对象没有共同点 也就没有相似性;差异性是相似性的补充,它影响着相似性的大小。由于上述 四点相似性直觉具有广泛的意义,本文以此作为构建相似性模型的基础。 1 3 心理学领域的研究 1 3 1 几何相似模型 心理学领域的最初研究可以追溯到o s g o o d 于1 9 5 2 年提出的语义微分方 法( s e m a n t i cd i f f e r e n t i a l ) 【2 】。o s g o o d 用一组含义相反的形容词构成一个特征空 间( 如图1 2 所示) ,分别用这些形容词度量单词的语义,从而形成单词在特征空 间的坐标。如图1 2 中,单词p o l i t e 的语义坐标为( 4 ,5 ,6 ,2 2 ,3 4 ,3 4 ,1 ,5 3 ,3 4 ,2 1 ) 。 o s g o o d 定义两个单词在特征空间中的几何距离为单词之间的语义距离。 o s g o o d 的语义分析方法的核心是用坐标空间的点表现对象,用点之间的 距离反映对象间的相似性。心理学将这类模型统称为几何相似模型。在二十 世纪七十年代以前,几何相似模型一直主导了心理学中相似性分析理论的发 展 3 8 ,3 9 1 ,它认为人的相似性认识应符合定义1 1 。 定义1 1 设a 和b 是对象口和6 在特征空间r 中的表述,d i s t ( a ,b ) 是两者在特征空 间r 中的语义距离。贝l j d i s t ( a ,b ) 满足以下四个度量公理: 1 、自相似的常数性:d i s t ( a ,a ) = d i s t ( b ,b ) ; 2 、最小性:d i s t ( a ,口) = d i s t ( a ,a ) ; 3 、对称性:d i s t ( a ,功= d i s t ( 四,a ) ; 4 、三角不等性:d i s t ( a ,b ) + d i s t ( 矗,c ) d i s t ( a ,c ) 。 运用多维比例分析( m u l t i d i m e n s i o n a ls c a l i n g ,m d s ) 的统计方法 3 9 ,4 0 , 可以从几何相似模型的实验结果中构建出一个相似空间( s i m i l a r i t ys p a c e ) 4 1 第一章绪论 p o l i t e 图1 2 :单词p o l i t e 的心理语言学度量 4 2 】。传统上,用以下公式构建m d s 模型。 如= 【z i x , o 一抽i ,】“7 其中是第i 个样本在第m 维的心理值;r 的值决定了度量空间的类型。其中 当r = 2 时,相似空间为e u c l i d e a n 度量空间。 以上述度量四公理为前提,几何相似模型能大大降低模型的计算复杂度。 但也由于这些公理的约束,几何相似模型不能表现一些与相似性有关的心理现 象。如a t t n e a v e 在由长方形的面积和倾斜度构成的二维特征空间中,计算长方 形的相似性,实验结果证明几何相似模型的结论并不完全符合人的相似性感 觉【4 3 】。文献 4 4 ,4 5 ,4 6 贝j j 给出了一系列心理学的实验。这些实验表明人对相似 性的认识不满足对称性、三角不等性和最小性的定义。 1 3 2 t v e r s k y 模型 从二十世纪七十年代起,心理学家提出了许多非几何相似模型。其中最为 著名的是t v e r s k y 模型。t v e r s k y 认为对象的一些属性( 如国家和性格) 无法用数 一二一嘶胁眦蚵眦 咖 呲 呻 删 训 删 一 州 胁 6 浙江大学博士学位论文 字量化,这些属性更适合用定性的方式描述【4 】。t v e r s k y 模型用集合描述对象的 特性,定义相似性是对象的共同性和差异性的函数。 t v e r s k y 模型认为对象问的相似性应满足匹配性、单调性和独立性,这些性 质在t v e r s k y 模型中的地位与定义1 1 在几何相似模型中的地位相同。 定义1 2 设a 、6 和c 为三个对象。a 、丑和c 分别是其特性集合,s ( a ,b ) 是a 和b 间 的相似性度量函数。若具有以下性质,则称相似性函数j 为匹配函数。 1 、匹配性:s ( a ,b ) = f ( a n b ,a b ,b a ) 2 、单调性:当a n c a n b ,a b a c b a c a 时 有j ( 口,6 ) j ( a ,c ) 定义1 3 对于任意对象a ,扫的特性集合a 和b ,令x = anb ,y = a b ,z = b a ,( x e z ) 为匹配函数。如果有y 和w 使得下列公式中至少一个成立,则 称v z w 。 f ( v ez ) = f ( w zz ) , f ( x v z ) = f ( x wz ) , f ( 墨l :v ) = f 佤x w ) 定义1 4 当下列公式中有一个、两个或三个公式成立时,则称对象对0 ,6 ) 和( c ,满 足一个、两个或三个要素。 ( a n 功( c n d ) ,( a b ) ( c d ) ,( 口一a ) ( d c ) 定义1 5 当对象对( 日,6 ) 和( c ,田与对象对( 口,6 ) 和( c ,d ) 满足相同的两个要素, 且( 口,6 ) 和( d ,) 与( c ,d ) 和( c ,d ) 满足剩下的第三个要素。若以下公式成立,则称 相似性度量函数j 具有独立性。 5 ( a ,b ) j ( a ,b ) 静5 ( c ,曲j ( c ,) 在t v e r s k y 模型中,相似函数满足匹配性表明对象的相似程度由对象间的 相同性和差异性共同决定;单调性则表示相似程度随着共同性的增加和差异 性的减少而增加;独立性表明,决定相似程度的三个因素( 相同性、n 对b 的差 异性和b 对的差异性) 之间互不影响。在基于匹配性、单调性和独立性的基础 上,t v e r s k y ;j l 入了相似性函数的定义。 第一章绪论7 定理1 1 设j 为相似性函数并且满足匹配、单调和独立 生,则存在一个相似性函 数s i m 。一个非负函数,以及常数矾d 和口。对于所有的对象a ,b 。c 和4 有: s i m m ( n ,b ) s i m r v ,( c ,d ) 甘j ( a ,6 ) 5 ( c ,回且 s i m ”( a ,b ) = o f ( a n b ) 一啦,( a b ) 一声厂( b a ) 定理l ,1 表明,如果相似性函数满足匹配性、单调性和独立性,则存在一个 函数s i m 。,它是对象间相同性和差异性的线性函数,且具有与对象的相似性函 数s 相同的相似性排序。定理1 1 也被称为t v e r s k y 模型。心理学认为相似性是不 可以直接测量的,但不同的相似性可以相互比较 4 7 1 。因此对象间相似性的排序 此相似值的差距更有意义。t v e r s k y 模型正是基于这一点用函数s i m 。来间接度 量相似性函数s 的排序关系。 1 3 3 r o d r i g u e z _ e g e n h o f e r 模型 显然,定理1 1 中给出的相似性度量函数s i r e 。,是一个非标准式,即不满 足0 s i r e 。,( a ,b ) 1 ,且可能存在s i m 。, 0 的情况。为了方便相似性的比较和 分析,r o d r i g u e z 和e g e n h o f e r 在文献 4 8 1 q b 将t v e r s k y 模型扩展为一个标准式,如 下所示: s i m n e : 竺金星 一 f ( a n b ) + 嘎r ( a 一印十p 厂( b a ) 其中a ,6 是本体中的概念,a ,b 分别是描述概念a 和b 的特性集合,为一个 非负的函数,口和卢表示不同的相对显著性,且0 卢1 。可以证明r o d r i g u e z e g e n h o f e r 模型符合t v e r s k y 模型的匹配性、单调性和独立性假设。r o d r i g u e z 和 e g e n h o f e r 给出了显著性函数,定义,( a ) = i a l ( i a i 为集合a 中元素的个数) 。 由于r ( ) d i j g i l e z 上g e n h o f e i 模型是t v e r s k y 模型的扩展,并能输出标准化的相 似值,因此它被广泛地应用于相似性的度量中【4 9 ,5 0 】。 1 3 4 t v e r s k y 模型的特点 不对称相似性是t v e r s k y 模型最显著的特点。t v e r s k y 并t l g a t i 在文献 5 1 1 中f f 玩具火车和真火车的例子来说明不对称相似性。 “人们认为玩具火车像真火车,是因为玩具火车包含了许多真火 车的特性。然而由于真火车有更多特性未被包含在玩具火车中,因 8 浙江大学博士学位论文 此人们会认为玩具火车与真火车的相似度比真火车与玩具火车的相 似度更大。这一现象被称为不对称相似性。” 在t v e r s k y 模型中,口和口的取值是造成不对称相似性的重要原因之一。与 传统的相似性度量模型不同,t v e r s k y 模型将特性的差异性引入到相似度量 中,并认为相似性具有方向性。在定理1 1 中,口可认为是比较对象,6 是参照对 象。口年昭表现了人对比较对象和参照对象特性的不同关注度。当口 卢时,表明人更关注比较对象的不同特性,若,( a b ) ,一a ) ,则有s i h ,( 口,6 ) s i n h ( 6 ,口) 。在定理1 1 中,使s i t n ,( a ,6 ) = s i m t 。,( 6 ,n ) 的条件是r ( a 一劢= f ( b a ) 或者口= 卢。这表明当两个对象具有相等的不同特 性或者比较不具有方向性时,对象的相似性才是对称的。 t v e r s k y 模型的另个特点是能体现因特性的重要性不同而造成的相似性 差异。在文献 5 1 中,t v e r s k y 用东德和西德的例子来说明这一现象。 “无论在地理上还是文化上,东德与西德都有极大的相似性。但 以政治制度而言,两者则有天壤之别。因此不同的衡量标准会产生 不同的相似性结果。” 定理1 1 用显著性函数,来表现对象特性的重要性。t v e r s k y 认为上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论