已阅读5页,还剩71页未读, 继续免费阅读
(机械设计及理论专业论文)面向产品创新设计的语义关键词专利检索方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 近年来,在产品设计领域,创新设计具有越来越重要的地位。产品创新设计中的一 个关键问题是知识获取问题,即如何从海量信息中提取出符合设计需求的知识。例如在 t r i z 创新概念设计的前期模糊前端阶段,原理解或领域解的求解阶段,都需要大量相 关知识。当前知识获取的一个重要方式是从专利中获得,常用的方法是用关键词检索, 但由于没有采用基于语义的检索方法,所以检索质量尚待进一步提高。本文重点研究基 于语义的关键词检索方法,以提高检索的质量和效率,具有理论意义和应用价值。 本课题首先研究专利的文本预处理方法,并构建了供语义关键词检索的专利数据 库,然后研究基于语义关键词检索方法,并在此基础上给出了应用示例。主要研究工作 如下: ( 1 ) 给出了一种专利数据的文本预处理方法。本文对国家知识产权局网站下载的 专利进行文本格式转换和存储,通过聒d y 方法实现h t m l 文本的转化,并通过商业软 件( a d o b ea c r o b a tp r o f e s s i o n a l8 0 ) 实现p d f 文本的转换,然后通过数据库建模将其存 储到本课题组构建的专利数据库中,为用关键词或语义关键词从该专利数据库检索提供 数据准备。 ( 2 ) 给出了一种基于语义的关键词检索方法。主要用于以下两方面:针对专利文 本不带关键词的问题,用语义关键词检索方法对一个给定的专利文本,在语义理解的基 础上自动提取专利文本关键词;针对用一般关键词检索范围有限的问题,利用语义关键 词扩展相关专利检索的范围。最后通过编程实现了语义关键词的检索模块。 ( 3 ) 通过除冰雪车辆创新方案设计相关知识的专利检索实例,说明了本文给出的 语义关键词检索方法应用。 上述研究有助于面向创新设计的知识获取的专利检索研究,将上述成果作为模块纳 入本课题组开发的“面向创新的专利知识检索系统 ,用语义关键词从该专利数据库中 检索所需的知识,为设计师进行创新设计的方案设计提供参考。 关键词:创新设计;方案设计;知识获取;专利检索;语义关键词 面向产品创新设计的语义关键词专利检索方法 p a t e n tr e t r i e v a lo fs e m a n t i ck e y w o r df o rp r o d u c ti n n o v a t i v ed e s i g n a b s t r a c t i nr e c e n td e c a d e s ,i n n o v a t i o n a ld e s i g ni sm o r ea n dm o r ei m p o r t a n ti nt h ef i e l do f m e c h a n i c a lp r o d u c td e s i g n o n eo ft h ek e yp r o b l e m so fi n n o v a t i o n a ld e s i g ni sh o wt og e tt h e n e e d e di n f o r m a t i o nw h i c hm e e t st h ed e s i g nr e q u i r e m e n t sf r o mm a s s i v ei n f o r m a t i o n , t h a ti s , t h ep r o b l e mo fk n o w l e d g ea c q u i s i t i o n f o re x a m p l e ,i nt h ef u z z yf r o n t e n ds t a g eo ft h et r i z i n n o v a t i v ec o n c e p t u a ld e s i g n , t h eo b t a i n m e n to ft h ep r i n c i p l es o l u t i o na n dt h ed o m a i n s o l u t i o nr e q u i r e sal a r g en u m b e ro fr e l e v a n tk n o w l e d g e a tp r e s e n t , t h ek n o w l e d g ei sm a i n l y a c q u i r e d 舶mt h ep a t e n t sb yk e y w o r ds e a r c h h o w e v e r , t h ef i e l do fs e a r c hi sl i m i t e dd u eo f t h ea b s e n c eo fs e m a n t i cs e a r c h t h i sp a p e rf o c u s e so nt h es e m a n t i c - b a s e dk e y w o r ds e a r c hi n o r d e rt oi m p r o v et h eq u a l i t ya n de f f i c i e n c yo fr e t r i e v a l ,a n dh a sac e r t a i nt h e o r e t i c a l s i g n i f i c a n c ea n dr e f e r e n c ev a l u eo ft h ea p p l i c a t i o n t h i sp a p e rf i r s t l yr e s e a r c h e st h ep a t e n tt e x ti n f o r m a t i o ne x t r a c t i o nm e t h o da n db u i l d sa d a t a b a s e ,w h i c hi ss e a r c h e db ys e m a n t i ck e y w o r d s ,t h e nr e s e a r c h e st h er e t r i e v a lm e t h o db a s e d o ns e m a n t i ck e y w o r d s ,a n dg i v e st h ea p p l i c a t i o ne x a m p l e so na b o v e - m e n t i o n e db a s i sf i n a l l y t h e r ea r es e v e r a la s p e c t so ft h ew o r k : ( 1 ) t h i sp a p e rp r o p o s e sap a t e n t ( d o w n l o a df r o ms t a t ei n t e l l e c t u a lp r o p e r t yo f f i c e w e b s i t e ) t e x tp r e p r o c e s s i n gm e t h o d ,w h i c hp e r f o r m st h et r a n s f o r m a t i o no fh t m ld o c u m e n t s b yj t i d ym e t h o da n dt r a l s f o r m sp d f d o c u m e n t sb yb u s i n e s ss o f t w a r e t h e n ,t h ed a t ai ss t o r e d i nt h ed a t a b a s et h r o u g ht h ep r o g r a m , w h i c hc a nb es e a r c h e db yk e y w o r d so rs e m a n t i c k e y w o r d si nt h ep a t e n td a t a b a s ea n dp r e p a r ef o rt h ef u r t h e re x t e n s i o no ft h ed a t a b a s eu s i n g p a t e n t s ( 2 ) t h i sp a p e rp r e s e n t sak e y w o r dr e t r i e v a lm e t h o db a s e do ns e m a n t i c ,w h i c hc a nb e u s e di nt w oa s p e c t sa sf o l l o w i n g :t od e a lw i t ht h ep r o b l e mt h a ts o m ep a t e n t sh a v en o k e y w o r d s ,t h ea p p r o a c hu s i n gs e m a n t i ck e y w o r d se x t r a c t st h ek e y w o r d so ft h ep a t e n t a u t o m a t i c a l l ya c c o r d i n gt ot h es t a t i s t i co i lt h eb a s i so fs e m a n t i cu n d e r s t a n d i n g ;t od e a lw i 1 t h ef i e l dl i m i t a t i o no fr e t r i e v a lo nk e y w o r d s ,t h es e m a n t i ck e y w o r d si se m p l o y e dt oe x t e n dt h e c o v e r a g eo f p a t e n tr e t r i e v a l ( 3 ) t h e :p a t e n ts e a r c hi n s t a n c es e r v i n gf o ri n n o v a t i v ed e s i g no fs n o wr e m o v a lv e h i c l e si s u s e dt oi l l u s t r a t et h ev a l i d a t i o no ft h ep a t e n tt e x ti n f o r m a t i o ne x t r a c t i o nm e t h o da n ds e m a n t i c k e y w o r dr e t r i e v a lm e t h o dp r o p o s e di nt h i sp a p e r t h ea b o v er e s e a r c hb e n e f i t st h ep a t e n tr e t r i e v a lo fk n o w l e d g ea c q u i s i t i o no r i e n t e dt o i n n o v a t i v ed e s i g n ,w h i c hi su s e da sap a r to ft h e t h ep a t e n tr e t r i e v a ls y s t e mo r i e n t e dt o 大连理工大学硕士学位论文 i n n o v a t i v ed e s i g n ”d e v e l o p e db y0 1 1 1 r e s e a r c h g r o u p t h ea p p r o a c he m p l o y ss e m a n t i c k e y w o r d st oo b t a i nt h er e q u i r e dk n o w l e d g eb ys e a r c h i n gp a t e n td a t a b a s e ,w h i c hc a nb eu s e d 8 st h er e f e r e n c eo fs c h e m ed e s i g ni nt h ei n n o v a t i v ed e s i g nf o rt h ed e s i g n e r k e yw o r d s :i n n o v a t i v ed e s i g n ;s c h e m a t i cd e s i g n ;k n o w l e d g ea c q u i s i t i o n ;p a t e n t r e t r i e v a l ;s e m a n t i ck e y w o r d s 1 1 1 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 厘堑乏墨鱼蓟垒生垒2 苎塞篡筐2 虱墨驷监茎墨三奎 作者签名 :二鞋 一 日期:斗年王月l 日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 鱼鱼坌益继墨互逢苴鱼丝塞茎丝! 垒圣虫控茎垒! 圭 日期:竺翌年月土l 日 日期:丝2 年月坐日 大连理工大学硕士学位论文 1绪论 本文重点研究面向产品创新设计的专利文本预处理和基于语义关键词检索方法,首 先介绍课题的工程背景和问题的提出。 1 1 课题背景和问题的提出 本论文以基于专利信息的产品创新设计为应用背景,在国家自然科学基金( n o 6 0 6 7 4 0 7 8 ) 和国家“8 6 3 计划项目( n o 2 0 0 6 a a 0 4 2 1 0 9 ) 的资助下,针对目前产品创 新设计中专利检索的质量和效率不高的问题,通过研究专利文本的预处理和检索方法来 获取产品设计中的相关知识。 在当前国际竞争日益激烈的环境下,创新是企业生存与发展的关键,产品核心技术 及市场竞争力的提高是通过不断创新实现的。图1 1 所示为产品创新设计过程模型【1 1 。 该模型表明产品创新分为模糊前端( f f e ,f u z z y f r o n te n d ) 、新产品开发( n p d ,n e w p r o d u c td e v e l o p m e n t ) 、及商业化( c o m m e r c i a l i z a t i o n ) 三个阶段。f f e 阶段输出新产 品设想;n p d 阶段通过设计与制造将设想变成产品;c o m m e r c i a l i z a t i o i l 阶段将产品通过 市场变成效益。对于产品创新设计,主要研究前两阶段。新产品设想在f f e 阶段产生, 该阶段是产品创新的发动机及是否能成功的关键【2 】,在这一阶段中,一个重要的问题是 如何从海量的信息提取出符合新产品功能及实际需求的内容,即知识获取问题。而现在 对于知识获取主要是从海量的专利信息中获得,所以,分析检索专利并应用到产品创新 设计是当前需要重点研究的问题。知识获取范畴内的专利分析,是对产品创新中的专利 知识进行分析处理,挖掘出其中有价值的部分并应用于产品设计过程,而本文的研究重 点就是专利文本的预处理和语义关键词检索,得到对产品创新设计有用的参考方案。 模糊前端新产品开发商业化 图1 1 产品创新过程模型f 1 】 f i g 1 1 p r o d u c ti n n o v a t i o np r o c e s sm o d e l 1 】 面向产品创新设计的语义关键词专利检索方法 1 2 国内外研究现状 1 2 1 产品创新设计研究现状 创新设计【3 】是指充分发挥设计者的创造力,利用人类已有的相关科学技术成果( 含 理论、方法和技术原理等) ,构思创新产品概念,并进一步应用新技术、新原理和新方 法进行产品的设计和分析,开发具有新颖性和实用性的新产品的实践活动。从产品的整 体概念来理解,现代企业产品创新设计是建立在产品整体概念基础上的以市场为导向的 系统工程,它贯穿产品构思、设计、试制、营销全过程,实现产品某项技术经济参数质 和量的突破与提高,它是功能创新、形式创新、服务创新多维交织的组合创新。这其中 既包括重要产品创新,即全新的产品创新或组合已有的技术取得新的应用;又包含渐进 的产品创新,即使用新材料、新配件等改进产品的性能或降低产品成本或通过改变产品 的局部而改进产品整个系统的功能【4 】。产品创新设计是新产品开发过程中的最能体现人 类创造性的一环,它需要设计者有多领域的专业知识支持以及极强的综合分析能力【5 1 。 由于创新设计能够有效满足客户对产品求新和多样化的需求,提高产品市场竞争力,增 加企业利润,国内外先进的制造企业纷纷致力于通过提高产品创新设计能力来提高企业 核心竞争力【6 】。因此,产品创新设计也成为产品设计研究领域的热点。 自从熊彼特1 9 1 2 年提出创新理论以来,对创新的研究经历了5 0 年代创新理论的分 解研究及技术创新理论的创立阶段、7 0 年代技术创新理论的系统开发阶段、8 0 年代以 来的技术创新理论的综合化、专门化研究阶段。目前,在创新设计方面,随着计算机在 设计领域的应用越来越广阔,创新也由原来的仿生法、智爆法、联想法、形象思维法和 阵列法等基于认知的方法( c o g n i t i v ea p p r o a c h ) 向基于系统的方法( s y s t e ma p p r o a e h ) 方向发展。其中,近年来在设计方法学和产品创新设计理论研究方面,以德国的p a u l 和b e i t z 提出的普适设计方法学【7 】( c o m p r e h e n s i v ed e s i g nm e t h o d o l o g y c d m ) ,美国麻 省理工学院( m i t ) 的s u h 提出的公理性设计【6 】( a x i o m a t i cd e s i g n , a d ) ,日本学者 a k a o 提出的质量功能配置( q u a l i t yf u n c t i o nd e p l o y m e n t ,q f d ) 以及前苏联gs a l t s h u l e r 领导的研究小组提出的发明问题解决理论( t h e o r yo f i n v e n t i v ep r o b l e ms o l v i n g t r i z ) 最为著名【8 1 。 产品创新设计每一步都贯穿着设计经验、原理、规范和规则等知识的应用【9 】,而且 产品设计过程中的信息以及知识要素的增值己成为影响新产品竞争力的决定性因素之 一【l 们。为此,很多制造型企业都力图通过提高产品的知识含量和创新性来获得核心竞争 力【l 。基于知识的产品创新设计也因此成为当前产品设计研究领域的热点之一【1 2 】。近年 一2 一 大连理工大学硕士学位论文 来国内外学者纷纷从不同角度对产品创新设计以及基于知识的产品创新设计进行了大 量研究,取得了一定的研究成果。 现代产品创新设计以设计知识为基础,以新知识获取为中心的知识密集型工程【1 0 1 , 产品设计创新本质上也是知识的创新。中国工程院院士谢友柏【”】曾提出,产品及其制造 工程中的信息和知识要素的增值将成为主宰新产品竞争力的决定性因素。因此,在产品 设计的各个方面,设计知识都起着关键的作用。同时,新产品的设计开发大多数根据己 有的设计知识,设计人员需了解相关的背景知识和设计经验,才能快速地进行产品开发。 因此,对已经或正在产生的有关设计知识要及时提炼、管理,充分利用经过生产实践考 验的产品设计知识,不仅可以大大缩短生产周期,还可避免设计失误,提高产品的一次 成功率,有效地降低成本,提高产品开发速度,最终增强企业的竞争力并赢得市场。随 着信息技术的迅猛发展和各种先进制造理念的产生,制造业正在迅捷地向并行化、分布 式、数字化和智能化制造方式转化。一方面,企业内产生的设计开发资料随着产品的不 断增加而日益膨胀;另一方面企业又必须不断地从外界获取各种信息,由此产生的各种 设计知识堆积,且成指数增长。因此,如何有效地管理已有的设计知识和准确地分析并 提取外界及现有的有用信息,成为提高产品开发速度,缩短产品开发周期的关键【1 4 】,而 对设计知识的检索就成为了产品设计的重要问题。 1 2 2 面向产品创新设计的知识检索 基于知识的设计是应用c a d c a m c a e 一体化技术集成知识及其推理系统,实现 智能化的计算机辅助设计过程。本文研究的设计知识检索及应用是基于知识的设计方法 的基础和关键问题之一。 进入2 1 世纪,经济全球化和信息化使制造业的竞争环境、发展模式和活动空间等 发生了深刻变化,这些变化对我国制造业提出了严峻的挑战。制造业信息化是用信息技 术改造传统产业和实现信息化带动工业化的突破口。制造业信息化将信息技术、自动化 技术、现代管理技术与制造技术相结合,全面提升我国制造业的竞争力。 1 9 8 0 年托夫勒在第三次浪潮一书中指出【”】:1 1 r 技术是继工业革命后的第三次 技术革命,在i t 时代,穷国富国处于同一起跑线上。于是我国从“八五 、“九五 、 到“十五”计划,一直十分重视制造业信息化的研究,特别是在“十一五 计划中,明 确将制造业信息化确定为一项国策,即信息化带动工业化,发展高新技术产业,提升传 统制造业。 面向产品创新设计的语义关键词专利检索方法 豁j 君艘酬 尸一k n o w l 咄e z 11 222 图12 国际数字化设计技术发展历程1 0 d c v a l o p m e mc o t l t s e o f i u t c r n a d o l m i 击酬d e d 弘t e 血l o b 一1 q 目前,我国制造业信息化技术的主要内容为五个数字化,即设计数字化、制造装备 数字化、生产过程数字化、管理数字化和企业数字化。近十多年来,我国部署了一系列 重点科技项目,有效地促进了我国制造业信息化技术的研究与应用推广【1 1 。但从图12 所示的数字化设计技术的发展历程来看,国际上数字化设计的信息化发展是阶梯式的, 单纯的信息化已经难以满足当前制造业高速发展的需求,其发展方向是“知识化”,即 在制造业信息化的基础上更深一步挖掘并应用设计中蕴含的知识。 近年来,基于知识的设计和制造引起了世界范围的重视,知识对于设计的重要意义 得到普遍的认可,谢友柏院士【l ”认为“知识获取是现代设计的核心”。美国n a s a l a n g l e y r e s e a r c h c e n t e r 的空气动力学家w o o d 等【】”认为设计是知识驱动的活动,强调了基于 知识求解在设计中的重要性。 基于知识的设计研究重点是如何将产品设计理论和技术与产品设计过程相结合,避 免大量的重复开发工作,从而提高产品开发的效率、节约开发成本。由此可见,对产品 设计知识的表达、索引、查询、理解及修改等【1 1 是设计中的难点和重点工作。目前存在 大连理工大学硕士学位论文 的问题主要是如何表达产品设计知识,即产品设计知识建模问题;并在产品设计过程中 构造高效的检索方法。 目前许多学者从不同方面研究了在工程设计中如何表达设计知识,主要有【2 0 】:基于 功能原理模型的产品知识表达、基于全生命周期的产品知识表达、基于知识的产品知识 表达、基于分析模板的产品知识表达和基于本体的产品知识表达等。 l e e 等【2 l 】提出的产品域模型使面向功能的设计和面向制造的设计的集成成为可能。 目前关于产品域模型研究主要集中在现有设计的产品信息模型,因为信息和知识的结构 对于设计重用相关的知识获取和共享是至关重要的,如i s o 制定了产品类的概念,旨在 提高产品域的描述。c o s t e r 等【2 2 】对产品域模型进行了拓展,认为支持集成信息的产品模 型是一个信息模型,而产品域模型则结合了信息与知识,提供了从产品模型分离出来的 信息库和知识库,通过对产品设计信息及知识的重用来支持变型和适应性设计,并利用 u m l 实现了设计重用系统的分析与设计。基于产品域模型的设计重用,其功能信息与 设计解相关,通过知识或知识与设计者的交互来支持设计概念的智能重用。在国内,张 建勋等【2 3 】建立了一个可重用集成设计单元的信息模型来表达、组织和管理可重用的信息 和知识。蔡波掣2 4 】基于f b s 框架建立能够记录概念设计历史的概念设计信息模型,给 出了多粒度层次的概念设计重用框架。王玉等【2 5 】研究了机械产品设计重用的策略,给出 了机械产品设计重用层次与设计重用空间的概念,并提出了基于这些技术的机械产品设 计重用框架和策略。 上述工作一般是从产品的功能出发,目的是为产品体系提供更好的了解,为现有设 计模型提供多样数据,但对于新产品开发的设计重用其作用却是很有限的,因为用于设 计重用的信息模型必须获取产品开发所需要的知识,包括功能之间的联系、需求和方式 等。尽管产品的功能是驱动设计过程的有效方式,可为高层次设计提供智能的信息检索 和重用,但应用功能这种方式检索时,会使得产品模型的结构( 信息模型) 很复杂。 m o o n 等【2 6 】利用本体描述产品和组件,以便重用设计知识来开发新产品,这种本体 是由功能、装配和技术说明组成的,具有更为丰富的语义,可以扩展用于产品平台或产 品族。p a t i l 等【2 7 】提出了基于本体的产品数据语义操作框架,开发了产品语义表达语言, 这种语言可用形式化描述语言进行编码,在不同产品开发系统之间进行无缝集成。浙江 大学人工智能研究所研究了基于本体论的产品配置【2 引,主要是通过建立基于本体的产品 知识共享和重用机制来实现产品知识的演化、共享和交换,实现用户需求模型和产品配 置模型之间的相互转换,实现大规模定制。郝永平等【2 9 1 提出了一种基于本体的实现产品 全过程知识共享的方法,对产品知识进行层次化的表示。基于本体论的产品信息建模, 一5 一 面向产品创新设计的语义关键词专利检索方法 对现代企业大规模的不同系统之间的知识处理是很有帮助的,但涉及到本体建模工具和 本体语言构建、推理和通信等,具有一定的难度。 近年来,基于工程语义和基于语义网的知识建模引起了广泛关注。荷兰d e l f t 理工 大学b i d a r r a 3 0 墩授领导的研究小组研究了语义特征建模方法,建立了产品的工程设计 模型,描述了产品的结构和功能信息。b r o n s v o o r t t 3 l 】针对产品建模问题研究了基于语义 和多视图的语义模型。l e e 3 2 1 开发了用于船舶设计的产品语义建模系统。孟祥旭【3 3 】和邓 家裎【3 4 】分别研究了复杂产品的多层次语义模型,多层次语义模型从用户需求、产品设计、 零件建模、部件装配各个阶段入手,将其中蕴含的行业知识加以分类、提取、抽象,形 成设计语义、建模语义和装配语义等层次结构。文献 3 5 1 提出了基于本体论及语义w e b 的产品信息建模的观点,建立了对象封装、中间件、企业应用的产品信息模型层次化结 构。利用工程语义及语义网进行知识建模有助于改善当前特征建模方法的缺陷,使产品 设计模型具备更丰富的语义信息,关于工程语义及语义网的相关研究后文还将详细介 绍。 在产品设计中,设计者将5 0 的时间用于检索和组织工程设计过程中的信息和知 识,因此产品设计知识的检索是能否实现设计重用的关键,许多学者为此展开了研究, 如d u f f y 等【3 6 】研究了信息的索引和检索,通过结构化的索引( 知识交叉引用) 提高信息 检索速度,检索方法采用了专家系统和人工神经网络。o n g 等【3 7 】对原型系统的检索产品 进行多索引和逐级分析,对产品族的关键特征( k e yc h a r a c t e r i s t i c s ) 进行编码,采用遗 传算法和基于实例推理作为智能检索方法,用于设计知识重用。 基于知识的设计方法的引入,使得设计更加富有创造性和可预见性,而且知识在整 个产品设计生命周期内的一致性保证了产品开发的成功率,大大节省了开发时间,提高 了设计质量,从而推动设计模式从经验设计向科学设计进行转变。目前,基于知识的设 计方法正在不断发展之中,对知识的分析与理解也越来越深入,是产品设计领域的一个 热点课题。本文研究的设计知识检索与应用是基于知识的设计方法的重要组成部分,本 文给出的工程语义及工程语义网将为设计知识的分析与理解提供语义支持工具。 1 2 3 专利信息检索研究现状 专利检索属于信息检索中的一种,要想深入了解专利检索,必须先了解信息检索。 所以本文先介绍一下信息检索的概念及研究现状,再说明专利检索的研究现状。 信息检索研究的是如何从大量的信息资源中找到满足用户信息需求的信息子集,涉 及信息的搜集、表示、组织、存储、访问、搜索等问题。狭义的信息检索指的是文本检 索或者文本检索,尤指对非结构化( 或半结构化) 文本的检索,其任务就是研究如何从 一6 一 大连理工大学硕士学位论文 相对稳定的文本数据集中检索出与用户查询相关的文本,并以相关度从高到低的顺序将 检索结果返回给用户。本课题所研究的专利检索就是文本检索。 目前文本检索最常用的是基于关键词的向量空间模型,该模型利用出现在文本中的 一些关键词语以及表征关键词语重要性的权值构成向量表示文本的语义内容。基于词语 的向量空间模型只用文本中出现的词形表示文本的语义内容,因此文本相关性判断只是 词语的字面匹配。而在自然语言文本中,广泛存在一词多义问题、一义多词问题以及一 个文本语义内容可以有多种表达的问题,这些问题使得基于向量空间模型的文本相关度 判断性能不佳。所以在信息检索中,往往出现由于用户所选择的词和文本中出现的目标 词不匹配,从而导致检索效率低下乃至失败。为了解决这个问题,研究者采取了查询扩 展、基于本体的语义检索等方法,下面一一介绍这些技术。 ( 1 ) 查询扩展 查询扩展就是检索系统在进行检索之前,自动把用户查询中的关键词相关联的词扩 展进来,形成新的更长、更准确的查询。这样,更多的查询词在文本中出现的概率更大。 查询扩展技术【3 8 】最近得到了广泛的研究,它主要分为以下几种方法。 基于全局和局部分析的查询扩展 全局分析的基本思想是对全部文本中的词或词组进行相关分析,计算没对词或词组 间的关联程度。当一个新的查询到来时,则根据预先计算的词间相关关系,将与查询用 词关联程度最高的词及词组加入原查询以生成新的查询。目前常见的全局分析方法包括 潜在语义索引l s i ( l a t e n ts e m a n t i ci n d e x i n g ) 【3 9 1 、相似性词典【删等。全局分析的优势 是可以最大限度的探求词间关系,并在词典建立之后以较高的效率进行查询扩展。但是, 当文本集合非常大时,建立全局的词关系词典在时间和空间上往往是不可行的,并且在 文本集合改变后的更新代价巨大。因此,近期的查询扩展研究主要集中在与之对应的局 部分析上。 局部分析利用两次查询的方法解决扩展问题。局部分析利用初次检索得到的与原查 询最相关的n 篇文章作为扩展词的来源,而不是利用先前计算得到的全局词关系词典。 局部分析的思想是由a t t e r 和f r a e n k e l 于1 9 7 7 年提出的1 4 ,目前流行的局部分析方法主 要是局部反馈法,它是在相关反馈技术【4 2 】的基础上发展起来的。相关反馈技术需要同用 户进行交互,根据用户对初次检索结果的评判,将相关的文章作为查询扩展词的来源; 而局部反馈则直接将初次查询的前n 篇文章认为是相关的。 基于语义的查询扩展 基于语义的查询扩展是根据语义关系建立扩展词表,当进行新查询时,根据事先建 立的扩展词表,选择语义上相关的词加入查询,形成新的查询。基于语义的查询扩展的 一7 一 面向产品创新设计的语义关键词专利检索方法 关键技术是扩展词表的建立【4 引。目前扩展词表的构造通常有三种方式:第一种是根据语 言学知识基于语义的查询扩展词表构造方法】,并构建了一些大规模手工词典例如 w o r d n e t 2 9 1 ,h o w n e t t 3 0 】等;第二种是基于大规模通用语料库的统计信息如同现概率、 互信息等构造扩展词表【3 8 , 4 5 】;第三种是结合语言知识和统计信息的扩展词表构造方法【3 9 矧,例如基于依存关系统计信息的扩展词表【4 7 】等。 如上所述,查询扩展技术取得了很大的进展,但始终困扰查询扩展技术的问题一扩 展词个数的选择和权重的确定却没有得到很好的解决。一般认为原始查询词最能反映用 户的需要,而扩展词的准确性值得怀疑,因此在使用会对原始查询词赋予较高的权重, 对扩展词赋予较低的权重。但是究竟应该设为什么权值则一直没有很好的方法,通常依 靠经验值给出。v o o r h e e s t 4 8 】尝试了各种权重,甚至手工的挑选扩展词,只是得到不超过 2 的性能提高。为了解决难以确定查询扩展词的个数及权重问题,张敏等【4 3 】提出一种 与查询扩展思路相反的文本重构思想,以解决检索中的词不匹配问题。文本重构的方法 较传统的查询扩展技术,性能有明显的提升。但它每进行一次查询就对数据集合中的每 一篇文本进行重构,在数据集合中含有大规模文本时,时间的开销是很大的。 ( 2 ) 基于本体的语义检索 什么是语义检索,目前并没有确定的定义。余传明认为:它是与传统关键词检索相 区别的,对检索条件、信息组织以及检索结果显示赋予了一定语义成分的一种新的检索 方式。 所谓对检索入口赋予语义,是指对于用户的各种形式的输入,加入特定的背景信息 或者语义关系,从而使计算机能够更好的理解用户的输入。 所谓对信息组织赋予语义,是指在建立索引时候,不再局限于以词作为索引入口, 而是以语义实体、语义属性和语义关系作为切入点,这可以通过两种方式实现。方式一 是保留传统的文本,通过建立文本和一系列语义实体、语义属性和语义关系的连接,给 文本索引赋予语义。同时,与关键词具有一定的权重相类似,语义实例在文本中也具有 一定的权值。相比之下,方式二是文本将不再是语义信息的基本单位,取而代之的是与 现实世界模型相对应的语义实体、语义属性和语义关系,这些语义实体、语义属性和语 义关系作为结构化的信息存储在特定的文本中,文本的检索被规约为完全形式化的概念 和实例匹配。按照这种方式,语义信息库将包含数以万记的语义对象以及实例,容量会 达到g b 和t b 层次。但这种方式也存在如下局限,首先,目前大量的信息仍然是以非 结构化( 如纯文本、语音和图象等) 形式窜在,把这些转化为形式化的本体知识是一项 巨大的工程;其次,在将文本形式化为一系列语义对象及其实例的过程中,不可避免会 大连理工大学硕士学位论文 造成信息丢失。考虑这两项原因,本课题采取的是前一种方式,保留了原来的专利文本, 将文本中的词语转化为知网中的概念。 所谓对检索结果赋予语义,是指检索的结果将不再是纯粹的文本,而可能是语义实 体、语义属性和语义关联。这里的语义关联是指在某一领域模型或者应用中,具有重大 意义或者为用户所感兴趣的实体之间的联系。 基于语义检索的研究刚刚起步,目前还没有成熟的检索系统投入应用。2 0 0 4 年d a v i d v a l l e t 等人【4 9 】进行的基于本体的检索模型研究。王进【5 0 】提出了一种基于本体的语义检索 模型,从语义想权重的设计、不同关键字之间的语义关系体现,以及语义特征向量间的 相似度计算策略等方面进行了研究。在模型中,通过概念连通图对不同语义项之间的关 系进行了重新考量,并将语义相似度的计算分为概念相似度和属性相似度两个方面,综 合考虑了二者在语义检索中的作用,为改善检索效果提供了保障。 专利检索虽然属于信息检索的一种,但也有其不同于一般信息检索的特色,比如说 专利文本的格式比较统一,没有很大的差别,有些专利检索需要查找商品的颜色或者生 物的结构等等。下面就介绍一下专利检索。传统的检索专利文献的方法主要是利用书本 式检索刊物,但往往有一段时间的滞后。随着i n t e r n c t 的迅速发展,不少提供专利服务 的机构开始通过i n t e r n c t 提供专利查询服务,用户可以从计算机网络上获取全球范围内 的专利信息,而几乎不受时间、地点和空间距离的限制。 ( 1 ) 专利检索方法 传统专利检索的方法是以关键词匹配为主,如上述绝大多数的专利数据库使用的方 法,但关键词检索往往存在查准率及查全率较低的缺点,人们开始研究基于内容的专利 检索方法,这里的内容包括专利文献中的图、表,以及一些具有特定结构的数据。目前, 图形、图像的检索能力已经具备,i b m 公司的基于内容检索( q b i s q u e r yb yi m a g e c o n t e n t ) 技术已能对产品商标数据进行颜色查询。此外还有德国不莱梅大学1 9 9 5 年提 出的i r i s 系统,美国波士顿大学于1 9 9 7 年推出的图像搜索引擎( i m a g e r o v e r ) 等。戴 青云【5 l 5 2 】提出一种基于颜色、纹理和形状特征的外观设计专利图像多层检索系统方案, 通过使用单一纹理检索,单一形状检索,纹理、形状检索结合串行、并行等多种检索方 法,对外观设计专利的花边类图像检索做了研究。此外,一些检索方法是针于某些特定 专业的数据,如化学中的族性结构专利信息的检索。英法合作开发的m a r k u s hd a r c 系 统【5 3 】,c a s 开发的m a r p a t i s 4 ,以及i d c 开发的g e n s 舢l g i 也m a s 系统 5 5 】都是针对 拓扑存储和检索的化学族性结构数据库系统。程文堂【5 6 】等提出了族性结构数据库一致性 和效率准则。程晓静等【5 7 】通过族性结构自然语言分析转化的方法研究了药物专利的检索 问题。在机械产品设计方面尚缺乏针对其领域专利知识的检索和数据库系统。 一9 一 面向产品创新设计的语义关键词专利检索方法 在面向创新的概念设计中,专利检索是要帮助设计人员找到与待解决的设计问题相 关的专利,这种相关是指专利中的设计原理或思路可以用于解决设计问题,是一种语义 上的相关。上述基于内容的专利检索有效的解决了传统检索方法不能解决的对颜色、形 状、结构方面的检索,但是不能解决检索语义上相关的专利的问题。 ( 2 ) 基于t r i z 的专利检索 发明问题解决理论( t r i z ,t e o r i y ar e s h e n i y ai z o b r e a t a t e l s k i k hz a d a t c h ) ,是基于 知识,面向人的发明问题解决系统化方法学,是由a l t s h u l l e r 领导的数十家研究机构、 大学、企业组成的t r i z 研究团体通过对世界高水平发明专利( 累计2 5 0 万件) 的几十 年分析得出的产品设计理论体系。 基于t r i z 的产品创新是面向专利知识检索的,并以大量相关专利信息为基础,在 产品创新设计过程中,设计者通过挖掘专利信息来重新定义问题或获得问题的参考解, 专利信息的内容质量和组织结构是影响产品创新的关键。目前针对t r i z 进行专利的研 究主要包括分类及检索等,其中专利分类的研究开始得较早,主要成果包括: 对于专利而言,目前关键的问题是海量的专利信息已经无法靠人工进行分析处理, 有效地对专利进行检索越来越困难。目前国内外专利机构提供的专利检索方法还都是基 于关键词匹配的方法,然而近年来语义检索技术的发展使得通过语义理解和知识获取可 弥补目前专利检索的不足,这方面的研究将是t r i z 研究的新热点。随着计算语言学的 发展,许多学者将信息检索的相关技术用于t r i z 。s o o 等【5 8 】给出了一种协同多a g e n t 平台支持的基于专利分析的创新设计过程,辅助工业知识管理者检索和分析现有专利并 利用本体和自然语言技术提取结构化信息,这样可以通过代表不同领域专家的软件 a g e n t 的合作和协调实现复杂工业产品创新过程,进而将专利文本分析和t r i z 相结合 以提供基于原理的发明方向,从而解决设计目标和工程参数之间的冲突。v e r b i t s k y 【5 9 研究了基于语义检索技术的t r i z ,并定义了支持语义t r i z 的语义检索框架,包括从提 问中提取确切语义实体的自然语言接口、语义实体搜索数据库以及语义匹配等,并在 g o l d f i r ei n n o v a t o r 平台上实现,将语义检索数据库作为冲突矩阵。该方法使用句法分析 及隐马模型等技术,提供类似问答系统的检索工具,用于充当冲突矩阵,这与本文研究 的通过工程语义模型针对专利进行的语义检索不同。 此外,与t r i z 相关的专利分析研究还有:俞春阳唧】针对产品创新设计的需求,通 过建立专利本体的方法,分析和表达专利文献中隐含的创新知识,并在t r i z 理论的支 持下,探索一种基于专利本体的产品创新设计技术。刘镇滔【6 1 】给出一种面向中小企业的 基于专利知识的产品创新设计方法,即从产品概念设计阶段开始创新,根据具体情况在 大连理工大学硕士学位论文 概念设计阶段引入t r i z 理论、q f d 、公理设计等方法进行分析,结合专利信息中提取 的有效知识和规律,增加概念设计的可预知性,缩短产品开发的周期。 产品创新是制造企业在市场竞争中取胜的关键。所谓创新是指新的可行解或概念, 该解或概念与己有的解或概念相比具有明显的竞争优势。创新是发明工程( i n v e n t i v e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46734-2025智能工厂评价通则
- GB/T 46798-2025网络安全技术标识密码认证系统密码及其相关安全技术要求
- 2025年云南富宁县那能乡卫生院公开招聘编外合同制人员的备考题库及参考答案详解
- 2025年中国民航科学技术研究院公开招聘备考题库(第二批)及一套答案详解
- 2026年技术改造合同
- 2025年丹东市荣军优抚医院(原丹东市公安医院)招聘备考题库及1套完整答案详解
- 2025年鲤城区东门实验小学顶岗合同教师招聘备考题库及答案详解一套
- 2025年代招某行政机关派遣制工作人员招聘备考题库及完整答案详解一套
- 2026年现代医疗服务合同
- 中国人民银行清算总中心直属企业银清科技有限公司2026年度公开招聘备考题库完整答案详解
- 8m深基坑土方开挖施工方案
- 2026年瓦工职业技能鉴定考试题库及答案
- 2025年云南省人民检察院聘用制书记员招聘(22人)笔试考试参考题库及答案解析
- 2025年广东省第一次普通高中学业水平合格性考试(春季高考)物理试题(含答案详解)
- 初一上册体育教案(2025-2026学年)
- 一般固废合同范本
- 胃肠外科围手术期护理要点
- 婚介协议书模板
- 【MOOC】数据结构与算法-北京大学 中国大学慕课MOOC答案
- 成人学历销售培训课件
- 民主测评及征求意见表
评论
0/150
提交评论