(计算机应用技术专业论文)基于潜在语义分析的专利文献分析与搜索技术的研究.pdf_第1页
(计算机应用技术专业论文)基于潜在语义分析的专利文献分析与搜索技术的研究.pdf_第2页
(计算机应用技术专业论文)基于潜在语义分析的专利文献分析与搜索技术的研究.pdf_第3页
(计算机应用技术专业论文)基于潜在语义分析的专利文献分析与搜索技术的研究.pdf_第4页
(计算机应用技术专业论文)基于潜在语义分析的专利文献分析与搜索技术的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于潜在语义分析的专利文献分析与搜索技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 专利文献包含重要的研究成果,内容广泛新颖,技术细节描述详细,是世界上 最新技术信息的重要来源。专利文献的有效分析对提高企业市场竞争力至关重 要。 本文在分析国内外现有专利分析技术的基础上,研究如何使用文本挖掘技术 对中文专利文献进行分析,采用潜在语义分析和s o m 网络相结合的方法对专利进 行聚类,并开发相应的专利搜索软件平台。 目前还没有公开的中文专利文本语料库,本文介绍了从专利网站上自动下载 专利文献全文的程序设计流程,并通过文本预处理建立语料库。专利文献晦涩难 懂,其中还参杂了不少专业词汇术语,由于专利文献的特殊性,传统的中文分词 技术作用于专利文献结果一般,因此本文设计了新的算法对专利新词进行识别, 完善补充分词结果。 文本聚类有助于专利分析人员更好地分析专利文献,传统的聚类方法只能应 用维数较低的对象,面对维数高达上千维的专利文本,聚类方法无法获得良好的 结果。文本采用了潜在语义分析的方法对专利文本进行降维,可以达到在维数降 低的同时也保证了原本的语义空间结构的效果。最后对专利文本使用s o m 网络进 行聚类,实验结果表明降维后的文本在聚类时间上的开销小于未降维的文本,并 且聚类结果良好。 常规的专利检索只能针对专利摘要进行关键字检索而无法对专利全文进行 检索,摘要字数有限并不能完全代替全文的内容。本文基于l u c e n e 开发了专利 全文检索系统,采用倒排索引结构对专利全文进行索引,加快了检索速度。根据 检索词查询相关专利,系统能够按照查询内容与检索结果文档的相关度对结果进 行排序,相关度高的出现在前面,可以有效减少用户浏览专利文档的数量,提高 工作效率。 浙江大学硕士学位论文 摘要 关键词: 专利分析,文本挖掘,潜在语义分析,文本聚类,专利搜索 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t p a t e md o c u m e n t sc o n t a i ni m p o r t a n tr e s e a r c hr e s u l t s ,t h ec o n t e n to fw h i c hi s w i d e - r a n g i n ga n dt e c h n i c a ld e t a i l sa r ed e s c r i b e di nd e t a i l p a t e n td o c u m e n t sa r e s i g n i f i c a n ts o u r c e so ft h el a t e s ti n f o r m a t i o na n dt e c h n o l o g yi nt h ew o r l d e f f e c t i v e a n a l y s i so ft h ep a t e n td o c u m e n tc a l li m p r o v et h ec o m p e t i t i v e n e s so ft h ee n t e r p r i s ei n m a r k e t b a s e do nt h ea n a l y s i so fe x i s t i n gp a t e n ta n a l y s i st e c h n i q u e si nt h ew o r l d ,t h i s t h e s i ss t u d i e dh o wt ou s et e x tm i n i n gt e c h n o l o g yt ot h ec h i n e s ep a t e n td o c u m e n t a n a l y s i sp r o c e s s :u s e dl a t e n ts e m a n t i ca n a l y s i sa n ds o mn e t w o r kt oc l u s t e rp a t e n t d o c u m e n t s ,a n dd e v e l o p e dt h ec o r r e s p o n d i n gs o f t w a r ep l a t f o r m c u r r e n t l yt h e r ei s n op a t e n tt e x t c o r p u si nc h i n a t h i st h e s i sd e s c r i b e dt h e p r o c e d u r e so fa u t o m a t i c a l l yd o w n l o a dp a t e n tf u l l - t e x tf r o mw e b s i t e d u et ot h es p e c i a l n a t u r eo fp a t e n td o c u m e n t s ,t h er e s u l to fu s i n gt r a d i t i o n a lc h i n e s ew o r ds e g m e n t a t i o n t e c h n i q u e so np a t e n td o c u m e n ti sn o tg o o d t h i st h e s i sd e s i g n e dan e wa l g o r i t h mt o p a t e n tn e ww o r di d e n t i f i c a t i o nt oi m p r o v et h er e s u l t s i ti sa ne f f e c t i v em e a n sf o rp a t e n ta n a l y s i sw i t ht e x tm i n i n g t r a d i t i o n a lc l u s t e r i n g m e t h o dc a no n l ya p p l yi nl o w - d i m e n s i o n a lo b j e c t s ,b u ti nt h ef a c ed i m e n s i o no f 1 1 i g h d i m e n s i o n a lo b j e c t ss u c ha st e x t ,c l u s t e r i n gm e t h o d sc a n n o tg e tg o o dr e s u l t s t h i s t h e s i su s el a t e n ts e m a n t i ca n a l y s i st or e d u c et h ed i m e n s i o no fp a t e n td o c u m e n ta n d k e p tt h eo r i g i n a ls e m a n t i cs p a c es t r u c t u r e t h e np a t e n td o c u m e n t sw e r ec l u s t e r e du s i n g s o ma l g o r i t h m e x p e r i m e n t a lr e s u l ts h o w e dt h a tt h ec l u s t e r i n gt i m eo fd i m e n s i o n r e d u c t i o nt e x ti sl e s st h a no r i g i n a lt e x t ,a n dt h ec l u s t e r i n gr e s u l tw a s g o o d i nc o n v e n t i o n a lp a t e n ts e a r c hw e bs i t e st h es c o p eo fs e a r c hi sp a t e n ta b s t r a c ta n d n o tt h ef u l lt e x t f u l l - t e x tp a t e n ts e a r c he n g i n ew a sd e v e l o p e db a s e do nl u c e n e p a t e n tf u l lt e x t sw e r ei n d e x e db yi n v e r t e di n d e xs t r u c t u r et os p e e du pt h er e t r i e v a lt i m e t h es y s t e mc a nr a n kt h es e a r c hr e s u l ta c c o r d i n gt or e l e v a n c eb e t w e e nd o c u m e n ta n d q u e r yt e r m ,w h i c hc a ne f f e c t i v e l yr e d u c et h ea m o u n to fp a t e n td o c u m e n t sf o ru s e rt o v i e wa n di m p r o v ee f f i c i e n c y i l l 浙江大学硕士学位论文a b s t r a c t k e y w o r d s - p a t e n ta n a l y s i s ,t e x tm i n i n g ,l a t e n ts e m a n t i ca n a l y s i s ,p a t e n tc l u s t e r i n g , p a t e n tr e t r i e v a l 浙江大学硕士学位论文图目录 图目录 图1 1 文本挖掘流程2 图1 2 专利词汇地形图实例6 图1 3 专利引用关系图实例6 图2 1 u s p l o 检索页面1 3 图2 2 中国国家知识产权局专利检索页面1 4 图2 4 专利新词识别流程。2 0 图3 1 专利说明书。2 5 图3 2 s v d 矩阵分解图2 8 图3 3 索引项一文档矩阵3 l 图3 4 矩阵s v d 分解结果3 2 图3 5 s v d 后的索引项一矩阵图3 3 图4 1s o m 网络拓扑图3 7 图4 2 s o m 文本聚类算法流程3 8 图4 3 w 曲s o m 聚类结果图3 9 图4 4l s a v s m 实验结果图4 1 图5 1 系统框架4 3 图5 2 l u c e n e 结构图4 5 图5 3 倒排索引图4 6 图5 4 索引创建流程4 7 图5 5 检索基本框架图。4 8 图5 6 检索流程图。4 9 图5 7 专利搜索首页51 图5 8 搜索结果页面。5 2 i i i 浙江大学硕士学位论文 表目录 表目录 表2 1 构词能力表2 1 表2 2 专利新词识别实验部分新词2 3 表3 1 文本实例3 0 表4 1 专利文本聚类实验结果。4 1 表5 1l u c e n e 包结构功能表4 5 i v 浙江大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 课题背景 在这信息爆炸的年代,科技日新月异,每天都有许多新产品面世,海量资讯 对于产品的开发带来了方便。专利文献内容广泛新颖,技术细节描述详细,是世界 上最新技术信息的重要来源。据世界知识产权组织统计,世界上的新技术、新发 明,有9 0 至9 5 记录在专利文献中,而专利公报约有8 0 的内容,未曾刊载于 其它专业期刊或学术论文等技术文献资料中【l 】。因此在开发新产品前,阅读大量 的专利显得格外重要,以避免在研发过程中侵犯了他人的知识产权。 专利信息的实际应用价值在技术、法律、经济和贸易方面均有体现。在技术 方面的价值最为突出,日本知识产权研究所曾就知识产权的经济效果等问题,对 三百多家企业进行过问卷调查,结果表明,许多企业认为知识产权分权制度所带 来的最有益的经济效果是:“其他公司的公开信息可能作为自己研发开发的信息 来源加以利用”。专利数据提供商汤姆森公司指出,专利文献中记载的7 0 一9 0 的发明创造从未在其他刊物上发表过。欧洲专利局更将该数字精确为8 0 。据世 界知识产权组织另一项报告统计,在应用技术研究中,经常查询专利文献,可了 解本领域相关技术的最新发展趋势,提高研发水平,有利于启迪、激发研发人员 的创造性思维,从而可以缩短研发时间6 0 ,节省研发费用4 0 t 2 1 。在科研选题、 立项时,若能有效地检索相关领域专利文献,就可确定正确的研究方向,提高研 究起点,避免重复劳动和投入,节省时间和科研经费。 由此可见,高效地查询专利文献在整个生产研发过程中是格外的重要,然而 还有许多人不知道如何去查询利用专利文献,或者想利用但面对检索得出的海量 文献不知如何处理,并利用这些知识更好地组织信息的过程。用户在专利检索网 站通过关键字等方法进行检索时,系统会给出大量的结果,要阅读完这些专利费 时费力。因此在知识产权愈发重要的今天,开发一个不同于常规的、新颖的专利 检索系统就变得很有必要。这个系统应当能够帮助相关人士轻松容易地检索出自 浙江大学硕士学位论文第l 章绪论 己想要的专利文献,并能快速把握专利文献的中心内容。应用文本挖掘技术对专 利文献进行分析,能够挖掘、抽取文献中隐藏的知识,方便需要查询专利的相关 人员。 文本挖掘从广义上可以定义为一种知识密集( k n o w l e d g e i n t e n s i v e ) 的过 程,在这一过程中用户通过一系列分析工具对文档集合进行操作。文本挖掘是指 利用数据挖掘技术,从大量无结构的文本信息中发现潜在的、可能的数据模式、 内在联系、规律、发展趋势等,抽取文本文件中有效、新颖、有用、可理解的有 价值的知识,文本挖掘技术般包括文本自动摘要、文本分类、文本聚类、文本 关联以及数据演变分析等,这些都涉及到信息检索、抽取、自然语言处理、数据 挖掘等技术 3 1 。文本挖掘的主要流程包括三大部分:文档的获取及预处理、特征 信息提取和数据挖掘,具体流程如图1 1 所示: 文本数 据源 1 2 国内外研究现状 图1 1 文本挖掘流程 挖掘分析和表 不 文本结构分析 文本摘要 文本聚类 文本分类 关联分析 用户 1 2 1 专利文献分析的研究现状 目前世界各国都对专利文献的分析和挖掘方面投入了大量的人力和物力。在 学界,a c ms i g i r2 0 0 0 4 1 和a c l2 0 0 3 5 】分别组织了有关专利文献处理的 w o r k s h o p 。n t c i r 是由日本国立信息学研究所( n i i ) 主办的搜索引擎评价国际 会议,n t c i r 从2 0 0 1 年起组织了关于专利检索的评测任务1 6 1 。专利检索评测任 务是其与日本知识产权局合作的一项评测任务,目的是提升专利检索和分类的品 质与绩效。n t c i r 的测试集包含了超过十年大约3 5 0 0 0 0 0 篇日本专利文献,并对 研究者开放,能让研究者可以科学系统地评价他们的方法。 2 浙江大学硕士学位论文第1 章绪论 日本学者f u j j i z 在文献【7 j 将专利文献处理分为四类:专利信息检索、专利分 类、专利间相互关系分析以及自然语言处理。专利检索根据检索的目的不同可分 为“技术调研( t e c h n o l o g ys u r v e y ) 与“无效搜索( i n v a l i d i t ys e a r c h ) ”,“技术调 研”就是查找某个特定领域内与检索词相关的专利,而“无效搜索”的目的是找 出与某一专利权利要求相关的专利,通过这些专利使该专利无效,通常由政府专 利办公室和公司知识产权部门的相关人员进行,是一种对专利是否侵权的检索。 分类指的是当提交一篇专利申请,系统能自动地判断该专利属于哪一类并分配一 个分类编码如i p c 号。一个好的分类系统能大大减少人力资源的开销,并能解决 人工专家进行分类判别时可能主观的问题。专利文献自然语言处理包括对专利权 利的分析以增强其可读性、跨语言专利文献检索以及专利文献自动摘要等。 台湾学者t s e n g 为绘制专利地图将一系列文本挖掘技术应用到专利文献分析 过程中,包括文本分割、文本自动摘要、词汇关联、特征选择、文本聚类、主题 识别和信息映射,并评价了这些方法的有效性,其实验数据为美国专利文献。并 将专利文献的分析步骤归纳为选题、下载、文本转换、摘要、聚类、可视化、解 读七大部分【8 1 。 文献【9 】认为专利文献不同于普通文本,是由特定领域如权利、目的构成,是 一种具有结构化的特点的文本,并在领域内计算两篇专利的相似度,采用k n n 的分类的方法。采用s i z e l i m i t 模型( 人为控制类别规模) 和c l u s t e r - e x p a n s i o n 模 型( 增加类似类别到初始检索类别中) ,对n t c i r 4 测试集中的日文专利数据进 行实验,证明第一个方法比常规检索方法好,并当类别规模增大时,平均准确率 逐步提高。 文献【l o 】将专利文献中的引文作为分析对象,采用共被引法建立专利文献引用 网络矩阵,来反映专利间的引用关系,通过共引矩阵对目标专利进行自动分类。 但该方法具有其局限性,一是受到专利公开年份的影响,较早公开的专利被引用 的次数会多于后申请的专利,应当将时间因素考虑进去,二是其应用的地区有局 限性,只适用于有引文的专利国家,如美国欧洲专利,而我国的专利没有引文, 故无法适用。 浙江大学硕士学位论文第l 章绪论 s h i n m o r i 等人针对日本专利的c l a i m ( 权利) 部分,对专利文献结构方面进行 分析【1 1 1 。用自然语言处理的方法将长句切分短句,增加了专利的可读性。利用构 词分析器( m o r p h o l o g i c a la n a l y z e r ) 、语法分析器( 1 e x i c a la n a l y z e r ) 、文法分析器 ( g r a m m a t i c a la n a l y z e r ) 、修辞结构分析器( r s tt 0 0 1 ) 以及针对专利文献自行整 理的线索词( c u ep h r a s e ) 、上下文无关文法( c o n t e x t f r e eg r a m m a r s ) 等资源对专 利c l a i m 部分进行分析与处理。在1 0 0 篇c l a i m 中,人工评价其语句结构分析的正 确率达8 0 8 5 ,以证明其方法准确率高。 l a m i r e l 等将自组织映射网( s e l f - o r g a n i z a t i o nm a p 。s o m ) 技术应用于专利主 题的自动侦测f 1 2 】。他从美国专利的摘要中抽取出方法( u s e ) 、用处( a d v a n t a g e ) 、 标题( t i t l e ) 等内容的文字片段,然后再分别应用s o m 进行无监督学习聚类,自 我学习自动组织,将相似的主题词汇与文件归类在一起,最后使用二维图进行可 视化,供专业人士进一步分析解读。结果表明按段落分别生成的自我组织图,比 不分主题段落而用全文生成的自我组织图更能提供有效信息。 朱广华对专利情报的分析方法进行了总结归纳【1 3 1 。归纳出原文分析法、简单 统计分析、组配统计分析、关键词频统计、技术细分后再统计、指标变化图表和 技术动态及特性比较表、矢量动态模型法、专利引文分析法、专利资料分析法等。 专利文献分析从手工分析逐步转为采用计算机量化分析。 文献【1 4 】基于国际专利分类号的层次结构,利用自身的类别描述信息,建立了 不同层次的类别特征向量,结合现有专利进行修正训练,分别在各层次上采用k n n 算法实现专利的自动分类。 文献【l5 】采用一个基于语义的相似度量化方法解决专利类别内容相似度量化的 问题,。该算法首先通过有监督的特征选择方法提取每个专利类的关键词语集合, 然后通过知网计算各个集合之间的相似度,最后在此基础上通过特征集合语 义相似度计算公式t s c 计算专利类别间的关联度。 1 2 2 现有的专利分析软件 1 2 2 1 国外专利分析软件 4 浙江大学硕士学位论文第l 章绪论 国外比较著名的专利分析软件有汤姆森公司旗下的一系列专利信息分析软 斧,v a n t a g e p o i n t ,b i z i n ts m a r t c h a r t sf o rp a t e n t s ,s c i f i n d e r ,s t ne x p r e s sw i t h d i s c o v e r 、s t na n a v i s t 、w i s d o m a i na n a l y s i sm o d u l e 和c i t a t i o nm o d u l 、i n v e n t i o n m a c h i n ek n o w l e d g i s t 等软件。其中汤姆森科技信息集团所提供的专利文献分析软 件最为丰富,具体有:d e r w e n tw o r l dp a t e m si n d e x ( d w p i ) 、d e l p h i o n 、a u r e k a 、 d e r w e n ti n n o v a t i o n si n d e x 、d e r w e md i s c o v e r y 、d e r w e n ta n a l y t i c s t j 。其中既有收 录广泛并且深加工过的专利数据库,如d e r w e mw o r l dp a t e m si n d e x 和d e r w e n t i n n o v a t i o n si n d e x ,也有专利信息平台,提供专利管理、专利分析、专利预警、专 利下载、专利地图绘制,如d e l p h i o n 和a u r e k a 。 汤姆森公司诸多专利分析软件中a u r e k a 最具特色。a u r e k a 【1 7 】是在线知识产权 管理和分析平台,也是目前全球价格最为昂贵、画出的图形更像地图的先进的专 利地图软件。除了提供管理功能以外,在检索、地形图绘制和引证树三方面最具 特点。a u r e k a 的数据库包括了美国专利、欧洲专利、p c t 国际专利申请的著录项 目、英国专利、德国专利、法国专利、日本专利等。a u r e k a 可以利用聚类分析考 察主题词的分布,来调整检索策略,也可以二次检索和进行专利族去重,用 p o w e r b r o w s e r 浏览检索结果。专利预警的设置也是其一大特色。a u r e k a t h e m e s c a p e 提取专利中的相关词汇的词频,并通过聚类分析生成主题( 词汇) 地形 图,采用等高线图作为全图绘制的基准,来描述专利技术主题分布情况。被分析 的数据样本中的专利文献在地图中用点来表示。在图中内容相似的文献的距离相 近,最终形成山峰,图中不同山峰区域内表示某一特定技术主题中聚集的相应的 专利群,如图1 2 所示。a u r e k ac i t a t i o n t r e e 利用专利引证信息构建双向多级引证 树,形象化地显示出研究对象( 所指定的专利) 引用在先专利和被其后专利引证的 信息。用户可以根据需要按专利申请人、发明人、申请日和公开日等不同内容构 建引证树,如图1 3 所示。 浙江太学硕士学位论文第l 章绪论 图1 2 专利词汇地形图实例 图l3 专利引用关系图实例 浙江大学硕士学位论文第1 章绪论 1 2 2 2 国内专利分析软件 目前国内也有一些企业开发了专利分析软件。如国家知识产权出版社的专利战略分 析系统【1 8 】、上海汉之光华公司【1 9 】开发的专利情报分析系统、保定大为计算机软件 开发有限公司开发的p a t e n te x 专利信息创新平台【2 0 】,台湾连颖科技股份有限公 司2 1 1 研制开发的p a t e n tt e c h 技术领航员和p a t e n t g u i d e r 专利领航员等。 国内专利分析软件大都以定量分析为主,中国专利为主要分析对象,提供了 专利信息分类、检索、管理等功能。保定大为的p a t e n te x 专利信息创新平台和 连颖科技的p a t e n t g u i d e r 专利领航员、p a t e n tt e c h 技术领航员等针对专利的结构 化数据部分绘制专利图表。但是这些软件都没有对专利无结构数据进行文本分析 功能,更没有对专利文本进行聚类。 1 3 研究目标与内容 本文将在分析国内外现有专利分析技术的基础上,以中国专利为样本,研究 如何使用文本挖掘技术对专利文献进行分析,并开发相应的软件平台,具体目标 如下: 1 语料库的建立是文本挖掘的必要条件,目前国内还没有公开的专利文本 语料库,因此需要构建专利文本语料库。目前多大多数专利可以通过因特网获取 得到,大部分国家的知识产权部门在其网站上了提供了专利数据库供用户查询检 索下载。因而可以编写程序从专利网站上自动下载专利文献全文,通过文本预处 理建立语料库。 2 专利文献晦涩难懂,其中还参杂了不少专业词汇术语,由于专利文献的 特殊性,传统的中文分词技术作用于专利文献结果很是一般,因此本文设计了新 的算法对专利新词进行识别,完善补充分词结果。 3 文本聚类算法有助于专利分析人员更好地分析专利文献,传统的聚类方 法只能应用维数较低的对象,面对维数高达上千维专利文本,聚类方法无法获得 良好的结果。文本采用了潜在语义分析的方法对专利文本进行降维,在维数降低 的同时也保证了原本的语义空间结构。 浙江大学硕士学位论文第l 章绪论 4 在中国国家知识产权局的专利检索网站上,只能对专利摘要进行关键字 检索而无法对专利全文进行检索,摘要字数有限并不能完全代替全文的内容,因 此本文基于l u c e n e 开发了专利全文检索系统,系统可以根据检索词查询相关专 利,并且能够按照查询内容与检索结果文档的相关度对结果进行排序,按相关度 大小从高到低返回给用户,可以有效地减少用户浏览专利文档的数量,提高工作 效率。 1 4 论文结构 本文的后续章节内容如下: 第二章阐述了专利文献的相关定义和分析方法,介绍了现有的专利文献数据 库,探讨了专利信息采集技术,介绍了文本预处理方面的相关知识,重点讨论了 专利新词识别技术。 第三章阐述了专利文献的模型,讨论了文本挖掘目前存在的难题,并介绍了 潜在语义分析的基本思想。 第四章介绍了文本聚类的相关技术,研究了基于潜在语义分析的文本聚类技 术。 第五章介绍了基于l u c e n e 的专利搜索系统的设计与实现。 第六章总结本文的研究内容,并讨论进一步的研究方向。 8 浙江大学硕士学位论文第2 章专利文献的分析及信息采集 第2 章专利文献的分析及信息采集 2 1 专利文献的相关定义及概念 2 1 1 专利的定义 专利( p a t e n t ) 一词来源于拉丁语l i t t e r a ep a t e n t e s ,原意是公开的信件或者是 公共文献,是中世纪的君主用来颁布某种特权的证明,后来是指英国国王亲自签 署的独占权利证书 2 2 1 。知识产权教程中对现代专利文献的概念是这样阐述的: 专利文献是包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的 研究、设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业 品外观设计和实用新型注册证书持有人权利的有关资料的已出版或未出版的文 件( 或其摘要) 的总称 2 3 1 。在我国专利共分为发明专利、实用新型专利和外观设 计专利三种: 1 发明专利 专利法实施细则对发明的定义是:“发明是指对产品、方法或者其改进 所提出的新的技术方案。 2 实用新型专利 专利法实施细则第二条第二款对实用新型的定义是:“实用新型是指对 产品的形状、构造或者其结合所提出的适于实用的新的技术方案。”实用新型的 技术方案更注重实用性,其技术水平较发明而言,要低一些,多数国家实用新型 专利保护的都是比较简单的、改进性的技术发明,可以称为i j 、发明”。 3 外观设计专利 专利法实施细则第二条第三款对外观设计的定义是:“外观设计是指对 产品的形状、图案或者其结合以及色彩与形状、图案所作出的富有美感并适于工 业上应用的新设计。 2 1 2 专利的特点 专利属于知识产权的一部分,是一种无形资产,与有形资产相比专利有以下 9 浙江大学硕士学位论文第2 苹专利文献的分析及信息采集 的特点【2 4 】: 1 排他性。它是指同一发明在一定的区域范围内,其他任何人未经许可都不 能对其进行制造、使用和销售等,否则属于侵权行为。 2 区域性。区域性指的是专利权是一种有区域范围限制的权利,而且它只有 在法律管辖区域内有效。除了在有些情况下,依据保护知识产权的国际公约,以 及个别国家承认另一国批准的专利权有效以外,技术发明在哪个国家申请专利, 就由哪个国家授予专利权,而且只在专利授予国的范围内有效,而对其他国家则 不具有法律的约束力,其他国家不承担任何保护义务。但是,同一发明可以同时 在两个或两个以上的国家申请专利,获得批准后其发明便可以在所有申请国获得 法律保护。 3 时间性。时间性指的是专利只有在法律规定的期限内才有效。专利权的有 效保护期限结束以后,专利权人所享有的专利权便自动丧失,一般不能续展。发 明便随着保护期限的结束而成为社会公有的财富,其他人便可以自由地使用该发 明来创造产品。专利受法律保护的期限的长短由有关国家的专利法或有关国际公 约规定。目前世界各国的专利法对专利的保护期限规定不一。( 知识产权协定) 第三十三条规定专利“保护的有效期应不少于自提交申请之日起的第二十年年 终”。 4 实施性。除美国等少数几个国家外,绝大多数国家都要求专利权人必须在 一定期限内,在给予保护的国家内实施其专利权,即利用专利技术制造产品或转 让其专利。 5 独占性。独占性是指指专利权人依法对其发明创造享有的排他性权利。 2 2 专利文献的分析方法 专利文献的分析方法有定性分析、定量分析、拟定量分析和图表分析四种【2 5 】: 1 定性分析方法 专利文献的定性分析指的是通过分析专利文献的内在特征,抽取特征,从而 能够更好地理解专利,把握某一技术发展状况。对专利文献的定性分析就是搜集 l o 浙江大学硕士学位论文第2 章专利文献的分析及信息采集 专利文献中包含的一些信息内容,如专利国别、技术主题、专利发明( 申请) 人、 专利受让人、专利分类号、专利申请日、专利授权日和专利引证文献等。然后阅 读和摘记所搜集的内容,并在此基础上,进一步对这些信息进行分类、分析和比 较等从而形成有机的信息集合。进一步有重点地研究那些具有代表性、关键性和 典型性的专利文献,最终找出专利信息之间的相互关系,形成一个比较完整的专 利信息情报链。 2 定量分析方法 专利信息定量分析是研究专利文献的重要方法之一,它的理论基础是数学、 统计、运筹学、计量学和计算机科学等,通过数学模型和图表等表现形式,从多 个角度研究专利文献中所包含多种信息,如技术、经济和法律等。定量分析是在 对大量专利信息加工整理的基础上,对专利文献的一些特征如专利分类号、申请 人、发明人和申请人所在的国家和专利引文等进行科学计量,从而将专利文献中 无结构化的信息转化成为系统、完整、有价值的信息情报。定量分析能够较好地 分析和预测技术最新发展趋势,科学地反映发明创造所具有的技术水平和商业价 值;科学地评估某一国家或地区的技术研究与发展重点,用量化的形式揭示国家 或地区在某与技术领域中的实力,从而获得认识市场热点及技术竞争领域等经济 情报,发现潜在的竞争对手,判断对手的研发动态和未来可能研究的趋势,获得 相关产品、技术和竞争策略等方面的情报。 3 拟定量分析方法 上述所提的定性分析方法和定量分析方法,两者之间既有区别又有联系,在 实际应用中如果将两者结合起来,可以更有效地认识和分析专利信息分析来。根 据分析目的的不同,专利分析人员有时候经常需要采用将定性和定量相结合的方 法,也就是拟定量分析方法。拟定量分析方法一般基于数理统计的理论,全面系 统地分析专利文献信息,然后有针对性的进行量化分析,最后用高度科学抽象语 言对专利信息进行定性描述。基本常见的专利文献拟定量分析方法有专利引文分 析和基于数据挖掘方法的专利分析。 4 图表分析方法 浙江大学硕士学位论文第2 章专利文献的分析及信息采集 图表分析是信息加工、整理的一种处理方法和信息分析结果的表达形式。它 能够直观、简洁地表示信息,使信息能够变得通俗易懂和便于比较。随着信息技 术飞速发展,图表分析方法目前已被信息分析人员广泛使用。在专利信息分析中, 按不同的分类标准可将专利图表分为不同的类型。例如,按图形形状的不同,可 将专利图表分为饼图、柱状图、散点图、动态曲线图、树形图、雷达图等。按空 间纬度,可将专利图表分为二维图形和三维图形等。根据处理数据的手段不同, 可以分为定性分析图和定量分析图。 2 3 目前常用的专利数据库 随着因特网技术迅速发展和普及,网络资源已成为当今最重要的专利信息 源。下面就世界各国流行的专利文献数据库作一下介绍: 1 美国专利商标局网站 美国专利商标局( u s p t o ) 在其官方网站( h t t p :w w w u s p t o g o v ) 上提供了 1 9 7 6 年以来2 0 0 多万件美国专利文献,格式有文本格式和图像格式,检索页面如 图2 1 所示。目前,美国专利商标局提供两种独立的可检索的专利数据库即美国 授权专利数据库( i s s u e dp a t e n t ) 和专利申请公开数据库( p a t e n ta p p l i c a t i o n s ) 。 授权专利数据库中可检索到1 9 7 6 年以来的文本格式的专利全文和1 7 9 0 至1 9 7 5 年之间图片格式的专利全文。专利申请公开数据库中可检索到2 0 0 1 年3 月以来 公开申请的专利全文。美国专利商标局数据库提供了两种专利查询检索方式:快 速检索和高级检索,两种检索方式均可使用a n d ( 与) 、o r ( 或) 、a n d n o t ( 非) 三种布尔逻辑符。 1 2 浙江大学硕士学位论文第2 章专利文献的分析及信息采集 囝2l u s p t o 检索页面 2 欧洲专利局e s p t e n e t 网络数据库 e s p e , 曲c t 是欧洲专利局、欧洲专利组织成员国及欧洲委员会联合推出的一 项服务,目的是让用户能够方便地获取世界范围内的专利信息。e s p c e n e t 目前 提供七十多个国家公开的专利文献,它的网络是将欧洲专利局及欧洲专利组织各 成员国的服务器连在一起。进入e s l 迥c c n c t 有三种途径:1 欧洲专利局网站, h t t p :e pe s p a c g n c tc o r n ;2 欧洲委员会网站h t t p :e cc s p a c e n c t c o m ;3 通过欧洲专 利组织各成员国网站进入。e s p c c n e t 专利数据库中包括了欧洲专利局各成员国 数据库、世界知识产权组织( w i p o ) 专利数据库、日本专利数据库和世界专利 数据库ae s p c e n e t 专利数据库系统查询共分为快速检索、高级检索、号码检索 和专利分类号检索四种方式。 3 日本特许厅专利数据库 日本特许厅从1 9 9 9 年3 月开始在其网站上开通工业产权数字图书馆( i p d l ) 塑垩丕兰堕主兰垡堡兰里! 兰主塑三塾塑盐塑垦堕墨墨生 向群众无偿提供日本专利信息,目前的网址是 h t l p :w w w i p d ln c i p ig o j p h o m e p g _ ei p d l 。网站上提供了日本发明和实用新型专利 检索数据库,外观设计专利检索数据库,商标数据库,专利法律状态数据库等, 并且还为初次使用数据库的用户专门提供了专门设计的检索界面。 4 中国国家知_ 【 产权局专利检索数据库 中国国家知识产权局在其网站( h t t p :w w w s i p og o v c n s i p 0 2 0 0 s z l j s ) 向公众 提供了专利检索服务,检索页面如图2 2 所示。数据库中共收录了自1 9 8 5 年9 月 1 0 日以来己公布的全部专利信息,包括著录项目、摘要、各种说明书全文及外观 设计图形。提供的专利种类有发明专利、实用新型和外观设计。检索方式有简单 检索、高级检索和i p c 分类检索。用户可以阅读下载专利说明书,专利说明书的 格式t i f 圈片格式。 f _ l ,_ ,一 驴$ 1 p o l 崮2 2 中国国家知识产权局专利检索页面 雾雾辫嚣筹 浙江大学硕士学位论文第2 章专利文献的分析及信息采集 2 4 专利文献的采集 要对专利文献进行文本语义分析,首先要做的就是专利文献的获取,建立专 利文本的语料库。正如前文所介绍的,目前专利文献大都可以通过因特网查询得 到,因此可以通过网络爬虫( s p i d e r ) 搜索并采集所需的专利文献。网络爬虫根 据其所要抓取的目标不同可以分为通用爬虫和聚焦爬虫两种。通用爬虫就是现在 各个搜索引擎公司如g o o g l e 、百度所采用的网络爬虫策略,通用爬虫一般选取一 些比较重要的网站的u r l 作为种子u r l 集合,作为初始u r l 队列开始抓取网 页信息。在抓取网页的同时不断从当前页面上抽取新的网页链接,放入下载队列。 然后再从队列中取出新的u r l ,进行网页下载链接提取,反复进行,直到遍历了 整个网络或者某种条件才停止。爬虫遍历网页的算法一般为广度优先搜索算法或 者深度优先搜索算法。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取 目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用 爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容 相关的网页,为面向主题的用户查询准备数据资源1 2 6 1 。聚焦爬虫需要根据一定的 网页分析算法过滤与主题无关的u r l ,保留与主题相关的u r l 并将其放入u r l 下载队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页 u r l ,并重复上述过程,直到达到系统的某一条件时停止。 中国国家知识产权局( s i p o ) 、中国专利信息中心( q 脚) 、美国专利商标 局( u s p t o ) 、欧洲专利局( e p o ) 都在其网站上提供了专利检索服务,用户可 以通过在网页相应的文本框中填写所要检索信息的关键字,提交查询请求后, w e b 服务器接收到检索词到w e b 数据库中进行查询,将查询所得到的具体内容动 态地生成结果页面,返回给用户。像这种由w e b 服务器通过与用户交互而生成的 动态页面对于传统的搜索引擎爬虫来说是不可见,与静态页面有着很大的不同, 称为d e e pw e b 也称为h i d d e nw e b 。d e e pw e b 的定义为:大部分内容是不能通过 静态链接获取的,特别是大部分隐藏在搜索表单后的,只有用户输入一系列关键 字才能获得的页面。 中国国家知识产权局( s i p o ) 的专利搜索站点属于d e e pw e b ,专利查询下 浙江大学硕士学位论文第2 章专利文献的分析及信息采集 载的具体步骤是: 1 在浏览器中打开h t t p :w w w s i p o g o v c n s i p 0 2 0 0 8 z l j s 页面。 2 专利检索页面提供1 6 个检索字段及三个专利种类的选择项。检索时,可根 据需要选择相应的专利类型,然后在相应字段中输入信息提交查询请求。可输入 的检索字段内容有:申请( 专利) 号、名称、摘要、申请日、公开( 公告) 日、 公开( 公告) 号、分类号、主分类号、申请( 专利权) 人、发明( 设计) 人、地 址、国际公布、颁证日、专利代理机构、代理人、优先权。 3 页面跳转至结果页面,页面列出了包含查询条件的全部专利信息。 4 点击想要查看的具体相关链接,可转至详细专利信息页面,点击申请公开 说明书链接能够查看该专利的专利说明书。 专利信息采集爬虫的原理就是通过程序模拟上述的步骤。w e b 页面表单提交 方式分为g e t 和p o s t ,s i p o 表单提交的方式为p o s t 。p o s t 与g e t 的区别在于,提 交数据并不在u r l 地址栏中显示,数据放置在h t m lh e a d e r 内提交,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论