(计算机软件与理论专业论文)基于内容分析的专利挖掘技术研究.pdf_第1页
(计算机软件与理论专业论文)基于内容分析的专利挖掘技术研究.pdf_第2页
(计算机软件与理论专业论文)基于内容分析的专利挖掘技术研究.pdf_第3页
(计算机软件与理论专业论文)基于内容分析的专利挖掘技术研究.pdf_第4页
(计算机软件与理论专业论文)基于内容分析的专利挖掘技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卜 寸 - 。 at h e s i si nc o m p u t e rs o f t w a r ea n dt h e o r y c o n t e n ta n a l y s i sb a s e dp a t e n tm i n i n gr e s e a r c h b y f e i f e ic a o s u p e r v i s o r :p r o f e s s o rj i n g b oz h u n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 一j 矿-o: 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 :c 匕 思0 学位论文作者签名:膏靠磊 日期:加8 石2 艿 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年函一年口一年半口两年口 学位论文作者签名:嚆葬磊 签字日期:洳器6 砑口口卸 导师签名:球请志 签字日期:0 耐么四 o _ , 、 ,、 、 ?、产 l r 争,h,产 , j 童 1 , 、k一 t ? l 东北大学硕士学位论文 摘要 基于内容分析的专利挖掘技术研究 摘要 近十几年来,专利挖掘的研究越来越被重视。早先,专利研究主要基于在专利数据 库,近几年,专利研究转向基于自然语言处理的技术或者信息检索的技术。推动专利挖掘 技术发展的主要因素:一方面统计机器学习的方法不断的发展和改进,为解决专利挖掘 以及自然语料处理提供了强大的方法论武器;另一方面,自然语言处理的技术以及信息 检索的技术的进步,促进了专利文本挖掘的发展。同时,专利挖掘的评测举办,为专利 挖掘提供了技术交流的平台,促进了专利挖掘研究的进步,并为专利文本处理提供了发 展的方向。 本文通过研究专利文本的特点,对不同的训练语料做数据统计,分析专利挖掘任务 中的难点问题。基于自然语言处理的专利挖掘技术,遇到几大问题:( 1 ) 专利挖掘是一 个大规模的文本分析任务;( 2 ) 专利文本内容涉及到技术发展的各个领域,领域之间交 叉现象严重,不利于文本分类;( 3 ) 专利文本在各个领域上数量分布不均衡,大量的类 别下训练数据不充分;( 4 ) 专利文本的分类体系与传统分类体系不同,尤其是国际专利 分类标准,具有超大规模的类别空间,多层次等特点;( 5 ) 专利的国际分类都是多标签 标记,因此专利分类是多标签的分类问题。上述几个主要问题,决定了专利文本处理与 传统的文本处理的不同。 本文围绕专利挖掘任务中的问题,从不同的方面研究提高专利挖掘系统的性能。作 者在前人的工作基础上,综合了多个领域的技术,提出了一些专利挖掘的处理技术。文 本解决专利挖掘问题的主要技术: ( 1 ) 本文采用基于自然处理的分类系统的框架,处理专利挖掘的任务。 ( 2 ) 本文研究了在大规模的数据的分类问题,采用信息检索中常用的检索技术一 一倒排索引文档应用到分类模型中,提高分类模型的计算速度。 ( 3 ) 本文提出了类别归并的方法解决数据分布不均衡的问题。在国际专利分类系 统下,大量的类别中数据样本很少,采用多种归并的方法将小类别聚合成大类别,解决 分布不均衡的问题。 ( 4 ) 专利挖掘任务中,文本之间的相似度计算的是重要的研究环节。本文采用了 多种相似度计算方法,在数据非同源的任务中,b m 2 5 的计算方法性能较好,并比较稳 一i 卜一 东北大学硕士学位论文摘要 定。 ( 5 ) 本文提出了多种类别排序的决策方法。分类器给定样本之间的相似度的方法, 需要通过某种转化的机制,映射成类别标记的排序。文本提出了带用类别信息的相似度 加和的方法以及基于l o g 1 i n e a r 模型的线性加和方法,对类别进行r a n k ,实验结果显示 带用类别信息的相似度加和的方法以及基于l o g 1 i n e a r 模型的线性加和方法性能较好。 本文基于n t c i r t - 7 的专利挖掘评测任务的平台,在美国专利以及日本专利的英文 翻译的数据上,实现专利挖掘的分类系统,并针对专利挖掘的主要问题和核心技术做了 大量实验,并做了详细的数据分析。最后确定解决专利挖掘任务的最可信的系统。 关键词:专利挖掘;文本分类;相似度计算;决策技术 _ j 、 ,- c o n t e n ta n a l y s i sb a s e dp a t e n tm i n i n gr e s e a r c h a b s t r a c t i nt h er e c e n td e c a d e ,p a t e n tm i n i n gh a se x p e r i e n c e dap r o m i n e n tf l o u r i s h i nt h ep a s t , m u c ho ft h ef o c u sf o rp a t e n ts e a r c ha n dr e t r i e v a lh a sb e e n f r o mt h ed a t a b a s ec o m m u n i t y , b u t i nr e c e n ty e a r s ,i th a sb e e nf r o mn a t u a ll a n g u a g ep r o c e s s i n g 烈l p ) t e c h n o l o g ya n d i n f o r m a t i o nr e t r i e v a l ( r ) c o m m u n i t y t h ei m p r o v e m e n to fp a t e n tm i n i n gc a nb ea t t r i b u t e dt o t h et w of a c t o r s :t h eb o o mo fs t a t i s t i c a lm a c h i n el e a r n i n ga p p r o a c h e sp r o v i d e dn e w m e t h o d o l o g y f o rs o l v i n gp a t e n tm i n i n ga n dn a t u a ll a n g u a g ep r o c e s s i n gt a s k s ;t h e i m p r o v e m e n to fn a t u a ll a n g u a g ep r o c e s s i n ga n di n f o r m a t i o nr e t r i e v a lt e c h n o l o g y t h e p l a t f o r mo fi n t e r n a t i o n a l p a t e n te v a l u a t i o na n dw o r k s h o pp r o v i d e saf o r u mi nw h i c h r e s e a r c h e r sa n dp r a c t i t i o n e r sf r o mr e l e v a n tc o m m u n i t i e sc a ns h a r et h e i ri d e a s ,a p p r o a c h e s , p e r s p e c t i v e s ,a n de x p e r i e n c e sf r o mt h e i rw o r ki np r o g r e s s i nt h i sp a p e r , w er e s e a r c ht h ec o n t e n tc h a r a c t e r i s t i co ft h ep a t e n tt e x ta n dd a t as t a t i s t i c b a s e do nd i f f e r e n tp a t e n tc o r p u s t h e nw ea n a l y s et h ed i f f i c u l tp r o b l e mo fp a t e n tm i n i n gt a s k b a s e do nt h en a t u a ll a n g u g a g ep r o c e s s i n gp a t e n tm i n i n gt a s kh a ss e v e r a lq u e s t i o n s :( 1 ) s c a l a ro f p a t e n tc o r p u si sh u g e ,t h e r ea r ea l m o s ts e v e r a lm i l l i o np a t e n ts a m p l e s ;( 2 ) c o n t e n to f p a t e n tt e x tr e f e r st oa l lt e c h n o l o g yd o m a i n s t h ep h e n o m e n o no fc r o s s c u t t i n gi s s u eb e t w e e n d o m a i n si sc o m m o n ,w h i c hi sa d v e r s et ot e x tc l a s s i f i c a t i o n ;( 3 ) t h ed a t ad i s t r i b u t eo ft h e p a t e n tt e x to ni n t e r n a t i o n a lp a t e n tc l a s s i f i c a t i o n ( i p c ) c l a s s i f i c a t i o ns y s t e mi si m b a l a n c ea n d t r a i nd a t ai nm a i nc l a s si si n s u f f i c i e n c y ;( 4 ) t h ec l a s s i f i c a t i o ns y s t e mo fp a t e n ti sd i f f e r e n t f r o mt h a to ft h et r a d i t i o n a lt e x tc l a s s i f i c a t i o n ,e s p e c i a l l yi p cs y s t e mh a sl a r g es c a l en u m b e ro f c l a s s e sw h i c hi sh i e r a r c h y ;( 5 ) p a t e n tt e x th a sm u l t i c l a s s c l a s s i f i c a t i o nt a g t h i sd i s s e r t a t i o nf o c u s e so nh o wt or e s o l v et h em a i np r o b l e mo fp a t e n tm i n i n gt a s ka n d r e s e a r c ht e c h n o l o g yt oi m p r o v et h ep e r f o r m a n c eo fp a t e n tm i n i n gs y s t e m w ep r o p o s es o m e m o d e l sa n dm e t h o d sf o rp a t e n tm i n i n gt a s kb a s e do nt h ep r e v i o u sw o r k s w ef o c u so nt h e f o l l o w i n gi s s u e : ( 1 ) u s i n gt h ef r a m eo ft e x tc l a s s i f i c a t i o nb a s e do nn l pt e c h n o l o g yt op r o c e s st h ep a t e n t m i n i n gt a s k ( 2 ) u s i n gi n v e r t e di n d e x i n gt oi m p r o v et h es p e e do f t e x tc l a s s i f i c a t i o n ,w h i c hi sc o m m o n t e c h n o l o g yi n f o r m a t i o nr e t r i e v a lc o m m u n i t y ( 3 ) p r o p o s ec l a s sc l u s t e r i n gm e t h o dt oi m p r o v ed a t ai m b a l a n c ep r o b l e m ( 4 ) u s i n gs e v e r a ls i m i l a r i t yc a l c u l a t i o nm e t h o d sf o rp a t e n tm i n i n g t a s k 一i v r t【 东北大学硕士学位论文 a b s t r a c t ( 5 ) p r o p o s es e v e r a lr a n k i n gm e t h o d sf o rc l a s sd e c i s i o n m a k i n gp r o c e s s ,e s p e c i a l l y , t h e m e t h o db a s e do nl o g - l i n e a ra n dt h es y s t e mc o m b i n em e t h o db a s e do nr a n k - s v mm o d e l i nt h i sp a p e r , a l lt h er e s e a r c hw o r kb a s e so np a t e n tm i n i n ge v a l u a t i o nt a s ko f n t c i r 一7 , a n db u i l dt h e c r e d i t a b l es y s t e mf o rp a t e n tm i n i n gt a s ku s e du s p a t e n ta n dt h ee n g l i s h t r a n s l a t i o no ft h ej a p a n e s ep a t e n td a t a k e y w o r d s :p a t e n tm i n i n g ;t e x tc l a s s i f i c a t i o n ;s i m i l a r i t yc a l c u l a t i o n ;r a n k i n g v 一 1 1 0 、 东北大学硕士学位论文 目录 目录 独创性声明i 摘要i i a b s t r a c t i v 第一章绪论1 1 1 研究背景 1 2 研究现状 1 3 相关工作 1 4 本文的研究内容 第二章专利挖掘任务及系统架构7 2 1 专利基本概念7 2 1 1 专利概念7 2 1 2 专利分类表7 2 2 专利挖掘任务9 2 2 1 专利挖掘任务描述:9 2 2 2 专利挖掘任务数据1o 2 2 3 评价方法13 2 3 专利挖掘中的问题分析14 2 4 专利挖掘系统架构1 6 2 4 1 问题提出。l6 2 4 2 系统架构1 7 2 5 小结18 第三章分类技术1 9 3 1 文本分类定义19 3 2 特征选取方法2 0 3 2 1 文档频度2 0 3 2 2 类别频度21 3 2 3 信息增益2 1 3 2 4c h i 一统计2 l 3 3 特征权重的计算方法2 2 一v i 东北大学硕士学位论文 目录 3 3 1 布尔权重2 2 3 3 2 词频权重2 2 3 3 3t f x i d f - 权重2 2 3 4 分类器:2 3 3 4 1k n n 分类器2 3 3 4 2 支持向量机2 3 3 5 小结2 4 第四章专利文本的向量表示2 5 4 1 问题提出2 5 4 2 训练数据的存储。2 6 4 2 1 倒排索引技术2 6 4 2 2 专利倒排存储2 6 4 3 专利文本向量表示2 7 4 3 1 数据的预处理2 7 4 3 2 特征选取的方法2 9 4 3 3 类别中心向量表示方法2 9 4 4 实验及分析3l 4 4 1 基于同源数据的实验3 2 4 4 2 基于专利不同字段实验3 3 4 4 3 特征选取的方法实验3 3 4 4 4 基于u s p t o 的不同k 值实验3 5 4 4 5 基于中心向量的方法3 5 4 4 6 类别归并的方法实验3 6 4 5 小结3 8 第五章文本相似度计算方法3 9 5 1 向量余弦3 9 5 2b m 2 5 3 9 5 3s m a r t 算法4 0 5 4p i v o t e dn o r m a l i s a t i o n 方法4 l 5 5l o g - l i n e a r 4 1 5 6 实验及分析。4 2 5 6 1 实验数据4 2 5 6 2 评价方法4 2 5 6 3 实验及分析4 2 一v i i 东北大学硕士学位论文 目录 5 7 小结4 4 第六章基于多种凡k i n g 的决策方法4 5 6 1 求异排序4 5 6 2 投票方法4 5 6 3 相似度加和4 6 6 4 相似度均值4 6 6 5 类别权重加和4 7 6 6 相似度位置权重加和4 7 6 7 实验及分析4 7 6 7 1 基于不同r a n k i n g 方法比较实验及分析4 8 6 7 2 基于r a n k s v m 决策方法实验4 8 6 7 3 多个最优系统线性组合实验及分析5 1 6 8 小结5 2 第七章总结及展望5 3 参考文献5 5 致谢5 9 攻读硕士期间发表的论文6 1 v i i i 一i x 东北大学硕士学位论文 第一章绪论 第一章绪论弟一早珀v 匕 1 1 研究背景 科学技术发展以及科学研究领域迅速扩大,使得新研究成果和发明创造不断涌现, 从而使得记录科技成果和科技文献数量也在增长。据2 0 0 7 年版世界知识产权组织 ( w i p o ) 的专利报告,全球专利申请量年均增长4 7 左右。保持发明创造领先地位国 家,往往多是技术高度发达国家,如美国、日本和德国,这些国家专利拥有量与其经济 发达程度同样在世界处于领先地位。而发展中国家申报专利的数量也在快速增加,正在 扭转世界发明创造的大趋势。我国专利申请数量随着经济和科技发展,也在迅速增长, 1 9 9 9 年到2 0 0 2 年,中国专利申请量从1 0 9 9 5 8 个增长到2 5 2 6 3 1 件川。 专利文本记载最新颖的发明产品或者技术,然而记载科技成果的文献,除了专利, 还有其它非专利文本,例如科研论文、技术报告等。同时,随着人们对知识产权保护认 识的提高,专利申请也在不断增长,专利研究越来越被重视。专利与非专利之间存在一 定的关系,例如,对专利文献和非专利的科研文献的研究,可以实现对专利的无效性检 索,可以了解各个领域最新的技术,从而避免重复开发,避免侵权,甚至可以分析整个 技术行业的发展;可以分析竞争者的技术研发状况以及策略。对科研论文与专利关系的 研究,可以预测技术发展趋向。 专利审核部门对专利审核时,首先需要确定该专利技术领域和研究范围,其次确定 该技术或者发明是否首创,是否最新颖。这样专利审核人员需要在数百万的专利数据库 中检索相关领域里面,先前已经得到审批专利里面是否有该技术或者发明已经被申请。 面对数量庞大专利数据,如果单纯靠人工处理,会耗费大量时间和人力资源。这样检索 和分类专利等专利内容自动挖掘技术,成为必要需求。 科学研究和工业技术是推动人类社会迅速进步的重要生产力。科学研究到一定程 度,必然会带动工业技术发展和产业界进步。科学研究进展主要体现在研究型文献涌现, 比如论文、专利等,专利与工业界和产业界发展也有着密切联系【2 j 。对专利研究以及专 利与论文之间的引用关系的研究p j ,可以很好的预测技术发展趋向,指导工业界的发展。 世界知识产权组织的报告显示,2 0 0 7 年的绝大多数专利申请都跟电讯、信息技术和医药 有关。由此,可知专利的数量的分布情况从侧面反应了一个时期技术发展的趋势。 在商业界和法律界,专利挖掘也是一项重要工作。专利无效性检索研究对于维护专 一1 一 东北大学硕士学位论文第一章绪论 利持有者或者企业的利益很有帮助。专利无效性检索主要体现在,对专利的审查阶段和 专利发布后。专利无效案的例子很多,也引起了法律界和商业界的一些争议,比如计 算机硬盘读写控制装置”的发明专利,专利号为9 4 1 1 1 4 6 1 9 。当时提出无效请求的人提 出的证据,w o9 3 0 9 4 9 5 、u s5 1 4 4 6 6 0 等国外专利里面的技术,反驳9 4 1 1 1 4 6 1 9 专利的 创新性。在对专利的创新性判定的时候,需要对相关技术领域的专利要求内容进行细致 解析和对比。 另外,企业也会很看重专利价值评估4 1 。专利申请和维护是需要花费一定资金,当 一个专利在技术、法律、商业等方面价值得到公司的认可时,公司才会购买或者申请专 利,所以专利的评估,越来越被很多企业重视。基于对专利文本内容分析,其中主要分 为三大块:专利等级分析、专利价值评估、专利因素分析等。专利的等级分析包括价值 专利质量分析、专利重要性评估、专利内容的商业潜能、许可机会等;专利的价值评估 和专利的因素主要包括专利法律、商业、技术等方面的价值和因素印象。对专利评估, 需要基于对专利内容分析,利用现有文本分析技术能够自动地解析专利内容,成为必要 的研究工作。 专利作为一种重要科技文献,它具有如下特点:数量庞大、报道快、学科领域广泛、 内容新颖、具有实用性和可靠性。由于专利文献的这些特点,专利科技情报价值越来越 大,使用率也日益提高。专利情报是现代以科技和经济为发展主题的最重要战略资源【6 1 , 它涉及到几乎所有的技术领域的最新、最活跃的创新技术信息,它包含了丰富的技术、 法律、经济情报、掌握准确的专利情报信息并进行分析,有助于建立专利战略,从而以 最小的代价获取最大收益。由此,不论从商业、法律还是战略角度,专利的分析和研究 工作越来越重要。 专利挖掘是专利价值评估、专利与科技发展趋势预测的任务的基础工作。专利挖掘 在几十年前已经得到了工业界和情报研究机构的关注,很少在自然语言处理和检索领域 涉及,并且早起的专利挖掘工作主要是是靠专业人员手工处理。这一方面是由于自然语 言处理以及信息检索的研究技术不够成熟,另一方面专利的数量有限。但近十几年,随 着专利数量的增多,人力资源成本提高,以及人们对语言自动处理技术研究的成熟,都 推动了自动专利挖掘技术研究的飞速发展。 1 2 研究现状 随着工业界以及研究界对专利挖掘的关注的增加,国际计算机组织( a c m ) 下设 一2 一 东北大学硕士学位论文第一章绪论 的信息检索特别兴趣研究组( s i g i r ) 在2 0 0 0 年第一次举办了专利检索的研讨会 ( w o r k s h o p ) 。该研讨会为研究者和参会人员提供了一个公共的用于专利研究和检索的 一个交流平台,该研讨会第一次将具有独特语法和语义特征的专利文本和其他智力文献 ( i n t e l l e c t u a lp r o p e r t y ) 文本的挖掘和研究带入了信息检索的研究领域。国际计算语言联 合会议( a c l ) 2 0 0 3 年举办了专利语料处理的研讨会( w o r k s h o p ) ,主要目的利用计算 语言学( c o m p u t a t i o n a ll i n g u i s t i c s ) 和自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) 的 技术研究和发掘专利文本独有的特点,对专利的语料进行自动处理。 值得一提的是,2 0 0 1 2 0 0 2 年由日本国家科学咨询系统中心主办的n t c i r 【5 1 ( n a c s i st e s tc o l l e c t i o n sf o ri r ) 评测举办了第一届专利检索评测任务。该评测类似于 信息检索领域中t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ) 评测,关于专利评测至今已经举办 了5 界,每届专利评测的内容随着研究课题变更也有所更新。评测提供了多种语言的专 利训练语料、测试语料以及评价的方法,吸引了国内外众多研究机构参与,推动了专利 挖掘技术的快速发展。关于专利的评测项目主要包括:专利的检索、专利无效性检索、 双语的专利翻译、专利的挖掘等。其中评测的专利数据主要以u s p t o 提供的英文专利 和日本专利局提供的日文专利为主,还有部分中文专利等。 专利检索很早将专利和信息检索联系到一起的任务。n t c i r 专利检索包括了几个子 , 任务:专利无效性检索( i n v a l i d i t ys e a r c h ) 、专利分类任务( m u l t i v i e w p o i n tc a t e g o r i z a t i o n ) 、 摘要问答( s e g m e n t a t i o na s k ) 等。同一个专利可以在不同的国家申请,很多专利往往有 畚 多种语言的版本,最多见的日本专利和英文专利。同一专利的不同语言的版本,往往都 是人工翻译,准确度很高,类似于机器翻译里面的对齐语料,为机器翻译在专利文本上 的应用提供有利资源,因此2 0 0 7 2 0 0 8 年的n t c i r 增加了专利翻译。另外,还增加了 专利挖掘的评测任务。 值得关注的是专利挖掘( p a t e n tm i n i n g ) 的任务1 5 j ,与通常的评测任务不同在于, 训练数据是大量的专利文本,测试语料是非专利文本,即用专利的类别标记非专利文本, 该任务中的非专利文本是指科研论文。专利挖掘任务的提出主要是由于政府专利局以及 知识产权机构研究人员对研究性论文和专利检索需求的迅速增长,这种检索的目的是为 了执行对现有专利或者研究论文的无效性检索,使得竞争对手或者是在专利局正在被申 请的专利无效。n t c i r 7 的专利挖掘目的是为了利用计算语言学方法、自然语言处理方 法发掘更多检索和分类研究论文和专利的技术。 专利挖掘处理是专利研究工作的基础研究。n t c i r 7 专利挖掘任务的结果可以应用 一3 一 东北大学硕士学位论文第一章绪论 在以下几个任务中: ( 1 )利用研究论文和专利做技术趋势的分析 技术趋势分析的目的从标记有专利国际分类标准川 ( i n t e r n a t i o n a lp a t e n t c l a s s i f i c a t i o n )标记的研究论文和专利文本数据中,发掘技术发展趋势图( t e c h n i c a l t r e n dm a p s ) ,见表1 1 中例子,反应了t e c h n o l o g y l 、t e c h n o l o g y 2 、t e c h n o l o g y 3 在三个不 同效用中产生的研究成果。 表1 1 从研究论文和专利数据集中发掘技术发展趋势图 t a b l e1 1a ne x a m p l eo fat e c h n i c a lt r e n dm a pc r e a t e df r o mas e to fr e s e a r c hp a p e r sa n dp a t e n t s 一 - 一 ( 2 )利用研究论文和专利之间的引用关系做技术趋势挖掘。 在专利文本中存在对其他相关专利和论文的引用,相互引用的论文和专利之间存在 必然的联系。近几年,很多研究者致力于研究论文和专利引用关系用来衡量基础科学到 工业生产之间的关系【l 】。这项研究工作,通常建立在一个假设条件下:在一个领域中, 如果基础研究对技术有很深的影响,那么在这个特殊领域中的专利将引用大量的基础研 究的论文。 1 3 相关工作 在二十世纪九十年代,专利分类和检索研究工作就已经开始了。马萨诸塞州大学智 能信息检索研究中心的l e a hs l a r k e y 等在19 9 9 年发表的论文【8 】通过分析u s p t o ( u s p a t e n ta n dt r a d m a r ko f f i c e ) 提供的专利文本、专利图片、商标等信息,利用自动文本处 理技术对专利文本进行处理,构建用于在线使用的专利分类检索系统,这一系统主要针 7 对美国专利文本的处理。这个分类系统也是比较早的一个自动在线的专利分类系统。 专利的文本具有很强的结构化信息,l a r k e y a , 1 3 1 提到了专利文本研究主要问题:确 定用专利哪些字段对专利文本的分类;确定各个字段的权重:确定用哪些特征表征文本, 基于词、短语等;确定特征的权重。c j f a l l 等基于多种分类器,在对国际专利分类 研究中,发现专利的标题对专利分类有很大帮助,而专利的声明部分对于专利的分类效 果并不明显,专利文本的前3 0 0 个单词在实验中取得了很好的效果。但是c j f a l l 的分 一4 一 东北大学硕士学位论文第一章绪论 类中,去掉了样本数小于3 0 的类别,分类层次只到国际分类系统的s u b c l a s s 等层次。 y a o y o n gl i 等【1 1 , 1 2 】基于s v m 的分类器构建了f - t e r m ,( 一种日文专利的分类系统) 分类 标准下的专利分类系统,并提出了专利文本分析的方法,将专利文本按照专利技术的目 的、功能、应用等分为不同的字段,分别抽取特征。文献 8 ,9 ,1 5 ,1 7 等大多数都采用了 基于单个词或者名词短语片段作为特征。专利分类和检索任务,样本权重的计算的方法 有很多种,b m 2 5 比较常见的方法。 专利的分类系统都是多层的分系统,例如国际专利的系统i p c ( i n t e r n a t i o n a lp a t e n t c l a s s i f i c a t i o n ) 、美国专利的分类系统、日文专利的f t e r m 分类等。d o m o n k o st i l ( 1 ( 等在 2 0 0 3 年采用了层次分类的方法对专利文本进行分类,解决实际分类任务中,多标签多层 次的分类问题【16 1 。刘玉琴等【1 7 l 提出了基于i p c 知识结构的专利分类方法,利用i p c 层 次定义的修正文本向量,对专利文本分类。另外,i p c 多层次的定义对专利分类很有帮 助,2 0 0 5 年郭炜强等【l8 】在构建专利自动分类时,采用了改进词语权重的计算方法并从 专利类别i p c 的定义中抽取概念向量,作为专利分类领域知识。 , 在以往的相关研究中,无论是专利的分类还是专利的检索都是专利文本之间的分类 或者检索。在专利研究工作中,非专利文本的科技文献与专利文本之间的关系也是科研 人员重点关注的。在文本的研究工作,与以往最大的不同就是,研究非专利文本与专利y 文本之间的关系,再通过某种影射关系,为非专利的文本标记专利的类别标签。 1 4 本文的研究内容 专利挖掘是一项重要的研究课题。本文首先分析专利挖掘的任务及数据,接着从训 练数据和测试数据、数据分布、分类体系i p c 标准、专利的多标签标记等多个角度对专 利挖掘任务存在的难点问题做分析详细,然后提出了基于分类框架的专利挖掘技术。通 过研究文本分类的相关工作,以及对比分类器的优劣势,最终决定基于k n n 的模型构 建专利挖掘系统。 本文重点针对专利挖掘任务的问题,从三个方面研究解决问题和提高分类性能的方 法: ( 1 ) 专利文本的向量表示,确定专利的文本的哪些字段对专利挖掘最可用、选用 哪些特征作为专利文本向量的特征项以及向量特征项的权重。 ( 2 ) 研究样本之间的相似度计算的方法。在不同的相似度计算方法下,同源数据 与非同源数据之间的相似度,有较大差异。通常情况下,认为相似的文本具有相同的关 键词,利用向量相似度,判定相似的文本。向量的相似度计算的方法有很多种,文本重 一5 一 东北大学硕士学位论文第一章绪论 点分析了向量余弦、b m 2 5 、s m a r t 等几种相似度计算的方法。 ( 3 ) 确定类别决策的方法。相似度计算完成后,按相似度有大到小排序,选择最 相似的k 个样本,通过样本相似度排序向类别相关性排序映射的方法,确定测试样本的 类别。文本提出了基于l o g 1 i n e a r 模型的多特征组合决策方法以及基于r a n k s v m 模型 的系统结果组合在分类的决策方法。通过实验对比分析多种类别决策方法对专利挖掘系 统性能的影响,构建最优性能的系统。 本文内容安排如下: ( 1 ) 第二章主要介绍专利基本概念、介绍专利挖掘任务以及该任务的特点和难点, 最后简单介绍n t c i r 专利评测提供的数据集,重点是对专利挖掘任务重的问题作了系 统的分析,提出专利挖掘挖掘系统的架构。 ( 2 ) 第三章主要介绍文本分类的相关研究,利用基于统计机器学习算法的分类方 法,来解决专利挖掘任务; ( 3 ) 第四章主要介绍了专利文本存储,专利向量表示。对基于不同的特征选取的 方法以及向量表示方法进行实验,对数据进行分析。 ( 4 ) 第五章介绍相似度计算的方法,通过实验分析相似度计算方法在专利挖掘任 务中的效果,对数据进行比对分析。 ( 5 ) 第六章介绍多种类别决策的方法,基于不同决策方法构建系统,对实验结果 进行对比分析。 ( 5 ) 第七章是本文结论及下一步工作 一6 一 , - 东北大学硕士学位论文 第二章专利挖掘任务及系统架构 第二章专利挖掘任务及系统架构 专利作为一种特殊的科技文献,有自己特定的文本结构、分类的标准。本章主要介 绍专利基本概念、介绍专利挖掘任务以及n t c i r 专利评测提供的数据集,重点分析了 专利数据的特点、专利挖掘任务的难点,提出了专利挖掘系统的架构系统。 2 1 专利基本概念 2 1 1 专利概念 世界知识产权组织1 9 8 8 年编写的知识产权教程阐述了现代专利文献的概念: 专利文献是包含已经申请或被确认认为发现、发明、使用新型和工业品外观设计的研究、 设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和 使用新型注册证书持有人权利的有关资料的已出版或未出版的文件的总称。 专利内容主要有:专利号、专利类别、专利题目、专利摘要、专利详细表述、专利 。 声明、专利引用等。其中专利号是专利的唯一标识,专利类别表明专利所属的研究领域 或者应用领域的类别标记,专利题目对专利产品或者技术精简的表述,专利摘要简单地 谚 概述专利内容,专利详细描述具体介绍本专利设计背景、专利附图的详细说明、本专利 发明的应用、影响等。专利声明主要是涉及到专利独特的设计以及知识产权保护效用的 重要依据。 2 1 2 专利分类表 分类表是使各国专利文献得到统一分类的一种工具。它的基本目的是作为个专利局 以及其他使用者在确定专利申请的新颖性、创造性( 包括对技术先进性和实用价值作出 评价) 而进行的专利文献检索时的一种有效检索工具【6 1 。另外,分类表还有提供服务等 重要目的: ( 1 )利用分类表编排专利文献,使用者可方便地从中获得技术上和法律上的情 报: ( 2 )作为对所有专利情报使用者进行选择性报导的基础: ( 3 )作为对某一个技术领域进行现有技术水平调研的基础; ( 4 )作为进行工业产权推荐工作的基础,从而对各个领域的技术发展状况作出评 价。 一7 一 东北大学硕士学位论文 第二章专利挖掘任务及系统架构 2 1 2 1i p c 分类表 在国际上统一个专利的分类系统( i n t e r n a t i o n a lp a t e n tc l a s s i f i c a t i o n ,简写为i p c ) 是世界各国专利机构都采用的专利分类方法,对专利检索必不可少的工具。i p c 按照五 个等级分类,部( s e c t i o n ) 、大类( c l a s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论