(信号与信息处理专业论文)基于net的专利信息管理系统的设计与实现.pdf_第1页
(信号与信息处理专业论文)基于net的专利信息管理系统的设计与实现.pdf_第2页
(信号与信息处理专业论文)基于net的专利信息管理系统的设计与实现.pdf_第3页
(信号与信息处理专业论文)基于net的专利信息管理系统的设计与实现.pdf_第4页
(信号与信息处理专业论文)基于net的专利信息管理系统的设计与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(信号与信息处理专业论文)基于net的专利信息管理系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于n e t 的专利信息管理系统的设计与实现 捅要 专利信息是重要的竞争情报资源,它蕴含着丰富的技术知识。充分挖掘和利 用专利信息,有助于技术人员发现新的技术领域和技术手段,对于企业寻找新的 经济增长点、判断行业发展方向,制定发展战略具有重大的意义。然而现在专利 数量大,增长速度快,依靠人工手段寻找并分析有用专利信息难度很大。 国外已经出现了很多与专利信息采集及分析相关的软件,但大多数只关注英 文专利。国内对专利信息的研究起步较晚。本文以我国大陆地区专利为研究对象, 研究专利信息的采集及分析技术,设计开发了基于n e t 的专利信息管理系统。 本文要采集的专利信息来自于国家知识产权局网站的专利数据库。针对该网 站的特点,设计开发了专利信息采集模块。专利信息采集模块根据用户输入的检 索条件,向网站数据库发送请求。首先获取该检索条件查询结果页面的源代码, 然后根据此源代码使用正则匹配的方法解析出各专利页面的地址,再根据此地址 向数据库发送请求,获取专利详细信息页面的源代码,使用正则匹配的方法解析 出专利的基本信息和说明书下载地址,最后根据说明书下载地址下载说明书。 本文的专利信息分析分为基本统计分析和专利聚类两部分。基本统计分析以 中国海洋大学申请的专利为研究对象,包括申请人分析、发明人分析和代理机构 分析。通过统计专利的基本信息,反映申请人的年度申请量、年度授权量和专利 类别分布,和年度发明人数、发明人申请量、发明人专利权重以及代理机构代理 量和区域分布等情况,从而获取申请人的专利申请规律和科研技术实力。本系统 的专利聚类包括快速聚类和综合聚类两种,本文中以快速聚类为例进行阐述。快 速聚类以中国海洋大学2 0 1 1 年申请的发明专利为研究对象。对这些专利的名称 和摘要信息进行处理后,使用k - m e d o i d s 聚类算法对专利文本进行聚类。用户可 以自己设定k 值进行聚类,同时,本文提供了根据加权的类间类内相似度比率来 获取最佳的k 值的方法,帮助用户选择最合适的k 值。 本文提出了一种计算发明人专利权重的方法,是对专利发明人分析的一种创 新。本系统设计过程中充分考虑了功能的全面性、实用性和快捷性,并且操作简 单、界面友好。本系统应用前景广阔,特别是对单个申请人专利状况的分析,具 有很高的实用价值。 关键词:专利采集,正则匹配,专利分析,水晶报表,文本聚类 d e s i g na n di m p l e m e n t a t i o no fp a t e n ti n f o r m a t i o n m a n a g e m e n ts y s t e mb a s e do n n e t a b s t r a c t t h ep a t e n ti n f o r m a t i o ni sa l li m p o r t a n ti n t e l l i g e n c er e s o u r c ew h i c hc o n t a i n sa w e a l t ho ft e c h n i c a lk n o w l e d g e t of u l l ye x p l o i tt h ep a t e n ti n f o r m a t i o n ,t oh e l p t e c h n i c a ls t a f ft of i n dn e wa r e a so f t e c h n o l o g ya n dt e c h n i c a lm e a n si so fg r e a t s i g n i f i c a n c et ol o o kf o rn e we c o n o m i cg r o w t hp o i n t ,t oa n a l y z et h ed e v e l o p m e n to f t h ei n d u s t r ya n dt of o r m u l a t ed e v e l o p m e n ts t r a t e g i e sf o rc o m p a n i e s h o w e v e r , b e c a u s eo ft h ev a s tn u m b e ro f p a t e n t sa n di t sf a s tg r o w t h ,m a n u a la n a l y s i so fp a t e n t i n _ f o r m a t i o ni sv e r yd i m c u l t t h e r eh a v eb e e nal o to fp a t e n ti n f o r m a t i o na c q u i s i t i o na n da n a l y s i ss o f l w a r e si n w e s t e mc o u n t r i e s b u tm o s to ft h e mo n l yf o c u so ne n g l i s h p a t e n t s i nc h i n a ,p a t e n t i n f o r m a t i o ni sn o tw e l ls t u d i e dy e t i nt h i sp a p e r ,u s i n gt h em a i n l a n d p a t e n ti nc h i n a a st h er e s e a r c hq b j e c t ,w es t u d i e dp a t e n ti n f o r m a t i o na c q u i s i t i o na n da n a l y s i s t e c h n i q u e sa n dd e v e l o p e da n e t b a s e dp a t e n ti n f o r m a t i o nm a n a g e m e n ts y s t e m t h ep a t e n ti n f o r m a t i o ni nt h i sp a p e ri sc o l l e c t e df r o mt h ep a t e n td a t a b a s eo ft h e s t a t ei n t e l l e c t u a lp r o p e r t yo f f i c ew e b s i t e a c c o r d i n gt ot h ec h a r a c t e r i s t i c so ft h i ss i t e , w ed e s i g n e da n d d e v e l o p e dap a t e n ti n f o r m a t i o na c q u i s i t i o nm o d u l e t h i sm o d u l e s e n d sar e q u e s tt ot h es i t ed a t a b a s e f i r s t l y ,o b t a i nt h es o u r c ec o d eo ft h es e a r c h r e s u l t sp a g eo ft h es e a r c hc r i t e r i a ,t h e na c c o r d i n gt ot h i ss o u r c ec o d eu s i n gr e g u l a r m a t c h i n gm e t h o dt op a r s eo u tt h ea d d r e s so fe a c hp a t e n t ,t h i r d l y ,a c c o r d i n gt ot h i s a d d r e s ss e n dar e q u e s tt ot h es i t ed a t a b a s et oo b t a i nt h es o u s ec o d eo fp a e n td e t a i l p a g e ,f o u r t h l yu s i n gr e g u l a rm a t c h i n gm e t h o dt op a r s eo u tt h eb a s i ci n f o r m a t i o na n d t h ea d d r e s st od o w n l o a di n s t r u c t i o n so ft h ep m e m ,f m a l l y ,a c c o r d i n gt ot h ea d d r e s st o d o w n l o a di n s t r u c t i o n s i nt h i sp a p e r ,t h ep a t e n ti n f o r m a t i o na n a l y s i si sd i v i d e di n t ot w op a r t so ft h eb a s i c s t a t i s t i c a la n a l y s i sa n dp a t e n tc l u s t e r i n g t h er e s e a r c ho b j e c to ft h eb a s i cs t a t i s t i c a l i i i a n a l y s i si sp m e m so f t h eo c e a nu n i v e r s i t yo fc h i n a b a s i cs t a t i s t i c a la n a l y s i si s i n c l u d i n gt h ea p p l i c a n ta n a l y s i s ,a n a l y s i so ft h ei n v e n t o ra n dt h ea g e n c y t h r o u g h s t a t i s t i c sp a t e n tt h eb a s i ci n f o r m a t i o n ,t or e f l e c tt h ea p p l i c a n t sa n n u a lf i l i n g s ,t h e d i s t r i b u t i o no fa n n u a lg r a n t sa n dp a t e n tc a t e g o r y ,a n dt h en u m b e ro fa n n u a li n v e n t o r s , a p p l i c a t i o n so f t h ei n v e n t o r s ,i n v e n t o rp a t e n tw e i g h t ,t h en u m b e ro ft h ea g e n c ya g e n t , r e g i o n a ld i s t r i b u t i o no f t h ea g e n c y ,e t c u n d e rt h e s ec i r c u m s t a n c e s ,o b t a i n t h el a wo f t h ea p p l i c a n t 。sa p p l i c a t i o na n ds c i e n t i f i cr e s e a r c ha n dt e c h n o l o g ys t r e n g t h i nt h i s s y s t e mp a t e mc l u s t e r i n gi si n c l u d i n gf a s tc l u s t e r i n ga n dc l u s t e r i n ga n dc o m p r e h e n s i v e c l u s t e r i n g ,e x a m p l e db yf a s tc l u s t e r i n gi nt h i sp a p e r t h em s e a r c ho b j e c to f f a s t c l u s t e r i n gi si n v e n t i o np m e n t so f t h eo c e a nu n i v e r s i t yo fc h i n aa p p l i e di n2 0 11 a f t e r p r o c e s s i n go fn a m ea n ds u m m a r yi n f o r m a t i o no f t h e s ep a t e n t s ,u s ek m e d o i d s c l u s t e r i n ga l g o r i t h m t oc l u s t e rt h e s ep a t e n tt e x t s t h eu s e rc a l ls e tt h ev a l u eo fkt o c l u s t e rt h e s ep a t e n t s b e s i d e s ,t h i sp a p e rp r o v i d e sam e t h o dt oo n m nt h eb e s tv a l u eo f k a c c o r d i n g t ot h ew e i g h t e ds i m i l a r i t yr a t i oo fb e t w e e n c l a s sa n dm c l a s st oh e l pt h e u s e rt os e l e c tt h em o s ta p p r o p r i a t ev a l u eo fk t h i sp a p e rp r e s e n t sam e t h o do fc a l c u l a t i n gt h ep a t e mw e i g h to fi n v e n t o r ,i sa l l i n n o v a t i v eo ft h ea n a l y s i so f p a t e n ti n v e n t o r t h i ss y s t e mt a k e sf u l la c c o u n to f t h e f u n c t i o nc o m p r e h e n s i v e ,p r a c t i c a la n dq u i c k ,w h i c hi ss i m p l ea n df r i e n d l ys u r f a c e t h i ss y s t e mi sv e r yw i d ea p p l i c a t i o np r o s p e c ta n dh a sah i g hp r a c t i c a lv a l u e , e s p e c i a l l yf o rt h ea n a l y s i so fas i n g l ea p p l i c a n t sp a t e n t s k e y w o r d s :p a t e n te x t r a c t i o n ,r e g u l a rm a t c h ,p a t e n ta n a l y s i s ,c r y s t a lr e p o r t s , t e x tc l u s t e r i n g 基于n e t 的专利信息管理系统的设计与实现 第一章前言 当今时代是信息时代,信息资源己成为现代社会的重要战略资源。信息资源 的开发程度己成为衡量社会、经济和科技发展水平的重要标准,因而成为各国政 府、社会公众和企业单位关注的热点。 1 1 研究背景与意义 在现在的知识经济环境下,企业的生存和发展靠的是核心竞争力,而专利信 息是重要的竞争情报源l l j 。在科研过程中,发挥专利文献和专利制度的作用,不 仅能提高研究的起点,而且能节约4 0 的研发费用和6 0 的研发时间【2 j 。充分挖 掘和利用专利信息,有助于启发技术人员发现新的技术领域和技术手段,不仅可 以为企业缩短研发时间、减少研发经费,而且对于发现竞争对手、寻找新的经济 增长点、判断行业发展方向,进而制定本企业的发展战略具有重大的意义【3 l 。 目前,全世界专利文献早已超过五千万件 4 1 。我国自1 9 8 5 年实施专利制度以 来,截至2 0 1 1 年1 2 月3 1 日,我国国家知识产权局受理专利申请量已突破6 3 6 万件【5 j ,累计授权专利达3 5 0 万件。由于专利信息量巨大,仅仅依靠传统的人工 手段去采集、筛选、分析专利,不但工作量大,还难以及时准确地对信息进行提 炼和分析,只有借助于相关软件对专利信息进行管理,才能够满足社会的需要。 文本聚类技术,是一种无监督的机器学习方法,可以对文本信息进行有效地组织 和分析。与传统的基于统计的方法相比,这种技术能够提取专利文献中包含的技 术特征( 如技术术语、关键词等) ,计算出不同专利文献之间的相似度,发现各领 域技术间的依赖关系和发展趋势,为企业决策提供重要的参考信息。 近年来,欧美日韩等国已经对专利信息采集和分析技术进行了大量的研究, 开发出了一些软件系统和管理工具,但他们的研究对象主要是国外的专利。与这 些国家相比,由于我国的专利制度实施较晚,人们对专利信息的认识还不够深入, 对专利信息的分析研究还处于初期阶段,研究成果较少。这些成果,一般以中国 专利为研究对象,在专利采集方面以人工采集方式为主,对专利无结构数据的分 析研究较少,与国外技术相比还有一定的差距。 基于n e t 的专利信息管理系统的设计与实现 1 2 研究目标与内容 本文以国内外专利信息采集和分析的相关理论和技术为基础,以中国大陆专 利为例,研究专利信息采集和分析技术,设计开发一个专利信息管理系统。 本文的主要内容如下: ( 1 ) 专利信息采集 针对中国国家知识产权局专利网站,研究设计专利信息采集模块,实现中国 大陆专利信息的自动下载,并对下载的专利信息进行预处理。 ( 2 ) 专利信息检索 把存储在本地计算机中的专利信息,按照一定的条件检索展现出来,并进行 相应的管理。 ( 3 ) 专利信息分析 对专利信息进行统计分析,并利用文本挖掘技术对专利进行聚类。 本文的组织结构如下; 第一章,前言。提出本文的研究目的和意义,简要介绍本文的主要内容。 第二章,研究现状。对专利信息采集和分析技术的国内外研究状况进行介绍。 第三章,系统开发平台和信息采集与分析技术。首先,介绍了n e t 开发平台; 然后,对d e e pw e b 信息采集技术和文本挖掘技术进行了探讨和分析。 第四章,专利信息管理系统的分析与设计。首先,对专利信息管理系统进行 了需求分析和流程分析,设计了流程图。然后,介绍了系统开发环境、系统架构、 数据存储结构、系统功能和系统安全性设计。 第五章,系统实现。以中国海洋大学申请的专利为例,介绍了系统的配置、 :。刊采集、专利检索和专利分析等主要模块的实现。 第六章,总结与展望。总结了本文的工作,指出了不足之处和下一步的研究 方向。 基于n e t 的专利信息管理系统的设计与实现 第二章研究现状 2 1 专利基本知识 我国专利法规定,我国专利分为发明专利、实用新型专利和外观设计专利三 种。发明是指对产品、方法或其改进所提出的新的技术方案,分为产品发明( 如 机器、仪器、设备和用具等) 和方法发明( 制造方法) 两大类。实用新型是指对 产品的形状、构造或者其结合所提出的适于实用的新的技术方案。实用新型也是 技术方案,这与发明有相同之处,但在其他方面有着重要的区别。第一,实用新 型只保护产品,该产品应是经过工业方法制造的具有一定空间的实体。但该产品 的制造方法、用途和使用方法不属于实用新型专利的保护范围。第二,实用新型 必须具有一定形状或构造,或者是两者的结合。外观设计是指对产品的形状、图 案、色彩或者其结合性做出的富有美感并适于工业上应用的新设计。外观设计指 的是工业品的外观设计,也就是工业品的式样,它与发明或实用新型完全不同, 即外观设计不是技术方案l 引。 譬专利文献是专利信息的载体,主要包括各种类型专利的说明书、公报、文摘、 索引,以及有关的分类资料。其中,说明书是专利研究的主要对象,一般由说明 书扉页、权利要求书、说明书正文和附图组成。 2 。2 专利信息采集 专利信息采集是专利信息分析的基础,主要是利用计算机通过i n t e r n e t 网 上检索专利数据库的方式进行。但是,网上并没有静态链接指向专利数据库中具 体的专利信息,这些专利信息都隐藏在搜索表单之后的页面上,只有在用户输入 相应检索条件,查询数据库之后才可以获得。 2 2 1d e e pw e b 定义 基于n e t 的专利信息管理系统的设计与实现 像专利数据库检索页面那样,没有静态链接指向具体的信息,大部分信息隐 藏在搜索表单之后,只有用户键入一系列关键词才可获得的页面,称为d e e pw e b , 又称为h i d d e nw e b 7 1 。可见,专利信息采集本质上就是对d e e pw e b 信患的提取。 2 2 2d e e pw e b 研究现状 d e e pw e b 是非常重要的,大部分的d e e pw e b 内容都保存在专业领域数据库 中。如专利局、科研院所、证券交易所等,通常会将他们拥有的高质量的信息放 于网上供他人奄询,而这些信息对研究经济技术现状和形势预测等都有重要作 用。目前,绝大部分的d e e pw e b 公众都可以免费访问。据估计,d e e pw e b 所拥 有的信息量是静态网页的1 0 0 0 到2 0 0 0 倍8 1 。因为担心爬行器会陷入庞大的动态 网页库而浪费网络带宽资源和存储资源,传统搜索引擎对d e e pw e b 的覆盖率只 有3 0 左右。 由于d e e pw e b 页面信息是由后台数据库动态产生的,而数据库大多是结构 化的关系数据库 9 1 ,因此d e e pw e b 信息的质量比非结构化的页面高很多。 因为d e e pw e b 蕴含着巨大的信息量,并且只能通过查询页面访问后台数据 库,所以需要一项有效的技术从d e e pw e b 上提取信息。目前,d e e pw e b 信息提 取技术一般要经过处理查询接口和抽取结构化数据两个步骤,即利用d e e pw e b 爬虫自动寻找、填写接口表单,然后获取和识别结果页面,最后按照一定的规则 抽取有效的信息。 2 3 专利信息分析 信息技术的发展为专利文献的检索和研究提供了方便。随着人们对专利信息 分析重要性的认识不断深化,世界各国政府、企业和科研机构对专利信息分析的 研究迅速增多。 2 3 1 定义 专利信息分析,就是从专利文献中采集专利信息,通过科学的方法对专利信 息进行加工、整理和分析,最终形成专利情报和谋略的一类科学劳动的集合 1 0 】。 2 3 2 现状 基于n e t 的专利信息管理系统的设计与实现 在国际上,欧美等发达国家在多年前就开始了对专利信息分析的理论研究和 应用实践。美国1 9 7 1 年成立了专门研究分析专利信息的机构:美国专利商标局 技术评估及预测处( o t a f ) 。日本从1 9 9 7 年开始,进行了大规模的技术专利信息 的分析工作。与此同时,国外学术界也做了大量有益的探索。1 9 9 0 年,当代著 名专利数据研究专家g r i l i c h e s 1 1 】在其论文中探讨了专利数据的重要价值和意 义,对专利总量的波动与投资增长的关系进行精辟的分析。 与国外相比,我国在2 0 0 1 年加入w t o 之后,国际竞争不断加剧,国家和企 业意识到了知识产权保护和研究的重要性,对专利信息分析的研究步伐大大加 快。 2 3 3 方法 专利信息分析的方法很多,通常按定性分析、定量分析、拟定量分析和图表 分析来划分专利分析方法的类型【l2 1 。目前的专利信息分析工具主要采用基本统 计分析、共现分析、聚类分析和引证分析等四种方法。 ( 1 ) 基本统计分析:即简单的定量统计分析,是指依据专利文献固有的标 引项,对专利申请时间、申请人、代理机构、申请国家、专利类型、同族专利量 等指标进行统计,用于把握专利文献的分布状况及其发展态势。 ( 2 ) 共现分析:是指相同或不同类型特征项信息共同出现的现象。通过对 专利分类号、专利权人、申请时间、申请国、技术焦点等进行组配统计l l 引,用 于揭示专利信息的相互关系和特征项所隐含的技术知识。 ( 3 ) 聚类分析:是指利用聚类技术将同一数据集中的专利,按照技术分类 聚成不同的子类,以揭示该特定技术领域内各个子领域的分布情况。目前专利聚 类主要是按主题进行聚类,呈现结果可以按竞争对手和时间顺序进行展示1 1 4 1 。 聚类分析主要采用文本聚类技术,结果的主要展示方式有聚类地图、结构化数据 聚类和非结构化数据聚判1 5 】,也可以以图表或列表的形式展现。 ( 4 ) 引证分析:是指对所研究专利的引用和被引用的情况进行分析。专利 之间的引用关系,反映技术之间的依赖关系。大量专利之间的引用关系可以形成 一个专利网络,根据此网络可以分析出相关领域的核心技术和特定技术的生命周 期。 基于n e t 的专利信息管理系统的设计与实现 2 3 4 流程 专利信息分析一般分为准备朝、分析期和应用期三个阶段。专利分析流程如 图2 - 1 所示 1 6 】。 工作小组建立 确定分析目标 研究背景资料 准备期 选定分析工具 选择专利信息源 确定专业领域 上 廿f 审协_ = 击;鐾m 复 l 一 似疋伍糸柬峪 r 修正 数据采集 i +l 裣岩; 上 分析数据集 r 分析期k 数据清洗 上 数据分析 按专利指标聚集 上 生成工作图表和深度分析目标 上 分析与解读 0 撰写分析报告 r 分析报告评估 应用期 制定相应的专利战略 专利战略实施 图2 1 专利分析流程图 6 基于n e t 的专利信息管理系统的设计与实现 第三章系统开发平台和信息采集与分析技术 3 1 。n e t 开发平台 3 1 1m i c r o s o f t n e t 的基本概念 2 0 0 0 年6 月,微软公司公布了m i c r o s o f t n e t ,它是微软公司倾注了大量人 力和财力打造的一种战略,是一系歹l j 产品和技术总称,也是各种设备得以互通互 连的平台。n e t 平台的全称是v i s u a ls t u d i o n e te n t e r p r i s ea r c h i t e c t 。微 软曾经表示,“m i c r o s o f t n e t 将会使计算和通信变得容易到前所未有的程度”, “它将会产生出新一代因特网服务,使成千上万的软件开发商有机会创造出革命 性在线服务和新业务”。为了实现这一构想,微软公司开发了相应的软件产品, 推出了一些新技术,这些产品和技术共同组成了一个面向网络、支持各种用户终 端的开发环境m i c r o s o f t n e t 平台【1 7 】。 3 1 2 n e t 平台组成 m i c r o s o f t n e t 平台包括底层操作系统、v i s u a ls t u d i o n e t 、n e t 企业级 服务器、n e t 框架和n e t 服务组件。 v i s u a ls t u d i o n e t 是一个优秀的、全新的n e t 开发工具,它内置支持v i s u a l b a s i c n e t 、v i s u a lc # n e t 和v i s u a lc + + n e t 等多种语言,并且统一了所有的 开发环境,拥有跨语言调试和x m ls c h e m a 编辑器等功能。 n e t 企业级服务器是n e t 平台的另一个重要组成部分,为n e t 应用程序提 供数据库服务器、w e b 服务器和邮件服务器等嘲。 n e t 框架( n e tf r a m e w o r k ) ,是n e t 平台的核心,是开发n e t 和运行n e t 应用程序的前提。n e t 框架由两部分组成:公共语言运行库( c l r ) 和n e t 框架类 库( f c l ) 1 1 9 。 n e t 服务组件是指在n e t 平台中w e b 服务。w e b 服务作为一种全新的开发形 式,是n e t 平台的关键技术。在n e t 平台中,还需要操作系统的支持,任何一 种w i n d o w s 操作系统都可以满足要求。 基于n e t 的专利信息管理系统的设计与实现 a d o n e t 作为一种数据库存取技术,是n e tf r a m e w o r k 的重要组件,为开发 人员提供数据访问服务,用以创建分布式的数据共享应用程序。它可以使用户 为不同的n e t 应用程序写出几乎相同的数据库操作代码,大大提高了代码的重 用性。 数据提供者是a d o n e t 提供的一组封装好的类,是应用程序与数据库之问的 桥梁。a d o n e t 用不同的数据提供者来操作不同的数据源,这一点与其他数据库 存取技术有很大的区别。,n e tf r a m e w o r k 提供了四种不同的数据提供者:s o l s e r v e r 数据提供者,为操作s o ls e r v e r7 o 及之后版本的数据库提供支持;o l e d b 数据提供者,为所有支持o l e d b 驱动的数据源提供支持,它可以支持s q ls e r v e r 7 o 之前的版本;o r a c l e 数据提供者,为操作o r a c l e 数据库( o r a c l e 8 i 及之后 版本) 提供支持;o d b c 数据提供者,为a c c e s s 数据库和其他o d b c 驱动的数据 源提供支持 2 0 】。 a d o n e t 的设计思想是把数据从数据库中读取到内存中,构造一个内存数据 库。数据读取的过程是通过数据提供程序来完成的,而构造内存数据库的过程是 通过数据集d a t a s e t 数据集来完成的。a d o n e t 的体系结构如图3 - i 所示( 2 i j 。 图3 1a d o n e t 的体系结构图 3 2d e e pw e b 信息采集 在采集d e e pw e b 信息时,首先要经过数据库的访问接口,即查询表单,普 通搜索引擎不能检索到d e e dw e b 内容的原因也就在于其不能同查询表单进行交 基于n e t 的专利信息管理系统的设计与实现 互,因此也就无法取得检索结果页面进行索引口2 1 。从网络数据库获取数据过程 如图3 2 所示: 3 2 1 查询表单 图3 ,从网络数据库获取数据过程示意图 查询表单,是后台数据库的查询接口,是数据库与用户之间的桥梁。查询表 单包括两个部分:一部分是用于描述表单的表单元素,另一部分是用于处理提交 信息的脚本( 如c g i 脚本) 或应用程序。服务器使用处理脚本搜集表单数据。 表单元素通常包括两种:一种是普通的页面元素,例如表格、图像、文字等; 另一种是用于接收用户输入信息或处理的特定页面元素,即表单控件,例如文本 框、组合框、复选框等,它们都在 标签对中【2 3 1 。通常所说的表单 元素是指表单控件,不包括普通的页面元素。 查询表单的提交有p o s t 和g e t 两种方式。这两种方式都属于h t t p 请求,都 是为得到一个响应页面。g e t 方式是h t t p 请求的默认方式,表单中提交的数据 将会随u r l 进行传递的,在浏览器的地址栏中是可见的,安全性较差。此外它传 送的数据量小,一般不超过2 k b l 2 4 1 。p o s t 方式将表单数据打包在数据包中传送 给服务器,数据传送量可达2 g b ,且安全性较高,但执行效率比g e t 方式低【2 5 】。 3 2 2 信息抽取 w e b 信息抽取就是将网页中非结构化和半结构化的数据【2 翻按照一定的需求抽 取成结构化数据【2 7 】。现在大部分网页所使用的脚本语言都是h t m l ,除了包含文 基于s e t 的专利信息管理系统的设计与实现 本信息外,还包含大量的标签,如 , , , 等。这些标签都是成对出现的,如 与 ,分别表示开始标签和结束 标签。开始标签和结束标签之间的文本,往往含有要抽取的信息1 2 引。 d e e pw e b 资源对象一般以半结构化的动态网页的形式存在。特别地,在中国 国家知识产权局网站专利检索页面中进行检索返回的专利网页格式也属于半结 构化,对它们进行信息抽取实际上是将半结构化网页内的信息以结构化的形式抽 取出来的过程。d e e pw e b 信息抽取方法可以分为以下几类【2 9 】: ( 1 ) 基于命名实体识别的抽取方法:这种方法是信息抽取的基本方法。在 检索结果页面中,存在大量可标注信息,如专利检索结果页面内的申请号、公开 号,专利权人等。此类方法基本都要使用文本识别工具,将文本信息匹配出来, 通常使用正则匹配的方法标注出字符串信息。正则表达式( r e g u l a re x p r e s s i o n , 简称r e g e x e s ) 又称正规表达式,是一串特殊的字符,它转化为某种算法,根据 这个算法来匹配文本,是操作和检验字符串数据的一个非常强大的工具。正则表 达式构造过程比较简单,这种方法易于操作,信息抽取的速度快,并且精度很高。 ( 2 ) 基于模板的抽取方法:在m e s s a g eu n d e r s t a n d i n gf o rc o m p r e h e n s i o n ( m u c ) 对信息抽取的分类里,模板元素指的是从文本中抽取特定类型的实体信 息,并将这些信息填写到预先定义的属性模板中【圳。基于模板的抽取方法的核 心就是预先构建属性模板的过程。在实现时,针对返回页面,一般先将其解析成 语法树,再由语法树生成抽取模板。 ( 3 ) 基于情景的抽取方法:这里的情景( s c e n a r i o ) 指的是要抽取的特定 信息实体及实体之问的关系。这种方法不考虑信息载体的表面结构,挖掘并提取 信息的内部联系。该方法综合涉及实体的标识、实体与不同场合的自身及不同实 体间的参照、在模板基础上的模板元素问关系的抽取和由实体到事件的填充并还 原整个事件模型等内容。 3 3 文本聚类 聚类分析是数据挖掘的重要内容,是以大量对象的统计数据为基础,把具有 相似性的一些数据组合成为类群的方法的总称。聚类分析中类别的确定一般是依 据分析对象之间距离最小或相似度最大的原则。 1 0 基于n e t 的专利信息管理系统的设计与实现 对于文本聚类,一般是通过文本预处理和文本建模,计算出文本之间的相似 度,然后根据文本相似度进行聚类,从而达到文本聚类的目矧3 。 3 3 1 文本预处理 文本预处理的目的是将文本转化为一种结构化的形式,以便于计算机处理。 文本预处理主要包括分词、词性标注和停用词过滤等步骤【3 2 j 。 ( 1 ) 分词:分词就是将连续的字序列按照一定的规范重新组合成词序列的 过程。中文分词( c h i n e s ew o r ds e g m e n t a t i o n ) 指的是将一个汉字序列切 分成一个个单独的词。分词算法主要有基于字符串匹配、基于理解和基于统 计的方法三种。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分 词与标注相结合的一体化方法i j 3 1 。 基于字符串匹配的方法最易于实现,但分词精度不高。基于理解的方法 在分词的同时进行句法和语义分析,以消除歧义现象,但是由于汉语语言复杂多 变,词语的同义和多义现象很普遍,目前还处于试验阶段。基于统计的方法根据 相邻两个字的共现频率来确定是否是一个词,这种方法和基于字符串匹配方法 相结合,既发挥匹配分词速度快、效率高的特点,又利用了串频统计识别生词、 消除歧义的优点【3 4 】,但算法的复杂度较高。 与英文不同,在中文文本中,每个字、句子和段落有明显的分隔符号,而词 没有明显的分隔符。另外,汉字意义丰富,构词能力强。现在的中文分词系统 仍没有很好的解决分词过程中的歧义识别和新词识别两大难题【3 5 。 ( 2 ) 词性标注:词性标注可以优化分词结果。对于英文,词性标注即 是将分好的词的不同时态和复数形式还原为词根。中文词性标注比较复杂:一 般首先对语料库进行人工标注,然后利用计算机统计,提取出带词类标记的词频 统计表和词类共现频度矩阵,建立概率计算模型而完成词性自动标注【3 6 1 。 ( 3 ) 停用词过滤:语言中包含很多功能词,他们出现频率很高但对文档内 容识别意义不大。比如英文的限定词“t h e ”、“o f ”、“a n ”、“t h a t ”等, 中文的“唉”、“的”、“了”、“吧”等。在文本处理过程中如果遇到它们, 则立即停止处理,将其扔掉,这样会提高信息处理的效率。因此这些在文本处理 中不被使用的词又可称为停用词( s t o pw o r d ) 。停用词过滤是在建立一个停用 基于n e t 的专利信息管理系统的设计与实现 词表的基础上实现的。在信息处理过程中,不断对停用词表进行查询,如果正在 处理的词语位于停用词列表中,则不对其进行处理。 停用词表需要根据所处理文本的情况进行相应的完善。比如,本文研究的专 利文献中多次出现“发明”、“设计”、“高效”、“性能”等词语,这些词语 虽然不是功能词,但是对于区分文档的类别意义很小,所以也可】以把它们作为停 用词,放入停用词表中,以提高文本处理的效率。 3 3 2 文本建模 通常使用向量空问模型( v e c t o rs p a c em o d e l ,v s m ) 法来表示文本特甜3 7 1 。 v s m 方法的基本思想是将每个文本看成是特征空间中的一个向量,文本中每一个 不同的词条都看成是特征空间中的独立的一维,即: v ( d ) = r 1 ,h ( d ) ;j ,( d ) r 。,( d ) ) ( 表达式3 - 1 ) 其中f ,为词条,w f ( d ) 为f i 在文本d 中的权重。这时可以把t1 _ o2 t 。看 成一个n 维的坐标系,而w 】( d ) ,( d ) ,w ,( d ) 为相应的坐标值,于足一个文本 就可以表示为一个n 维空间的向量,我们称矿( d ) = w i ,w 2 ,w 。) 为文档d 的向量 表示或向量空间模型。 通常利用t f i d f 算法计算词条的权重【3 9 】。t f i d f 是一种经典的统计方法, 用以评估某一词条对于一个文档集的重要程度,能够全面反映一个词条的局部权 重( t f ) 和全局权重( i d f ) 。字词的重要性随着它在文件中出现的次数成正比 增加,但同时会随着它在语料库中出现的频率成反比下降3 9 1 。其传统的计算公 式如下: w 朋h 转1 怒薪g c 靠, 。舢 t f i d f 实际上是t f 丰i d f ,t f 是词频( t e r mf r e q u e n c y ) ,i d f 是反文档频 率( i n v e r s ed o c u m e n tf r e q u e n c y ) 。公式的第一项( t f ) 用来计算词条t 在文档 d 中出现的频率,其中矿( d ) 表示词条t 在文档d 中出现的次数,m a x t f ( t ) 表示 t 在文档集的各个文档中出现的晟大次数。公式的第二项( i d f ) 中n 代表整个 基于n e t 的专利信息管理系统的设计与实现 文档集中的文档数量,d f ( t ) 代表的是包含词条t 的文档个数。可以看出d f ( t ) 越小,i d f 越大,则说明词条t 具有很好的类别区分能力。 3 3 3 计算相似度 文本之间的相似度通常采用文本向量模型之间的c o s i n e 值表示f 4 0 】,即: c o s ( 或, d y ) = 揣 ( 公式3 - 2 ) 其中,以d y 撤a kx 和文本y 的向量模型的点积, 以 i d ,i 表示文本x 和文本y 的向量模型的模的积。 3 3 4 聚类算法 聚类算法主要有如下几种【4 1 】: ( 1 ) 划分法( p a r t i t i o n i n gm e t h o d s ) :对于一个有n 个记录的数据集,划 分法将构造k ( k 专利类型文件夹一 申请号文什夹一 说明书类型一 t i f f ( j p e g 或g i f 等) 文件的方式来进行存放。其中,说明书类型包括申请公开说明书( f r o ) 和审 定授权说明书( s d ) 。如果要查看某项专利的说明书,可以利用该专利的申请号 基于n e t 的专利信息管理系统的设计与实现 获取它的申请年份和专利类型,从而快速找到说明书文件,提高了检索速度。说 明书存储结构如图4 2 所示: 4 2 4 系统功能设计 图4 - 2 说明书存储结构图 ( 1 ) 专利采集功能 本系统可以根据多个字段,如申请号、专利名称、申请时间、分类号、申请 人、发明人等下载指定条件的专利信息。用户在下载时,可以选择一个或多个字 段作为限定条件。专利下载条件存储在p a t e n t d o w n 数据表中。 ( 2 ) 专利检索功能 用户可以设置若干主题对本地数据库中的专利进行分类。本系统的专利检索 包括普通检索和高级检索两种方式,确保用户准确高效的查找到所需专利。普通 检索和高级检索都是在当前主题范围内进行的。普通检索是按照p a t e n t i n f o 表 基于n e t 的专利信息管理系统的设计与实现 的某一字段的限定条件进行的模糊检索。高级检索是按照p a t e n t l n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论