




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 专利文献数据作为人类科学技术发展的缩影,是世界上最大的技术信息源。有效地 分析这些专利数据文献,进一步发现其中蕴含的知识,对指导各个生产科研单位的生产 和科技创新具有十分重要的意义。 数据挖掘技术中的文本挖掘在专利文献分析领域有着广泛的应用前景。论文工作结 合专利数据文献特征,对文本挖掘技术在专利文献定性分析中的应用进行探讨和研究: 首先,为了提取专利文献的关键特征,本文结合专利文献数据的特点,提出一种基 于文本聚类的无监督特征选择算法u f s c 对专利内容进行分析。实验表明,由于考虑 了特征的类区分力,u f s c 能更好的选择出文本中的关键特征; 然后,针对如何计算专利类别间的关联度的问题,给出一种对专利类别间关联度量 化的方法。该算法首先通过有监督的特征选择方法提取每个专利类的关键词语集合,然 后通过知网计算各个集合之间的相似度,最后在此基础上通过特征集合语义相似度 计算公式t s c 计算专利类别间的关联度。在此过程中,改进了知网中的词语相似 度计算方法,提出了特征集合语义相似度的计算方法t s c 。理论分析和实验结果表明, 该方法是有效的; 最后,本文进行了总结和展望,提出了将来工作的拓展点和方向。 关键字:专利分析,文本挖掘,特征选择,知网,特征集合语义相似度 东南人学硕十学位论文 a b s t r a c t p a t e n td o c u m e n t sa r ec o n s i d e r e dt h ew o r l d sl a r g e s ts c i e n t i f i ca n dt e c h n i c a li n f o r m a t i o n s o u r c e p a t e n td o c u m e n t sh a v eg r o w i n gv o l u m ea n di n c r e a s i n gt e c h n i c a la n ds t r a t e g i c i m p o r t a n c ew o r l d w i d e e f i e c t i v ea n a l y s i so ft h e s ep a t e n td o c u m e n t sw i l lb eb e n e f i c i a li n g u i d i n gi n n o v a t i o ni ns c i e n t i f i cr e s e a r c hi n s t i t u t i o n sa n de n t e r p r i s e s t e x tm i n i n gt e c h n o l o g yi sw i d e l ya p p l i e di np a t e n td o c u m e n t sa n a l y s i s i nt h i sp a p e r , w ep r e s e n tas t u d yo ft h et e x tm i m n ga p p l i c a t i o ni nq u a l i t a t i v ea n a l y s i so fp a t e n td o c u m e n t s w bf i r s to u t l i n et h ef e a t u r e so fp a t e n tl i t e r a t u r e s t h e n w ep r o p o s ea l lu n s u p e r v i s e df e a t u r e s e l e c t i o na l g o r i t h m ( u f s c ) b a s e do nt e x tc l u s t e r i n gw i t hh i g h e rp e r f o r m a n c ei ng e t t i n gk e y f e a t u r e s f u r t h e r m o r e ,w ei n t r o d u c eam e t h o dt oc a l c u l a t ec o r r e l a t i o nd e g r e eb e t w e e np a t e n t c a t e g o r i e su s i n gs e m a n t i cd i c t i o n a r y “h o w n e t a n dt s cf o r m u l a t h i sm e t h o di sp r o v e d e f f e c t i v eb ye x p e r i m e n tr e s u l t s t h ep a p e rc o n c l u d e sw i t ho p e nr e s e a r c hi s s u e s k e yw o r d s :p a t e n ta n a l y s i s ,t e x tm i n i n g ,f e a t u r es e l e c t i o n , h o w n e t ,f e a t u r ec l u s t e r s e m a n t i cs i m i l a r i t y i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 日期:蹴js ( l 第一章绪论 第一章绪论 专利信息从本质上讲是属于一种科学技术信息,泛指从事一切专利活动所产生的相 关信息的总和。它可分为“静态”专利信息和“动态专利信息两大类,主要包括专利 文献、有关专利的法律和法规、专利审批程序中的文件、专利管理、服务、实施、合同 等信息。专利信息主要记载于专利文献之中,集技术、法律、经济信息于一体,充分体 现了专利制度的法律保护功能和文献公开功能。 1 1 专利分析的意义 专利文献数据作为人类科学技术发展的缩影,是世界上最大的技术信息源,包含有 世界全部科技信息的9 0 - - 9 5 ,记录了人类现代技术发展的历程。 专利分析是指对专利文献进行筛选、统计、分析,使之转化成可利用信息。分析方 法建立在专利检索基础上,对检索数据进行定量和定性分析,提炼可利用信息。一般说 来,专利分析主要从以下三方面进行: ( 1 ) 通过对专利申请量的分析,可以对企业及其所处的竞争环境进行评估分析。因 为企业的发展是与社会的经济活动密切相关的。企业的专利申请范围一定程度上体现了 企业的经营目标及其在相关技术领域的实力。 ( 2 ) 通过对专利数据内容的分析,可以了解企业技术丌发的技术优势和丌发重点, 掌握企业在市场竞争中所采取的战略行动。专利是最全面、最新颖的科技情报,据世界 知识产权组织统计,发明成果的9 0 首先在专利文献中公开。充分利用专利信息,可以 节约6 0 的开发经费和4 0 的开发时间。另外,可以结合专利文献的技术和法律状态信 息获得有关市场及类似技术的竞争范围、相关热点等经济信息,有助于企业制定策略, 做出决策。 ( 3 ) 通过对不同时间段、不同地域、不同行业专利申请数量和变化进行统计分析, 可以了解行业技术的发展状况,评价当时的技术热点;并且通过对专利申请背景情报进 行分析,考察行业发展的历程,预测未来的技术发展趋势。 有效实施专利制度,可以使人充分利用世界范围内的专利信息资源,提高科技创新 能力和效率,发挥后发优势,在具有一定基础和优势的关键产业和重点领域,进行较高 起点的自主开发和创新,形成一批具有自主知识产权的产品和产业,从而推动经济跨越 式的快速发展。 1 2 数据挖掘在专利分析中的应用背景 传统的专利分析方法【l 一3 】主要采用原文分析法和简单的数据统计等方法,面对大 量的专利文献数据,不仅工作量繁巨,而且对专利文献的应用也只停留在表层。 随着计算机技术的发展,计算机处理海量数据的能力越来越强,在信息处理中的应 用越来越广泛。在1 9 8 9 年8 月举行的第1 l 届国际联合人工智能学术会议上,数据挖掘( 也 称知识发现) 一词首次被提出,研究重点逐渐从发现方法转向系统应用,并且注重多种 发现策略和技术的集成,以及多种学科之间的相互渗透【4 j 。数据挖掘是一门交叉学科, 融合了数据库、人工智能、机器学习、统计学等多个领域的理论技术,利用各种分析工 具在海量数据中发现模型和数据问关系的过程,使用这些模型和关系可以进行预测,帮 助决策者寻找数据问的潜在关联,发现被忽略的因素。 数据挖掘延伸和扩展了传统分析方法,可以发现传统分析方法不能发现的内容和规 律,并且它将人们从单调、枯燥的阅读专利文献的工作中解放出来,使用计算机代替了 东南大学硕f j :学位论文 人类劳动,不仅提高了效率,而且提高了准确度。因此,数据挖掘作为一个专利分析的 强有力的工具被引入到专利分析中来,并且已经取得了较好的效果。 1 3 国内外发展状况 关于专利统计分析研究,最早是在2 0 世纪7 0 年代初,由美国专利商标局进行的一种 基于专利文献的研究活动,随后在各国逐渐推展开。 目前,美日等发达国家的知识产权信息服务业已相当成熟,形成了许多专业的专利 分析工具,如德温特公司的德温特分析软件1 5 j ,i b m 公司的t e x tk n o w l e d g em i n e r ( t k m ) 和i n t e l l i g e n tm i n e rf o rt e x t ( i m f t ) 软件【6 j 等。世界上最早利用专利地图进行专利分析 的日本富士通公司,其专利分析系统已经历了三代的发展,现已能运用深度语言加工技 术( 如智能分词、聚类等) 对专利的全文进行分析,提高检索分析精确度,进行自动聚 类分析、多维分析、专利引用流分析、引证分析等等。 国内的科研机构也十分重视数据挖掘技术在专利领域内的应用研究,但与国外相 比,国内对数据挖掘技术的研究起步稍晚,在专利信息分析与预测上的应用还处于较低 的水平。主要问题表现为:专利信息利用不充分、专利信息分析不到位、分析方法和分 析手段落后。 1 4 论文工作与组织结构 1 4 1 论文工作 本文的研究工作是结合江苏省自然科学基金项目“分布多专利数据文献智能知识发 现及应用研究( 2 0 0 6 0 9 5 ) 的任务开展的,其目标是运用文本挖掘技术实现专利文献 的关键技术特征提取和多个专利类别间的关联度计算。 本文主要包括以下两个内容: 1 为了提取专利文献的关键特征,将无监督的特征选择算法应用到专利文本的分 析中,并在总结前人工作的基础上提出一个新的无监督的特征选择算法u f s c 。 2 提出了通过计算特征模式的相似度观察专利类之间的关联度的方法,并结合语 义词典h o w n e t ,提出了一个集合语义相似度计算方法t s c 。 1 4 2 论文组织结构 本文组织结构如下: 第二章主要介绍文本挖掘相关概念以及现状,对常用的几种专利分析方法进行介 绍。 第三章介绍利用无监督的文本特征提取技术对专利文献进行分析,提取出关键特征 的算法u f s c 。 第四章介绍专利类别间的关联度量化方法,并进行实验分析。 第五章是全文的总结以及未来的工作展望。 2 第二章相关背景介绍 第二章相关背景介绍 本章主要介绍专利的分类方法,专利内容的分析方法、文本挖掘的相关概念和应用 以及自然语言理解的研究现状。 2 1 专利分类介绍 随着全球化经济的发展,专利知识产权越来越受到企业的重视,专利申请量也迅速 增长。据统计,目前,世界每年的专利申请量以1 0 0 多万件的速度递增,累计总量己近 4 0 0 0 万件,我国专利数量也在2 0 0 万件以上。面对这些海量数据,为了尽快找到所需要 的专利信息,必须对专利进行整理,按照专利的内容进行分类。 在传统的专利分类方法中,每一件专利都会根据其技术内容被分类至某一个国际专 利分类码( i n t e r n a t i o n a lp a t e n tc l a s s i f i c a t i o n ,i p c ) 中,藉此加快检索速度。 i p c 分类号是根据1 9 7 1 年签订的国际专利分类的斯特拉斯堡协定编制的,是 目前唯一国际通用的专利文献分类和检索工具。在i p c 中,专利都按照部、大类、小 类、大组、小组的等级结构进行划分,其部分结构如表1 1 所示。 表2 1i p c 分类结构示例 部人类小类火组小组主题描述 a 0 l g l 3 0 0a 0 1 g 1 3 ,0 2 植物的保护性覆盖物;铺设覆盖物的装置 a o l g a 0 1 g l o oa 0 l g i 0 8 花坛,草坪等的边饰,如用花砖 a o l a 0 l ba o l b i 0 0a o l b l 2 0不同类型手动工具的组合 a 2 3a 2 3 fa 2 3 f 3 0 6a 2 3 f 3 0 6 提取前的茶处理( 减少或去除生物碱含量3 3 6 ) ; a 由此产生的配置品t 入( 3 1 6 ) ( 5 ) a 2 3 ba 2 3 8 4 oa 2 3 8 4 0 2 3 用食盐或其含有无机或有机化合物的混合物 a 4 3 b i 0 2用动物或植物纤维或其织品制的鞋 a 4 3a 4 3 ba 4 3 8 i 0 0 a 4 3 8 i 0 8金属制鞋( 鞋底入1 3 1 0 ) a 4 3 8 i 0 4 编制的,针织的,编结的或钩编的鞋 a 6 1 l 1 0 1 :4 2 无机金属化合物或混合物 a 6 1a 6 1 la 6 l l lo o o a 6 1 l 1 0 1 :0 0用于消毒、灭菌或除臭的化学组合物 a 6 1 l l o l :0 4 元素碳,例如:活性碳 b 2 l b l 5 0 0b 2 l b l 5 0 2 其中t 件受到内在的永久性扭曲,如用于生产 b 2 l b加强混凝土的钢筋 b 2 l b 2 l o o b 2 l b 2 i 0 6 用于在步与步问使工件旋转的装置 bb 2 1 在卷轴或卷筒材料的加载溯筒、螺栓或相当装 b 2 l cb 2 1 c 4 7 0 0b 2 1 c 4 7 0 6置 2 2 专利分析方法 专利分析法是指对有关的专利文献进行筛选、统计、分析,使之转化成可利用信息 的方法。专利分析首先要进行专利检索,包括查新检索、专利法律状态检索、技术跟踪 检索、侵权防御性检索等。检索入口可以是某一技术主题( 关键词或分类号) 、专利申 东南大学硕二 二学位论文 请( 专利权) 人( 国家、公司、个人) 、专利申请( 公开) 时间、专利地域或组合检索, 形成对某一技术、重要国家、重要公司、某一自然人、主要竞争对手在一定时间和地理 范围内的专利状况研究。 专利分析法分为定量分析和定性分析两种。定量分析即对专利文献的外部特征( 专 利文献的各种著录项目) 按照一定的指标( 如专利数量) 进行统计,并对有关的数据进 行解释和分析。定性分析是以专利的内容为对象,按技术特征归并专利文献,使之有序 化的分析过程。通常情况下需要将二者结合才能达到较好的效果。 1 定量分析的主要指标及其应用 专利分析的定量指标较多,不同的指标从不同的角度揭示专利信息。许多国家和知 识产权咨询机构都建立了自己的一套分析指标体系,比如美国摩根研究与分析协会 ( m o g e er e s e a r c h & a n a l y s i sa s s o c i a t i o n ) 、美国知识产权咨询公司c h i 等。而由于各 国家、地区申请专利的习惯并不相同,指标的计算方式也可能有所不同。2 0 世纪7 0 年代 早期,c h i 便与美国国家科学基金会一起研发出全球第一个科学成果指标,美国国家科 学基金会编写出版的美国科学与工程指标报告了采用c h i 的专利指标体系。o e c d 科技指标系列手册即弗拉斯卡蒂系列手册中的专利手册也介绍了c h i 指标的概念和 计算方法,并指出c h i 的指标最初主要针对公司设计,但同样适用于国家和地区。c h i 的一些主要指标及其他一些常用的指标如表2 2 所列。 表2 2c h i 的主要指标 指标名称含义应用 专利数量 一段时间内各技术领域、国家、公通过组合对比町评估当年或历年某 司、个人所获得的专利数量一技术领域、国家、公司或个人的技 术活动程度和水平,演变过程和发展 趋势 专利相对产出指数( a c t i v i t yi n d e x ) 公司在某技术领域的专利申请量与评估公司稿i 整个竞争环境中的相对 产业专利申请量的比例位置 同族专利指数某专利权人在不同国家或地区申反映专利权人中请的地域范围及其 请、公布的具有共同优先权的一组专潜在的市场战略 利数量 专利成长率某权利人在某段时间获得的专利数计算当前专利数量较前阶段增减的 量上一阶段的专利数量幅度,可显现技术创新随时问的变化 是增加还是迟缓 引证指数某专利被后继专利引用的绝对总次引证次数高,代表该技术属于基础 数性或领先技术,处于核心技术或位于 技术交叉点 即时影响指数( c u r r e mi m p a c t某产业或企业前五年专利的当年被如果实际被引用数与,f 均值相等, i n d e x ,c i i ) 引用次数系统中所有专利前五年专当前影响指数即为l 。影响指数大于 利的当年被引用次数的平均值l ,说明该技术有较人影响;小于l , 说明该技术影响较小 技术强度( t o t a lt e c h n o l o g y专利数量当前影响指数( c i i )专利数量在质量方面的加权,评估 s t r e n g t h ,t t s )公司专利的技术组合力量 相对专利产m 率某权利人在某一领域的专利申请量判断权利人的竞争位置,产i l l 率越 全部竞争者的申请堂高,竞争力越强 技术重心指数权利人在某技术领域的专利申请量判断某一固家和公j d 的研发重点 4 第二章相关背景介绍 其全部申请量 科学关联性( s c i e n c el i n k a g e ,s l )某公司专利平均所引证的科研学术评估某专利技术创新和科学研究关 论文或研究报告数量 系 技术生命周期( t e c h n o l o g yc y c l e 企业专利所引证专利之专利年龄的评估企业创新的速度或科技演化速 t i m e ,t c t ) 中位数度。t c t 较低,代表该技术较新且创 新速度快 科学力量( s c i e n c es 仃e n g t h ,s s )专利数量科学关联性评估一家公司使用基础科学建立该 公司专利组合的程度和公司在科学 一 :的活跃强度 2 定性分析 定性分析一般根据专利的内容特征进行分类或聚类,结合时间和空间,进行比较分 析、组合分析、关联分析、序列分析、预测分析等。例如,从专利文献的主要侧重面来 看,若某种技术专利文献的内容多以原理为主,说明该项技术处于新兴期;若以应用为 主,说明处于成熟期。 例如,加州理工学院的j a ye p a a p 教授领导的技术机会分析( t e c h n o l o g yo p p o r t u n i t y a n a l y s i s ,简称t o a ) 研究小组从2 0 世纪9 0 年代初就一直致力于采用文本挖掘方法,应 用专门软件,对大型数据库的主题词进行时间序列分析、聚类分析等,以发现科研的热 点领域和前沿领域,识别这些领域的研究专家和机构,并可将这些信息解释为创新状态 和前景的指示符。p o r t e r 教授的t o a 分析的软件包括四个步骤: ( 1 ) 搜索:即查找相关的数据源并检索出相应领域的电子形式数据。 ( 2 ) 计数:利用软件编辑、计算、排列结果。例如计算全部高频词、文摘数量、 作者及其所属单位,可表明某个主题正在升温还是开始变冷,与之相关的活动在时间上 呈现何种分布。 ( 3 ) 联系:采用t o a 软件提供的矩阵操作来帮助识别联系,进行聚类,追踪一段 时间内的变化,注视j 下在出现的新事物以及识别谁是某个领域最活跃的人。 ( 4 ) 表示:把结果转换到e x c e l 或者其他类型的电子表格和图形包旱,用图形表 示正在发生什么,对检索结果按时间片断显示事件地图是如何随时间演变。 2 3 文本挖掘介绍 在现实世界中,可获取的大部分信息是以文本形式存在的,如新闻文档、研究论文、 书籍、数字图书馆、电子邮件和w e b 页面等。 文本数据库中存储的数据可能是高度非结构化的,女h w w w 上的网页;可能是半结 构化的,如e m a i l 消息和一些x m l 网页;也可能是良结构化的。良结构化文本数据的典 型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日 期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和内容。通常,具有较 好结构的文本数据库管理系统可以使用关系数据库系统实现,而对非结构化的文本成分 需要采用特殊的处理方法对其进行转化。 2 3 1 文本挖掘的定义 文本挖掘是一个交叉的研究领域,它涉及到数据挖掘、信息检索、自然语言处理、 机器学习等多个领域的技术,不同的研究者从各自的研究领域出发,对文本挖掘的含义 有不同的理解。因此,对文本挖掘的定义也有多种,其中被普遍认可的文本挖掘定义如 下: 定义2 1 【l5 】( 文本挖掘) 文本挖掘是指从大量文本的集合c 中发现隐含的模式p 。如 东南大学硕+ 学位论文 果将c 看作输入,将p 看作输出,那么文本挖掘的过程就是从输入到输出的一个映射三: c _ p 。 文本挖掘也称为文本数据挖掘或文本知识发现,文本挖掘的主要目的是从非结构化 文本文档中提取有趣的、重要的模式和知识。可以看成是基于数据库的数据挖掘或知识 发现的扩展。 文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。 但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文本挖掘的对象是半 结构化或非结构化的,无确定形式并且缺乏机器可理解的语义,而数据挖掘的对象以数 据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘 技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础上。 2 3 2 文本挖掘的过程 对于文本挖掘的具体过程,存在两种观点。一种将文本挖掘视为文本知识发现 ( k n o w l e d g ed i s c o v e r yi nt e x t ) 的同义词,而另一种观点只是把文本挖掘视为文本知 识发现过程的一个基本步骤。在本文中,我们采用第一种观点。 文本挖掘的过程主要由以下步骤组成,如图2 2 所示。 l文本集 i 上 l 特征集的建立 上 特征集的缩减 上 学习和知识模式 的提取 上 模式质量的评价 上 知识模式 图2 1 文本挖掘的一股过程 1 特征集的建立 与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构,即使 具有一些结构,也还是着重于格式,而非文本内容,不同类型文本的结构也不一致。此 外,文本的内容用自然语言,现在计算机还很难处理其语义。文本信息源的这些特殊形 式使得现有的数据挖掘技术无法直接应用于其上。我们需要对文本进行预处理,抽取代 表其特征的元数据并用结构化的形式保存,作为文本的中间表示形式。 提取文本的特征的主要方法是分词技术。在对文档进行特征提取前,需要先进行文 本信息的预处理,如停词( s t e m m i n g ) 处理。并且由于中文词与词之间没有固有的间 隔符( 空格) ,需要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技 术两种: ( 1 ) 基于词库的分词算法 包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这类算法的特点 6 第二章相关背景介绍 是易于实现,设计简单;但分词的正确性很大程度上取决于所建的词库。因此基于词库 的分词技术对于歧义和未登录词的切分具有很大的困难。 ( 2 ) 基于无词典的分词技术 其基本思想是:基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行 出现频率的统计,出现的次数越高,成为一个词的可能性也就越大,在频率超过某个预 先设定的阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。 文本特征指的是关于文本的元数据,分为描述性特征( 如文本的名称、同期、大小、 类型等) 和语义性特征( 如文本的作者、机构、标题、内容等) 。特征表示是指以一定 特征项( 如词条或描述) 来代表文档,在文本挖掘时只需对这些特征项进行处理,从而 实现对非结构化的文本处理。我们认为文本特征可分为描述性特征和语义性特征。描述 性特征包括文本的名称、日期、大小、类型等,语义性特征包括文本的作者、机构、标 题、内容等。描述性特征容易获得,而语义性特征较难得到。 2 特征集的缩减 当我们将文本转化为文本特征向量后,常常会出现这样的现象:文本特征向量具有 惊人的维数。因此,特征集的缩减成为文本数据挖掘中必不可少的一步。特征集的缩减 包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度,或者 在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘目标选取 有用的特征,通过特征集的缩减,就可以得到代表文档集合的精简特征子集,在此基础 上进一步开展各种文本挖掘工作。 3 学习和知识模式的提取 完成文本特征向量的维数的缩减后,下一步的工作就是利用机器学习的各种方法来 提取面向特定应用目的的知识模式( 进行分类或聚类分析等) 。在此过程中,常用的方 法有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋 势预测等。 ( 1 ) 文本结构分析 其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方 式。最终结果是建立文本的逻辑结构,即文本结构树,根节点是文本主题,依次为层次 和段落。 ( 2 ) 文本摘要 文本摘要是指从文本中抽取关键信息,用简洁的形式对文本内容进行解释和概括。 这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。任何一篇文章总有 一些主题句,大部分位于整篇文章的开头或末尾部分,而且往往是在段首或段尾,因此 文本摘要自动生成算法主要考察文本的开头、末尾,而且在构造句子的权值函数时,相 应的给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组成相应的 摘要。 ( 3 ) 文本分类 文本分类的目的是设计一个分类模型,该模型能把文本映射到己存在的多个类别中 的某一类,使检索或查询的速度更快,准确率更高。训练方法和分类算法是分类系统的 核心部分。用于文本分类的分类方法较多,主要有朴素贝叶斯分类( n a t i v eb a y e s ) 、 向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、 k 最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘( l i n e a rl e a s t s q u a r ef i t ,l l s f ) 等。 ( 4 ) 文本聚类 文本聚类属于无指导的学习过程,聚类没有预先定义好的主题类别,它的目标是将 7 东南人学硕j 二学位论文 文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似 度尽可能小。目前,有多种文本聚类算法,大致可以分为两种类型:以g h a c 等算法 为代表的层次凝聚法【l2 j 和以k m e a n s 等算法为代表的平面划分法【1 3 1 。 4 模式质量评价 经过挖掘和提取操作得到知识模式后,需要对所获取的知识模式进行质量评价,若 评价结果满足一定的要求,则保存知识模式,否则返回以前的某个环节进行分析改进后 进行新一轮的挖掘工作( 对分类或聚类的结果进行评价) 。 为了客观地评价文本挖掘的效果,人们提出了很多评测方法,比较常用的有准确率 ( p r e c i s i o n ) 和查全率( r e c a l l ) 。 准确率是所有被分类的文本中被正确分类的文本所占的比率,其数学公式表示如 下: 准确率c p r e c i s t 。n ) = 善善 | i | 兽圣器 ( 2 , 查全率是人工分类结果应有的文本中正确分类的文本所占的比率,其数学公式表示 如下: 查全率( r e c a l l ) = 笔器 ( 2 - 2 ) 胜伺又_ 令双 准确率和查全率反映了分类质量的两个不同方面。 2 3 3 文本挖掘中文本的表示模型 自从文本检索( a u t o m a t i ct e x tr e t r i e v a l ) 和信息检索( i n f o r m a t i o nr e t r i e v a l ) 概念 被提出后,出现了许多基于文档( d o c u m e n t ) 和问题( q u e r y ) 之间相关词语比较的计 算模型,具有代表性的有布尔模型( b o o l e a nm o d e l ) 、向量空间模型( v e c t o rs p a c e m o d e l ) 、概率模型( p r o b a b i l i s t i cm o d e l ) 等。这些模型从不同角度出发,使用不同的 方法处理特征加权、类别学习和相似计算等问题: ( 1 ) 布尔模型是基于特征项的严格匹配模型,它可以看作是向量模型的一种特例, 根据特征是否在文档中出现,特征的权值取1 或0 。其过程如下:建立一个二值变量的集 合,这些变量对应于文本的特征项。文本用这些特征变量来表示,如果出现相应的特征 项,特征变量取l ;否则,特征变量取o 。查询由特征项和逻辑运算符“a n d ”、“o r 和 n o t 组成。文本与查询的匹配规则遵循布尔运算的法则。 布尔模型在2 0 世纪6 0 7 0 年代得到了较大的发展。其主要优点是:速度快,易于表 达一定程度的结构化信息,如同义关系( 电脑o r 微机o r 机算机) 或词组( 文本a n d 过滤a n d 系统) 。其缺点是:把布尔模型作为文本的表示很不精确,不能反映特征项 对于文本的重要性,缺乏定量的分析,规则过于严格,缺乏灵活性,更谈不上模糊匹配, 应用的结果可能忽略了许多满足用户需求的文本。 ( 2 ) 向量空间模型中,文档d 被看作一系列无序词条的集合,对每个词条加上一个对 应的权值,矢量空间模型以矢量表示文本:l ,6 0 2 ,( i ) n ) ,其中( i ) i 为第i 个特征项的权 重。要将文本表示为矢量空间中的一个矢量,首先要将文本分词,由这些词作为向量的 维数来表示文本。最初的矢量表示完全是0 、1 形式,当文本中出现了该词,那么文本向 量的该词为1 ,否则为0 。这种方法无法体现这个词在文本中的作用程度,逐渐被更精确 的词频代替。词频分为绝对词频和相对词频,前者即词在文本中出现的频率,后者为归 一化的词频,即: 8 j = 第二章相关背景介绍 其中蛐为归一化前的权重,i 为归一化后的权重。 矢量空间模型将文档映射为一个特征矢量:v ( d ) = ( t l ,c o l ( d ) ,t n ,6 0 。( d ) ) 其中t i 为词条 项,0 2 i ( d ) 为t i 在d 中的权值。蛾( d ) 一般被定义为t i 在d 中出现频率t f i ( d ) 的函数,即 ( ) ( d ) 邓( t 毛( d ) ) 。在信息检索中常用的词条权值计算方法是t f i d f 函数,其形式为 l i ,:f f ( d ) l o g ( 盟) ,其中n 为所有文档的数目,为含有词条f f 的文档数目。下面是一 1 。 个常用的t f i d f 公式: ( d ) = t f k ( d ) 1 。g ( 坐+ 0 0 1 ) 仇 ( 2 3 ) 其中t f i k ( d ) 表示词条t k 在文档d i 中出现的频率,n 表示全部样本文档的总数,n k 表示包 含词条t k 的文档数。 根据t f i d f 公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的 能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分 文档内容属性的能力越强,其权值越大。 向量空间模型的优点在于,将文本和查询简化为项及权重集合的向量表示,从而把 检索操作变成向量空间上的向量运算,其权重计算可以通过简单的频数统计来完成,通 过定量的分析,匹配文本和查询。在这个基础上,引入各种成熟的统计方法,更大程度 的挖掘文本中蕴含的语义信息。如主成分、因子分析、聚类分析等。 向量空间模型的缺点在于项之间存在线性无关的假设。在自然语言中,词或短语之 间存在着十分密切的联系,即存在“斜交”现象,很难满足假定条件,因此对计算结果的 可靠性造成一定的影响。此外,将复杂的语义关系归结为简单的向量结构,可能丢失了 许多有价值的线索。因此,有许多改进的技术,以获取深层潜藏的语义结构。 ( 3 ) 概率模型是基于概率排序原则,对于给定用户查询q ,对所有文本计算概率,并 从大到小排序。概率公式为p ( r i d ,q ) 。其中,r 表示文本d 与用户查询q 相关。另外,用 r 表示文本d 与用户查询q 不相关,有p ( r i d ,q ) + p ( r i d ,q ) = 1 ,也就是二值形式判断相关 性。把文本用特征向量表示为:x - - ( x 1 ,x 2 ,x n ) 。其中,n 为特征项的个数,x i 为0 或1 , 分别表示特征项1 在文本中出现或不出现。 在实际信息检索中,估计参数是困难的,一般并不直接计算p ,而是把计算p ( r i d j ,q k ) 换为计算p ( r i x ,q k ) ,这样处理略去了公式中与文本无关的特征项,计算的结果可能与实 际不符。为了实现计算,假设包含相同特征项的文本,经过计算后,它们的可能性是相 同的。将所有文本按相关概率p 进行排序,等价于将所有文本按特征向量排序。任一个 文本d 的概率相关性的计算为: 一 r ,1 一仃、 尸( 尺id 伪= x l g 盟业( 2 4 ) 7 一呸( 1 一只) 其中,f = p ( x = 1r ,q ) ,q = p ( x = 1r ,9 。参数b ,吼主要是通过相关反馈 9 东南大学硕:j :学位论文 进行估计,简单的方法如下: p f = ,q f = ( ,z f 一) ( 刀一,) ( 2 5 ) 其中,n 为反馈文本集所含文本总数,r 为与用户查询相关的文本数,。n i 为特征i 出现 的文本个数,r i 为特征i 出现且与用户查询相关的文本个数。 在数据挖掘常用算法中,决策树方法、关联规则方法和b o o t i n g 方法就是基于布尔模 型的算法;而k n n 法、s v m 方法、最小线性二乘法l l s f ( l i n e a rl e a s ts q u a r ef i t ) 则 是基于向量模型的算法。贝叶斯推理网分类方法,则考虑了文档中词之间的依赖关系。 本文采用向量空间模型来表示文本。 2 4 中文自然语言理解概述 自然语言是指人们同常使用的语言,它是人类学习和互相通讯的工具。自然语言处 理( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称n l p ) 是语言信息处理的一个分支,是研究使用 计算机理解和生成自然语言的基础理论和基本技术。处理自然语言的关键是要让计算机 “理解”自然语言,因此自然语言处理又叫自然语言理解( n a t u r a ll a n g u a g e u n d e r s t a n d i n g ,简称n l u ) p 引。自然语言理解分为1 3 7 j : ( 1 ) 语言的理解:通过语音识别、理解与合成,使计算机能“听懂”,并做出回答。 ( 2 ) 书面语的理解:把文字输入计算机,通过分析和生成使计算机能“看懂”,并做 出回应。 现代语言学家将语言的分析和理解分为三个层次:词法分析、句法分析和语义分析。 其中词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息;句法分析是对 句子和短语的结构进行分析,主要目的就是找出词、短语等的相互关系以及各自在句子 中的作用;语义分析就是通过分析找出语义、结构意义及其结合意义,从而确定语言所 表达的真正含义。 在词法分析方面,1 9 8 3 年国内实现了第一个汉语自动分词系统c d w s f 3 9 】,此后又有 数个系统问世,并提出了多种分词方法。 而在句法分析和语义分析方面,语料库统计方法研究在国内广泛兴起。19 7 9 年,武 汉大学建设的汉语现代文学作品语料库,共计5 2 7 万字,是我国最早的机器可读语料库。 北京大学计算语言学研究所与富士通公司( f u j i t s u ) 合作,加工2 7 0 0 万字的人民r 报 语料库,加工项目包括词语切分、词性标注、专有名词( 专有名词短语) 标注。台湾建 立了平衡语料库( s i n i c ac o r p u s ) 和树图语料库( s i n i c at r e e b a n k ) ,两个都是标记语 料库,有一定加工深度,语料库规模约5 0 0 万字。北京邮电大学在美国l d c 的汉语句法 树库的基础上进行自动获取语法规则的研究,l d c 的“树库”包含新华社1 9 9 4 至i j l 9 9 8 年 的3 2 5 篇文章,包含4 1 8 5 颗树,1 0 万个词1 4 0 l 。 在本文中,我们采用中科院计算所的i c t c l a s 来对专利文本进行预处理,该方法在 9 7 3 专家组评测了国内主要的汉语词法分析系统后获得最好成绩。i c t c l a s 提出了一种 基于层叠隐马模型的汉语词法分析方法,将汉语分词、词性标注、切分排歧和未登录词 识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马模型,未登录 词和词典中收录的普通词一样处理;未登录词识别引入了角色h m m - 首先标注出全局 最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度; 在切分排歧方面,提出了一种基于n 最短路径的策略,即:在早期阶段召回n 个最佳结 果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性 标注之后,从n 个最有潜力的候选结果中选优得到。 1 0 第三章专利文献关键特征发现方法研究 第三章专利文献关键特征发现方法研究 本章主要解决发现专利文献中关键特征以提高聚类质量的问题,在此过程中提出一 个新的无监督特征选择算法u f s c 。 3 1 问题的提出 数据挖掘逐渐成为专利信息分析方法的发展趋势,基于数据挖掘技术的专利分析系 统如雨后春笋般涌现出来。这些分析系统对于专利所包含的文本数据如摘要、权利说明 书都提供了文本聚类、文本分类等文本挖掘技术。 通过对这些基于数据挖掘技术的专利分析系统的了解,文本聚类在专利信息分析中 的应用有以下几个方面: 1 专利分类 文本聚类通过将专利文本转化成机器可处理的结构化数据,然后通过聚类算法将数 据集划分成若干个类,每一类体现相对接近的文本主题。主题可以是专利的技术原理、 实用范围、外观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 东北刨幺活动方案
- 东莞班级团建活动方案
- 个人晚会活动方案
- 个人遗嘱活动方案
- 丫丫农场活动方案
- 中介行销活动方案
- 中医传统活动方案
- 中医院冬病夏治活动方案
- 中国学校营养日活动方案
- 中国气象活动方案
- 【MOOC】国际商务-暨南大学 中国大学慕课MOOC答案
- 附件四维性格测试表你的颜色
- 羽毛球社团活动教案记录表
- 《宝葫芦的秘密》作业设计
- 中式面点技师、高级技师理论参考的试题(完整版)实用资料
- 全国社保行政区域划分代码
- GB/T 32892-2016光伏发电系统模型及参数测试规程
- 抹灰施工工艺培训课件
- 部编人教版六年级下册语文 第六单元素养提升卷 优质试题课件
- 集团公司落实子企业董事会职权工作方案
- 教程5.13g加密所属
评论
0/150
提交评论