下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专利新词发现的双向聚合度特征提取新方法专利新词发现的双向聚合度特征提取新方法摘要:随着互联网的发展,大量的专利文书被公开并存储在专利数据库中。专利文书中包含大量的技术词汇和新词,对于技术领域的研究和创新具有重要意义。本论文提出了一种新的方法来提取专利文书中的新词,即专利新词发现的双向聚合度特征提取新方法。该方法能够根据专利文书中的双向聚合度特征,快速准确地识别出具有创新性和潜在商业价值的新词。关键词:专利新词发现;双向聚合度特征;特征提取;创新性1.引言随着科技的发展和创新的加速,专利文书成为了记录和保护技术创新的重要手段。专利文书中包含了大量的技术词汇和新词,这些新词对于领域内的研究和技术发展具有重要意义。因此,专利新词的发现成为了一个热门的研究方向。目前,专利新词的发现方法主要有基于统计学的方法和基于自然语言处理的方法。基于统计学的方法通过统计词频和共现信息来发现新词,但是由于单纯的词频统计难以区分新词和常见词,所以该方法往往会产生很多噪音词。基于自然语言处理的方法通过研究词的语义和上下文信息来发现新词,但是该方法往往需要大量的计算资源和语料库支持。为了克服以上方法的缺点,本论文提出了一种新的方法来提取专利文书中的新词,即专利新词发现的双向聚合度特征提取新方法。该方法利用了专利文书中双向聚合度特征的独特性,通过对专利文书的特征提取和分析,快速准确地识别出具有创新性和潜在商业价值的新词。2.方法介绍2.1数据预处理首先,需要对专利文书进行预处理,主要包括文本清洗、分词和去停用词等步骤。文本清洗主要是去除文本中的噪音和特殊字符,以及过滤掉一些无关的信息。分词是将文本按词进行切分,以便后续的词频统计和特征提取。去停用词是过滤掉一些无实际含义的常见词,如“的”、“了”等。2.2双向聚合度特征提取双向聚合度特征是指一个词在文本中的左邻和右邻词集合的聚合度。通过计算一个词的左邻和右邻词集合的聚合度,可以得到该词的双向聚合度特征。具体计算方法如下:首先,对于每个词,计算其在文本中的左邻和右邻词集合。左邻集合是指该词前面出现的词集合,右邻集合是指该词后面出现的词集合。然后,对于一个词的左邻词集合或右邻词集合,计算其聚合度。聚合度可以用来表示该词与其左邻词集合或右邻词集合的紧密程度。聚合度越高,表示该词与其左邻词集合或右邻词集合的关联性越高。最后,将左邻聚合度和右邻聚合度进行综合考量,得到一个词的双向聚合度特征。综合考量可以通过计算左邻聚合度和右邻聚合度的平均值、加权平均值等方式进行。3.实验与结果为了验证本方法的有效性,我们从专利数据库中随机选择了一部分专利文书,进行了实验和结果分析。实验结果表明,本方法能够较好地提取出具有创新性和潜在商业价值的新词。与基于统计学的方法和基于自然语言处理的方法相比,本方法具有更高的准确性和效率。4.结论本论文提出了一种新的方法来提取专利文书中的新词,即专利新词发现的双向聚合度特征提取新方法。该方法通过对专利文书的双向聚合度特征进行提取和分析,能够快速准确地识别出具有创新性和潜在商业价值的新词。实验证明,该方法具有较高的准确性和效率,可以有效地应用于专利新词发现领域。参考文献:1.Wei,Z.,He,Z.,Chen,C.,&Wang,S.(2016).ExtractionofKeyTechnologyInformationfromCombiningPatentClassificationandTextAnalysis.MathematicalProblemsinEngineering,2016,1-14.2.Wu,P.,Du,H.,Lu,M.,&Wang,M.(2018).ANovelMethodforPatentNewWordRecognitionBasedonTextMining.AppliedSciences,8(3),436.3.Yang,J.I.,Choi,H.,&Yu,H.(2010).NewterminologyextractionusingaPatent-Qu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年精密过滤输液器项目安全评价报告
- 2023年电子金融项目风险评价报告
- Unit 1 How can I get there?第一、二课时(学案)2023-2024学年英语六年级上册-人教PEP版 无答案
- Module 1 Unit 1 Whats your hobby 第一课时(教案)教科版(广州)英语五年级上册
- 2023年热力工程设备项目安全风险评价报告
- 《衣服破了我会补》(教学设计)-五年级劳动北师大版
- 5、有人脸的器物(教学设计)2023-2024学年美术四年级下册 人美版
- 辽宁省大石桥市周家镇中学2024年中考语文全真模拟试题含解析
- 聚烯烃弹性体的结构
- PBT材料的性能及应用
- 2024年05月四川省教育评估院2024年公开招考4名编外工作人员笔试笔试历年典型考题及考点研判与答案解析
- 2023年海南开放大学招聘专业技术人员考试真题
- 跨文化交际智慧树知到期末考试答案章节答案2024年苏州大学
- 2023年北京海淀初二(下)期末历史试卷及答案
- 劳动教育智慧树知到期末考试答案2024年
- 老年食堂运营方案策划书
- 国家开放大学电大《言语交际》形考任务1-2试题及答案
- 初中物理图表信息专题含答案
- 北京市西城区2020-2021学年下学期高一年级期末考试政治试卷
- 衢州市2023年高一化学竞赛试题
- 国开电大 可编程控制器应用实训 形考任务4实训报告
评论
0/150
提交评论