信息检索技术论文.doc_第1页
信息检索技术论文.doc_第2页
信息检索技术论文.doc_第3页
信息检索技术论文.doc_第4页
信息检索技术论文.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索技术论文 近年来计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展今天小编要给大家介绍的便是信息检索技术论文欢迎阅读! 信息检索技术论文 摘要通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现 关键词专利文献计算机检索语义检索图像检索 1、前言 近年来计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展专利文献的计算机检索技术正成为情报检索领域研究的热点下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展 2、多语言混合检索 专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献因此一般以各局官方语言出版虽然大部分专利文献是英语文献但是仍然存在大量日文、中文、德文、法文及其他语种的文献出版语言的多样性给专利文献的检索和利用带来了极大的障碍要实现多语言混合检索机器翻译是必不可少的技术目前一些专利局在其上推出了机器翻译系统例如我国国家知识产权局提供有汉英机器翻译日本特许厅提供有日英机器翻译韩国知识产权局提供有韩英机器翻译等上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用 随着计算机技术的发展机器翻译的技术也迅速发展从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等尤其是近年来语言学和人工智能技术的发展以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点专利文献作为一种特殊的科技文献由于其具有特定的句法和语言结构同时例如权利要求书等具有法律公示性文件的作用这对翻译的准确性提出了更高的要求已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量 已有的机器翻译系统基本局限于单篇文献的机器翻译无法实现真正的多语言混合检索多语言混合检索系统不仅可以允许混合语言的检索式而且同一个检索式还可以对不同语言的专利文献进行检索其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式翻译检索式的工作量小比较适合于因特网检索但由于检索式通常缺乏语境翻译难度较大;翻译文献的方式虽然有利于提高翻译质量进而有利于文献检索但存在的主要问题是翻译量太大、翻译时间长 3、分类检索 分类号一直是专利文献检索的重要手段目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系分别是UC、FI/FT和ECLAIPC虽然通用但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷导致使用IPC检索的效果欠佳UC和FI/FT分别只能检索美国和日本的专利文献ECLA虽然能够检索到多国的文献但仍然不能有效地检索日本、韩国、中国等国的专利文献 为改善这种局面美国、日本和欧洲自2000年即开始了“三边分类和谐计划”该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能同时对现有IPC分类体系提出改进建议依据年召开的第27次三边会议韩国知识产权局已经加入上述计划而中国国家知识产权局也以观察国的身份参与这项工作此外近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作其中一个重要的合作项目是“共同的分类”该项目的实施将有利于提高分类的一致性扩展或细化部分技术领域的分类进而提高检索的效率和质量 不管是美日欧三方开展的“三边分类和谐计划”还是五局共同开展的“共同的分类”项目都必将推进专利文献分类体系的进一步发展实现真正意义上的“基于检索的分类”进一步增强分类号在专利文献计算机检索中的作用 4、语义检索 当前专利文献检索的主要手段为关键词和分类号检索而由于一词多义、一义多词专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题本质上决定了其查全率和查准率受限制随着计算技术、人工智能、自然语言处理等技术的发展搜索引擎的智能化有望从根本上提高现有检索系统的检索质量 搜索引擎的智能化具体表现为语义检索也称为知识检索或概念检索语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式语义检索的本质在于以语义为对象进行搜索而不是对字符串进行简单的机械匹配因此可避免关键词匹配检索中由于词和义不对应所导致的问题 语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述保证人和机器对词汇的理解一致 最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合可以揭示文档中的词间关系因而适于构建专利文献搜索引擎”利用语义进行检索还可以将专利文献中的非技术性信息考虑在内例如将特定的技术概念和申请人、发明人等信息进行语义联系此外语义检索还可以从用户角度出发考虑用户的检索需求从而为诸如查新、侵权等不同目的的检索提供相应的结果 近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统例如东方灵盾开发的专利检索系统和Patenticst网站Patentics网站除了可以实现传统的关键词检索功能还支持语义检索仅通过输入检索所针对的专利文献号即可自动对其进行语义分析、文献检索并对结果进行相关度排序当前专利文献检索领域还未广泛应用语义检索但随着研究的深入相信未来的搜索引擎不仅能利用语义技术提高检索的效率还有望能对检索结果进行分析、评价甚至自动生成检索报告 5、图像检索 根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)专利文献一般都带有大量的附图包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等与传统的关键词检索和分类号检索相比CBIR更加直观、快速而且可以克服因文字表述差异而导致的漏检因此它正在成为专利文献检索领域的研究热点专利文献的附图都是黑白二元图像(本文 所称专利是指发明和实用新型专利不包括外观设计专利)不存在颜色和纹理等特征因此专利文献的图像检索主要是基于形状和区域的图像特征 虽然目前还没有成熟的专利文献图像检索系统但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统例如IITKanpur的PATseek、InformaticsandTelematicsInstitute的PatMediat以及LTUtechnologies公司的ImageSeeker等PATseek专门针对美国专利文献进行图像检索而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献这两个图像检索系统都可实现直接输入待检索的图像系统自动进行相似度匹配直接提供专利附图同时还可以进行基于文本的图像检索 典型的专利图像检索系统包括专利文献处理部分和图像检索部分如图1所示: 文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库在图像检索部分基于上述提取的元数据进行图像相似度匹配同时还可以基于文本进行图像检索与一般领域的图形检索相比由于专利文献中每幅图形一般都对应有文字描述即使不再进行人工标注或自动标注都能提取到较好的高层语义特征这对提高专利文献图形检索的准确性非常有帮助 目前专利文献图像检索系统仅处于试验阶段只能对数量非常少的特定专利文献进行检索且检索结果相关度还不是很高但由于图像检索具有其他任何检索方式都不具备的优点相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展实现高精度的图像检索必将成为现实 6、辅助技术 高质量的专利文献是提高检索质量的基础专利文献分类、标引和摘要改写是专利文献加工的主要内容传统的专利文献加工方法主要依赖于人工其成本高且速度受限制质量不统一随着人工智能和计算机技术的发展开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类 专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明对于使用K临近算法进行自动分类的情况下先将专利文献按部分结构化为语义单元可以提高74%的效率 PATExpert代表了目前较先进的专利文献自动处理技术的发展通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达该系统可以执行的处理任务包括:专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等 国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究这些研究大部分集中在统计分类技术近年来随着人工智能技术的兴起基于人工智能或语义的专利文献自动分类发展迅速例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类 中文专利文献的自动处理仍处于研究阶段虽然国外专利文献自动处理已经积累了许多宝贵经验但由于中文表述的特殊性许多技术还待消化和开发例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍随着信息处理自动化相关技术的发展专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化这给搜索引擎的发展带来了极大的便利同时利用语义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论