分布式专利信息抽取系统设计与构建,搜索引擎论文_第1页
分布式专利信息抽取系统设计与构建,搜索引擎论文_第2页
分布式专利信息抽取系统设计与构建,搜索引擎论文_第3页
分布式专利信息抽取系统设计与构建,搜索引擎论文_第4页
分布式专利信息抽取系统设计与构建,搜索引擎论文_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式专利信息抽取系统设计与构建,搜索引擎论文【内容摘要】作为重要专利信息源,德温特数据库能够为研究者提供丰富的资源,但其数据导出格式局限性较大且只包含内容摘要等信息,不利于进一步深切进入分析。设计并实现基于多Agent平台的分布式德温特专利信息抽取系统,将专利信息导入到本地数据库中;并针对USPTO库提供专利具体信息自动获取。该系统抽取效率较高,为专利研究提供较好的信息获取途径。【本文关键词语】专利信息抽取负载平衡。1引言1.1需求分析。德温特创新索引〔DerwentInnovationIndex,DII〕[1]是专利研究领域重要的数据来源,在课题组研究中,发现并总结了专利数据获取经过中的问题如下:固然德温特专利数据库提供多种检索方式,但检索结果导出的形式却比拟有限〔例如或纯文本格式〕,不利于数据分析阶段的处理;从所包含内容的角度,德温特专利数据库仅为内容摘要库,不包含专利文档原文;专利分析与研究领域大数据的特征日益显着,信息获取的速度和效率需要提升。针对上述实际问题和现有专利信息获取软件的功能,确定系统需求如下:〔1〕基于多Agent〔Mutil-Agent〕平台,构建德温特专利信息抽取系统。以用户下载到本地的专利文档作为系统输入,抽取文档中的信息并存储到本地数据库中;〔2〕主要面向USPTO[2]专利数据库提供专利具体信息的抽取,通太多Agent系统的消息机制实现上述经过的协同;〔3〕针对大数据处理效率的问题,设计并构建分布式系统。华而不实,本地服务器用于德温特专利信息抽取,异地服务器负载的计算和任务分发,部署在异地的服务器用于任务接收、负载情况反应和面向USPTO专利数据库的专利具体信息获取。1.2国内外研究现在状况。在信息抽取领域中多Agent系统的研究方面,Bedi等[3]基于多Agent系统的体系构造,提出将定制Web搜索与信息线索相整合,设计并实现了网页信息检索与抽取系统。Pavlin等[4]提出了支持构建模块化的贝叶斯融合系统的设计谋略和方式方法论,面向大量异构的含噪声信息,使用多Agent系统完成分布式的信息抽取和贝叶斯信息融合。Jumadinova等[5]研究了多Agent系统用户获取、分析相关数据用以对市场进行预测。国内方面,张俊等[6]将多Agent系统应用于数据处理〔数据抽取、转换、加载〕领域,基于Agent之间的协作机制进行实时ETL〔Extract-Transform-Load〕,提高了数据加载和更新的效率;翟东升等[7]基于多Agent系统,使用XML模板,设计并实现了USPTO专利抽取系统。综上,多Agent系统具有模块化程度高、构造开放程度高、并行性等优势,合适用于解决信息抽取领域并行处理多目的的任务,且当下的应用范围较为广泛。随着大数据特征的日益凸显,将多Agent系统分布式计算与抽取规则引擎相结合完成信息抽取能够大大提升专利信息获取的效率和灵敏性,知足迅速增长的数据采集需求。在分布式系统的负载平衡机制研究方面,Kunz[8]以为,采用简单因子进行负载平衡就能够使系统效率显着提升,并且不同因子对系统效率的影响具有较大差异;针对服务器计算能力不同但各通信参数一致的情况,Bahi[9]提出异步负载平衡迭代算法并验证了算法的有效性。国内方面,马雪梅[10]以为,对一个分布式系统而言,负载平衡的实现是系统整体效率提升的关键,并提出了负载平衡指标体系建立的方式方法论;王春娟[11]提出了一种针对Web集群的负载平衡算法。综上,当下的文献表示清楚,存在一些具有普适性的指标,例如网络速度、内存空闲率和CPU使用率等。并且,分布式系统的负载平衡指标选择应考虑简单性以及低耦合性。上述负载平衡调度算法的应用对象是一般分布式系统〔如分布式网络服务器等〕,但基于Agent系统的专利信息抽取工作具有其本身特点〔如Agent的协作情况等〕,因而在研究中需要结合实际情况对负载平衡机制进行重新设计和应用。另外,基于Agent的分布式系统调度特性具有与人类感官直觉相类似的特点,有利于负载平衡机制的设计与效率提升。2系统流程与架构明确系统开发需求后,构建系统工作流程与系统架构。系统工作流程如此图1所示:〔1〕用户在德温特专利数据库中检索所需专利并下载格式的专利信息页面作为系统输入;〔2〕进行专利抽取并将信息存储在本地数据库,向用户反应专利信息,并由用户选择需要获取具体信息的专利;〔3〕将具体信息抽取任务分发给部署在异地的服务器,即具体信息采集集群,任务分发的策略须考虑负载平衡;〔4〕各具体信息抽取模块构造在USPTO专利数据库中的原始专利信息页面的URL,并将具体的专利信息下载至本地数据库,提供相关统计信息作为系统输出。系统总体架构如此图2所示:由底层向上,分别为硬件资源层、软件平台层、核心组件层和系统功能层。硬件资源即为系统硬件基础,以它为基础搭建软件平台层,即系统的若干相关技术和开发平台;核心组件层是将系统功能与关键技术相关联的核心中间件,根据系统的应用实际,将该部分抽象为4个模块,便于将来增加其他功能或功能升级;系统功能层为与核心组件层的模块相对应的工具包,为用户提供相关服务。3系统设计系统划分为如下功能模块:DII专利信息抽取模块、任务分发模块和USPTO专利信息抽取模块,如表1所示:上述功能模块中,本文主要研究内容是模块1和模块2,模块3部分重用课题组的研究成果[12],对相关内容进行改写。模块开发策略方面,使用多Agent.3.1DII专利信息抽取模块设计。模块输入为用户下载的德温特专利信息文档,格式为!基于模板对文档中的专利信息进行抽取,并将抽取结果存入本地数据库。为实现该模块功能设计如下Agent:①用户接口Agent,用于用户与系统间的信息交互,提供GUI,便于用户对系统进行操作。②中心控制Agent,是本模块的控制核心,它将用户的操作指令提交至相关二级调度Agent!并在任务完成后,向下一通信节点转发相关信息。③爬行控制Agent,用于接收任务消息后及时进行任务分发,综合调度爬行Agent,使其完成页面信息爬取任务,并上报最终结果。④抽取控制Agent,用于根据抽取Agent的实时情况分配抽取任务。⑤爬行Agent,为该系统功能模块的实际任务完成者之一。用于解析流文件形式的专利信息页面,并转换为StringBuffer形式存储在内存中以便于后期的信息抽取。⑥抽取Agent,为该系统功能模块的实际任务完成者之一。用于预处理内存中的专利信息,将其格式转化为标注的XML文件,然后抽取华而不实信息映射到本地数据库。该模块整体架构如此图3所示:〔1〕用户接口Agent.用户接口Agent包括两个组成部分:前台界面GUI和后台控制Agent类。前台GUI用于实现用户交互,后台Agent用于传送用户请求,即通过Jade平台的黄页服务与中心控制Agent进行通信,转发用户请求至中心控制Agent,并由其进行调度以实现系统功能。〔2〕中心控制Agent.中心控制Agent是系统的一级调度模块,也是本模块控制的核心。其主要任务为用户接口Agent与二级调度Agent之间的通信。其信息时序图如此图4所示。在接收到用户接口Agent发送的构建Agent任务后,中心控制Agent首先将消息内容进行切分。将构建参数中的信息分类,并根据其所需构造Agent的种类将消息打包,转发给爬行控制Agent及抽取控制Agent.当接收到Agent构造完成的消息后,中心控制Agent将其整合,并发送给用户接口Agent,以示完成Agent的构造经过。当接收到用户接口Agent发送的抽取任务消息时,中心控制Agent对其进行解析,若任务参数途径正确,则向爬行控制Agent转发此消息,由其完成专利页面爬行任务。当接收到页面爬行任务完成的信息时,中心控制Agent向抽取控制Agent转发该消息,由其基于页面爬行的结果实现数据抽取任务。抽取任务完成后,抽取控制Agent发送信息抽取完毕的消息,中心控制Agent将其转发至用户接口Agent,向用户反应抽取任务完成。〔3〕爬行子模块。爬行子模块主要包含爬行控制Agent和爬行Agent两类。爬行控制Agent,用于注册爬行Agent,并调度其完成页面信息爬取;爬行Agent,用于接收相关专利信息爬取任务,并上报爬取结果。该子模块的基本信息流时序图如此图5所示:在接收到构造爬行Agent任务后,爬行控制Agent将获取到相关构造参数,并将其传送至动态开创建立Agent的方式方法中,以实现爬行Agent的构建。当接收到中心控制Agent发送的任务时,爬行控制Agent通过其Cy-clicBehaviour行为进行任务分发。当爬行Agent任务完成后,将状态修改为空闲并发送消息。最后,由爬行控制Agent向中心控制Agent发送页面爬行任务完成的消息。〔4〕抽取子模块。抽取子模块包含抽取控制Agent和抽取Agent.华而不实,抽取控制Agent主要用于接收消息并调度抽取Agent完成对爬行Agent所爬取页面信息进行格式转换和面向本地数据库的数据映射。其调度经过与爬行子模块类似,这里不再赘述。3.2任务分发模块设计。任务分发模块由用户接口Agent和任务控制Agent两部分构成。华而不实,用户接口Agent用于将抽取的德温特专利信息向用户展示,提供GUI供用户选择所需的专利具体内容,用户对相关专利做出选择后,向任务控制Agent传送该信息。任务控制Agent主要用于接收用户接口Agent发送的任务信息,并在本身任务池中存储待抽取具体信息的专利号。对部署在异地的服务器进行状态轮询,并计算其负载情况,根据此分发任务。该模块的总体设计如此图6所示:任务控制Agent是分布式系统负载情况的计算核心以及与异地服务器进行通信的核心。它与异地服务器之间的信息交互时序图如此图7所示。部署在异地的服务器在注册中心控制Agent时,会首先向任务控制Agent发送相关消息,以示本身注册已完成并能够接受任务。在接收到来自于用户接口Agent的任务执行消息时,任务控制Agent从接收到的信息中抽取出相关任务数据并进行格式处理,然后将处理后的详细任务信息排入任务队列中。之后,对异地服务器状态进行轮询,异地服务器会及时反应本身负载状态。接收到状态消息后,任务控制Agent将相应服务器的信息参加状态管道之中并计算全部异地服务器负载状况,根据此进行任务分配。异地服务器完成具体信息抽取任务后,返回抽取结果,由任务控制Agent转发至用户接口Agent实现抽取任务完成的反应。3.3分布式多Agent系统通信设计。〔1〕任务控制Agent与异地服务器的通信机制。异地通信使用Agent平台的AMS〔AgentManage-mentSystem〕服务,这是一个负责管理Agent平台并提供用户信息数据库服务的管理Agent.其通信方式的步骤如下:①定位AMS通信参数〔主机名称、IP地址、通信端口〕;②使用AMS服务获取其所在容器;③通过AMS服务的静态方式方法Search,获取该容器中的Agent列表;④对列表进行遍历,搜索到需要通信的异地Agent.〔2〕异地中心控制Agent的消息上报机制。对USPTO专利抽取系统[12]的中心控制Agent施行相应改写。为知足当下系统要求,为其增加新的行为变量。异地中心控制Agent的消息上报机制如此图8所示:注册之后,它将其IP地址和端口号等信息打包并发送至任务控制Agent!接收信息后,任务控制Agent将该中心控制Agent的AgentID〔AID〕及通信参数参加CentreAgentList列表中,表示该服务器已完成注册并能够执行任务。当异地中心控制Agent注销时,该Agent向任务控制Agent上报注销消息,接收消息后,任务控制Agent根据AID查询CentreAgentList列表,移除该异地服务器的全部信息,表示该服务器已注销,不再执行具体信息抽取任务。3.4分布式多Agent系统的负载评估体系。根据多Agent系统的特点,使用理论分析结合反复实验的研究方式方法,本文确定了如下系统负载平衡的评价指标。〔1〕空闲爬行Agent数量〔LSa〕.根据本系统设计的调度机制,当没有空闲的爬行Agent时,系统会将任务挂起,直到有爬行Agent执行完现有任务后,才能为其再次分发任务。因而,在进行负载计算时,空闲爬行Agent数量是一个重要的指标。〔2〕空闲抽取Agent数量〔LEa〕.系统对于抽取Agent的调度机制与爬行Agent的调度机制类似,并且,其任务执行经过牵涉若干步骤,较为复杂。因而,在进行负载计算时,空闲抽取Agent数量同样是一个重要的指标。〔3〕空闲引用抽取Agent数量〔LRa〕.引用抽取Agent同样是系统的任务级Agent.在USPTO的页面中,将某一专利所引用的其他专利存放于深网页面中,需要设计引用抽取Agent,用于动态构建深网页面的URL地址,并将相关引用信息暂时存储于内存中,最终映射至本地数据库中。因而,也应将其作为负载平衡评价指标之一。〔4〕空闲内存大小〔LFm〕.基于专利研究领域大数据量的特征,系统往往需要处理大规模的专利抽取任务。因而,计算机的性能会较为显着地影响系统效率。〔5〕异地瞬时网速〔LWs〕.由于异地服务器需要在线检索并抽取相关专利具体信息,网络速度造成的延迟对系统效率影响较大。上述5个指标均是独立有效的。华而不实,前三个指标之间存在多任务间的协作关系,但由于建立了基于调度Agent的任务缓冲机制,对于某一随机任务而言,三个指标仍然是独立有效的。负载平衡算法方面,主要参考王春娟[11]提出的动态反应负载平衡算法的思想,并基于多Agent系统的调度与通信机制做出改良,将其自主反应机制修改为轮询式的负载平衡算法,以有效降低系统的通信开销。轮询式负载平衡算法流程如此图9所示:任务控制Agent异步轮询系统的负载情况,在特定情况下触发其轮询事件;轮询事件被触发后,任务控制Agent向异地中心控制Agent问询5个负载平衡评价指标;针对这些指标,任务控制Agent在设计时封装了它们的最低阈值,这些阈值通过反复实验得到。若某服务器存在低于阈值的指标数值,则将其挂起,且将空载量记为0.对于能够接受任务的服务器〔即其未被挂起〕,系统对5个指标进行归一化处理,转化为LSa,LEa,LRa,LFm,LWs!然后根据预先设定的各项权重值,使用如下公式计算服务器空载Pi:Pi=[,,,,ε][LSa,LEa,LRa,LFm,LWs]T华而不实,指标权重为系统内置,经过反复试验调整至较好的运行状态。最后根据Pi值进行按比例的任务分发,即Pi值越高,就被分配越多的具体抽取任务。4原型系统实现与分析4.1系统运行平台。采用分布式的系统构造和多Agent设计形式,开发运行环境如表2所示。4.2实验与分析。〔1〕DII专利信息抽取。共计进行5次实验,检验DII专利信息抽取模块的有效性、抽准率和抽取效率。实验中将爬行Agent和抽取Agent的数量设定为20,实验结果如表3所示:从表3数据能够看出,DII专利信息抽取模块能够从本地的专利信息格式文档中抽取相关信息,并存储在本地数据库中;另外,该模块的数据处理效率较高,能够支持数据量较大的专利信息抽取。〔2〕任务分发与具体信息抽取。使用DII专利信息抽取实验获取专利信息,进行任务分发与具体信息抽取的实验,使用虚拟机模拟三个分布式系统的异地服务器,即具体信息抽取模块1至模块3.实验共进行6组,各组具有不同的专利条数,各具体信息抽取模块的空载率也通过预设指标值的变化做出改变以验证具体任务分发模块的运行情况,即能否实现了负载平衡。实验结果如表4所示:从表4的实验数据能够看出:①对于每个具体信息抽取模块,任务条数与其空载率成正比,且二者的增长或减少趋势大致一样。②第6组实验中,具体信息抽取模块1的空载率为0.这是由于系统预定义的空闲爬行Agent和空闲抽取Agent数量的下限阈值为5,而实验中上述两类Agent的数量为2和3,所以该异地服务器处于挂起状态,不再接受任务。③每组实验中,各模块的任务量分配不一,但用时大致一样。上述三点能够讲明该分布式多Agent系统的负载平衡评价体系的有效性。但由于整体网络环境以及服务器的运行情况在实验经过中不能保持恒定,进而导致在有些实验中任务完成时间的不稳定,这在系统运行中是能够接受的。通过比照实验进一步验证系统负载平衡的有效性。由于当前尚无专门针对分布式多Agent信息抽取系统负载平衡算法的相关研究,因而这里采用Kunz[8]提出的方式方法,以空闲内存大小这一简单指标的模型进行比照实验。实验结果如表5所示:从表5实验数据能够看出,6组实验中三个具体信息抽取模块完成任务的时间分布较为离散,其完成任务的最终用时较长,两种负载平衡算法实验的任务完成时间比照如此图10所示:华而不实,实验完成时间为由三个抽取模块共同完成专利信息抽取任务的时间,由于三个模块的工作是并行的,所以任务完成时间即为用时最长的具体信息抽取模块所用的时间。经分析以为,这是由于比照实验中,异地服务器的实际负载没有实现精到准确计算,即无法有效实现系统资源的优化配置,出现资源闲置的现象,进而导致系统效率不稳定。通过比照实验,能够看出本文提出的负载平衡算法能够较为准确地反映基于多Agent平台的分布式专利信息抽取系统的负载情况,进而有效地使系统到达负载平衡。5结语本文设计并实现了分布式的德温特专利信息抽取系统,系统基于多Agent技术构建,以用户下载的德温特专利文档作为系统输入,利用模板进行信息抽取并存储在本地数据库中;针对德温特专利信息中仅包含内容摘要信息的局限性,面向USPTO专利数据库,提供用户可自主选择的专利具体信息自动获取功能。实验证明,系统的信息抽取效率较高,且分布式多Agent系统的负载平衡计算方式方法和通信机制较为有效,能够提供高效、准确的专利信息获取服务。在将来的研究中,考虑面向更多的专利数据库提供具体信息抽取服务;另外,设想为用户提供进一步的专利信息预处理,以及统计和分析等服务,扩大系统功能,更好地为专利研究做出有力支撑。以下为参考文献:[1]DerwentInnovationsIndex[DB/OL].[2020-04-02].[2]USPTOPatentFull-TextandImageDatabase[DB/OL].[2020-04-02].[3]BediP,ChawlaS.AgentBasedInformationRetrievalSystemUsingInformationScent[J].JournalofArtificialIntelligence,2018,3〔4〕:220-238.[4]PavlinG,deOudeP,MarisM,etal.AMulti-AgentSystemsApproachtoDistributedBayesianInformationFusion[J].Agent-BasedInformationFusion,2018,11〔3〕:267-282.[5]JumadinovaJ,DasguptaP.AMulti-AgentSystemforAnalyzingtheEffectofInformationonPredictionMarkets[J].InternationalJournalofIntelligentSystems,2018,26〔5〕:383-409.[6]张俊,陈宏刚。基于多Agent的实时ETL系统模型研究[J].信息技术,2018〔2〕:71-73.〔ZhangJun,ChenHonggang.Re-searchonReal-TimeETLSystemModelBasedonMulti-Agent[J].InformationTechnology,2018〔2〕:71-73.〕[7]翟东升,杨洋。基于XML技术的USPTO专利抽取系统[J].北京工业大学学报,2018,37〔4〕:628-633.〔ZhaiDongsheng,YangYang.USPTOPatentInformation

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论