总结及下一阶段工作计划_第1页
总结及下一阶段工作计划_第2页
总结及下一阶段工作计划_第3页
总结及下一阶段工作计划_第4页
总结及下一阶段工作计划_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

总结及下一阶段工作计划刘学铮03.09.03大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计数据网格、信息网格和知识网格[1,3]数据网格与信息网格数据网格数据网格解决的问题:解决海量数据的存储和共享问题主要为计算任务以及计算网格服务,是一种底层的海量数据仓储体系数据网格不去解决的问题:多类的和复杂的信息格式信息表示和元数据智能化信息获取(Informationretrieval)信息网格信息网格解决的问题信息的智能化获取信息检索信息的表示多类的元数据和结构化给用户和应用程序提供特定内容的信息服务信息网格不去解决的问题海量数据存储,数据管理计算问题及强数据量(data-density)的计算和数据访问方式信息网格和知识网格信息网格信息网格解决的问题信息的智能化获取信息检索信息的表示多类的元数据和结构化信息网格不去解决的问题数据挖掘问题求解知识网格知识网格解决的问题数据挖掘、知识挖掘规则的发现数据、信息的可视化Ontology转换知识网格不去解决的问题无结构信息的半结构化元数据格式的匹配和转换信息智能化检索资源网格、信息网格与服务网格[2]信息网格的其他讨论信息网格作为计算网格和知识网格的中间层次,允许对于异构信息的统一访问,提供分布式资源上的公用信息服务。统一访问依赖于metadata对于信息的描述(并集成异构资源)[4,5]Thecomputation/datagridhassupercomputers,largeservers,massivedatastoragefacilitiesandspecialiseddevicesandfacilities(e.g.forVR(VirtualReality)).Themainfunctionsincludecomputeloadsharing/algorithmpartitioning,resolutionofdatasourceaddresses,security,replicationandmessagererouting.Theinformationgridresolveshomogeneousaccesstoheterogeneousinformationsources.Theknowledgegridutilisesknowledgediscoveryindatabasetechnology(especiallydatamining)togenerateknowledge(frominformationanddatainthelower2layersoftheGRIDs).[6]信息网格的其他讨论IPG(informationpowergrid),NASA.:针对与对异构分布式信息资源的无缝访问[7]GIG(globalinformationgrid),USADefance.强调以网络为中心的通信,信息广播和作战系统(net-centricinformationenvironment)InfoGrid[8]:一个实现信息访问应用的框架,其上提供用户界面及交互模型。它集中于获取应用程序对象,以其对于信息,数据和服务的统一访问(retrieval-centeredinteractionmodelforinformationaccessapplications)大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计阶段论文和科研成果对等网络及信息网格的基础设施(infrastructure)研究结构化对等网络上静态和自适应的数据备份策略基于节点异构信息的路由及负载平衡算法信息搜索和基于语义的信息表示研究应用于大规模分布系统的潜在语义分析和信息索引策略查找环(Lookup-Rings):动态网络环境上的高效信息检索基于元数据表示的信息网格阶段论文和科研成果大规模分布系统上消息传传递及同步机制O(1)复杂度对等网络路由算法法高可靠的大规模分布系统统广播机制结构化对等网络上

静态态和自适应的数据备份策策略针对传统的“连续k-近邻”数据冗余备份算法法之不足,提出改进的““分区近邻”备份算法,,适应高度动态环境下的的数据备份要求,很大程程度上避免了无用的数据据迁移,节省了系统维护护开销提出一个系统维护开销模模型,并给出基于模型的的优化策略提出variation-tolerantrecovery和adaptiveprobing相结合的系统维护策略,,实现了静态的和自适应应的数据冗余备份基于节点异构信息的路由由

及负载平衡算法传统对等网络采用哈希算算法实现总体上的负载平平衡。这种简单处理方式式没有能有效的利用节点点能力(强节点),并且且仍然有一定程度上的负负载不均衡本算法利用节点容量表储储存当前节点能力和使用用状况,并基于此进行负负载分配,实现了实施的的细粒度平衡,并有效的的利用了节点能力算法使用一个轻度的消息息扩散策略保证了容量表表的实施更新应用于大规模分布系统的的

潜在语义分析和信息息索引策略将传统信息获取领域(IR)中的潜在语义分析方法法(LatentSemanticAnalysis)应用于大规模分布式对对等网络上,实现对于信信息源之间潜在语义关联联的提取和利用。通过将将信息和用户使用特性映映射到降维欧式空间中的的点来实现对于语义相关关性的表示建立了对于潜在语义和用用户使用特性的后验概率率模型,使用MAP(maximizingaposteriori)进行优化求解。采用基于于E-M优化的迭代算法实现了对对于潜在语义表示空间的的降维和求解,避免了分分布式环境下SVD分解的复杂计算量通过提取的潜在语义表示示来定义信息索引并指导导分布式搜索,极大的提提高了信息搜索效率(提提高了2~3个数量级)查找环(Lookup-Rings):动态网络环境上的高高效信息检索解决动态网络环境下无中中心大规模分布式系统的的高效信息检索问题。建立了信息查找表(索引引)的优化性能和网络动动态变化造成信息查找表表维护开销之间的平衡((trade-off)模型,求解出最优的信信息查找表尺度基于最有查找表尺度建立立高效的信息检索和维护护算法,证明并实现了无无偏检索(unbiasedsearching)算法中的最优效率。基于元数据表示的信息网网格使用元数据表示(metadata)实现信息息网格底层架构通过元数据的等价转换完完成分布信息检索和信息息集成利用用户反馈数据实现信信息检索优化O(1)复杂度对等网络路由算法法改善了传统结构化对等网网络设计的节点链路关系系,很大程度上降低了节节点的联接数设计了O(1)复杂度的的路由算法。对照HotOSIX中关于O(1)复杂度讨论的先驱驱性论文,本设计避免了了超级节点(supernode),实现了完完全对等的拓扑结构。这这样同时解决了前文中超超级节点带宽开销过大的的问题高可靠的大规模分布系统统广播机制实现了应用层(applicationlevel)的广播机制,,建立了一个高可靠的分分布式消息通知和广播机机制对比gossip算法,,减少了消息冗余,提高高了算法效率,其算法效效率接近最优生成树的树树型广播对比树型广播,本算法保保证了很高的可靠性以及及负载均衡,其可靠性接接近gossip算法大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎设计计信息网格设计基于属性的搜索引擎设计计概述及与传统文本搜索引引擎的对比基于属性的搜索引擎设计计信息网格设计概述及与传统文本搜索引引擎的对比应用背景:互联网上巨大大信息的获取和检索传统文本搜索引擎的实现现方法Html页面文本的获取(Crawling)页面解析和倒排索引建立立(InvertedIndexing)页面联接关系分析和评定定(PageRanking)基于倒排索引的联合查询询(Searchingandmerging)传统文本搜索引擎的优势势和不足优势使用简便,面向最终用户户只关心文本,具有通用性性。同时鉴于目前IR技术水平尚待发展,纯文文本搜索不啻为最直接的的搜索引擎策略不足完全不考虑文本结构信息息,限制了高级使用其通用性也是不足之处,,无法对于专业应用提供供有针对性的服务,不能能实现在语义上的定域查查询,查询精度差不包含属性信息,不符合合信息网格的需求,无法法对应用程序实现必需的的支持基于属性的半结构化信息息搜索引擎设计思想将信息(html页面,ftp文件,pdf文件…)看作是属性的集合,而而非传统平面纯文本的集集合,亦即:Item={<key,value>i,i=1,…n}查询请求可以详细指定所所查信息的属性,提供key或者与key相对应的属性值,缩小查查寻范围,提高查询精度度属性之间实现等效转换这本质上是利用(文本中中)结构信息和语义信息息概要设计系统组成部分信息资源获取(Crawling)CrawlerandCrawlerScheduler半结构化和倒排索引建立立Template-basedAnalyzerandInverted-indexBuilder语义相关分析及属性表评评定SVDandRanker基于属性的查询Property-basedQueryEngine与传统纯文本搜索引擎之之比较网页Crawler页面解析器文本索引应答引擎纯文本PageRank网页Crawler半结构化器属性索引应答引擎语义Rank及扩展查询属性查询纯文本搜索引擎基于属性的搜索引擎模版库Internet获取分析索引查询关键技术半结构化通用半结构化器提取html的表格信息,形成属性表表提取已知格式的文档信息息,譬如DOC,PDF等基于模版的专用半结构化化器对于特定页面定制特定的的模版,使用XML规则知道解析对于特定服务定制特定的的模版及特定协议(ftp等)通过半结构化器,将页面面转换成为属性表,缩小小查寻范围,提高查询精精度和效率关键技术属性索引针对转换的属性表,建立立属性倒排对于二维表格的处理其他页面内容的索引,与与文本搜索引擎的处理相相同关键技术基于属性表和语义的Rank和扩展查询属性表特定的Rank基于SVD潜在语义分析的页面Rank技术扩展查询技术基于属性词相关的扩展查查询基于同义词字典的扩展查查询基于页面潜在相关的扩展展查询关键技术基于属性查询的应答引擎擎对于设定属性值(值域))的查询优化大纲信息网格研究综述阶段论文和科研成果基于属性的搜索引擎信息网格设计信息网格设计基于属性的搜索引擎可以以看作信息网格架构上面面的一个应用信息网格系系统具备了对于信息的统一描描述(基于属性标的元数数据)可以提供用户查询的反馈馈具备管理和看守一定范围围的Internet上信息资源的能力信息网格底层架构应该给给多个这样的应用提供基基础设施(infrastructure)级的支持信息网格图示InternetInformationGridInfrastructure信息资源信息网格KnowledgeGrid应用程序终端用户上层用户从基于属性的搜索引擎到到信息网格:典型信息网网格的结构设计资源获取器应答引擎RankInternet资源获取资源库定域Scheduler半结构化器属性索引半结构化规则分析获取查询辅助模块基于元数据的请求返回结果翻译模块格式转换应用程序终端用户其他网格信息网格基础架构多个信息网格之间交互数数据的统一接口用户查询分派针对特定用户的信息集成成信息网格基础架构多个信息网格之间交互数数据的统一接口抽象信息网格服务输入基于元数据表示的查查询请求输出特定格式的查询结果果采用基于XML统一表示的数据格式可外挂的翻译模块信息网格基础架构用户查询派发用户提交查询:特定元数据结构特定信息网格定域特定服务描述检索可以服务的信息网格格:基于用户元数据模式式采用无中心对等网络中的的检索技术采用用户配置文件采用信息网格特定的注册册检索服务器来完成——这些特定服务企也可以看看作一定意义上的“信息息网格”信息网格基础构架针对特定用户的信息集成成最终的信息集成应该是应应用程序或者用户端来完完成的,因此集成有理由由采用无偏向性的简单结结果融合优化的信息集成技术是““元搜索”领域中的基本本课题,有一些成型的结结果通过用户反馈(relevancefeedback)积累知识,实现长程的的信息集成优化这一部分主要是特定信息息网格应用的范畴前述研究结果和信息网格格的结合针对大规模分布系统的搜搜索技术针对高度动态系统的高可可用技术针对潜在语义信息分析的的技术统一的信息表示参考文献[1]NigelBakeretal.QueryingLargePhysicsDataSetsOveranInformationGrid.InChep’01[2]AlexanderReinefeldetal.ConceptsandTechnologiesforaWorldwideGridInfrastructure.InEuro-Par2002[3]F.P.Terpstra,etal.InformationdiscoveryandcombinationfromdivergentdatasourcesforTravelInformationSystems.In7thEuropeanConferenceonPrinciplesandPracticeofKnowledgeDiscoveryinDatabases(ECML/PKKD-2003)[4]OmerF.Ranaetal.IssuesinBuildingAgent-Ba

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论