基于二分图模型的上下文有关网站服务发现

上传人：d*** IP属地：江西上传时间：2023-03-21 格式：DOCX 页数：11 大小：51.34KB 积分：12 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于二分图模型的上下文有关网站服务发现1.华东师范大学软件工程学院，上海200062，中国2.信息和通信技术研究所，京都619-0289，日本3.庆应义塾大学，神奈川县252-8520，日本C4高等教育出版社和施普林格出版社柏林海德堡2013摘要随着面向服务架构（SOA）不断成熟，由于服务发现，服务消费需求导致迫切要求。不同于Web文档，执行服务以此实现目标和用户期望的目标。这会导致这样的概念，即服务发现应该不仅把服务的“使用情境”考虑进去，而且应该把探索的很好的服务内容（描述）考虑进去。在本文中，我们将介绍用来表示服务使用的服务理念。在查询处理中，为了进行检查识别服务，需要检查服务内容和服务方面。我们建议通过上下文加权二部图模型代表服务。基于二分图模型，我们通过查询扩展减少查询之间的差距空间和服务空间，以此来提高召回。我们还通过考虑服务内容，实用性以及content-relevance，为了结果排名而设计了一个迭代算法以此提高精度。最后，我们开发了一个可以实施这一机制的服务搜索引擎，并进行一些实验来验证我们的想法。1.简介近年来，网上Web服务（WSS）由于有数以千计的服务被公众访问，所以呈现爆炸式增长。优选的服务通过简单的组装以满足用户的需求。为了支持服务组装，不同的工具，诸如ActiveBPEL的1），OracleBPEL2），和BPMN建模3），已根据该要求被设计和实现，以帮助定义逻辑协作图服务。由于theWS消费不断上升，为了设计WS发现机制找到相关和适当的服务，这一迫切需要已经出现了。要是没有这样的机制，大量手动所需的努力将继续成为基于WS应用的瓶颈。对于目前WS的搜索引擎，如BindingPoint4），WebServiceList5）和Salcentral6），基于内容的映射仍然是最流行的技术。我们通过图表描述说明两种服务内容。图表1中，一种是由WSDL7定义）（左侧），而另一个是RESTful8）Web服务（右侧）。一般情况下，服务描述的内容可能包括服务名称，操作名称，参数和服务document9）。然而，值得一提的是，由于短的服务描述，基于内容的映射算法是不够的，这使得映射之间查询空间和服务空间[1]难以转换。如图2所示，我们从ProgrammableWeb10）收集服务并获得长期经销，其中约70％的服务都是少于30个条款，90％的服务是少于40个条款。提高测绘质量的一种方法是做本地内容分析并且执行术语概念化[2]。例如，如果条件a和b经常共同出现在许多内容，那么这两个词都应该语义上是接近的。Woogle[3]采取同样的方法来设计WS搜索引擎。在一定程度上，通过精确语义聚集紧密条款，这有助于提高系统精确度。但是，这个本地的分析方法是通过限制服务描述长度或服务描述之间的重叠。它也试图要求用户为了所需要的服务，如操作名，参数名称，甚至可组合的服务要求等等提供详细的信息。用户输入请求过多会使系统难以使用。服务SI使用上下文的第一定义（使用上下文）是定义为一组使用服务的应用程序实例{}AJ的，表示为A[SI]={<AJ>}*，0<J〜N。A[SI]的大小是N.AJ={<Des。>[SL]*}，其中0<L？M.M是数的服务。Des和SL分别是应用程序的说明和使用AJ的服务aj。此外，我们不能要求所有用户,特别是对于非专业用户,知道如何查询服务的名称和参数要求。在这里一个被忽略的很重要的一个事实是服务被定义为在应用程序中使用。如该图3所示，有一个所谓“BuddyPing”的应用程序通过整合实现现有的几种服务，包括“del.icio.us”，“Flickr”和“谷歌地图”。一般情况下，用户所知道的任务描述（即应用程序要求）比相关的服务更清楚。在这种情况下，用户可能更喜欢递交面向应用的查询（查询到任务描述），而不是以内容为导向的查询（查询到的服务内容）。例如，如图3所示，用户可能不知道的服务“del.icio.us”到它的应用需求的可用性。与此相反，最好是通过查询来检索该服务像面向应用服务的功能描述“手机标记”。基于内容的映射方法用来解决这类查询是效率不高并且没有用，这是因为缺乏应用程序相关的信息。基于内容的映射方法与结果排名总是一起使用。由于服务描述的缺乏,所以排名结果不太可信。对于成功的反面搜索引擎，解决最重要的问题之一就是要区分具有类似内容的服务。据说,甚至forWeb网页搜索以及页面的排名是由两个额外的元素,决定域相关性和使用流行度[4]所决定的,这个域是和,体育、社会,等等主题相关。域相关性意味着这一页对于主题域重要，但对于其他的并不重要。使用流行意味着如果一个页面被大量的页面所指代,我们认为它是普遍接受的,并且将给排名得分添加额外的价值。PageRank[5]是代表这一点的实例。在这方面,对于服务排名我们需要考虑域相关性,查询和服务是否可以申请相同的域,并且有用性是由服务的使用频率决定。定义2(服务效用)如果服务使用si被应用aj所使用,据说si对aj很有用。在这项工作中,我们提出一个新颖的上下文敏感的WS发现方法来执行应用导向的查询处理和服务级别。第六版本新型的排名算法和新的实验结果已大大扩展。如图3所示，上下文显示出服务从使用到应用程序需求。在这个例子中,为了实现“BuddyPing”应用程序,在“del.icio.us”、“Flickr”和“谷歌地图”中使用一些服务。对于每一种服务,它可以检索由应用程序的需求及其协作服务组成的应用程序上下文。我们的“上下文”与以往定义使用的方式比如服务(7、8)不同。基于这种背景下,我们设计算法不仅可以来解决面向应用的查询，通过在查询空间(面向应用的)和服务空间之间架起了桥梁,而且可以解决通过考虑服务主题的实用性和排名服务。我们工作的主要贡献总结如下。首先,我们提出了由定义为上下文除了服务内容的服务使用区分服务。使用上下文(简称上下文)在定义1中进行了定义,它代表服务和应用程序之间的关系。设计一个加权两偶图模型是用来表示上下文。

其次,我们提出一种在服务空间和应用程序空间之间架起桥梁的算法，这是在服务描述和应用程序之间利用上下文图和提取隐含的术语描述。它是用来解决面向应用的查询。第三,我们设计一个由两部分构成的网络划分排名算法评估服务效用的定义的topic-sensitive二分图，

正如在定义2中所定义的除了基于词汇的相关性。我们学习主题分类器分类到不同的服务和应用程序的主题,如艺术或娱乐。我们构建由两部分构成的服务和应用程序的图形每个主题域和评估他们的基于主题的有效性分析加权图的结构。

第四,我们建议分发的查询和解决他们最相关的主题领域。最后的服务级别算法将基于内容的相关性值在一起基于主题的实用性价值。本文的其余部分安排如下。第2节介绍了背景知识。第3节介绍了动机。第4节介绍了系统的概述框架。第5节学习从上下文中制作主题分类和细节生成话题敏感二部图的方法。第6节产生之间的语义桥梁查询空间和服务空间。第7节设计服务敏感的话题用处排名算法考虑二分图的结构。第8节展出了整个查询处理和排名算法。第9节讨论了我们工作。在第10节中，我们证明了系统性能。在第11章，我们讨论了相关工作。最后，在第12节，我们总结了这项工作。2背景知识Web服务往往会陷入两个阵营：大网站服务和REST兼容（表述性状态转移）Web服务[9-12]。大Web服务通常是以机器可读的描述写在网页描述服务描述语言（WSDL）。WSDL是一种基于XML语言描述的技术规范Web服务，包括服务描述和接口定义。该接口定义包含提供的操作通过Web服务时，输入和输出文档的语法，通信协议用于通信的服务，以及一些进一步的信息。REST试图描述它使用HTTP或类似的架构协议通过约束接口的一组公知，标准操作（如GET，POST，PUT，DELETE为HTTP）。以前的工作服务搜索时经常使用接口定义为普通的文本和使用文本处理方法分析计算中的语义关系。查询被分成条款。之间的相似性查询项和服务内容的计算方法。接口比较是一个复杂的任务相比，术语相似性计算，也就是通常所使用的专业用户。我们的工作能为这些互补的工作中发挥以前的工作，如[3,13]。在这里，我们只使用WSDL文件作为不考虑共同服务描述内容操作结构。2.1HITS算法1997年，克莱因伯格[14]发表了算法的连通性，分析了万维网。该算法计算两个分数是每个文档：集线器得分和权威得分。这具有很高的权威性文件的分数预期具有相关的内容，而文件具有高的分数枢纽预计包含指向相关内容。直觉是：一个文件，它指向对许多人是个不错的枢纽，一个文件，很多文件点是一个不错的权威。及物动词，文档这点对许多好的权威是一个更好的枢纽，同样指出了很多很好的集线器的文档是偶数更好的权威。轮毂和权威的计算scoresis完成如下：•设N，E是在附近的一组节点和边图。•对于每一个节点n在N，令H[n]的是其枢纽得分和A[n]的权威得分。•初始化H[n]和A[n]的1对所有n在N。•当矢量H和A都没有收敛：•对于所有的n在N，A[N]：？=（N，N）∈EH[？n]的•对于所有的n在N，H[n]的：？=（N，N）∈EA[？n]的•归一化H股和A载体。3动机诚如上文第1节中，服务优先以完成通过简单的组装用户的应用需求。目前不同组织提供的工具支持服务组装。通常，通过使用这些工具我们可以定义业务过程图，它是不可执行的。一个例子示于图4，其用于由BPMN，建模与绘制纸文本分类基础[15]。为了使其可用/可运行，服务搜索引擎将执行搜索的每个服务单位根据每一步的服务需求描述。例如，数据预处理（步骤4），它会做搜索五个服务对应4-1至4-5。我们的一个想法是获得整个服务包查询“文本预处理”（应用需求），而不是执行，搜索服务单位一个接一个。因为非专业可以了解应用程序的要求更好比个人服务描述，例如“文本预处理”到“制止”，除了基础的服务内容搜索，面向应用的服务搜索是可行的，必要的。让我们看到如表1中所示的说明性示例。随着相关应用收集一些流行的服务，我们列出他们服务内容的说明和代表应用条件（使用TFIDF[16]权重的方法来提取这些重要术语）。如果服务描述条款不存在疑问，这些服务不会返回答案给用户，即使该查询词非常接近的服务说明条款。例如，俗称的服务“谷歌地图”，它不会返回为一个回答查询“旅行路线”。以前工作很少铲球这种异质性问题查询空间和服务之间的空间。一般来说，应用程序相关的术语往往表现出什么样的情况它被用于代替它是什么，如表1所示，对于非专家，面向应用的查询，可能会更有用和可行的。在这种情况下，相关性异质空间是必要的，从一个空间中的一个术语，其他条款在另一个空间。Woogle[3]此提及在一定程度上但它仍然没有本地术语之间的服务语义分析描述并不能解决相对于该问题应用要求。相关搜索服务的另一个问题是服务的排名。即使“地图”包含在一个查询，如“旅游路线地图“，返回的结果将不享有“谷歌地图”，以在列表的顶部，因为只有匹配的术语是“映射”为“谷歌地图”服务描述，因此服务含有较多的查询词的排名更高。在这种情况下，我们建议要考虑服务的有用性，定义为服务的普及，以及服务的相关性。直观地说，最好是返回用户的普遍可接受的服务，这是经常使用的并认为是比较可信的。此外，我们注意到，如表2所示，对于相同的查询，结果可能与不同的域（主题）有关，因为当前的搜索和排序算法只考虑内容的相关性。通常，它并不总是如此，因为与查询“位置码”显示在我们的例子。这里的“位置代码”使得意义上的“区域”主题更多。服务“邮政编码”可能有这个较高的查询实用性。在网上（右部）查询处理，当用户提交查询Q={TI}代表一个查询词TI，它会尝试通过翻译q来捕捉的q语义更多服务相关的术语。意识到这一点的方法是分发查询，以不同的主题域和选择最相关根据查询扩展领域语义方面，解决在第6节，然后我们提交Q'搜索引擎以不同的主题域。返回的结果是有序的通过结合双方的内容相关性和有用性领域，它是通过使用二分图结构评价分析，如第7节。对于离线部分（左边部分），我们有三个模块：•在第5节主题建模：这是用来区分应用程序，服务和查询.我们学习主题模型通过生成16主题vectorswith顶部敏感类别ODP的（项目开放目录）resources11）。然后，我们的服务，应用程序或查询，分类定义作为海峡，与此主题模型通过分配他们主题矢量为V[STR]={VCI海峡}与CI和VCI海峡代表主题域和主题相关性，分别用我∈[1，16]和VCI海峡∈[0，1]。•语义桥梁建设第6节，这是用来桥服务空间和查询空间之间的差距。我们通过分析发现长期概率相关二部图。应用程序相关的条款可以适应由queryexpansion轻松服务说明条款。•主题敏感的二分图在第节7的排名。这是用于计算服务实用性。对于每一个主题领域，我们利用建立自己的二部图高度相关的服务和应用。我们评估服务或应用程序的主题下重要性分析了二分图结构。建造与计算对于每个模块将详细介绍了在下面的章节。5基本模型生成5.1主题模型生成我们生成一组偏向量代表不同的主题作为开发的ODP。这样做是离线只有一次。我们可以使用其他来源的话题模型生成。在这种工作中，我们使用消耗臭氧潜能值，因为它是免费提供和手工建造。让钛是集合在ODP主题域词的页面。这里我们使用的前16类消耗臭氧潜能值的。在钛的条款表示为主题的术语向量狄，其中每个维度对应的术语。如果发生在长期钛，其价值在向量是1，而我们用统计术语秩向量来表示的项t出现在词的数量。对于由一个术语向量表示的任何内容，我们可以计算它通过比较内容主题分布值向量与这些主题的载体。给定一个内容字符串str中，我们可以使用多项朴素贝叶斯分类器[17]来计算概率类别设置为他们的最大似然参数估计。让STRK是str中的第k个元素。我们计算海峡的主题分布的概率如下：P（CI|STR）=P（CI）·P（STR|CI）P（STR）αP（CI）·πKP（STRK|CI），（1）其中p（STRK|CI）可以计算出从长期矢量秩。我们然后正常化P（CI|STR），I∈[1，16]，使CI∈CP（CI|STR）？=1。在这里，P（CI）是均匀重视，因为我们假设所有主题是等可能的。P（CI）可以是不均匀的。在这种情况下，我们可以drawthe主题分布的概率对给定字符串[4]。5.2二分图模型的上下文根据定义1，服务SI，A[SI]可以看出，作为一组应用程序，并且将在所使用的服务应用程序12）。我们定义一个加权二部图模型G=（ℵ，ε）来表示应用程序之间的关系和使用的服务，如图所示。6，在这里ℵ=S∪A带S∩A=∅，其中S是服务集和A是应用程序设置。边集为ε⊆S×A，这代表了涉及的服务和应用程序之间的关系：如果一个服务是由应用程序使用，之间有一个链路它们。上一个环节，有一对权重（WSA）代表对于一个应用程序服务的连接强度或应用程序服务，其中s∈S和∈A.对于单服务SJ，其个别情况下是应用AI和其他AI使用的服务。例如，在图6，将样品服务s1的上下文是A1，S2和S3。上下文可以由一个二分图，来模拟其捕获应用程序之间的简单用法关系和服务。正如我们提到的但是在第3节，一般在不同的主题领域，服务的用处是不同。例如，直观，“亚马逊”的服务更在“业务”主题有用比“运动”主题。因此，我们建立话题敏感的二分图的每个主题域如下。5.2.1主题敏感的二分图的构建与主题模型上面生成的，每个服务或应用程序O，它被分配一个有价值的话题向量为V[O]={VCIo}的与VCIØ表示当前对象的松紧度o到话题域的词。我们只分配对象在前K高相关的主题域，而不是所有领域。和topicsensitive图生成算法见算法1。首先，我们生成主题分布向量的应用而不是服务。主要的原因是该服务的描述较少的话题，敏感区分的比较应用说明，因为一般服务说明用于声明，而不是domainsensitive服务操作使用方法，例如，图1和图3，对于“YouTube”的服务，根据它的描述，它的高度相关前3主题是计算机，科学和商业，相反，基于它的应用，高度相关的话题是娱乐，艺术和社会，这是普遍接受的。然后在第1节中定义为每个应用程序ai和CJ主题，该主题的相关性向量为V[AI]={VCJai}和CJ∈CVCJAI=1和VCJAI=P（CJ|AI）。其次，对于应用程序，我们选择高度相关在前K主题加入。为了使这些主题图高效简洁，我们定义了一个门槛（？∈[0，1]），以控制分布范围的服务和应用。如果ai有已涉及到在前K课题（K<顶部K）的积累概率（用p（CJ计算|AI））。高于我们停止ai的分销至其他主题。例如，如果应用程序应用程序是通过分发到娱乐，艺术与社会概率分别为57％，35％和7％，我们就可以停止其分配到其他题目的概率小于7％，因为它有一个总经销概率99％这三个主题。如果我们分发到所有其他的话题，它可以作为在这些议题进行分析的噪音。对于每个主题CJ，所选高度相关的应用程序是A（CJ）={ai}，0我。注一个应用程序可能属于不同的主题。因此，对于CI和CJ，和i时，会很可能为（C）∩A（CJ）？∅。第三，对于每一个主题，我们收集使用的应用程序的服务AI为S（CJ）∪=S（AI），其中S（AI）是指在AI中使用的服务。的应用程序和服务，然后加入到二分图的介绍上面：对于CJ，其服务是S（CJ）={SK}，0≤K表。通过使用S（CJ）和A（CJ），我们可以建立二分图G[CJ]为主题CJ。我们代表通过服务和应用程序之间的紧密性关系联动重量在第7节介绍。基于此图模型，我们实现查询扩展从应用程序空间在第6和服务的服务空间实用性排名第7。6二分图-基于查询扩展正如在第3节，如果一个查询包含在应用方面的描述中，这可能不是在服务描述存在，然后它会导致服务之间的映射问题空间查询和空间。在基于内容的映射搜索将不会返回这些服务涉及到具体的应用的要求，所以导致低召回率和精度。一种流行的方式来解决这个问题的方法是做查询扩展[18]从不同的空间与条件。我们利用服务使用上下文这样一个目的：从转换条款查询（应用程序）的空间服务空间。6.1定期筛选服务或应用程序描述包含条款。由于许多条件是毫无意义的，嘈杂的，我们采取了两步预处理用于滤除这些条款：1）我们去掉停用词和一些预定义类型的使用条款，如形容词，副词，等;2）我们采用互信息[19]（公式（2））以去除条款与较少的信息价值。IV（T）=P（T）？sP（S|T）logP（S|T）P（S），（2）其中t是一个服务描述术语，且s是一个服务。我们选择的基础上，IV值，其中前N翔实的文字N的基础上开发的数据结果选定集.我们采用同样的计算应用方面。从现在开始，我们提到条款保持termfiltering后的条款。6.2应用程序之间语义桥梁建设（查询）空间和服务空间假设两个条款与TA从应用说明K和TSJ从服务描述。从语义上，相关程度由PCI（TSJ计算|TAK），占相关租期TSJ条件概率和TaK，下一个主题类词。这是这个词的相关重要性的话题域。概率PCI（TSJ|TAk）被计算如下：k）为给定的服务平方米的条件概率长期TA•三应用说明主题词。PCI（TSJ|SM）是TSJ发生的条件概率相对于服务SM为主题的词。计算被配制如下：其中，f一公里（TAK，SM，CI）是共同出现的次数应用说明长期TAk和服务SM和FA（TAK，CI）是具有长期TA申请总数在话题ci中。其中TsJM和？∀瓦特∈SMTSwm是通过计算的项的权重TFIDF，对于TSJ而长期重服务SM总数，分别。结合在方程的方程组。（3）-（5），我们收购最后计算的PCI（TSJ|TAK）为：6.3查询扩展查询扩展算法见算法2。它首先计算查询Q分布向量{VCIQ}不同主题域。其次，它选择最相关条款每个TCITQķ={TJ}。第三，它收集所有的相关条款和计算的全球统计信息这是由基于主题术语位列每个相关术语相性，因为在4号线，最后，我们选择了全球高排名的条款，最终扩展条款由排名RelqtĴ值。7二分图型服务排名对于一个查询，排名的结果是基于内容的相似性。它可以很好的工作文本丰富的领域，但没有文字有限区域。不幸的是服务描述很短。因此一个内容映射为基础的方法效率不高服务等级。在这里，除了内容映射为基础的排名，我们建议基于分析的迭代增强算法的加权二部图的链接结构，称为基于上下文的排名。基于内容的等级评估服务的相关性查询;基于上下文的等级评估服务的有用性查询。而是采用了全球二分图中，我们还是拿敏感话题二部图，如第2节。采用这种设计的优点是：1）二分图中可以更令人信服的排名服务或应用程序对于一个特定的主题，让排名更准确;2）它可以减少大量的链接对象是问题高排名在一定程度上。如该图所示。7，图链接分布是非常不均衡的，因为一些通用服务可以经常用于整个主题针对不同的应用，这类似于常见的术语中的文件。我们可以分发链接到不同的域，削弱了影响引入到我们的基于链接的有效性排名。7.1主题敏感的服务效用计算之后我们有话题敏感图，我们评估这些服务每个主题域下他们的话题的重要性。这样的一种等级的是基于分析以图形链接结构。我们同时享有的服务和应用。基本思路是：在一个主题域，1）如果应用程序是高度与此相关的主题领域，使用的服务都应该要到这个话题领域高度相关;2）如果服务高度与此相关的主题领域，相关应用应该是这个领域高度相关。我们代表通过迭代这个相互加强关系计算如公式（7）。RCM的地方0（Sj）条和RCM0（AI）为初始值的排名对sj和AI在主题领域厘米，α和β是权重为平衡初始等级值和迭代排名的重要性值，这些值是0和1之间。每次迭代之后，我们执行L2范数（||*||2）[20]。NB（·）表示邻居关系的二部图：通过直接任意节点链接是邻居。在服务方面，邻居是应用程序，并为应用程序，邻居们服务。由这样，排名是在每个主题域进行。我们代表k次迭代像RCM后，根据题目的排名第k+1（S十）和RCM第k+1（AI）的服务和应用程序分别。我们使用WSĴai和纬的Sj表示链路权重。在主题领域厘米，这些计算公式。（8），用于表示联动从应用关联紧密度（链接权重）爱到服务的Sj（WSĴAI）或服务的Sj应用AI（纬的Sj）。因为根据该服务的有用性进行评价话题敏感的曲线图，我们认为术语的使用过主题域。联动的权重是由估值服务描述和应用之间的语义关系描述为式（8）。在我们的计算，联动权重是相同的值，而不是从两个不同的方向。在一个主题域厘米，FAķĴ（泰K，SĴ，cm）为应用长期泰之间共生k和服务的Sj;FA（泰K，CM）是具有长期泰应用程序的数量K表。|大|在ai的项数。之后我们获得的权重参数为图形的每一侧，我们进行归一化，以它们为：同样，我们进行了计算wai的Sj。我们证明了该算法收敛的附录部分在纸张的8查询处理和排名查询处理算法显示在算法3。我们把成以下步骤：首先，查询主题的相关性计算线1。二，它是话题敏感的查询扩展在第2行，在每相关的主题领域，进行域名查询扩展。第三，基于内容的查询处理检索结果候选人在3号线。第四，之后我们获得了所有候选人，我们检索的预先计算的二部图型排名值在4号线。第五，排名这些候选人考虑内容相似CNQ（·）基于链接的有效性RCI（·）和查询主题相关的VCIq如（9）所式。其中VCIq作为查询主题相关的价值词，性Rci（SJ）和CNQ（SJ）是基于图的有用性评价和contentbased相关度评价。9讨论9.1与HITS比较克莱因伯格提出了HITS[14]算法，二分链接用于排名的网页进行结构分析算法他们的权威和中心值。HITS背后的假设是“一个好的页面将链接到其他网页好和意志其他不错的网页“链接。我们的链接结构分析算法类似于HITS但起始点是不同的以下部分组成：首先，两种算法使用存在的内在张力内的二部图。HITS具有相同的对象（页）在二分graph.We两侧使用一个链接来关联不同类型的对象，服务和应用的，由用法语义（加盟）。我们把主题相关的想法加固评估，以确定我们的迭代算法，这是说，重要的服务/应用程序将有一个具体的topic.On其他下重要的邻国一方面，所述加强值是通过分析积累术语级语义关系如公式。（7）式和（8）。第二，该图形结构是不同的。HITS是querydependent链接建设，它是没有效率的在线查询处理。我们的图表是预先建立的主题敏感的。因此，我们可以有效地提高了系统的性能避免大量链接的服务高度的问题排名。在某些主题领域视为良好的服务通过连锁分析未必好于others.We假设为建立按照预先定义的主题的二部图，并保持图中部件与特定主题。第三，我们假设分配的迭代初始值计算如公式。（7），其是R0（Sj）条和R0（AI）。该如在HITS算法中使用的初始值可以是均匀的，或通过使用谷歌的PageRankPageRank算法分配API。在这里，我们假设分配的初始值是主题相关的服务和应用程序，这是VCJSi和VCJAK。9.2与其他Web服务的搜索引擎的比较服务地方特性，如内容有哪些服务描述和结构信息是操作定义，吸引了大量的关注。除了这些，我们建议要分析上下文获取的（外部信息）从用户/开发者使用的定义，以协助搜索，已成功地应用在网络搜索。我们的工作补充到执行的搜索以及以前的工作本地物业，但精确度仍然较低。比较与以往的基于内容的搜索服务，我们强调：1）面向应用的服务发现其中有从未被提及。我们建议返回协作服务与类似的服务。“类似的”指之间协作的人，同样的服务作用;2）评估服务基于主题的有用性。考虑到服务的基于主题的有用性偏基于内容的相关性提供对结果进行排序的好方法。Woogle[3]分析了服务描述的内容和结构的信息，如果有的话，要得到的语义关系之间的描述条款。方法见1，Woogle类系统的薄弱点是：1）生成查询服务的描述或结构信息是不为方便普通用户，即使是专家;2）服务描述内容或结构信息太短而无法支持良好的查询处理。然后，有必要导入新的信息服务。本文提出了导入上下文连同先前使用的信息解决服务搜索问题。通过使用上下文，则我们工作的优点是，我们可以描述服务更清晰，更容易产生疑问。虽然服务上下文是不是第一次使用inWS发现域时，出发点是不同的。此前，上下文已被用于申报相关服务属性到实施，如前置条件和后置条件。它作为服务的本地特性来过滤返回的结果。在我们的方法，我们利用服务之间的关系和应用程序。一般而言，对于非专业用户，我们的上下文很容易使用。9.3算法的合理性本文所提出的方法是采取的第一项工作服务实用性为一体的排名元素订购结果，虽然它已经在网络搜索中使用[4,5]。其目的是最有用的服务排在顶部的列表和促进服务'的选择。我们假设，如果一个应用程序是高度相关的主题领域，其服务也高度相关此域，表示为了支持实施到本申请中，这些服务是重要和必要的;反之亦然。此外，我们分配链接重量为评估服务之间的相关性强度和链接的应用程序通过积累条款潜伏语义关系如公式（8）。更进一步，我们考虑查询和服务之间的域一致性。通过这种方式，我们能够更准确地确定哪些服务是更重要的疑问。9.4差异与服务组合需要注意的是在这项工作的目的之一是寻找该服务面向应用的查询。服务的任务成分组成所选择的服务，让他们一起工作，而这项工作没有找到可组合服务，但找到的候选人服务组合。为了支持可组合的服务发现，它需要搜索，例如，参数的详细查询约束结构或组合物的订单。在这项工作中，我们只考虑对一种服务的存在可能性应用程序的要求，并没有考虑协作逻辑。10实验结果10.1实验数据集我们专注于使用服务的上下文来解决应用型查询，不注重内容分析或（参数）的结构相似性查询，所以我们做不会收集了大量的结构良好的基于WSDL的服务。相反，我们收集服务及与服务相关的上下文从ProgrammableWeb的，它记录了大量的免费的API服务（REST风格为主）和他们的参与申请。对于每项服务，我们可以得到的服务的描述包括服务名称，服务描述和URL;每个混搭application13），把它们当作服务其中有标题，描述，以及所涉及的业务上下文网址。最后，我们得到1577服务和3996申请。为了避免过拟合问题，我们用80％的背景下，作为训练数据来构建公式的语义桥梁。（3）与运算服务用处在方程（7）。我们使用服务的5％开发数据选择参数和15％作为测试数据。对于图中的排名，我们分配均匀的初始值两个R0（Sj）条和R0（AI）在方程。（7），因为初始值不影响这么多的排名为报道[21]。在我们的实验中，我们主要是与比较我们的方法对测试数据内容映射为基础的方法，而不是任何先进的技术为基础的内容映射方法，例如，Woogle[3]。因为我们工作的主要目标是介绍了解决上下文应用型信息查询和增长的业绩排名中，这项工作是补充前面的内容为导向的服务搜索。我们可以结合以前的工作与我们的。Woogle要求Web服务进行相似度计算的结构。在我们的数据集，我们没有这种结构的信息。因此，在实验中，我们只是我们的工作与内容映射比较方法。对于查询生成，我们用（的一部分）的应用从开发数据和测试数据描述，查询并采取由应用程序使用的正确的服务答案。例如，查询“手机标签”如图3所示，可能的预期结果是“del.icio.us”“Flickr的”和“谷歌地图”。10.2数据状态我们总结了服务描述任期分布状态图。2，其中服务的70％，少于30条款。对于应用程序，50％有大约10-19描述方面与图1所示。8，请注意，目前只有48％的在我们的数据服务具有上下文。图9示出应用程序的根据我们的主题模型，与主题分布顶级K=3和停止参数？=0.8。该主要涉及题目是“电脑”，“社会”，“商界”，“艺术”，和“娱乐”。我们不上划分主题强调类别分成较小的由潜入分级ODP的结构，这将有助于获得一个更（更好的）服务配送主题域。然而，我们已经验证该系统甚至可以用这种粗糙的改进资源分布。并详细介绍了课题分工的手段将被保留为将来的工作。10.3评价指标我们用远震P@N，MAP和MRR的指标来评价系统性能[22]，对于一个查询Q：P@N：精度（p）于前N个结果。P@N=|？CAQ的Rq||的Rq|，其中CAQ是一组标记的正确答案和Rq是一套由系统返回的前N个结果。在我们的实验中，我们选择N=3，5和10。地图：是指平均精度。它被用来评价全球下令返回结果的相关性。其中蔡是第i个相关的服务到q在CAQ和RCAI是设置从顶部的成绩名列检索结果，直到你获得服务才。意思是倒数排名是：MRR=1/rq，其中RQ是军衔对于q的第一个相关的服务。在该MRR值越高，该系统就更好了。对于一个查询集合Q中，我们计算的平均值P@N，MAP和材料去除率。10.4性能我们实现使用基于内容的基线系统映射方法[3]。该内容basedmethodmatchesweb通过在Web服务名称比较的话服务和descriptions.We进行长期筛选，并把字成一个袋子的话。基于基线系统上，我们实施建议的方法。一些符号用于在实验的结果：BS：以内容为基础的映射实现基线系统方法;-经验：使用期限expansionmethod;-t：使用主题敏感的处理;-G：使用基于图形的排名;OURS：我们的系统是“BS-T-EXP-G”。因此，“BS-T-地契”，“BST-G“和”BS-EXP-G“的意思是基线系统相结合与话题敏感的扩张，话题敏感图形排名并与一个大的图形排名全球扩张不主题模型，分别。对于在10.4.1实验，10.4.2，10.4.3，10.4.6和我们使用自动生成的查询如上所述;为10.4.4和10.4.5中，我们使用手动生成的查询后面解释。10.4.1查询扩展深度和表现一般而言，扩张的术语不越更好，由于不相关的字词的引入。在此基础在开发数据集，我们选择最好的扩张深度查询那些从上下文自动生成描述。我们利用查询扩展深度（3，5，10，15，20，和25），以查看在图P@N的性能。10和图MRR和MAP。11，对于这些质疑，扩张深度5可以赢得最佳的性能。所以我们选择5对接下来的两部分“（10.4.2和10.4.3）实验使用。10.4.2性能比较从生成的查询根据不同的实施方式的上下文在测试数据集，我们检查依据的查询性能我们的系统上。其结果示于图12和图13。这种类型的查询是困难的BS系统，因为应用程序服务条款及术语之间的一些重叠。无论是话题敏感的基于图形的排名（BS-TG）和查询扩展（BS-T-EXP）实现大的改善。在这种情况下，长期扩张有很大帮助查询处理。我们的方法我们的性能比非主题系统更好（BS-EXP-G）。10.4.3性能改进和查询困难我们还分析，帮助我们的方法的有效性已研究了近几年难以查询[23]。在图14，我们显示的结果为先前的自动生成面向环境的查询。根据BSsystem'sMAP价值观，我们查询排序从最高到最低。较高的MAP值是指基于内容的实用程序映射方法用于搜索和排序比较好。然后，我们划分的查询同样分为五个垃圾桶。宾0分配最低MAP值和斌4最高查询的人。“改进”和“减少”是什么意思的改善并降低到“P@10”的这5箱的查询由比较我们和BS。显然，对于难以查询（低级地图与BS），我们可以提高性能。于斌0，我们可以解决与MAP值不差的所有查询比BS，例如，提高了53比0下降。但斌4，我们失去了约10个查询到BS。总的来说，结果表明我们的方法进行比BS系统更好。10.4.4手动生成的查询对于前面的查询，我们不能保证这个词的重叠查询和服务的描述，这是一个必要的要求在BS系统的成功。为了作出比较可以接受的，我们手动生成24为长查询和相应的短查询查询如在附录部分示于表4。所有查询有条款与重叠服务描述。我们手动通过使用“池”中找到为每个查询有关服务方法[24]，这已被经常使用在红外线。该判决池被创建为follows.We使用BS和我们到生产前K=20名候选人，然后合并这些结果我们真正的候选人selection.We然后选择themost相关的结果从池中我们3评估。为了确保顶级K=20是有意义的，我们选择的查询，可每个系统返回多于20相关服务。这里“短”和“长”的意思分别是短查询和长查询。在图15和图16，我们测试膨胀的影响深度为我们的短查询和长查询。我们发现该查询扩展具有更大的影响力，提高短的查询性能，因为有一个较大的值要么精度的最高值和最低值之间的变化或MAP和MRR短的查询。例如，在图。15，当扩展深度为5，精度变化“P@三短”大约是13.5％，但对于“P@三长”，精度的变化是10％左右。主要的原因是，短查询有较少的语义信息。但扩建后，总之查询澄清。与扩张，精度变化的顶部列表是显而易见的。在这种情况下，“P@3-短“胜大于改进的”P@5-短“，这说明我们的排名算法可以帮助养成良好结果从顶部列表。长查询总是有更好的性能比，因为更好的语义查询短声明。基于上述的实验中，我们采取膨胀的深度5和20分别用于短期和长期的查询，这是无论是性能最高的parameters.We比较基准系统BS和我们的方法对于P@N，MAP和MRR图。17和图18，分别。对于较短的疑问，BS系统的性能是由于缺少非常低，查询空间之间的服务描述和异质性和服务空间。但我们有很好的改善到BS制度。因为BS的低查询精确此外，当前的Web服务搜索引擎宁愿提供浏览功能，而不是复杂的搜索功能。10.4.5比较图在表3中，我们显示通过不同的方法的示例的结果：BS与我们的。由于篇幅的限制，我们只列出前10名结果为Q1=“旅游资讯浏览器游目的地遍布全球，设有视频，照片，导游和旅游景点，气象信息和事件几乎所有的国家和许多城市世界各地的“表4。此查询与服务描述一个很好的任期重叠。一般的“旅游资讯浏览器”，这是一个应用程序的要求和预期服务可能包括“图”来检查的位置，“照片”概览风景，而“天气”预报天气。让我们来比较结果，从表3中看看基于这两种方法的区别。这里的“功能”是人类的标记告诉服务的类别。有趣的事情是：•我们有使用的，因为更广泛的服务类别语义查询扩展。其中一个明显的例子是我们提供的地图服务，例如，“谷歌地图“，但它并没有在BS系统存在。究其原因是，有查询之间没有重叠和“谷歌地图”服务的描述。通过使用我们的法，“旅游”是一种高效的单词关联的“地图”服务。•我们列出顶端结果列表最流行的因为我们的排名算法。例如，对于“地图”的服务，它提供了“谷歌地图”;为“照片”服务，它提供了“的flickr”;为“全天候”的服务，它提供了“气象频道”。所有这些服务都是更普遍使用比由BS返回的服务。下面我们就从长远的查询为例，因为与短的查询，基于内容的映射的方法，所述低回忆让学士学位，更糟糕的表现。正如我们前面提到的，我们的重点是解决涉及到的应用需求，这使得服务查询发现更容易尤其是对于非专家。我们的宗旨是与各自的应用程序返回用户协作服务要求。然后这些服务可能有不同的官能团，但它们都应该被某些应用程序。另外一方面，我们的排名算法行列这两个服务和应用程序。这是有用的选择和理解不熟悉的服务。举例来说，如果你不这样做了解“气象虫”，当您检查最高的应用并发现它经常被用来与谷歌地图当地气象报告，这是很有帮助的。10.4.6算法收敛我们证明了我们的二分图的排名算法收敛通过如图所示的实验19，我们监测收敛线为每个主题域的二分图。所有他们都有比低于13。图的收敛号码19显示了收敛过程中的迭代顶部5主题域相对较大的成员人数。在这里，我们忽略了主题图与成员的小尺寸。不过，他们有更小的收敛号码。11相关工作高效的Web服务发现算法有所增加他们鼓励的面向服务的发展的重要性的体系结构（SOA）。由于缺乏服务的描述内容，很大的努力一直强调在设计搜索算法，以提高效率基于内容的Web服务搜索。其中一个常用的方法是介绍服务之外的其他新知识说明[25]。最近上下文感知的方法[6-8,26-29]已普遍使用，以提高服务发现和在方法的下列类型的组合物。语境是普遍用于支持服务组合如[8,26,28-30]。[8]提出来定义的上下文来自两个方面：客户端的相关背景和提供商相关上下文。它喜欢吸收所有相关的信息服务活动的背景下，这使得背景复杂而难以遵循。顺便说一句，真正的实验经验没有在工作已经完成。[28]定义的上下文作为一个结构域的一个给定的术语，从提取出的模型文字片段，如网页。主要目的是为了使清除长期语义。[29]建议把用户的动态考虑到对服务的选择。那么上下文从用户的更改，如角度定义，移动各地。[27]也提出了一种上下文相关的服务发现通过定义一组技术的移动环境属性服务。服务内容可能会像位置和网络带宽。搜索仍然是基于传统内容映射的搜索机理和上下文属性行为作为过滤器。和上下文也是客户端相关的，手工填写。最近，[6]提出了解决面向应用通过引入服务上下文的查询定义为服务使用历史。它是提供一种自动的第一工作和实用的方法上下文收集和检索。然后背景由二部图建模，并用于查询扩展通过计算语义相关的条款属于不同的空间与一个作为服务空间而另一个作为应用程序空间的效率。该算法已经由一组实验验证。它会尝试从两个供应商描述服务端和客户端。本文通过设计一种新型大大延长[6]基于上下文的排名算法，做更深入的分析，以基于上下文的查询处理。12结论和未来的工作低搜索精度影响了发展和普及Web服务搜索引擎，导致一些他们只提供服务的浏览功能，而不是搜索。本文提出了使用这两种服务相关的地方信息（服务内容）及其用法，

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于二分图模型的上下文有关网站服务发现

文档简介

温馨提示

最新文档

评论

基于二分图模型的上下文有关网站服务发现

文档简介

温馨提示

最新文档

评论

相关文档