CN116933117B 一种基于谱聚类的软件组件识别方法及系统 (重庆邮电大学)_第1页
CN116933117B 一种基于谱聚类的软件组件识别方法及系统 (重庆邮电大学)_第2页
CN116933117B 一种基于谱聚类的软件组件识别方法及系统 (重庆邮电大学)_第3页
CN116933117B 一种基于谱聚类的软件组件识别方法及系统 (重庆邮电大学)_第4页
CN116933117B 一种基于谱聚类的软件组件识别方法及系统 (重庆邮电大学)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataComponentIdentificationAInternationalConferenceonDep.2023,360-368.一种基于谱聚类的软件组件识别方法及系统阵;计算拉普拉斯矩阵的所有特征值并升序排列,通过前k个特征值的特征向量构建特征向量件识别结果为软件运行事件日志添加组件属性2S1.获取软件运行事件日志SE,并获取软件运行事件日志SE中所涉及的所有类组成类SEiclj在第m组软件运行案例cm中的交互结果,Ta,(cm)=clz表示在第m组软件运行案例cmS5.采用Discretize聚类算法对特征向量空间进行聚类,并通过组件质量函数获取具3数据获取模块,用于获取包含M组软件运行案例的软件运行事件日志SE={c0,c1,…,SEiclj在第m组软件运行案例cm中的交互结果,Te,(cm)=clz表示在第m组软件运行案例cm特征向量空间构建模块,用于根据类调用相似度矩阵构聚类输出模块,用于采用Discretize聚类算法对特征向45[0005]谱聚类(spectralclustering)是一种基于图论的无监督聚类算法。它通过将数[0008]S1.获取软件运行事件日6[0012]S5.采用Discretize聚类算法对特征向量类clj在第m组软件运行案例cm中的交互结果,Tet(cm)=clz表示在第m组软件运行案例[0028]进一步的,步骤S5采用Discretize聚类算法对特征向量空间进行聚类得到多个7[0034]数据获取模块,用于获取包含M组软件运行案例的软件运行事件日志SE={c0,[0039]本发明提出了一种基于谱聚类的组件识别算法(ASoftwareExecutiondata[0045]图3是本发明实施例不同算法识别出的单类组件比例(Theratioofsingleclasscomponents,简称RSC)和中间类组件比例(Theratioofintermediate8[0050]1、谱聚类可以对高维数据有效降维,将其降成低维后使用经典聚类算法进行聚[0053]S1.获取软件运行事件日与类clj在第m组软件运行案例cm中的交互结果,表示在第m组软件运行案例cm中类cli调用了类clj,o,(cm)-cli表示在第m组软件运行案例cm中类clj调用了类9[0076]S5.采用Discretize聚类算法对特征向量法得到的组件质量差别不太明显,但算法运行时间存在巨大差异,K_means相比于[0079]所述聚类算法的输入是类调用相似度矩阵W以及聚类数目c,输出是聚类结果Com[0082]S52.用组件质量函数ComQuality评估聚类的好坏,选择其中质量最好的聚类效[0083]由于谱聚类算法需要簇的数目作为输入参数,所以为了中N为软件运行事件日志SE中类的数目。选取能够得到识别出的组件的质量最高的聚类结[0087]软件系统中包含的组件总数(Numberofcomponent,简称NoC);每个组件包含的件占所有组件的比例;中间类组件比例(Theratioofintermediatecomponents,简称块化质量越高,软件则越有可能是高内聚和低耦合的。模块化质量的度量方法如式(5)所度量指标可知,一个组件的RIC和MQ值越高,意味着该组件的质量越好,组件质量函数[0108]MQ:表示模块化质量,RIC:间类组件比例(Theratioofintermediate[0109]S6.根据聚类结果为软件运行事件日志中每一组软件运行案例都添加对应的组件[0114]算法的输入是软件运行事件日志SE,输出是添加组件属性的软件运行事件日志用外部方法getClasscall()从软件运行事件日志SE中抽取类之间的调用关系,并构建类调用相似度矩阵W,再根据外部方法normaliz()对类调用相似度矩阵W中的数值进行归一其中外部方法getClassNum()计算软件运行事件日志SE中所有类的数目N,簇的可能数目[0116]数据获取模块,用于获取包含M组软件运行案例的软件运行事件日志SE={c0,的算法SESC与其他五种组件识别算法在四组公开数据集上从不同方面(如表3所示)进行对[0127]所述AoC:每个组件包含的类的平均数量(Averagesizenumberofcomponent,[0131]图4是六种算法针对4个数据集识别出来的组件以及基线的ComQuality值的大个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论