CN119416770A 基于大语言模型的日志解析方法及装置 (北京海联捷讯科技股份有限公司)_第1页
CN119416770A 基于大语言模型的日志解析方法及装置 (北京海联捷讯科技股份有限公司)_第2页
CN119416770A 基于大语言模型的日志解析方法及装置 (北京海联捷讯科技股份有限公司)_第3页
CN119416770A 基于大语言模型的日志解析方法及装置 (北京海联捷讯科技股份有限公司)_第4页
CN119416770A 基于大语言模型的日志解析方法及装置 (北京海联捷讯科技股份有限公司)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

区科创十三街18号院5号楼7层701(北京自贸试验区高端产业片区亦庄组本发明提供一种基于大语言模型的日志解志数据集合中确定用于生成日志模板的代表性练好的大语言模型中得到代表性日志数据集合2确定样例日志及解析要求,将所述样例日志以及解析要求输入至训练好的大语言模从待解析日志数据集合中确定用于生成日志模板的代表性日志入至所述训练好的大语言模型中得到所述代表性日志数据集合对应的日志模板解析结果;基于前缀树数据结构将所述日志模板解析结果存储基于所述代表性日志数据集合和所述日志模板解析结果通过正则表达式匹配算法确基于所述不匹配信息对所述日志模板解析结果进行修复得到修复后的日志模板解析基于前缀树数据结构将所述修复后的日志模板解析结果存储基于各日志数据的相似度从待解析日志数据集合中确定用于生成日志模板的代表性据的相似度从待解析日志数据集合中确定用于生成日志模板的代表性日志数据集合,包基于日志数据的长度将所述待解析日志数据集合中的多个日志数据划分为多个子集基于各所述子集合中的相似度值小于预设阈值的日志数据生成代表性基于系统抽样法从待解析日志数据集合中确定用于生成日志模板的代表性日志数据基于所述模板数据对所述待解析日志数据集合中的各日志数据进行在线解析或离线3基于所述第一日志数据通过所述大语言模型得到与所述第一日志数据对应的日志模基于所述第一日志数据对应的日志模板解析结果对存储的所述模板数8.一种基于大语言模型的日志解析系统,包理器执行时实现如权利要求1至7中任一项所述方法4合输入至所述训练好的大语言模型中得到所述代表性日志数据集合对应的日志模板解析[0011]基于所述代表性日志数据集合和所述日志模板解析结果通过正则表达式匹配算5[0012]基于所述不匹配信息对所述日志模板解析结果进行修复得到修复后的日志模板[0015]基于各日志数据的相似度从待解析日志数据集合中确定用于生成日志模板的代[0017]基于日志数据的长度将所述待解析日志数据集合中的多个日志数据划分为多个[0019]基于各所述子集合中的相似度值小于预设阈值的日志数据生成代表性日志数据[0021]基于系统抽样法从待解析日志数据集合中确定用于生成日志模板的代表性日志[0023]基于所述模板数据对所述待解析日志数据集合中的各日志数据进行在线解析或[0026]基于所述第一日志数据通过所述大语言模型得到与所述第一日志数据对应的日[0027]基于所述第一日志数据对应的日志模板解析结果对存储的所述模板数据进行更程序被执行时该系统实现如上任一实施例所述机程序被处理器执行时实现如上任一实施例所述方法6于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获[0039]图5为本发明一实施例的基于相似度计算方法确定代表性日志数据集合的流程示示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大7[0053]步骤S20:从待解析日志数据集合中确定用于生成日志模板的代表性日志数据集志数据集合输入至所述训练好的大语言模型中得到所述代表性日志数据集合对应的日志领域的能力。大语言模型的思维链(Chain_of_Thought,coT)提示是一种改进的提示技术,相比较于简单的提示词,思维链提示词可以为大语言模型提供具体的分析和思考的步骤,模型生成我们所需要的结果;最后给出具体的代表性日志数据集合供大语言模型进行解89性日志数据集合生成的日志模板用于对待解析日志数据集合中的各日志进行解析。其中,日志数量,遍历待解析日志数据集合中的所有数据并发送至大语言模型完成日志模板解中的多个日志数据划分为多个子集合;对各所述子集合中的各日志数据进基于各所述子集合中的相似度值小于预设阈值的日志数据生成代表性[0069]图5为本发明一具体实施例的基于相似度计算方法确定代表性日志数据集合的流同一日志模板的日志长度相同,该实施例基于子集合的划分能够降低日志集合的数据规日志子集合中的日志以降低处理时间以及处理[0071]在对日志数据处理效率要求较高或待解析日志数据集合中的日志数量巨大的实在提高处理效率的基础上保障代表性日志数据集合中样本多样解析,通过在提示词的结果结构中举例指导解析:13:14:15这个时间字段可以被解析为14:11:432005][error][client141.154.18.244]Directoryindexforbiddenby[0075][<:week:><:month:><:day:><:time:><:year:>][<:log_level:>][client<:client_ip:>]Directoryindexforbiddenbyrule:<[0076][<:week:><:month:><:day:><:time:><:year:>][<:log_level:>][client<:client_ip:>]]Directoryindexforbiddenbyrule:<字符,出错点在于,[client<:c日志:[0079][<:week:><:month:><:day:><:time:><:year:>][<:log_level:>][client<:client_ip:>]Directoryindexforbiddenbyrule:<:模板自动修复算法采用双指针的思想;在起始状态日志字符指针指向日志的第一个字符,字符与日志字符不匹配的情况以及对应的修复方法[0083]1.2当前模板字符不等于下一字符前后均是空白符,大语言模型有可能会在这些字符前添加空白符,例如:日志中的[0091]在上述实施例中,基于模板自动修复算法对大语言模型输出的日志模板进行修对所述待解析日志数据集合中的各日志数据进行在线解析时,所述日志解析方法还包括:的日志模板均不匹配时,则进一步的基于大语言模型生成与该日志数据匹配的日志模板,time:><:hostname:>su(<:module:>)[<:pid:>]:sessionopenedforuser<:user:>;3.<:time:><:hostname:>su(<:module:>)[<:pid:>]:sessionclosed前节点到part所在的子节点;如果part不在当前节点的children中,则先创建一个新的TrieNode并将其添加到children中,再移动当前节点。在parts列表遍历后,将日志模板前节点到与当前part匹配的子节点并移动当前part到下一个part。如果没有下一个part,程序被执行时该系统实现如上任一实施例所述[0105]图2为本发明一实施例的基于大语言模型的日志解析系统的模块调用流程图,如[0110]需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论