下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、大模型发展现状大模型是指具有大规模参数和复杂计算结构的机器学习模型,其本质是一个利用海量数据训练出的深度神经网络模型,其庞大的数据和参数规模使其能够从训练数据中自动学习和发现新的、更高层次的特征和模式,这种独特的能力被称为“涌现能力”,具备涌现能力的大模型为人工智能的发展注入了新的活力。自2013年起,自然语言处理(NLP)领域迎来了一系列革命性的进展,Word2Vec的问世为计算机理解文本数据提供了全新的“词向量模型”。随后生成对抗式网络(GAN)的诞生推动了深度学习在生成模型方面的探索。2017年由谷歌公司提出的Transformer架构为大模型的预训练算法奠定了基石。随着OpenAI和谷歌公司分别发布GPT-1和BERT,预训练大模型成为NLP的主流。2022年,基于GPT3.5的ChatGPT以其出色的自然语言交互和内容生成能力,迅速成为互联网焦点。而2023年发布的GPT-4更是将多模态理解和内容生成推向了新的高度,极大推动了大模型在多个领域的发展应用。二、审计大模型构建方法当前市面上常见的如ChatGPT、文心一言等通用预训练大模型均为在线模型,直接使用在线模型用于审计会带来数据隐私安全方面的隐患,因此构建一个可以有效保障数据隐私安全的大模型环境对审计人员来说至关重要。本文充分考虑了审计人员这一需求,依托Langchain-ChatChat开源项目,采用基于开源ChatGLM模型+RAG检索增强知识库结合的大模型构建方式,构建一个本地运行的、知识库可更新使用的审计大模型。通用预训练大模型的训练数据主要来源于公开渠道,缺乏审计专业知识和私有知识,直接使用难以支撑审计专业知识问答。尽管可以通过重新训练或微调的方式来扩充模型知识库,但这种方法存在诸多不足。首先是需要大量的数据,训练成本高昂且周期漫长;其次是面对审计专业知识的更新难以及时响应,对于知识更新和删除缺乏有效机制;最后是大模型可能出现“幻觉”,生成与事实不符的内容。通过使用检索增强技术(RAG)能够在一定程度上解决上述问题。RAG通过引入存储在外部数据库中的知识来增强大模型的问答能力,在大模型回答问题或生成内容之前,RAG会先在外部数据库中检索相关信息,将相似度高的内容返回给大模型,然后大模型再对这些内容进行进一步整理和生成。这种模式不仅提高了输出的准确性和相关性,还有效地避免了因大模型“幻觉”而产生的不正确的内容。(一)数据采集与预处理首先是收集需要用到的各种知识数据,包括各种格式的文本文档数据、以及表格、图片等多模态数据,构建知识库。然后对知识库内数据进行清洗和预处理,包括去除噪声、去除特殊字符、停用词、标点符号,以及进行词干化或分词以减少词汇量。在RAG方法中,大型文档被分割成chunk块进行存储,这种方式一方面有助于提高检索效率,另一方面通过基于特定块的上下文检索方法能够在一定程度上弥补检索精度的不足。本文中采用的文本分割方法是依据中文标点符号设计的重叠滑窗分句法,按字符递归分割文档,同时兼顾被分割文本长度和重叠字符。(二)建立向量索引数据库将文档分块以后,需要对每个分块建立索引用于后续检索。建立向量索引是当前最常用的一种方法,首先通过通用语义向量模型将高维度的数据映射到低维空间生成向量表示,再对这些向量进行索引和搜索。需要根据任务的性质和输入数据的特点选择通用语义向量模型,本文中选择的是BGE-M3模型。对分块文档生成向量表示后,存储于Faiss开源向量数据库中,使用时采用计算向量间余弦距离方法检索相似度最高的结果。(三)选择合适预训练大模型目前市面上开源的大模型有很多,如Qwen、llama、Baichuan、ChatGLM等。结合任务类型、设备算力水平等因素综合考虑,决定使用ChatGLM3-6B模型。ChatGLM3是由智谱AI和清华大学KEG实验室联合发布的新一代对话预训练模型,ChatGLM3-6B是其系列中的开源模型,参数量为60亿量级,按照FP16精度的默认选择进行加载,需要使用约13GB显存和14GB内存。三、审计大模型应用场景(一)构建审计数据知识库通过审计大模型,可以构建全面的审计数据知识库,包括审计法规库、审计问题库、审计对象库,为审计工作提供丰富的知识资源。审计人员首先收集国家和地方各级政府、相关领域行业发布的法律法规、政策文件等,通过RAG将收集到的文件保存至向量数据库的审计法规库中,之后审计人员可以通过关键词或短语检索的方式与大模型对话,大模型以向量数据库检索结果作为输入上下文内容进行回答,从而实现对法规条款的检索与解释分析。随着新法规的出台或旧法规的废止,审计人员可以对法规库进行更新,保证法规数据时效性。审计人员获取历史审计报告、其他审计案例,将其保存至向量数据库的审计问题库,完成数据库初始化后审计人员可以与大模型对话,找出历史审计报告、其他审计案例中相似的审计问题、问题定性及定性依据,帮助审计人员在遇到类似情况下快速识别和防范潜在风险,为审计人员确定问题类型提供重要指引。通过对历史审计报告、被审计对象基本信息的关系图谱分析,将过往审计报告发现问题、被审计对象情况、信息数据动态更新情况等进行采集存储,构建审计对象库,为被审计对象建立精准画像,为审计计划、实施方案、事项审计提供依据。(二)审计知识智能问答审计大模型作为智能助手,能够提供快速且准确的知识问答服务。给定大模型一个审计目标,大模型可以详细阐述审计事项及具体方法步骤,交互式引导审计人员进行操作。大模型还可以提供类似场景的案例分析方法,帮助审计人员了解不同场景下的具体实施方法。针对审计中发现的疑似问题,大模型可以对疑似问题进行自动或半自动的定性,包括问题的重要性、可能的原因等。通过使用“知识库问答”的模式,在给出问题定性时大模型还能够给出相关的法规依据,为审计人员提供针对性的处理意见或解决方案,极大方便了审计人员查找定性依据,同时可以有效避免大模型“幻觉”问题。例如在开展某专项审计项目中,审计人员将前期收集各领域共计100余份法规政策文件分块存入向量数据库中,再通过大模型的“知识库问答”模式向大模型提问审计过程中发现的现象是否存在问题,是否违反了哪条规定。此时系统通过RAG对数据库进行检索,并将检索结果传递到大模型,由大模型进行回答,并列出具体的文件规定。(三)辅助开展数据分析大模型除审计知识智能问答外,在辅助数据分析方面也能够发挥巨大作用。在数据预处理过程中,会遇到数据格式不统一、存在缺失值和异常值的情况。通过向大模型描述数据情况,大模型可以提供数据清洗标准化的SQL语句或程序代码,运行这样的SQL语句、程序代码就可以实现数据清洗与标准化,方便进一步的处理分析。大模型能够接收审计人员的自然语言描述,并通过其强大的语言理解能力解析描述的意图,生成对应的SQL查询语句或程序代码。例如针对审计人员使用自然语言形式描述的需求,大模型会识别出关键信息,如时间范围、数额条件、以及所需的计算操作,从而生成对应的编程代码。通过自然语言方式生成代码的方式可以极大简化数据分析过程,降低审计人员编程门槛,有效提升审计数据分析工作效率。在审计人员编写SQL语句程序代码或使用自然语言方式生成代码时,会遇到不理解程序代码含义或程序代码运行出错的情况。此时审计人员可以将程序代码提供给大模型,让大模型解释说明代码的含义或找出代码中的错误和潜在问题,给出纠错建议。审计人员常常会遇到编写的程序代码效率低下、执行耗时长的情况,通过和大模型交互式对话,可以对审计人员编写的程序代码进行优化,提高查询效率和响应速度。四、审计大模型未来发展趋势随着数字化转型的深入推进和大数据技术的飞速发展,审计大模型作为一种能够处理海量数据、提供精准审计知识、辅助开展数据分析的智能化工具,将成为审计工作不可或缺的支持力量。然而,在实践过程中也发现了其应用方面的不足之处。一是计算资源需求高,当前选择的模型在使用时需要占用数十个GB的内存显存,表现效果越好的模型往往参数量越大,这就需要更大的内存、显存等计算机资源,对于资源有限的机构来说可能是一个挑战。二是具有较强数据依赖性,数据存在偏差时模型的准确性和泛化能力会受到严重影响,这就需要审计人员具有较高的专业判断能力。随着技术的不断进步和应用场景的深入拓展,相信这些问题也将得到逐步解决。笔者认为,审计大模型未来发展将会呈现出两大明显趋势:深化数据驱动与一站式智能分析。一方面,审计大模型将更加注重数据驱动,通过深度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年四川省巴中市从“五方面人员”中选拔乡镇领导班子成员考试强化练习题及答案
- 2025年卫生高级职称面审答辩普通外科副高面审经典试题及答案
- 2025年一级建造师考试(机电工程管理与实务)题库含答案佛山
- 2026年高级育婴师学习考试试题及答案解析
- 宁德市一级建造师考试(机电工程管理与实务)题库含答案(2025年)
- 除颤操作失误纠错模拟应急演练
- 跨河桥梁汛期漂浮物撞击应急预案
- 机动车检测站内审年度计划及实施细则
- Giparmen-生命科学试剂-MCE
- FTC-146-precursor-生命科学试剂-MCE
- 中职机械教学中数字化教学资源的开发与应用课题报告教学研究课题报告
- 宜宾市自然资源和规划局竞争性比选工作人员的考试参考试题及答案解析
- 《道路运输企业主要负责人和安全生产管理人员安全考核机动车维修企业》专业部分题库(附答案)
- 20.2电生磁教案(表格式)2025-2026学年初中物理人教版九年级全一册
- 霍桑红字介绍
- TGXAS-抗肿瘤药物临床试验护理工作规范编制说明
- 美团推广合同范本
- 网络金融部业务知识考试题库
- 税务领导选拔面试题目及答案
- 内分泌危象识别与应急处理
- 机关人员公务出差审批单
评论
0/150
提交评论