AI生成内容检测方法与研究

上传人：领*** IP属地：北京上传时间：2026-05-23 格式：DOCX 页数：31 大小：1.75MB 积分：12 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

--AI生成内容检测方法研究与实现摘要近年来，随着AI技术的快速发展，尤其在自然语言处理领域，AI展现了出色的能力。以及伴随着大语言模型的兴起，AI技术已经迎来生成式时代。以大语言模型为核心的生成式AI成为了当前科技创新新的焦点，AI不仅能够理解复杂问题的准确意义，还能创造出各种各样的多模态材料。但是，不可否认的是，AI生成内容也存在一定的风险，如AI生成的文本信息可能会扰乱舆论生态，同时也会加剧虚假舆情的传播；过度依赖AI完成作品也会造成影响学术诚信的问题，甚至滋生如论文抄袭等学术不端的现象。因此，为了能有效规避使用AI带来的不良影响，使用合适的技术手段准确检测AI文本内容显得至关重要。本文聚焦于大语言模型的生成文本检测，讨论AI生成文本检测方法的研究与实现。文章开篇引入了AI文本检测的背景情况，其中囊括了研究现状、研究路线以及应用领域等多方面的内容，紧接着详细介绍几个常用于文本检测的预训练模型与算法，随后针对上述模型在数据集上展开性能对比实验，最后探讨了AI文本识别未来所面临的挑战以及研究趋势。实验过程中我们发现，运用OUTFOX数据集开展训练的预训练模型，获取到了更为不错的文本检测准确度。随后我们还分析了该模型针对人工扰动数据的抗干扰能力，并且对检测指标给予了评估。我们在Gradio交互页面达成了接收用户所提供文本，而后返回水印模型检测结果进行展示的操作。鉴于受到有限实验资源的影响，我们的实验结果存在着一定局限性，未来工作中可借助组合现有的公共数据集，或者对模型体系结构做出调整，以此收集更多适配不同情境的数据。关键词：深度学习、自然语言处理、AI文本识别、水印检测、多级对比学习

ResearchandImplementationofAI-GeneratedContentDetectionMethodsAbstractInrecentyears,withtherapiddevelopmentofAItechnology,especiallyinthefieldofnaturallanguageprocessing,AIhasdemonstratedoutstandingcapabilities.AndwiththeriseofLLM,AItechnologyhasenteredthegenerativeera.NoweveryoneisfocusingongenerativeAI,whichisreallyoneofthehottesttopicsinthefieldoftechnology.TheseAIscanunderstandwhatparticularlycomplexproblemsareasking,andcanalsomakevariousformsoftext,pictures,andsoon.ButwealsowanttoseethatAI-generatedthingscansometimescausetrouble.ThecontentiswrittenbyAI.Thisarticleismainlyaboutstudyinghowtoidentifytextgeneratedbylargelanguagemodels,andalsotosaywhatmethodscanbeusedtodetectwhatAIwrites.Thepaperbeginswithaquestionaboutthecontextofthefield,suchaswhateveryoneisnowlookingat,whatdifferentmethodsthesetechnologiescanbeused.Next,wewilltalkaboutafewcommonlyusedpre-trainedmodelsandalgorithms,whicharetoolsfordetectingAItext.Toseewhichmethodisbetter,wewilltestthesemodelsonthedataset.Intheexperiment,wefoundthatthepre-trainedmodeltrainedusingtheOUTFOXdatasetachievedrelativelygoodtextdetectionaccuracy.Secondly,wealsoexploredthemodel'santi-interferenceabilityagainstartificiallydisturbeddataandevaluatedthedetectionindicators.Meanwhile,ontheGradiointeractionpage,weimplementreceivingthetextprovidedbytheuserandreturningthedisplayofthemodelcheckingresults.Affectedbythelimitedexperimentalresources,ourexperimentalresultsalsohavecertainlimitations.Infuturework,moredatasuitablefordifferentscenarioscanbecollectedbycombiningexistingpublicdatasetsormodifyingthemodelarchitecture.Keywords:DeepLearning,NaturalLanguageProcessing,AITextRecognition,WatermarkDetection,Multi-levelContrastiveLearning

目录TOC\o"1-3"\h\u9632AI生成内容检测方法研究与实现 -第一章绪论1.1课题背景及研究意义AI生成内容检测（AI-generatedTextDetection）是指利用技术手段判断一段文本、图像、音频或视频是否由人工智能（ArtificialIntelligence，AI）生成，而非人类创作。其核心目标是识别和区分AI生成内容（AI-GeneratedContent，AIGC）与真实人类创作内容，以应对虚假信息、学术不端、版权争议等社会问题。近年来，AI领域快速发展，特别是在自然语言处理（NaturalLanguageProcess，NLP）领域，AI展现出非凡的能力REF_Ref2681\w\h[1]。以ChatGPTREF_Ref3625\w\h[2]、ClaudeREF_Ref4082\w\h[3]、GeminiREF_Ref4141\w\h[4]等为代表的大语言模型（LargeLanguageModel，LLM），能够生成接近甚至超越人类水平的文本内容。而伴随着LLM的兴起，AI技术已经进入“生成式时代”，以LLM为核心的生成式AI成为当前科技创新的焦点，借助大数据、深度学习以及硬件算力突破，AI不仅能够理解复杂问题的准确意义，还能创造出丰富的多模态材料。当前，LLM在各领域的广泛应用带来了很多便利，如自动生成的文本大大减低了创作者的创作门槛，快速理解并生成会议摘要、文章梗概节省了大量人力成本等。AI在教育领域、医疗领域以及娱乐领域等多个领域得以广泛应用并落地实施，这使得AI成为推动社会效率提升的一项关键工具。然而需要注意的是，当下AI生成内容确实存在一些风险和挑战，比如AI伪造的文本信息会对舆论生态造成干扰，使得虚假舆情的传播情况变得更加严重，另外模型训练数据以及生成内容的版权归属目前还没有明确的法律规定，这就导致存在违法侵权的风险。如此可见，使用恰当的技术手段精准检测AI文本内容相当关键，可有效避开因使用AI所产生的消极作用。AI生成内容检测的相关研究可回溯至21世纪初期，不过在早期阶段，其研究重点主要聚焦于文本生成检测方面，针对机器所生成的垃圾邮件以及自动生成的网页内容等情况。随着生成式AI技术的发展，检测研究逐渐扩展到图像、音频和视频领域。本文主要针对LLM文本检测的必要性，研究方法，数据集，指标评估等方面进行研究REF_Ref4219\w\h[5]。图SEQ图\*ARABIC1-1文本检测示意图（图源JunchaoWU，etalREF_Ref838\r\h[20]）1.2国内外研究现状AI生成内容检测本质是一个二分类问题，其核心任务是判断一段文本或一段视频是否由AI模型生成。近年来，随着一系列检测技术的提出，如基于神经网络的检测器、对抗样本防御的鲁棒水印技术、频域特征检测以及多模态检测技术等方面取得了显著进展。2003年，Google的研究人员提出GoogleSpamdexing检测REF_Ref4281\w\h[6]，用于判别网页是否由机器生成，这是最早的AI生成内容检测雏形之一；2006年，研究者开始使用N-GramREF_Ref4321\w\h[7]、词频分析等统计语言模型，来识别博客垃圾评论等自动生成的文本；AI生成内容检测的真正系统化研究始于2016年生成式对抗网络（GenerativeAdversarialNetwork，GAN）的出现REF_Ref4370\w\h[8]，GAN的提出使得AI生成图像的质量大幅度提升，催生了针对GAN生成图像的频域分析技术；2018年，Deepfake视频检测成为热点REF_Ref4412\w\h[9]，重点针对生成视频的面部表情、眨眼频率等细节辨别视频是否为AI生成；2019-2020年，随着GPT-2和GPT-3的发布，AI生成文本的质量越发接近人类水平，传统的检测方法逐渐失效，研究者开始使用RoBERTa-basedREF_Ref4448\w\h[10]等深度学习分类器区分AI生成文本和人类文本；2022年，ChatGPT掀起了AIGC的热潮，强大的生成模型引发了一系列学术诚信的问题，GPTZeroREF_Ref4503\w\h[11]等检测工具流行，功能强大的模型使得AI生成内容的检测难度加大，研究的重点方向转向对抗样本防御和可解释检测。进入大模型时代，随着ChatGPT、GPT-4等大语言模型的广泛应用，AI生成文本检测（AI-generatedTextDetection）成为自然语言处理和AI安全领域的研究热点。当前AI生成文本检测的主要研究可分为LLM的文本检测，对抗样本攻防研究，多模态融合检测以及低资源与跨语言检测等方向。在LLM的文本检测的研究中，2019年Gehrmann等人提出了提出基于词频统计和预测概率分布的检测方法GLTR（GiantLanguageModelTestRoom）REF_Ref4543\w\h[12]。由于LLM在组织语言的时候倾向于选择近期出现概率更高的词汇，而人类在创作的时候选择则更为随机。因此GLTR通过分析文本中各个词汇的预测概率排名（PredictedProbabilityRanking，PPR）来判断文本是否由LLM生成。该方法适用于GPT-2生成的文本识别，识别准确率高达70%。但是基于统计的检测方法也具有一定的局限性，比如其容易被改写攻击绕过并且随着语言模型的迭代升级，AI生成文本的词汇丰富度和随机性也在随之增加。在对抗样本攻击方面，2020年Garg和Ramakrishnan等人提出了基于BERT的对抗样本生成方法BAE（BERT-basedAdversarialExamples）REF_Ref4595\w\h[13]。BAE的核心思想是利用BERT掩码语言模型的能力，将原始文本中的某些词进行操作，在实现文本语义的基本不变（人类看不出差别）的基础上让模型预测文本的结果出现改变。BAE的主要攻击策略有三种：一是BERT-Replacement，通过BERT的MLM预测实现句子中词语的替换。二是BERT-Insertion，在句子中插入不影响句子整体意思的BERT预测词，以干扰模型的判断。三是BERT-Deletion，在不改变句子原意的基础上删去某些词，以达到保留文本语义完整性并干扰模型判断。但是BAE也存在一定的局限性，例如对抗样本的质量高度依赖于BERT在该领域的表现，并且容易出现语义漂移的现象。在对抗样本防御方面，2017年Miyato等人为了解决文本分类任务中面对微小扰动模型的鲁棒性问题，提出了将虚拟对抗训练（VirtualAdversarialTraining,VAT）运用于NLP任务的核心方法REF_Ref4641\w\h[14]。通过对原本运用于图像领域的VAT进行迁移，向文本嵌入层添加对抗性扰动，并强制要求模型对扰动前后的输出保持一致，从而平滑模型决策边界。Miyato等人设计的VAT包括两项核心技术：一是扰动生成，通过计算输入词向量的梯度方向，生成最坏情况下的小幅度扰动，并将扰动施加在连续的词嵌入空间，避免直接生成不可读的对抗文本。二是损失函数设计，凭借将标注数据与未标注数据相结合的方式来达成半监督学习，以此提升模型的泛化能力。在多模态融合检测方面，2023年唐杰等人提出一种创新的多模态生成内容检测框架，通过分析文本-图像模态间的一致性来识别AI生成内容REF_Ref4670\w\h[15]。研究团队运用经过改进的CLIP模型来构建文本以及图像的联合嵌入空间，借助注意力机制对语义匹配度给予量化，捕捉图文不符的情况。在检测时，采用文本流与图像流相结合的双流检测架构，于融合层借助门控机制对多模态特征实施动态加权，检验不一致信号，实现对AI文本更为精准的判别。1.3本文的组织结构本文一共四章，各章的主要内容安排如下：第一章为绪论，绪论部分主要介绍了本文相关的研究资料，包含了课题背景，研究意义，国内外研究现状。第二章中主要介绍了AI文本检测的基本概念，以及可以使用在AI文本识别任务中的方法和AI文本识别任务的难点。第三章中具体介绍了AI文本检测中的具体理论知识，包括文章中用到的算法和模型。第四章将预训练模型在数据集上进行性能对比实验，并选用一个水印算法进行文本检测，同时在Gradio页面上实现了检测结果的可视化。文章的最后是总结和展望部分，对全文的工作以及未来AI文本检测的挑战和研究趋势作出了讨论。

第二章AI文本检测基础2.1AI文本检测的粒度划分AI文本检测的粒度划分是指根据检测目标的精细程度和范围层次进行分类的方式，不同粒度对应不同的应用场景和技术实现。按照划分属性的不同，可以将文本检测主要分为两类：按文本范围划分和按内容属性划分。2.1.1按文本范围划分（1）全文检测（Document-Level）：检测对象为整篇文档（如论文、文章、报告等）。由于检测对象为一篇完整的文档，检验目标具有较强的上下文关联性，因此全文检测的技术重点在于分析整体风格的一致性和统计全篇词频或句法的分布。例如在针对同一话题的一篇论文中，AI生成的论文在背景信息和实验过程描述中偏向于使用统一的、无波动的语言；人类创作的论文可清晰地让人感受到存在语言色彩的波动，这种检测一般用于学术论文查重、版权侵权检测等方面。（2）段落检测（Paragraph-Level）：检测的对象是单个段落或者章节，其体量大概在100词至500词之间，这一检验的技术关键之处在于检测文段的逻辑连贯情况以及识别“过度流畅”这种现象，由于人类的思维有一定跳跃性，在书写文段的时候一般不会特别连贯。且研究表明AI文本的平均段落流畅度高于人类15%。这种检测通常被用于新闻编辑审核和合同条款验证。（3）句子检测（Sentence-Level）：检测对象为独立的句子，体量约为5-30词。该检测的技术重点在于分析语法树的复杂度以及检测句子的“完美语法”倾向。同一个句子的表述中，人类句子结构会更加复杂多变，也更容易出现人为的语法错误；而AI句子出现语法错误的概率低于0.1%。由于检验对象的单一和独立性，该检测的多应用于社交媒体的水军识别以及客服对话质检。2.1.2按内容属性划分（1）语义级检测（Semantic-Level）：语义级检测主要关注文段的概念关联性和隐喻创造力。例如，AI模型更偏向于使用高频关联词对，而人类文本的隐喻概率则高达37%。因此，该检测常用于诗歌或广告的AI成分分析。词汇级检测（Lexical-Level）：词汇级检测主要关注文段某些特殊词汇的出现频率或分布。例如，人类作者更可能使用某一些生僻词且人类文本出现语气词的可能性也更高。相反AI文本出现的词汇则较为高频和常规，AI文本平均比人类文本少15%的语气词。该检测也常用于学术论文中术语滥用的检测。字符级检测（Character-Level）：字符级检测主要关注键盘输入特征和特殊符号的使用。由于主要依靠键盘输入特征和特殊符号的使用来判断是否为AI文本，该检测常用于实时输入的行为验证，如在线考试的防作弊系统等。2.2AI文本检测的基本原理AI文本检测的基本原理主要借助机器学习或者深度学习算法，使模型学习文本的特征表示，依据这些特征展开检测与分类，其主要步骤包含：数据收集以及预处理、特征提取、模型训练、模型评估并优化，最后返回文本检测结果。2.2.1数据收集与预处理在数据收集阶段，要清楚地明确数据的来源，确定可获取文本数据的渠道，像社交媒体、新闻文章以及学术论文等，也可以借助网络爬虫、数据接口或者已有的数据集去获取所需要的数据。数据预处理环节要做好多项工作，其一是清洗文本：需要去除其中噪声，像爬取到的网站文本里的HTML标签、JS代码以及不可见字符等都要删去。其二是统一格式：把文本转换为统一形式，比如将所有文本都变为小写或者大写，为后续规范处理做好准备。其三是分词：将文本分割成单词或短语。例如，对于中文，可以使用结巴分词等工具；对于英文，可以使用空格和标点符号作为分隔符，结合词法分析器进行更精确的分词。其四是标注：标注人员需对收集到的文本数据开展标注工作，标注类别依据具体任务来确定，例如可把数据标注成Human、AI等不同类别。2.2.2特征提取文本自身属于非结构化数据，计算机直接处理存在一定困难，特征提取主要任务是从原始文本数据里提取能代表文本本质特征的信息，把文本转变为计算机可处理的数字特征向量，用于后续模型训练与分类，具体工作如下：向量化处理。将文本转变成为数字向量的形式，这样就能让计算机对其展开计算以及分析工作。例如借助词袋模型以及TF-IDF等方法，可把文本转化成一个覆盖单词频率或者关键性得分的向量，也可以运用词嵌入技术把单词映射至低维向量空间，以此将文本表示成向量序列或者矩阵。大语言模型于向量化处理方面呈现出更为突出的优势，其所运用的Transformer架构借助自注意力机制，可精准捕捉文本里的长距离依赖关系，把单词或者短语编码成涉及上下文语义信息的向量。例如GPT系列模型所采用的字节对编码，它结合了字符级和词级表征各自的长处，还可对未登录词进行有效处理，生成更为精准的语义向量表示。（2）提取代表性特征。简单来说就是需要从数量众多的文本数据里面，提取出可以精确代表文本在内容、语义以及结构等多个方面情况的特征。这些特征应该能够有效地区分不同类型的文本，对于文本检测任务具有关键的鉴别作用。例如，在检测垃圾邮件时，一些常见的特征可能包括“中奖”“优惠”等字样、链接的数量和类型、发件人的域名等。大语言模型于提取语意特征之际，借助预训练去学习海量文本数据里的语法规则、语义模式以及世界知识，可自动挖掘文本当中深层的语义特征。例如在情感分析任务中，模型可以识别的不仅仅是情感词汇，同时也可理解否定词、反讽等复杂语境下的情感倾向。在问答系统里，它可以提取问题中的关键语义要素，理解问题背后的意图，找到最契合的答案。（3）数据降维。一般原始文本数据往往有较高的维度，其中包含数量众多的单词以及字符方面的信息。特征提取需要在确保关键信息能被保留的前提下对数据进行降维处理，去除冗余和无关的信息。如此便可降低模型在计算量方面的消耗以及存储空间的占用，提升模型的训练速度，提高其泛化能力。例如，通过PCA等方法对文本特征进行变换，将高维特征映射到低维空间中，同时尽可能保留原始数据的方差和信息。在大语言模型开展训练的进程中，借助对参数给予优化以及运用注意力机制的方式，其以一种隐含的形式达成了针对语义特征的“降维”操作。它可以将重点放在对于理解和生成文本而言最为关键的语义信息上面，把大量的噪声以及无关信息过滤掉，在保持语义完整的情况之下，降低了数据的复杂程度，让模型在处理各类自然语言处理任务的时候效率更高。2.2.3模型训练训练AI文本检测模型主要完成以下任务：（1）学习特征与标签之间的关系。我们希望模型通过对大量已标注文本数据的学习，挖掘文本特征与对应标签（如人类文本或AI生成文本文本等类别标签）之间的内在联系，构建起从特征空间到标签空间的映射函数。例如，在文段检测的过程中，模型要学会识别特定关键词特征（如语气词）与Human标签之间的关联。（2）调整模型参数。通过反向传播算法等优化方法，不断调整模型的参数（如神经网络中的权重和偏置），使模型在训练数据集上的损失函数值最小化。同时，在调整参数过程中，还需要运用正则化方法、Dropout技术等手段防止模型过拟合，以此来达到限制模型的复杂度，使模型具有更好的泛化能力，能够适应未见过的数据的目的。2.2.4模型评估与优化（1）选择评估指标。根据文本检测任务的特点选择合适的评估指标。常见的指标有准确率、精确率、召回率、F1值等。在文本检测的任务中，除了关注整体的评估指标外，还可对模型针对不同长度文本、不同主题文本的处理能力展开分析，并且剖析模型对于特定关键词或者短语的敏感度等方面情况。（2）优化超参数。超参数是在模型训练之前需要设定的参数，如学习率、批次大小、迭代次数等。通过调整超参数可以达到优化模型性能的目的。以学习率为例，学习率决定了模型参数更新的步长，如果学习率过大，可能导致模型无法收敛或错过最优解；如果学习率过小，会使训练过程变得非常缓慢。可以通过网格搜索、随机搜索等方法来寻找最优的超参数组合。图2-1文本检测流程示意图2.3主流检测方法这部分将简单介绍一下可以用于AI文本检测的方法。AI文本检测的精确度受到文本长度的影响。比如长度短于50词的短文本由于包含的语义信息较少，上下文关联逻辑较弱，检测的准确率往往低于60%。若是能提供较为完整的文本信息如一篇完整的报道或是文章，文本检测的准确率则能普遍提升至70%及以上。2.3.1基于分类器的检测方法基于分类器的AI文本检测方法，通俗来说就是将机器学习的方法运用于文本检测任务中，从而将其转化为分类问题。首先，需要对文本数据进行特征提取，将文本转换为计算机能够处理的特征向量。这些特征可以是词袋模型表示的单词出现频率、TF-IDF值等统计特征，也可以是更复杂的基于词嵌入、句法结构等的特征。然后，使用这些特征向量来训练分类器，分类器学习不同类别文本的特征模式，以便能够根据输入的文本特征向量判断该文本属于哪个类别。2.3.2基于概率分析的检测方法基于概率分析的检测方法，就是通过对比文本中某些语素、词汇出现的预期可能性与实际出现的情况，来确定该文本是否为AI生成的文本。例如要判断一篇体育报道是由AI生成还是由人工手写的，基于概率分析的方法会先去观察现有的已经明确分类的体育报道，确定某些词汇在AI或人工报道中出现的频率，再检查预判断的文本中词汇出现的概率，最终确定文本的分类。图SEQ图\*ARABIC2-2基于概率分析的检测算法REF_Ref147\r\h[21]2.3.3基于水印解码的检测方法某一些模型在生成文本的过程中，为了实现内容的版权信息不被非法盗用，模型会在生成文本的某些地方加入一些肉眼无法察觉的水印编码。这样的编码是独特的、隐蔽的，但是一旦被检测出来便可几乎断定该文本是由某个AI生成的。因此，该方法就是通过检索文本的编码中是否存在某些隐藏的水印编码以此来判断文本的分类。方法类型代表工具检测逻辑准确率基于分类器GPTZero训练二分类模型70-85%基于概率分析DetectGPT分析模型生成该文本概率65-75%基于水印编码OpenAI检测器识别模型植入的隐藏模式80-90%混合方法ZeroGPT综合统计+语义/风格分析75-88%表2-1常见检测路径的识别准确率2.4AI文本识别难点当前AI生成文本检测依然存在一些技术挑战，如用户通过对AI文本的某些词汇进行改写即可规避常规的检测，达到“欺骗”模型的效果；同时检测模型的准确性不高也容易造成一些学术纠纷的现象。

第三章文本检测算法与模型3.1文本水印算法通常来说，一个文本水印算法一般包括两个部分。一个是水印生成器，一个是水印检测器。对于水印生成器而言，我们通常定义输入的不含水印的文本为，水印信息为，添加水印后的文本为。则生成水印的过程可以表示为：G(x,w)=t对于水印检测器而言，定义输入的待检测文本为，输出的信息为。则检测水印的过程可以表示为：D(t)=w如果输出的不为，则表示该文本包含水印信息REF_Ref4742\w\h[16]。图3-1水印算法的检测原理3.2文本水印的关键特征对于文本水印算法而言，我们希望水印能在添加后尽量不影响原文的意思，同时我们希望含有水印的文本，哪怕经过一些人为的修改，仍然能被算法检测出来。所以，我们在这里介绍两个概念：一是对文本质量的低影响，二是对水印去除攻击的鲁棒性。一个有效的水印算法应确保添加水印后文本质量不会大幅度的下滑，需满足：∀我们用表示使用模型添加水印后的文本，为一个评价函数，δ为一个判断的阈值，当两个文本直接的评价指标小于这个阈值，则可以近似认为两个文本的质量一致。一个有效的水印算法应确保对信息有所变动的检测文本仍具有鲁棒性，需满足：∀其中为对文本t去除部分水印的操作，为检测样本呈阳性的概率，为一个判断的阈值。当模型认定去除部分水印后的文本仍为AI生成文本的概率高于这个阈值，则可认为该模型具有水印去除攻击的鲁棒性REF_Ref4915\h\pbelow。3.3硬红名单算法（HardRedListWatermark）John等人在2024年提出了一种文本水印算法REF_Ref4742\w\h[16]，下面按照水印的嵌入和检测两个方面进行介绍：在水印嵌入方面，我们将模型生成的文本看做一个词语的序列，对于文本的每一个元素，我们都利用哈希函数为生成一个哈希值，同时我们也将这个值作为随机数的种子，按这样的标准将词汇库中的词汇划分为红名单和绿名单。红名单中包含了第个位置禁止出现的词语，绿名单则是模型可以使用的词语。模型生成文本的过程会按照上面的规则，因此生成的文本就被天然嵌入了水印。在水印的检测方面，我们只需知道算法中使用的哈希函数和随机数的设置，便可还原出嵌入时的红绿名单。再依次对下一个位置的元素进行判断，看它是否位于红色名单，最终统计文本中在红色名单中的词语数量。假设为文本不带水印，使用检验测试该假设：z=其中为处于绿色列表中的词语数量，为文本总词量。若值大于我们设置的阈值，则拒绝原假设，判定给定文本为AI生成的。SampleTokenZ-scoreP-valueNOWatermarkThesunshinesbright,warmingtheearthbelow.Birdssingjoyfullyinthemorninglight...500.40.45WithWatermarkLearningnewthingseverydaykeepslifeexciting.Staycuriousandexploretheworld.Itisimportantforustodothis667.4<0.001

表3-1红绿名单法检测AI文本3.4软水印算法（SoftWatermark）上文提到的硬红名单算法虽然简单而且容易实现，但是在面对到一些低熵文本，为了让模型按照序列生成，可能会使得一些固定搭配被迫拆散。例如“There”后面大概率会出现“is”，但是若“is”被红名单禁止，模型就可能会生成一些看起来很奇怪的句子，从而使文本质量受到影响。所以，John等人在硬红名单算法的基础上做出改进，提出了软水印算法：简单来说，该算法会对模型输出的下一个token的概率向量做出调整，使水印的嵌入更符合文本的熵值。在嵌入部分，算法依然根据计算哈希值，并以此作为随机数的种子，将词汇表划分为的绿名单和的红名单。对于绿名单，算法会在它对应的logits上加上一个水印强度参数用于让模型更偏向于选择绿名单中的词汇进行输出。之后通过算子生成修改后的概率分布，并根据这个新的概率分布来确定下一个。通过这样的调整，能够使得绿色列表中token的概率分布增大，模型相对的生成这样的词语的概率也增大，便能更自然地嵌入水印而不影响句子原意。在检测部分，同样假设：原文本不带AI模型水印，再计算统计量，公式为：z=若值大于预先设定好的阈值，则拒绝原假设，认为文本带有水印，也就是由AI生成。3.5OPT-1.3BOpenPre-trainedTransformer-1.3B是Facebook在2022年公布的一个可供小规模学术研究、可以简单部署的简易大语言模型，属于OPT系列模型之一[18]。它的参数量为1.3亿。OPT-1.3B的本质是自回归生成，也就是靠前一个分词来预测下一个分词。我们希望对于给定的前文，生成一个最符合当前语境的。所以通过最大似然估计可以确定目标函数为：ξ=−∑3.5.1TransformerTransformer是一种自回归模型，由两个部分组成，一个是编码模块，另一个是解码模块，每一个部分都包含6个block。Transformer的工作流程可以简单描述为：输入端接受一个句子/单词的信息，并将其转换为模型可以读懂的形式经过编码模块得到新的信息矩阵，并传输给下一模块解码模块经过翻译，输出预测的信息矩阵经过Softmax激活，由输出端输出预测的下一个单词。图3-2Transformer架构图（1）输入端：由于Transformer确定生成的信息位置采用的是全局信息，因此在输入端不仅需要知道单词本身的Embedding，还需要给单词出现的位置一个Embedding，两者相加得到最后的表示向量。Transformer论文中使用了一种比较巧妙的方法来给出难以表示的位置信息：PP其中，表示单词在句子中的位置，用来区分奇数和偶数维度通过正余弦函数线性变换的方式，对于不同长度的句子，模型也可以对其具有适应性，使用很低的计算量即可得到单词的相对位置，从而得到单词的向量表示。（2）编码部分：自注意力机制（Self-Attention）是Transformer模型的核心部分，在编码模块和解码模块部分均有多头注意力机制（Multi-HeadAttention）。从论文中我们知道，每一个Multi-HeadAttention都包含多个Self-Attention。Self-Attention接收输入端的信息矩阵，使用线性变换矩阵，得到需要的矩阵，接下来便可以得到Self-Attention的输出：Attention(Q,K,V)=softmax(而Multi-HeadAttention简单来说，就是将多个Self-Attention的输出矩阵进行拼合，最终再乘以一个线性变化矩阵，使得输出结果与原来单个的输出结果维度一样。但是我们知道，一个词的产生若是只基于另一个词进行预测，可能会出现不够准确的情况，但是使用Multi-HeadAttention就可以很好地避免这一情况，使得模型预测的下一个词比原来的更为准确。图3-3（左）多头注意力层和（右）输出矩阵的线性变换（3）解码部分：解码部分和编码部分比较相近，但是解码部分拥有两个Multi-HeadAttention，第一个用于掩码操作（Masked），第二个用于生成信息矩阵传递给，以输出预测信息。之所以加入Masked模块，是为了保障我们生成的下一个单词时，模型不会“偷看”未来的单词，而是基于“历史”的单词进行预测。因此，Transformer论文里引入了掩码机制，通过上三角掩码矩阵将“未来”的词语权重设置为0，强制要求模型只能基于“历史”词语进行预测。3.6DeTeCtive我们通常认为文本检测是一个二分类任务，但是郭勋等人在2024年提出了一种多级对比学习框架，其主要目的在于通过比较和学习不同文本样本之间的风格差异，学习到每一种语言模型的特色，最后对新输入的样本提取特征后，采用KNN算法与已经储存的模型文本特征进行对比，从而辅助进行文本检测[19]。这个方法看似使得原本二分类的问题更复杂，实则能够通过使用多任务学习策略来区分不同“机器作者”的写作风格，更好地提升文本检测的精度。图3-4多级对比学习方法示意图（图源xunguo,etal.REF_Ref7256\r\h[19]）3.6.1多任务辅助多级对比概述算法的核心在于建立一个多维度的特征空间，在这个空间中，每一个大语言模型都被视为一个风格迥异的“作者”，通过对比损失函数能够帮助检测模型区分不同的样本。前文提到了希望算法可以发现同一模型不同文段直接的潜在关系，DeTeCtive希望可以使得模型在高维空间中发现文本的特征向量之间的关系，可以将这种目标表示为：E其中，表示相似度度量，表示编码函数，表示不同的文本分布。这样可以保证风格越接近的文本（由同一模型生成的文本）在编码后相似度可以越高，来鼓励模型辨别更细小的粒度。3.6.2多层次对比学习我们假设一批要进行检测的文本中有个样本，第个样本为，为每一个样本分配一个判别的标签，说明该样本为模型生成，则说明样本为人类创作。对于任意三个样本、和，我们可以分类讨论：若和为人类创作文本，为模型生成文本，那么两段人类文本之间的相似度应该总大于人类与模型文本之间的相似度：∀为了满足相似度要求的约束，论文中提出了一种定义正负样本对的方法，以此推导出对比学习的损失：L对于不同情况下的正负样本集合，按照此方法可以依次得到损失、、、。总体的多层对比损失可表示为：L通过这样的多层次对比学习，可以有效提高检测模型对于不同大语言模型生成文本的识别准确度。3.6.3无训练增量适应现在正处于大语言模型蓬勃发展的阶段，随着新的语言模型被不断提出，AI文本检测将会面临领域外检测（OOD）的挑战。传统的文本检测算法在遇到OOD数据时，往往需要重新训练模型，需要耗费较多的人力物力。而论文中提到了一种无训练增量适应（TFIA），在遇到全新数据的时候只需要使用微调后的模型对数据进行编码，将特征融入到原本的特征库中，形成新的特征数据库，如此便大大增强了模型对新数据的适应性。当遇到一个新的需要判断的数据时，只需将原有的Database和新的特征向量映射到高维空间，使用KNN算法判断其属于哪一个具体的簇，便可以根据簇的类型来判别待检测文本的类型。图3-5TFIA面对OOD数据形成新的特征数据库

第四章实验4.1实验方案介绍实验围绕AI文本识别完成了以下两项工作：（1）模型评估：对比两种使用了DeTeCtive多级对比学习方法微调后的预训练模型在文本检测方面的精度。（2）简单的文本水印检测页面实现：使用预训练好的模型检测用户输入的文段，并在Gradio页面展示模型给出的判断结果。4.2实验环境本次实验环境如表4-1所示名称参数GPUGTX3090操作系统Ubuntu22.04显存容量8GB实验框架PyTorch2.1.0编程语言Python实验平台PyCharm+AutoDL表4-1实验环境配置4.3实验数据集（1）DeepFake该数据集收集了各种各样人类著作中的文本和不同LLM生成的DeepFake文本，构建了一个全面的DeepFake文本检测基准数据集，可以很好地运用于评估AI生成检测器在实际场景中的适应程度。数据集包含了约45万条人工/机器文本，来自10个人工文本数据集和27个主流LLM生成的机器文本。（2）TuringBench该数据集是面向文本生成时代的图灵测试基准环境。数据集的研究团队为了更好地训练LLM生成文本使之“以假乱真”接近人类文本，构建了这个包含20万个人工或机器生成的样本。TuringBench包含了GPT-3、FAIR_wmt20等主流模型的生成样本，同时提供“摘要-问答”模式的任务文本，能较好的评估模型在不同运用情景下的效果。两个数据集均可以在HuggingFace网站上下载完整版本，实验中参考GoogleDrive上的预处理版本将数据集处理为Human和AI两种标签。4.4实验结果在本次实验中，我们选用DeTeCtive论文中已经在HuggingFace上公布的两种开源的预训练模型（下以model_1和model_2代称），在DeepFake和TuringBench的部分数据集上进行测试，评估文本检测的准确性。同时，我们手动对一部分不同标签下的数据集进行了去除关联词、拼写错误的修改，让模型对扰动后的数据进行再一次进行较为简单地测试，以对比两种模型面对到不同情况时的鲁棒性。首先对两个模型在OUTFOX和SemEval数据集上进行性能评估，以获得其基准的性能标准，如表4-2所示：DatasetModel_NameACCRecallF1-ScoreAvg_RecOUTFOXmodel_10.9760.9540.97498%model_20.5010.0140.00251%SemEvalmodel_10.6290.3710.00953%model_20.9830.9750.97499%表4-2预训练模型在原测试集上的性能指标之后探究两个模型在DeepFake和TuringBench数据集上的表现，评估文本检测的准确性。可以发现model_1在两个数据集中的检测准确率均较高，表现较model_2更为良好。DatasetModel_NameACCRecallF1-ScoreAvg_RecTuringBenchmodel_10.5730.3240.01158%model_20.5520.0180.08753%DeepFakemodel_10.5680.2760.01052%model_20.9830.4130.09351%表4-3模型在DeepFake和TuringBench的性能对比同时我们也发现，两个模型无论是在哪一个数据集上进行测试，随着设置的K值的增大，模型的识别准确率总是随之变大的，这与前文介绍的多级对比学习框架的预期目标是相符的。我们通过论文可以了解到，DeTeCtive算法会总结不同模型生成文本的“群体特征”，并将其划分为高维空间中的不同簇，因此在一定范围内，随着K值增大，不管是人类文本还是模型文本都会被划分成更为精细的不同簇，因而识别的准确率也会随之提高。图4-1（左）模型在不同数据集上的检测准确度对比（右）检测准确度与K值关系接着我们在两个模型都表现较好的TuringBench测试数据集中筛选出500条数据添加人工扰动，包括删去连接词、修改单词使之拼写错误，探究检测准确率较原测试数据的变化。表4-4对测试数据加入人工扰动，模型判断出现变化PromptDifferentpeoplemayhavedifferentbackgrounds,differentopinionsordifferentprioritiesintheirlife.Remindyourselfthatthe"average"personisn'tgoingtomeetyourhighexpectationsofbeingyourperfectmatch.Andmostimportantly,LabelAISpelling-MistakeDiferentpeoplemayhavediferentbackgrounds,diferentopinionsordiferentprioritiesintheirlife.Remindyourselfthatthe"average"personisn'tgoingtomeetyourhighexpectetionsofbeingyourperfectmatch.Andmostinportantly,Rec-LabelAIRemoveConjunctionDifferentpeoplehavedifferentbackgrounds,differentopinionsdifferentprioritiesintheirlife.Remindyourselfthe"average"personisn'tgoingtomeetyourhighexpectationsofbeingyourperfectmatch.mostimportantly,Rec-LabelHuman续表4-4PromptItisactuallypossibleto3dprintusingmetalasamaterial.It'snotamatterofhowsoftitis,it'susuallymoreamatterofhoweasyitistogetintoliquidform.Metalmelts,albeitatextremelyhightemperatures.LabelHumanSpelling-MistakeItisactualypossiblyto3dprintusingmetalasamaterial.It'snotamatterofhowsoftitis,it'susualymoreamaterofhoweasyitistogetintoliquidform.Metalmelts,albeitatextremetyhightempeatures.Rec-LabelHumanRemoveConjunctionItisactuallypossibleto3dprintusingmetalasamaterial.notamatterofhowsoftitis,usuallymoreamatterofhoweasyitistogetintoliquidform.Metalmelts,albeitatextremelyhightemperatures.Rec-LabelHuman在实验的过程中发现，对测试数据进行修改后，无论是删去连接词还是拼写错误，都会让模型对原本是AI标签的文本识别率都有所下降，分析原因可能是人类文本受作者影响更大，更可能出现一些“非定式”的表达，因此经过修改操作后的AI文本可能更容易被识别为Human标签。但是总体对模型判断精度影响并不大。ModifyModel_NameAvg_RecAvg_Rec*Spelling-Mistakemodel_159%58%model_256%56%RemoveConjunctionmodel_155%56%model_253%52%表4-5对修改前后数据模型的检测准确度实验的第二部分选择使用一个水印检测模型，对于输入的文本进行水印检测，从而判断其是否为AI生成文本。在Gradio交互界面实现将输入的文本按照有水印和无水印的方式续写，同时也有一个检测页面，用于判断用户输入的文本是否为AI生成文本。如图4-2所示，检测界面用于接收一段文本，将其输入模型后进行AI文本的检测图4-2文本检测界面返回的统计指标如图4-3所示，包括文段总词数、位于绿色列表中的词汇数、Z统计量、置信度以及判断结果。图4-3文本检测结果对于输入的文本，应用到前文介绍的算法对其按红绿名单进行划分。如图4-4所示，判断文段中绿名单出现的次数，以此得到Z-score，进一步推算出该内容为AI生成的概率从而实现检测的效果。图4-4使用红绿列表检测文本水印的标注示意图在生成页面，可以实现将一段输入的文本按照加入水印与否进行续写，并对其分别进行评估，得到AI文本识别的结果。如图4-4所示，将文本按无水印方式续写后检测，检测结果为人类文本。图4-5对文本按照无水印的方式续写并检测4.5实验结论由于DeTective算法最终确定文本向量的分类使用的是KNN算法，而在实验中使用数据集对模型性能进行评估时发现，在一定范围内（取决于Database中包含的不同模型数据），选择的K值与文本检测精度成正比，这与算法的预期目的相符。接着我们也发现model_1在TuringBench和DeepFake数据集上的表现均较model_2更为良好，这可能与model_1的训练数据集OUTFOX较测试数据集更为相似导致的。同时我们发现在对测试数据进行人工扰动后，会使得模型更容易将一些原本标签为AI的文本检测为人类文本，原因可能在于出现了一些AI文本中几乎不会出现的特征，检测模型在对比的过程中无法将该文本向量归类为AI生成。

总结与展望随着大语言模型在我们日常生活中被逐渐赋能到各行各业，各种生产活动都越发离不开大语言模型的参与。一方面，它可以解放人类的双手，帮助完成一些重复、繁琐的简单工作，但是凡是技术均为双刃剑，AI模型的滥用也会导致一系列问题。本文重点关注AI生成内容的识别检测，从生成内容检测的必要性、国内外发展现状入手，进而介绍文本检测的基本原理、基础知识、部分算法及模型。在实验部分，我们选用多级对比学习方法改进的预训练模型测试其在两个不同数据集上的性能，进行对比评估。同时我们还对部分测试数据做了人工调整，以测试模型在面对异常数据时的鲁棒性。最后我们展示了水印模型对生成内容的检测，通过统计文本中红绿列表单词数量来计算文本由AI生成的概率。在实验和论文的实践和完成的过程中，我逐步深刻地了解到当前时代AI生成内容的发展和研究现状，学习到了部分检测算法的基本原理和AI检测的常用模型。在对各种研究路径进行初步了解后，选择了水印检测和多级对比学习检测两种方法来探究AI生成内容检测方面的实验。同时，无论是在前期资料的收集阶段还是在算法原理的学习阶段，都让我深刻地感受到当前AI生成内容检测面临的难题：例如来自OOD数据的挑战，文本检测模型往往需要重新训练，耗费巨大的人力物力；针对AI生成文本特定词语的修改也能很好地“蒙蔽”检测模型；模型水印的添加也越发隐蔽，传统的水印算法识别准确度逐渐无法适应快速发展的新模型等等。在未来，针对当前特定检测器只能检测特定模型的问题，可以尝试研究泛化能力更强的检测模型，通过多级对比学习或多模型联合训练来提高检测模型的泛化性；针对单一文本检测的上限有限的问题，可以尝试研究多模态检测，通过对文本输入时的用户行为加入分析，如输入速度是否为正常人类敲击键盘输入的速度等，也可以比较生成内容中的图片是否与文字内容相符来达到联合检验的效果；针对现有检测模型部署难度大的问题，可以尝试开发轻量级的检测模型。

参考文献王伦.(2024).人工智能服务的科技情报信息收集与处理优化研究.科技资讯,22(10),40–42.Ouyang,L.,Wu,J.,Jiang,X.,Almeida,D.,Wainwright,C.L.,Mishkin,P.,Zhang,C.,Agarwal,S.,Slama,K.,&Ray,A.(2022).Traininglanguagemodelstofollowinstructionswithhumanfeedback.AdvancesinNeuralInformationProcessingSystems,35,27730–27744.Anthropic.(2024).Claude3family:State-of-the-artmodelsfromAnthropic.GoogleDeepMind.(2023).Gemini:Afamilyofhighlycapablemultimodalmodels.Mitchell,E.,Lee,Y.,Khazatsky,A.,Manning,C.D.,&Finn,C.(2023).DetectGPT:Zero-shotmachine-generatedtextdetectionusingprobabilitycurvature.Proceedingsofthe61stAnnualMeetingoftheAssociationforComputationalLinguistics,13950–13967.Gyöngyi,Z.,Garcia-Molina,H.,&Pedersen,J.(2004).CombatingwebspamwithTrustRank.Proceedingsofthe30thInternationalConferenceonVeryLargeDataBases,576–587.Brown,P.F.,DeSouza,P.V.,Mercer,R.L.,Pietra,V.J.D.,&Lai,J.C.(1992).Class-basedn-grammodelsofnaturallanguage.ComputationalLinguistics,18(4),467–479.Goodfellow,I.J.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,Courville,A.,&Bengio,Y.(2014).Generativeadversarialnets.AdvancesinNeuralInformationProcessingSystems,27,2672–2680.Afchar,D.,Nozick,V.,Yamagishi,J.,&Echizen,I.(2018).MesoNet:Acompactfacialvideoforgerydetectionnetwork.Proceedingsofthe2018IEEEInternationalWorkshoponInformationForensicsandSecurity,1–7.Liu,Y.,Ott,M.,Goyal,N.,Du,J.,Joshi,M.,Chen,D.,Levy,O.,Lewis

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

AI生成内容检测方法与研究

文档简介

温馨提示

最新文档

评论

相关文档