版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年AI大模型微调数据准备基础考核卷及答案一、单项选择题(本大题共20小题,每小题2分,共40分。在每小题给出的四个选项中,只有一项是符合题目要求的)1.在大模型微调(SFT)的数据准备阶段,最常用的数据存储格式是?A.CSVB.XMLD.JSONLC.TXT2.为了防止模型在微调过程中“灾难性遗忘”,数据处理时应当注意?A.仅使用新领域的任务数据B.混合一定比例的预训练通用数据C.大幅增加新数据的Epoch数D.删除所有通用词汇3.在构建指令微调数据集时,通常不包含以下哪个字段?A.systemB.instructionC.outputD.gradient4.针对多轮对话数据的微调,数据格式通常需要组织成?A.扁平化的指令-回答对B.嵌套的Messages列表,包含不同角色C.仅保留最后一轮对话D.将所有历史对话拼接为一个长字符串5.下列哪种技术常用于去除数据集中的重复样本,以提高训练效率?A.MinHashLSH(LocalitySensitiveHashing)B.TF-IDF向量化C.One-Hot编码D.Word2Vec聚类6.在处理长文本数据进行微调时,若输入长度超过了模型的最大上下文窗口,通常采取的策略是?A.直接报错停止训练B.随机截断或滑动窗口截断C.无限扩充模型上下文D.仅保留文本的最后1024个token7.关于数据隐私保护,在微调数据准备中必须去除或掩码处理的是?A.停用词B.PII(个人敏感信息)C.标点符号D.特殊符号8.数据增强技术中,通过回译来增加数据多样性的具体操作是?A.中文->英文->中文B.中文->中文同义词替换C.中文->拼音->中文D.中文->乱序重组9.在评估微调数据质量时,如果数据中存在大量“不知道”、“无法回答”的负样本,可能会导致?A.模型变得过于保守,拒绝回答正常问题B.模型幻觉增加C.训练速度显著变慢D.显存占用翻倍10.下列哪项不是高质量微调数据的特征?A.指令清晰明确B.输出与输入严格对应C.存在大量冲突或矛盾的指令对D.覆盖广泛的任务分布11.对于代码生成任务的微调数据,最重要的预处理步骤是?A.去除所有注释B.确保代码语法正确并可运行C.将所有变量名统一为'var'D.压缩代码去除空格12.在使用LoRA等参数高效微调方法时,对数据量的要求通常相比全量微调?A.要求更多B.要求更少C.完全一样D.不需要数据13.数据集中的“SystemPrompt”通常用于?A.设定模型的角色、行为准则和输出风格B.存储用户的输入C.存储模型的回答D.记录训练的时间戳14.为了解决数据不平衡问题(例如某些类别样本极少),可以采取?A.直接删除少样本类别B.对少样本类别进行过采样或数据增强C.让模型忽略少样本类别D.减少多样本类别的权重至015.在清洗网络爬取的文本数据时,以下哪项通常是必须进行的?A.去除HTML标签和广告脚本B.将所有文本转为大写C.翻译为英文D.插入随机噪声16.对于数学推理类微调数据,仅仅给出最终答案通常效果不佳,更好的数据形式是?A.仅题目B.题目+最终答案C.题目+详细的思维链D.题目+错误的答案17.在分词阶段,为了保证不同模型间数据的兼容性,应该?A.使用训练好的模型自带的TokenizerB.随意选择一个开源TokenizerC.按空格分词D.按字符分词18.下列哪个指标可以用来量化数据集的多样性?A.困惑度B.词表覆盖率C.数据集大小D.训练Loss19.在构建RLHF(人类反馈强化学习)的训练数据时,除了Prompt和Response外,还需要?A.RewardScore(奖励分数)B.LearningRateC.BatchSizeD.OptimizerState20.当微调数据中包含大量Markdown格式的表格时,预处理时应注意?A.删除所有表格B.将表格转换为纯文本描述或保持Markdown结构C.将表格转换为图片D.仅保留表头二、多项选择题(本大题共10小题,每小题3分,共30分。在每小题给出的四个选项中,有多项是符合题目要求的。全部选对得满分,少选得相应分值,多选、错选不得分)1.大模型微调数据准备的主要流程包括哪些环节?A.数据收集B.数据清洗与去重C.数据格式转换与TokenizationD.数据质量评估与增强2.下列哪些属于常见的指令微调数据集构建来源?A.现有的开源NLP数据集(如SQuAD,CoNLL)B.通过Self-Instruct生成的合成数据C.人工撰写的优质QA对D.模型的生成结果经人工筛选3.在处理JSONL格式的微调数据时,必须保证?A.每一行是一个合法的JSON对象B.文件末尾必须有结束大括号C.字符串必须使用UTF-8编码D.所有对象的Key必须完全一致4.针对多语言模型的微调,数据准备时需要注意?A.保持不同语言比例的平衡B.确保非英语字符的正确编码C.针对特定语言进行分词优化D.将所有语言翻译为英语5.数据清洗中,常见的噪声数据包括?A.乱码文本B.过短或过长的无意义文本C.包含大量重复单词的文本D.逻辑严密的学术论文摘要6.为了提高微调数据的安全性,应当过滤掉?A.包含仇恨言论的内容B.涉及色情暴力的内容C.提供危险制造指南的内容D.常见的英语问候语7.下列关于数据分割的描述,正确的有?A.通常将数据分为训练集、验证集和测试集B.验�集用于调整超参数和早停C.测试集在训练过程中不可见D.训练集和测试集可以重叠以提高利用率8.在处理长上下文微调数据时,有效的截断策略包括?A.从中间截断,保留头尾B.仅保留开头部分C.滑动窗口截断生成多个样本D.随机删除中间段落9.评估微调数据质量的方法包括?A.人工抽样检查B.使用强模型(如GPT-4)进行自动打分C.统计词频分布D.仅看数据文件大小10.下列哪些场景适合使用合成数据进行微调?A.缺乏特定领域的高质量标注数据B.需要模型掌握特定的输出格式(如JSON)C.数据标注成本过高D.已经拥有海量的人类真实对话数据三、填空题(本大题共10小题,每小题2分,共20分)1.在微调数据处理中,为了保证模型输入长度一致,通常会对短序列进行________操作,对长序列进行________操作。2.对于分类任务的微调,标签通常需要进行________处理,将其转换为模型可理解的数值ID。3.在Self-Instruct流程中,通常先利用大模型生成________,再基于这些指令生成相应的________。4.数据去重中,精确去重通过计算文本的________值来判断是否重复;模糊去重常使用________算法。5.微调数据中的“User”消息对应的是________,“Assistant”消息对应的是________。6.为了让模型学会拒绝回答超出知识范围的问题,需要在训练数据中混入一定比例的________样本。7.在计算数据集的Token数量时,公式通常为N=le8.针对幻觉问题,数据准备时应确保________和________之间的事实一致性。9.在处理代码数据时,为了防止模型生成结束符后继续乱码,通常需要在训练数据末尾添加________。10.常用的开源数据处理库如HuggingFace的Datasets库,支持将数据直接导出为________格式以便于PyTorchDataLoader加载。四、判断题(本大题共10小题,每小题1.5分,共15分。正确的打“√”,错误的打“×”)1.微调数据越多越好,质量差一点没关系,只要数量够大就能通过ScalingLaw弥补。()2.JSONL文件中,每一行必须包含“input”和“output”这两个固定的键名。()3.在构建对话数据时,必须严格区分System、User和Assistant角色,不能混淆。()4.数据增强中的回译技术可能会引入语义漂移,导致原始意图改变。()5.对于所有类型的微调任务,都应当将SystemPrompt硬编码在模型权重中,而不是放在训练数据里。()6.混合不同来源的数据进行微调时,需要对数据进行Shuffle(洗牌)操作。()7.Tokenization是发生在模型训练开始后的动态过程,不需要在数据准备阶段进行。()8.如果微调数据中包含错误答案,模型一定会学习到这些错误。()9.DPO(DirectPreferenceOptimization)微调需要成对的数据(chosen和rejected)。()10.数据集中的特征数量(Feature维度)必须与模型的Embedding维度完全一致。()五、简答题(本大题共4小题,每小题10分,共40分)1.请简述在构建大模型指令微调数据集时,SystemPrompt、UserPrompt和AssistantResponse各自的作用及在JSONL中的典型组织方式。2.什么是数据灾难性遗忘?在微调数据准备阶段,有哪些策略可以缓解这一问题?3.请列举至少三种常见的数据增强技术,并分别说明其适用场景和潜在风险。4.在处理长文本微调数据时,滑动窗口截断策略是如何工作的?它相比于简单的头部截断有哪些优缺点?六、应用分析题(本大题共3小题,每小题35分,共105分)1.数据清洗与格式化实战假设你是一家金融科技公司的AI工程师,需要微调一个7B参数的大模型,使其能够根据用户的自然语言查询生成结构化的SQL查询语句。你从内部日志系统中提取了原始数据,原始格式如下(CSV格式):```csvquery,sql,timestamp"查找所有余额大于1000的用户","SELECTFROMusersWHEREbalance>1000","2023-10-01""查找所有余额大于1000的用户","SELECTFROMusersWHEREbalance>1000","2023-10-01""列出上个季度的销售额","SELECTsum(amount)FROMsalesWHEREdate>='2023-07-01'","2023-10-02""无效数据拼写错误",NULL,"2023-10-03"```请完成以下任务:(1)设计一个完整的数据清洗流程,列出至少5个必须执行的清洗步骤及对应的原因。(10分)(2)将清洗后的第一条数据转换为适合微调的JSONL格式。假设你需要支持多轮对话,请写出包含Messages列表的JSON结构。(10分)(3)在SQL生成任务中,为了提高模型对复杂SQL的生成能力,你计划引入“思维链”数据。请基于第一条数据,构造一个包含思维链的微调样本,要求模型先解释意图再生成SQL。(15分)2.数据增强与去重策略分析你正在构建一个垂直领域的法律问答微调数据集,目前只有约2000条高质量的人工标注数据,这对于微调大模型来说规模偏小,容易导致过拟合。(1)请详细描述如何利用“Self-Instruct”技术利用这2000条种子数据扩充数据集。请写出具体的Pipeline步骤。(15分)(2)在扩充数据后,你需要进行去重。请解释MinHashLSH(局部敏感哈希)去重的基本原理,并说明为什么它比精确去重更适合处理文本数据。(10分)(3)除了去重,还需要进行数据多样性检查。假设你计算了扩充后数据集指令部分的Embedding余弦相似度矩阵,发现大量样本的相似度大于0.95。这说明了什么问题?你应该采取什么措施?(10分)3.综合微调数据质量评估某团队在微调Llama-3-8B模型时,准备了以下三份训练数据:数据集A:100万条通用指令数据(来自Alpaca等开源集)。数据集B:5万条高质量医疗领域问答数据(专家人工标注)。数据集C:2万条数学推理数据(包含CoT)。团队希望模型在保持通用能力的同时,重点提升医疗问答能力,并具备一定的数学能力。(1)请设计一个合理的数据混合策略。你需要说明各数据集的采样比例(或具体数量)以及排列方式,并解释这样设计的理由。(15分)(2)在训练过程中,团队发现Loss下降很快,但在医疗验证集上的准确率波动很大且不收敛。请从数据准备的角度分析可能的原因(至少两点),并提出相应的数据改进方案。(10分)(3)为了评估数据集B的质量,团队计划使用Llama-3-70B作为裁判模型。请设计一个自动评估Prompt,用于让70B模型给数据集B中的问答对打分(1-10分)。要求Prompt包含评估维度(如准确性、安全性、完整性)。(10分)参考答案及详细解析一、单项选择题1.D解析:JSONL(JSONLines)是大规模深度学习训练中最常用的格式,因为它流式读取友好,每行是一个独立的JSON对象,处理起来不需要一次性加载整个文件到内存,非常适合海量数据。解析:JSONL(JSONLines)是大规模深度学习训练中最常用的格式,因为它流式读取友好,每行是一个独立的JSON对象,处理起来不需要一次性加载整个文件到内存,非常适合海量数据。2.B解析:灾难性遗忘是指模型在微调新任务时忘记了预训练时学到的通用知识。混合一定比例的预训练通用数据是缓解这一问题的标准做法。解析:灾难性遗忘是指模型在微调新任务时忘记了预训练时学到的通用知识。混合一定比例的预训练通用数据是缓解这一问题的标准做法。3.D解析:gradient是训练过程中的计算量,不属于数据存储字段。常见的字段包括instruction(或input)、output(或target)、system等。解析:gradient是训练过程中的计算量,不属于数据存储字段。常见的字段包括instruction(或input)、output(或target)、system等。4.B解析:多轮对话需要保留上下文结构,因此通常使用嵌套的Messages列表,按顺序包含system,user,assistant等角色的消息。解析:多轮对话需要保留上下文结构,因此通常使用嵌套的Messages列表,按顺序包含system,user,assistant等角色的消息。5.A解析:MinHashLSH是一种用于在大规模数据集中快速检测近似重复项的概率性数据结构技术,非常适合文本去重。解析:MinHashLSH是一种用于在大规模数据集中快速检测近似重复项的概率性数据结构技术,非常适合文本去重。6.B解析:超过最大长度通常进行截断。随机截断可以保留不同位置的上下文信息;滑动窗口可以生成更多训练样本。直接报错或无限扩充是不可行的。解析:超过最大长度通常进行截断。随机截断可以保留不同位置的上下文信息;滑动窗口可以生成更多训练样本。直接报错或无限扩充是不可行的。7.B解析:PII(PersonallyIdentifiableInformation)如身份证号、手机号等必须进行掩码或删除以保护隐私。解析:PII(PersonallyIdentifiableInformation)如身份证号、手机号等必须进行掩码或删除以保护隐私。8.A解析:回译是指将文本翻译成另一种语言(如英语),再翻译回原语言(如中文),以此获得语义相同但表述不同的样本。解析:回译是指将文本翻译成另一种语言(如英语),再翻译回原语言(如中文),以此获得语义相同但表述不同的样本。9.A解析:如果负样本(拒绝回答)过多,模型可能会学习到“拒绝”这一策略,导致在面对正常问题时也倾向于拒绝回答。解析:如果负样本(拒绝回答)过多,模型可能会学习到“拒绝”这一策略,导致在面对正常问题时也倾向于拒绝回答。10.C解析:冲突或矛盾的指令会让模型在学习时感到困惑,导致训练不稳定或输出不可预测。解析:冲突或矛盾的指令会让模型在学习时感到困惑,导致训练不稳定或输出不可预测。11.B解析:代码数据最重要的是逻辑正确和可运行。去除注释或统一变量名可能会破坏代码的可读性和语义,不利于模型学习。解析:代码数据最重要的是逻辑正确和可运行。去除注释或统一变量名可能会破坏代码的可读性和语义,不利于模型学习。12.B解析:LoRA等PEFT方法由于参数量少,通常比全量微调更容易过拟合,但也因为只更新部分参数,往往在较小的数据量上也能取得不错的效果,或者反过来说,对于同样的效果,PEFT通常需要更少的数据量即可收敛,但实际操作中,为了避免过拟合,对高质量数据的依赖度更高。这里主要指相比全量微调动辄需要海量数据,PEFT可以在较小数据集上运作,但选项B“要求更少”是相对更合理的描述,指达到同等效果所需数据量通常更少,或者说在有限数据下更适用。解析:LoRA等PEFT方法由于参数量少,通常比全量微调更容易过拟合,但也因为只更新部分参数,往往在较小的数据量上也能取得不错的效果,或者反过来说,对于同样的效果,PEFT通常需要更少的数据量即可收敛,但实际操作中,为了避免过拟合,对高质量数据的依赖度更高。这里主要指相比全量微调动辄需要海量数据,PEFT可以在较小数据集上运作,但选项B“要求更少”是相对更合理的描述,指达到同等效果所需数据量通常更少,或者说在有限数据下更适用。13.A解析:SystemPrompt用于设定模型的全局行为,如“你是一个乐于助人的助手”。解析:SystemPrompt用于设定模型的全局行为,如“你是一个乐于助人的助手”。14.B解析:针对少样本类别,过采样(复制样本)或数据增强(生成新样本)是平衡数据集的常用手段。解析:针对少样本类别,过采样(复制样本)或数据增强(生成新样本)是平衡数据集的常用手段。15.A解析:网络爬取数据通常包含HTML标签、CSS样式、JS脚本等非文本噪声,必须清洗。解析:网络爬取数据通常包含HTML标签、CSS样式、JS脚本等非文本噪声,必须清洗。16.C解析:思维链能显著提升模型的推理能力,是目前数学推理任务的标准数据形式。解析:思维链能显著提升模型的推理能力,是目前数学推理任务的标准数据形式。17.A解析:必须使用与预训练模型完全一致的Tokenizer,以保证TokenID和Embedding的对应关系正确。解析:必须使用与预训练模型完全一致的Tokenizer,以保证TokenID和Embedding的对应关系正确。18.B解析:词表覆盖率可以反映数据使用的词汇丰富程度,间接反映多样性。困惑度是模型指标,数据集大小是数量指标。解析:词表覆盖率可以反映数据使用的词汇丰富程度,间接反映多样性。困惑度是模型指标,数据集大小是数量指标。19.A解析:RLHF需要训练RewardModel,因此数据需要包含人类对模型回答的偏好评分。解析:RLHF需要训练RewardModel,因此数据需要包含人类对模型回答的偏好评分。20.B解析:Markdown表格是结构化信息的重要载体,转换为纯文本描述或保持原结构有助于模型理解,直接删除会丢失信息。解析:Markdown表格是结构化信息的重要载体,转换为纯文本描述或保持原结构有助于模型理解,直接删除会丢失信息。二、多项选择题1.ABCD解析:这四个环节构成了完整的数据准备Pipeline。解析:这四个环节构成了完整的数据准备Pipeline。2.ABCD解析:现有数据集、Self-Instruct生成、人工撰写、模型生成经筛选(即RLAIF或蒸馏)都是常见来源。解析:现有数据集、Self-Instruct生成、人工撰写、模型生成经筛选(即RLAIF或蒸馏)都是常见来源。3.AC解析:JSONL要求每行是独立JSON,UTF-8编码是标准。B是错误的,JSONL文件末尾不需要特殊结束符;D是错误的,虽然通常保持Key一致以方便处理,但JSONL格式本身不强制要求所有对象的Key必须完全一致(尽管训练代码通常假设一致)。解析:JSONL要求每行是独立JSON,UTF-8编码是标准。B是错误的,JSONL文件末尾不需要特殊结束符;D是错误的,虽然通常保持Key一致以方便处理,但JSONL格式本身不强制要求所有对象的Key必须完全一致(尽管训练代码通常假设一致)。4.ABC解析:多语言模型需要平衡语种比例,注意编码,有时需要针对特定语言优化分词器(如果使用SentencePiece等)。翻译为英语会失去多语言能力。解析:多语言模型需要平衡语种比例,注意编码,有时需要针对特定语言优化分词器(如果使用SentencePiece等)。翻译为英语会失去多语言能力。5.ABC解析:乱码、过短/过长无意义、重复单词都是典型的噪声。D是高质量内容。解析:乱码、过短/过长无意义、重复单词都是典型的噪声。D是高质量内容。6.ABC解析:仇恨、色情、危险内容都必须过滤。问候语是正常内容。解析:仇恨、色情、危险内容都必须过滤。问候语是正常内容。7.ABC解析:训练集、验证集、测试集三者的定义和用途如ABC所述。D是错误的,测试集必须独立。解析:训练集、验证集、测试集三者的定义和用途如ABC所述。D是错误的,测试集必须独立。8.AC解析:从中间截断保留头尾(如保留前128+后128)和滑动窗口是有效的长文本处理策略。仅保留开头或随机删除会丢失大量信息。解析:从中间截断保留头尾(如保留前128+后128)和滑动窗口是有效的长文本处理策略。仅保留开头或随机删除会丢失大量信息。9.ABC解析:人工检查、强模型打分、统计分布都是有效方法。仅看文件大小无法判断质量。解析:人工检查、强模型打分、统计分布都是有效方法。仅看文件大小无法判断质量。10.ABC解析:当缺乏数据、成本高或需要特定格式时,合成数据非常有效。如果已有海量真实数据,通常优先使用真实数据。解析:当缺乏数据、成本高或需要特定格式时,合成数据非常有效。如果已有海量真实数据,通常优先使用真实数据。三、填空题1.Padding(填充);Truncation(截断)解析:这是批处理中Tensor对齐的标准操作。解析:这是批处理中Tensor对齐的标准操作。2.LabelEncoding/编码解析:将类别标签(如“正面”、“负面”)转换为ID(如0,1)。解析:将类别标签(如“正面”、“负面”)转换为ID(如0,1)。3.指令;回答解析:Self-Instruct的核心步骤先生成指令,再生成对应的回答。解析:Self-Instruct的核心步骤先生成指令,再生成对应的回答。4.Hash(哈希/MD5/SHA);MinHash解析:精确去重用Hash,模糊去重用MinHash。解析:精确去重用Hash,模糊去重用MinHash。5.用户输入;模型输出解析:对应对话中的双方。解析:对应对话中的双方。6.负样本/拒答样本解析:教导模型何时说不。解析:教导模型何时说不。7.数据集中的样本总数解析:公式含义是对所有样本的Token长度求和。解析:公式含义是对所有样本的Token长度求和。8.输入;输出解析:减少幻觉需要确保输入问题和输出答案之间的事实一致。解析:减少幻觉需要确保输入问题和输出答案之间的事实一致。9.EOSToken(结束符)解析:帮助模型明确生成的结束位置。解析:帮助模型明确生成的结束位置。10.Arrow/PyTorchTensor解析:HuggingFaceDatasets底层使用Arrow格式,可导出为PyTorch兼容格式。解析:HuggingFaceDatasets底层使用Arrow格式,可导出为PyTorch兼容格式。四、判断题1.×解析:GarbageIn,GarbageOut。数据质量至关重要,单纯的数量无法弥补质量的严重缺陷,甚至可能引入污染。解析:GarbageIn,GarbageOut。数据质量至关重要,单纯的数量无法弥补质量的严重缺陷,甚至可能引入污染。2.×解析:键名可以根据具体训练框架的要求自定义,如`prompt`,`completion`,`input`,`output`等,不强制固定为`input`和`output`。解析:键名可以根据具体训练框架的要求自定义,如`prompt`,`completion`,`input`,`output`等,不强制固定为`input`和`output`。3.√解析:角色混淆会导致训练数据格式错误,模型无法正确学习对话逻辑。解析:角色混淆会导致训练数据格式错误,模型无法正确学习对话逻辑。4.√解析:翻译过程中可能丢失细微的语义差别,导致意图改变。解析:翻译过程中可能丢失细微的语义差别,导致意图改变。5.×解析:虽然可以硬编码,但在微调数据中包含SystemPrompt可以让模型更好地适应特定的对话风格和指令,且更加灵活。解析:虽然可以硬编码,但在微调数据中包含SystemPrompt可以让模型更好地适应特定的对话风格和指令,且更加灵活。6.√解析:不洗牌会导致模型在一个Epoch内先学完A数据集再学B数据集,导致Loss剧烈波动,影响收敛。解析:不洗牌会导致模型在一个Epoch内先学完A数据集再学B数据集,导致Loss剧烈波动,影响收敛。7.×解析:Tokenization通常在数据预处理阶段完成,处理成TokenID序列存储,以减少训练时的计算开销。解析:Tokenization通常在数据预处理阶段完成,处理成TokenID序列存储,以减少训练时的计算开销。8.×解析:不一定。如果错误答案占比极小,模型可能将其视为噪声忽略;但如果占比较大或错误模式明显,模型确实可能学到错误。解析:不一定。如果错误答案占比极小,模型可能将其视为噪声忽略;但如果占比较大或错误模式明显,模型确实可能学到错误。9.√解析:DPO算法正是基于成对的偏好数据进行训练。解析:DPO算法正是基于成对的偏好数据进行训练。10.×解析:这是混淆了模型结构参数和数据特征。数据的特征维度(如文本长度、词表维度)不需要与Embedding维度一致,而是通过Tokenizer映射到词表ID。解析:这是混淆了模型结构参数和数据特征。数据的特征维度(如文本长度、词表维度)不需要与Embedding维度一致,而是通过Tokenizer映射到词表ID。五、简答题1.答:SystemPrompt:用于设定全局语境,如“你是一个专业的翻译助手”。它通常位于对话的开头,为整个对话定调。UserPrompt:用户的输入内容,即具体的指令或问题。AssistantResponse:模型预期的输出,即希望模型生成的回答。组织方式:在JSONL中,通常表示为一个包含`messages`键的对象,值为一个字典列表。例如:```json{"messages":[{"role":"system","content":"你是一个SQL专家。"},{"role":"user","content":"查询所有用户。"},{"role":"assistant","content":"SELECTFROMusers;"}{"role":"assistant","content":"SELECTFROMusers;"}]}```2.答:灾难性遗忘:指模型在微调特定任务数据后,虽然在特定任务上表现良好,但在之前预训练阶段学到的通用知识(如常识、语言能力)上表现大幅下降的现象。缓解策略:1.数据混合:在微调数据中掺入一定比例(如10%-20%)的原始预训练数据或通用指令数据。2.正则化约束:在损失函数中加入正则项,限制模型参数偏离原始预训练权重的程度(虽然这是训练技巧,但也需数据配合)。3.弹性权重巩固:对重要参数(对通用任务贡献大的)进行保护,降低其更新率。4.多任务学习:同时微调多个相关任务,避免模型视野过窄。3.答:同义词替换:随机将句子中的词替换为同义词。适用于文本分类、QA等。风险:替换后可能改变原句语义或导致语句不通顺。回译:将文本翻译成外文再翻译回来。适用于生成任务、改写。风险:可能引入文化差异或表达习惯的改变,导致语义漂移。噪声注入:在文本中随机加入拼写错误或乱码。适用于提升模型鲁棒性。风险:可能破坏语法结构,导致模型学习到错误的语言模式。4.答:工作原理:设定一个窗口大小(如512)和步长(如256)。从文本开头开始,截取前512个token作为一个样本;然后向后移动256个token,再截取512个token(包含重叠部分),以此类推直到文本结束。优点:1.充分利用了长文本中的信息,没有简单丢弃中间的内容。2.增加了训练样本的数量。3.让模型能学习到上下文在窗口边缘时的处理能力。缺点:1.增加了数据量和训练时间。2.样本之间存在强相关性,可能影响训练的随机性(虽然Shuffle可以缓解)。3.截断处可能切断句子或实体,导致语义不完整。六、应用分析题1.答:(1)数据清洗流程:1.去除空值/无效行:第三条数据`sql`为`NULL`,无法用于监督学习,必须删除。2.SQL语法标准化:检查SQL语句的语法正确性,统一关键字大小写(如全大写`SELECT`),去除多余空格。3.自然语言Query清洗:去除特殊符号、全角半角转换、纠正错别字。4.去重:计算Query和SQL对的Hash值,去除完全重复的指令,防止模型过拟合特定样本。5.隐私过滤:检查SQL中是否包含真实的敏感表名或字段(如`salary`,`id_card`),如有需要进行泛化处理(如替换为`table_1`)。(2)JSONL格式转换:```json{"messages":[{"role":"system","content":"你是一个专业的SQL生成助手,请根据用户描述生成SQL语句。"},{"role":"user","content":"查找所有余额大于1000的用户"},{"role":"assistant","content":"SELECTFROMusersWHEREbalance>1000"}{"role":"assistant","content":"SELECTFROMusersWHEREbalance>1000"}]}```(3)思维链样本构造:```json{"messages":[{"role":"system","content":"你是一个SQL专家。请先分析用户意图,然后生成SQL。"},{"role":"user","content":"查找所有余额大于1000的用户"},{"role":"assistant","content":"用户想要筛选用户表。条件是余额字段大于1000。不需要聚合,直接返回所有字段。\nSQL:SELECTFROMusersWHEREbalance>1000;"}{"role":"assistant","content":"用户想要筛选用户表。条件是余额字段大于1000。不需要聚合,直接返回所有字段。\nSQL:SELECTFROMusersWHEREbalance>1000;"}]}```2.答:(1)Self-InstructPipeline:1.种子准备:利用现有的2000条人工标注数据作为种子集。2.生成指令:使用强模型(如GPT-4),基于种子集中的指令风格,生成新的、多样化的法律领域任务指令。3.验证指令:人工或使用模型检查新生成的指令是否属于法律领域,是否清晰无歧义。4.生成输入/输出实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于情感计算的数字化学习压力评价与个性化辅导策略教学研究课题报告
- 高中气象模拟实验说课稿
- 2026年船舶安全环保方面测试题及答案
- 2026年司法教育整顿测试题及答案
- 2026年凯甲勇士测试题及答案
- 2026年《荀子 劝学》测试题及答案
- 2026年二年级下册数学一单元测试题及答案
- 2026年知名性格测试题及答案
- 2026年狂躁症测试题在线测试及答案
- 2026年声音传播实验测试题及答案
- 癫痫共患偏头痛诊断治疗
- 江西省农发种业有限公司招聘考试真题2024
- 储备土地巡查管理办法
- JJG 688-2025汽车排放气体测试仪检定规程
- 【15万吨日供水量水厂设计中反应沉淀池设计计算过程案例2300字】
- 《铁路线路养护与维修》课件 2.1.5垫板修正作业
- T/CNCA 014-2022改性镁渣基胶凝材料
- 2025年安徽铜陵港航投资建设有限责任公司招聘笔试参考题库附带答案详解
- 1完整版本.5kw机器人专用谐波减速器设计
- CYC指标(指南针成本均线)使用详解
- 《国家电网公司电力安全工作规程(火电厂动力部分、水电厂动力部分)》
评论
0/150
提交评论