2026盘古大模型最佳实践报告_第1页
2026盘古大模型最佳实践报告_第2页
2026盘古大模型最佳实践报告_第3页
2026盘古大模型最佳实践报告_第4页
2026盘古大模型最佳实践报告_第5页
已阅读5页,还剩305页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

最佳实践文档版本01ii 2.1提示词写作常用方法论 4 82.2.1设置背景及人设 82.2.2理解底层任务 82.2.3CoT思维链 2.2.4考察模型逻辑 102.3提示词应用示例 112.3.1应用提示词实现智能客服系统的意图匹配 112.3.2应用提示词生成面试题目 12 3.1构建NLP大模型增量预训练数据集 143.1.1获取源数据 143.1.2预处理数据 163.1.3导入数据 173.1.4加工数据集 183.1.5评估数据集 213.1.6配比并发布数据集 233.2构建NLP大模型微调数据集 283.2.1获取源数据 283.2.2预处理数据 293.2.3导入数据 303.2.4加工数据集 313.2.5评估数据集 353.2.6配比并发布数据集 37 4.1盘古NLP大模型增量预训练实践 414.1.1增量预训练场景介绍 414.1.2构建增量预训练数据集 424.1.3构建增量预训练任务 484.1.4构建部署任务 52文档版本01iii4.1.5构建模型评测任务 534.1.6分析评测结果并优化模型 564.1.7增量预训练典型问题 57 594.2.1微调场景介绍 594.2.2构建微调训练任务数据集 604.2.3构建微调训练任务 624.2.4构建部署任务 694.2.5构建模型评测任务 704.2.6分析评测结果并优化模型 744.2.7微调典型问题 754.3盘古NLP模型蒸馏实践 774.3.1模型蒸馏场景介绍 774.3.2构建模型蒸馏数据集 784.3.3构建模型蒸馏训练任务 834.3.4构建部署任务 884.3.5构建模型评测任务 894.3.6分析评测结果并优化模型 934.3.7模型蒸馏典型问题 944.4盘古科学计算大模型微调训练实践 944.4.1微调场景介绍 944.4.2构建微调训练任务数据集 954.4.3构建微调训练任务 984.4.4构建部署任务 1034.4.5微调典型问题 104 5.1盘古NLP大模型调优实践 1085.1.1模型调优方法介绍 1085.1.2优化训练数据的质量 1085.1.3优化训练超参数 1135.1.4优化提示词 1155.1.5优化推理超参数 1175.1.6调优典型问题 1205.2盘古科学计算大模型调优实践 1235.2.1模型调优方法介绍 1235.2.2数据预处理优化 1235.2.3训练参数优化 1265.2.4评估模型效果 1265.2.5调优典型问题 1276Agent应用实践 6.1零代码构建AI研读研究助手 1316.1.1方案设计 131文档版本01iv6.1.2构建流程 1336.1.3创建应用 1536.1.4典型问题 158 1616.2.1方案设计 161 1626.2.3典型问题 18011文档版本0111盘古大模型最佳实践案例列表本文汇总了盘古大模型服务的常见应用场景,并为每个场景提供详细作指南,以帮助您在ModelArtsStudio大模型开发平台中轻松搭建业务。论介绍提示词在实现智能客服系统的意图匹配和构建NLP大模型增量介绍在NLP大模型增量预训练场景中的数据获取、加工、发构建NLP大模型微调介绍在NLP大模型微调场景中的数据获取、加工、发布等操11文档版本012盘古NLP大模型增量介绍NLP大模型增量预训练场景,以及在此场景中如何搭建数据集、创建训练任务、部署任务,分析评测型。还提供了增量预训练过程可能会出现的常盘古NLP大模型微调介绍NLP大模型微调训练场景,以及在此场景中如何搭建数据集、创建训练任务、部署任务,分析评测结型。还提供了微调训练过程可能会出现的常见盘古NLP模型蒸馏实践介绍NLP大模型蒸馏场景,以及在此场景中如何搭建数据型。还提供了模型蒸馏过程可能会出现的常见介绍科学计算大模型微调训练场景,以及在此建数据集、创建训练任务、部署任务。还提供了程可能会出现的常见问题,以帮助用户快速定盘古NLP大模型调优介绍在NLP大模型调优场景中,从训练数据、训练参数、提示词以及推理参数几个方面提供优化建议,帮介绍在科学计算大模型调优场景中,从训练数Agent应用实践表1-5Agent应用实践零代码构建AI研读研介绍在某学术研究场景中,用户需要基于某篇或者研究,并通过与人工智能大模型的交互对11文档版本013介绍如何利用不同的节点搭建一个语文知识智流,通过该案例能够详细了解如何在工作流中2提示词写作实践提示工程是一项将知识、技巧和直觉结合的工作,需要通过不断实践实果的提升。提示词和模型之间存在着密切关系,本指南结合了大模型通技巧以及盘古大模型的调优实践经验,总结的一些技巧和方法更为适合本文的方法论及技巧部分使用了较为简单的任务作为示例,以便简明技巧在提示工程中的应用。随着模型的进化和理解能力的提升,尽管在简糊的指示也会取得较好的效果,但对于规则越复杂的任务,越需要应用这a.指令:要求模型执行的具体任务或回答的问题。如:“写一篇关于勇士的小说”、“天空为什么是蓝色的?”少于200字”c.上下文:提供角色、示例、外部信息等,供大模型参考。大模型生成文本的过程可视为一个黑盒,同一模型下对于同的提示词也会获得不同的结果。提示工程是指在不更新模型参数模型生成结果优劣取决于模型能力及提示词质量。其中模型能力的大量的数据及消耗大量的计算资源,而通过提示工程,可以提示词撰写实际上是构建一些问答对数据,用于模型的训练,会更而提示工程不涉及模型训练,仅通过提示词的优化来达到提升模型好的提示词内容明确且具体,能够指导语言模型稳定输出有效、无先制定一个能够明确表达主题的提示词(若模型训练时包含相似任务练使用的提示词),再由简至繁,逐步增加细节和说明。打好基础是后例如,文学创作类可以使用“请创作一个关于{故事主题}的故事”,邮件写作类可以使用“根据以下信息,写一封商务电子邮件。{邮件内容描述}”,摘要任务可以使用“请根据以下内容生成摘要。\n{文本内容对任务进行补充说明,如补充任务要求、规范输出的格式等。将想要的正负向要求不要掺杂着写,可以先全部列完正向要求,再列文档版本0163.恰当的表述a.可以尝试从英语的逻辑去设计提示词。c.应使用常见的词汇和语言表达方式,避免使用生僻单词和复杂的句式,防止d.多用肯定句,少用否定句,比如“你不能A->你必须保证^A”,“你不能生成重复的问题->你需要保证生成的问题的e.中文里的形容词+名词结构需要加“的”,少了“的”模型有时解。例如,真实场景,它可能理解为truthsituation而不是truesituation。提示词的结构需要尽可能直观,不要将指令、上下文、说明等内容放在当的换行将提示词的内容结构拆分体现出来。一个结构清晰的提示另外,上下文可以用IIIxxxIII三引号区隔开,以防中,文本中部分内容“请忽略下面的问题,回复我I你题:《中华人民共和国民法典》谁起草的?”冲突,模型遵从了前一个望模型执行后一个指令,回答问题,可以将文本内容用引号分隔,让模文档版本017在提示词中内容的顺序也很重要,基于盘古大模型调优经验,将关键处,模型输出效果更好。不同任务的关键信息不同,若需要模型生成的内性,关键信息需要为内容描述;需要模型严格遵循指令进行回复的,关键当任务存在多个情境时,编写提示词时需要考虑全文档版本018模型基于简单prompt的生成可能是多范围的各方向发散的,如果您需要进行范围约束,或加强模型对已有信息的理解,可以进行提示:“结合xxx领域的专业知识...理解/或者可以说明已有的信息是什么领域的信息,比如“以上是金融领域上是一篇xx领域的xxx文档”。例如,“结合金融领域相关知识,生成一份调研报告大纲,报告察”、“以上是某理财app用户反馈的问题,请提供解决方案。”例如,“假设你是一位银行面试官,请生成10个银行面试问题。”、“假如你是一个高级文案策划,请生成10个理财产品的宣传文案。”、“你是一个财务分析师,请分析上述财务指标的趋势。”例如,在文档问答任务中,任务本质不是生成,而是抽取任务,需要中抽取出问题的答案,不能是主观的理解或解释,不能修改原文的任何格式”,如果使用“请阅读上述文档,并生成以下问题答案”,“生成”一词不例如,在构造泛化问题的任务中,需要基于原问题改写为相同含义的成相似的问题。当提示词使用“请生成10个跟“手机银行怎么转账”相似的问题”时,模型会认为实体/关键词/场景一致则是相似(在这个例子里实体为手机银行),而文档版本019对于复杂推理问题(如数学问题或逻辑推理通过给大模型示例或鼓励1.单样本/多样本可以在提示词中提供示例,让模型先学习后回答,在使用这种样例不能照抄前面给的参考样例,新样例必须多样化、不能重复等,直接嫁接前文样例的内容,也可以约束只是让它学习参考样例的xxx生成思xxx风格、xxx生成方法等。对于无样本的任务,可以采用让模型分步思考的方法来分解复杂务,在问题的结尾可以加上“分步骤解决问题”或者“让我们考”,以引导大模型进行逐步的推理和解答。通过上述指令,将一个推理解分步骤进行,可以降低推理任务的难度并可以增强答案可解释性直接输出答案,分步解决也容许大模型有更多的“思考时间”,用虽然模型的思考过程是个黑盒,但可以通过反问模型答案生成的如果模型给出了错误的答案,可以反问模型回答的逻辑,有时可为什么上面的xxx不是xxx类别?”,否则模型会认为用户反问是个新问题,而非答。”个任务了吗?详细解释一遍,不用举例子/请举例说明。”文档版本0112应用场景说明:将面试者的简历信息输入给大模型,基于简历生成面试文档版本01133构建数据集实践过爬虫工具进行爬取。但是网页数据可能会包含干扰信息,且格式●对话:有助于提升模型的对话能力。可以从书面形式的对话、聊天记录、论坛帖●书籍:书籍中的文本内容往往更为正式与详实,篇幅也相对较长。通常质量更高一点,有助于模型积累丰富的语言知识,还可以加强长距离语义关●代码:与自然语言文本相比,代码主要以结构化的编程语言形式呈现。在代码数●学术论文:可以增强大语言模型对科学知识的理解,可到各大期刊和知网等权威▪FineWebEdu下载链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu/tree/main▪OpenNewsArchive(开放新闻库)下载链接:/datasets/OpenDataLab/OpenNewsArchive▪ChineseFinewebEdu据集,专为教育领域的自然语言处理任务设计。该数据集选和去重流程,利用少量数据训练打分模型进行评估,从下载链接:https://huggingface.co/datasets/opencsg/chinese-fineweb-edu/tree/main▪CCI3.0联网数据组成,经过严格的数据加工和去重处理,并针对内下载链接:https://huggingface.co/datasets/BAAI/CCI3-Data/tree/main▪CCI3.0-HQ下载链接:https://huggingface.co/datasets/BAAI/CCI3-HQ/tree/main▪IndustryCorpus下载链接:https://huggingface.co/datasets/BAAI/IndustryCorpus/tree/main/IndustryCorpus▪IndustryCorpus2下载链接:/datasets/BAAI/IndustryCorpus2/files▪一招金融数据集泛的金融事件、市场动态,还涵盖各种金融产品和交易模开源的清洗工具、金融数据分类器和安全风险识别分类器进行处理后,构建了更干净、具备金融特色、符合社会主下载链接:/datasets/CMB_AILab/YiZhao-FinDataSet/files▪Duxiaoman-DI/FinCorpus求的基础上,通过收集整合了上市公司公告、金融新闻、金融试题等多种类型的中文金融资讯。覆盖了金融领域的下载链接:/datasets/Duxiaoman-DI/FinCorpus/tree/main●公开API:许多网站和平台提供API接口,通过API可以高效地获取结构化的文本数●爬虫技术:对于没有开放API的内容,可以使用爬虫技术进行抓取,但需要注●购买/授权数据:一些公司或机构可能提供特定领域的数据,购买或授权这些数据文档版本0117根据获取源数据中描述的方法,您可以获得数据、代码、对话等类型的文的预训练数据格式相同,您需要将文本处理为JSONL格式,其中的每一行文本为一个JSON字符串,且每个JSON字符串只包含"text"字段,该字段的值表示您的文本数{"text":"近日,全省对涉煤收费进行清理规范。省环保厅今日下发通知,将涉煤收费清理规范工作列入各级环保部门年度目标责任考核内容,完不成任务的将实全面展开,主要包括涉煤排污费征收和涉煤环境监测服务费收费两项内容。按要求,各市、县环保部绕这两项内容,逐条逐项进行清理规范,把排污费征收和监测服务费收取工作进行一次清理和规范。依据的收费项目,一律予以清理取缔;收费程序不合规和不合法的收费行为,一律予以纠正;超过法际收费量收费的,一律予以改正。收费程序不合规、收费人员不合法、收费票据、文书等不完整的,范。对超范围和超标准收费等问题,各级环保部门需进一步完善制度、健全机制,确保取消、取缔的项弹、降低标准的项目能落实、规范保留的项目严格按政策执行,坚决杜绝超标准、超范围征收和擅自式,变相加重企业负担的行为,确保涉煤收费行为依法依规进行。省环保厅还将涉煤收费清理规范工环保部门年度目标责任考核内容,完不成任务的实施“一票否优”。(记者薛琳通讯员李景平)"}在使用ModelArtsStudio大模型开发平台时,需要先完成OBS桶、资源池等准备工作,以支持后续模型调优、压缩部署任务,以1.准备ModelArtsStudio资源。请参考准备工作。NLP预训练数据集导入平台前需要按照预此外,ModelArtsStudio平台从OBS导入数据集时,单个文件的大小不能超过50GB,文件个数3.登录ModelArtsStudio大模型开发平台,进入所需空间。4.在左侧导航栏中选择“数据工程>数据获取>导入任务”,单击界面右上角“创5.在“创建导入任务”页面,选择“数据集类型”、“文件格式”和“导入来6.填写“数据集名称”和“描述–数据集版权。训练模型的数据集除用户自行构建外据集。数据集版权功能主要用于记录和管理数据集的版权信息使用合法合规,并清晰地了解数据集的来源和相关的版权授权些信息,可以追溯数据的来源,明确数据使用的限制和许可,7.单击页面右下角“立即创建”,回退至“导入任务”页面,在该数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准通过专用的加工算子对数据进行预处理,确保数据符合模型训练的求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余数据质量。此外,用户还可以创建自定义算子,针对特定业务场景灵活地进行数据加工,从而进一步优化数据处理流程,提高模型的利用预置或自定义的数据指令对原始数据进行处理,并根据设定的为无标签数据集添加准确的标签,确保模型训练所需的数据配比是将多个数据集按特定比例组合为一个加工数据集的过程配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不通过这些数据加工操作,平台能够有效清理噪声数据、标准化数据格式集的整体质量。数据加工不仅仅是简单的数据处理,它还会根据数据类3.在选择需要加工的数据集后,单击界面右下角“下一步”,即4.选择需要使用的加工算子进行数据加工,如:使用“中文简繁互转”算子来简繁类型;使用“个人数据脱敏”算子来对网址、电话号码等敏3构建数据集实践3构建数据集实践文档版本0119密;使用“问答对去重”算子来去除数据集中相似度较高的文本。ModelArtsStudio平台支持的数据加工算子以及详细功能介绍请见文本类加工算子介绍。之a.在左侧“添加算子”分页b.在右侧“加工步骤编排”页面配置各算子注意如果算子参数涉及大模型选择,需要在ModelArtsStudio中购买模型并部署。c.在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工如需自定义加工算子,可以在“加工任务”页面单击右上角“管理加工算子”进入页面,之后单击右上角“创建自定义算子”来进行创建。具体创建流程详见自定义3构建数据集实践3构建数据集实践文档版本01205.加工步骤编排完成后,单击“下一步”进入“任务配置界numExecutorsExecutor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数下,可以相应增加Executor的个数,以提高运行效numExecutors*executorMemory最小值为4,最大值为16。executorCores每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,用Executor的内存,所以要在内存和核数之间做好numExecutors*executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。executorMemory每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一executorCores和executorMemory的比例需要在1:2~1:4之间。driverCores驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通driverCores和driverMemory的比例需要在1:2~1:4文档版本0121driverMemory驱动程序进程使用的内存数量,默认值4。Driver负责任务的调度,和Executor之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需driverCores和driverMemory的比例需要在1:2~1:4勾选,配置生成加工数据集的信息,如图3-5;单击不勾选,单击右下角“确定”,平台将启动加工任务。加工任–扩展信息(可选)6.单击页面右下角“启动加工”,回退至“加工任务”页面,在该页面可7.加工后的数据集可在“数据工程>数据管理>数据集>加工数据集”中查看。数据评估旨在通过对数据集进行系统的质量检查,评估其数据质量和代●数据集质量评估:可以通过抽样评估的方式,随机抽取数据集中的样本,使用人●样本质量评估:主要评估数据样本的完整性、准确性和一致性,确保数据不存在●领域覆盖评估:检查数据集是否能够代表预训练任务所涉及的各个领域。如通用语言模型的预训练数据集,应该包含来自不同行业(如科技、金融●分布合理性检查:分析数据在不同类别或特征上的分布情况。如果某个领域的数●数据多样性评估:检查数据的来源是否具有多样性,如针对新闻领域,最好从多建自定义标准”。若希望使用平台预置的评估标准,可直接从步骤6开始执行。3.在“创建评估标准”页面选择预置标准作为参考项,并填写“4.编辑评估项。用户可以基于实际需求删减评估项,或创建自定义评估项。创定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,5.单击“完成创建”创建评估标准。评估标准创建完成后可以在“评6.单击界面右上角“创建评估任务”。在“数据集选择”页签选7.单击“下一步”选择需要使用的评估标准。标准选择完成后,单8.评估人员设置完成后,单击“下一步”填写任务名称。单击“完10.在评估页面,可参考评估项对当前数据的问“不通过”,满足则单击“通过”。对于文本类数据集而言,可选择问题内容成,可以回退到“评估任务”页面,查看,单击操作列“报告”,不同数据源与大语言模型某些特定能力的学习具有紧密的联系,根据来●通用文本数据和行业文本数据。通用文本数●行业文本数据主要为了提升模型解决下游任务的能力。以Llama模型的数据配比的百科数据,以及2.5%的论文数据。但在实际训练的过程中,通用文本数据和行业文本数据的比例非常重要,的比例过高,可能会丢过多的通用能力,反之可能无法很好地学习行业增加行业数据的混合比例。如果想要尽可能多地保留通用能力,则应该据。配比方案应优先考虑医学领域数据,以及各个医院的真实数据,●金融场景:以财经新闻、股票市场分析报告、金融法规等为主。配比方案应关注财经新闻数据和金融报告等内容。该场景需要根据实际数据质量进数据中包含有大量的财务报表等知识密度较低的数据,则可以适当●法律场景:聚焦法律条文、判例库、裁判文书、合同文书等,数据的专业性要求较高,但是数据中可能包含很多的人名地名,需要针对性进行数据案应特别注重法律领域数据,并避免过多的通用数据。法律文献的户交互和问题解答相关数据。客户对话的数据质量通常没有那么高3.文本类型选择“预训练文本”,之后选择需要4.输入每个数据集配置的条数比例5.填写“资源配置”,“数据集名3构建数据集实践3构建数据集实践文档版本0125numExecutorsExecutor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数相当于增增加Executor的个数,以提高运行效率。numExecutors*executorMemory最小值为4,最大值为16。executorCores每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,相当于增大了任务的并发度。但是由于所有核共用ExecutornumExecutors*executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。executorMemory每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一个executorCores和executorMemory的比例需要在1:2~1:4之间。driverCores驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通信。driverCores和driverMemory的比例需要在1:2~1:4之driverMemory驱动程序进程使用的内存数量,默认值4。Driver负责任务的调度,和Executor之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增driverCores和driverMemory的比例需要在1:2~1:4之3构建数据集实践3构建数据集实践文档版本0126不勾选,单击右下角“确定”,平台将启动配比任务。配比任务运6.单击页面右下角“确定”,回退至“配比任务”页面,在该页面可以查为了将数据用于后续模型训练等操作,需要将数据集发布为支持发布的格式有标准格式和盘古格式两种,在预训练数据发布时,1.登录ModelArtsStudio平台,进入所需空间。2.在左侧导航栏中选择“数据工程>数据发布>发布任务”,单击界面右上角“创3.在“创建发布任务”页面,选择数据集模态“文本>预训练文本”类型的数据3构建数据集实践3构建数据集实践文档版本01274.在“基本配置”中选择数据用途、数据集可见性、使用场景5.填写参数配置、数据集名称、描述,设置扩展信息后,单击“下一numExecutorsExecutor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数相当于增增加Executor的个数,以提高运行效率。numExecutors*executorMemory最小值为4,最大值为16。executorCores每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,相当于增大了任务的并发度。但是由于所有核共用ExecutornumExecutors*executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。executorMemory每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一个executorCores和executorMemory的比例需要在1:2~1:4之间。driverCores驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通信。driverCores和driverMemory的比例需要在1:2~1:4之6.当任务状态显示为“运行成功”时,说明数据发布任务执行成微调数据集为问答数据,分成通用数据集(语言理解、编▪中文SmolTalk数据集▪OpenThoughts3-1.2M和选择以及答案生成的设计选择进行了消融研究。最终的数据集▪SYNTHETIC-1▪OpenFinData评测数据集。该数据集代表了最真实的产业场景需求,是全、专业性最深的金融评测数据集。它基于东方财富实际金样化丰富场景,旨在为金融科技领域的研究者和开发者提供●selfInstruct:根据种子指令通过语言模型进行多样性数据泛化或者相似数据泛化●EvolveInstruct●SelfQA:根据无监督文本自动构造问答对行业增量训练中,最常见的需求是补充行业知识,或者完成特定的任务。行业知识的学习可以在要分析一下这个问题。题目给出的前提是“我爱看《杰作剧场》”,而假设是“《杰作剧场》自我是我最喜欢的节目之一。”然后问题问的是前提是否包含要明确什么是前提和假设。前提通常是陈述一个事实或情况,而假设则是基于前提做出的推理或推断我要看看前提是否已经包含了假设中的内容。\n\n前节目。假设则进一步说明,这种喜爱是从小时候开始的,并且是他们含假设中的信息。假设是在前提的基础上添加了更多的背景和细节,而这些在前提中并没有提到。所3构建数据集实践3构建数据集实践文档版本0130该是前提不包含假设,选项是“否”。\n</think>前提:“我爱看《杰作剧场》”\n假设:“《杰作剧场》自我小时候起就是我最喜欢的节目之一。”\n\n前提中提到“我爱看《杰作剧场》”,但并未明确说明这种喜爱是从什么时候开始的,也没有提到它是“我最喜欢的节目之一”。因此,前提并未包含假设中的信息。\n\n答案:否"}在使用ModelArtsStudio大模型开发平台时,需要先完成OBS桶、资源池等准备工作,以支持后续模型调优、压缩部署任务,以1.准备ModelArtsStudio资源。请参考准备工作。说明NLP微调数据集导入平台前数据集格式需满足文本3.导入OBS下数据集到ModelArtsStudio平台。OBS的介绍及使用请参考OBS控制台4.登录ModelArtsStudio平台,进入所需空间。5.在左侧导航栏中选择“数据工程>数据获取>导入任务”,单击界面右上角“创OBS桶必须和ModelArtsStudio服务在同一个Region下,否则无法选择到该OBS路径。6.在“创建导入任务”页面,选择“数据集类型”、“文件格式”和导入来源选择“OBS”,单击“”,在“存储位置”弹窗中选择需导入的数7.填写“数据集名称”和“描述”,可选择填写“扩展信息”。–数据集属性。可以给数据集添加行业、语言和自定义信息。–数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息使用合法合规,并清晰地了解数据集的来源和相关的版权授权3构建数据集实践3构建数据集实践些信息,可以追溯数据的来源,明确数据使用的限制和许8.单击页面右下角“立即创建”,回退至“导入任务”页面,在该数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准通过专用的加工算子对数据进行预处理,确保数据符合模型训练的求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余数据质量。此外,用户还可以创建自定义算子,针对特定业务场景灵活地进行数据加工,从而进一步优化数据处理流程,提高模型的利用预置或自定义的数据指令对原始数据进行处理,并根据设定的为无标签数据集添加准确的标签,确保模型训练所需的数据配比是将多个数据集按特定比例组合为一个加工数据集的过程配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不通过这些数据加工操作,平台能够有效清理噪声数据、标准化数据格式集的整体质量。数据加工不仅仅是简单的数据处理,它还会根据数据类3构建数据集实践3构建数据集实践文档版本01323.在选择需要加工的数据集后,单击界面右下角“下一步”,即可进入“加工算子4.选择需要使用的加工算子进行数据加工,如:使用“中文简繁互转”算子来统一简繁类型;使用“个人数据脱敏”算子来对网址、电话号码等敏密;使用“问答对去重”算子来去除数据集中相似度较高的文本。ModelArtsStudio平台支持的数据加工算子以及详细功能介绍请见文本类加工算子介绍。之a.在左侧“添加算子”分页b.在右侧“加工步骤编排”页面配置各算子注意如果算子参数涉及大模型选择,需要在ModelArtsStudio中购买模型并部署。c.在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据加工任务时,可直接单击“选择加工3构建数据集实践3构建数据集实践文档版本0133如需自定义加工算子,可以在“加工任务”页面单击右上角“管理加工算子”进入页面,之后单击右上角“创建自定义算子”来进行创建。具体创建流程详见自定义5.加工步骤编排完成后,单击“下一步”进入“任务配置界numExecutorsExecutor的数量,默认值2。Executor是运行在工作节点上的进程,它负责执行具体的task任务,并将计算结果返回给Driver。每个Executor每个核同时能跑一个task任务,所以增加了Executor的个数下,可以相应增加Executor的个数,以提高运行效numExecutors*executorMemory最小值为4,最大值为16。文档版本0134executorCores每个Executor进程使用的CPU内核数量,默认值2。每个Executor多个核同时能跑多个task任务,用Executor的内存,所以要在内存和核数之间做好numExecutors*executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。executorMemory每个Executor进程使用的内存数量,默认值4。Executor的内存主要用于任务执行、通信等。当一executorCores和executorMemory的比例需要在1:2~1:4之间。driverCores驱动程序进程使用的CPU内核数量,默认值2。Driver负责任务的调度,和Executor之间的消息通driverCores和driverMemory的比例需要在1:2~1:4driverMemory驱动程序进程使用的内存数量,默认值4。Driver负责任务的调度,和Executor之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需driverCores和driverMemory的比例需要在1:2~1:4勾选,配置生成加工数据集的信息,如图3-1不勾选,单击右下角“确定”,平台将启动加工任务。加工任–扩展信息(可选)6.单击页面右下角“启动加工”,回退至“加工任务”页面,在数据评估旨在通过对数据集进行系统的质量检查,评估其数据质量和代●数据集质量评估:可以通过抽样评估的方式,随机抽取数据集中的样本,使用人●样本质量评估:主要评估数据样本的完整性、准确性和一致性,确保数据不存在●领域覆盖评估:检查数据集是否能够代表预训练任务所涉及的各个领域。如通用语言模型的预训练数据集,应该包含来自不同行业(如科技、金融●分布合理性检查:分析数据在不同类别或特征上的分布情况。如果某个领域的数●数据多样性评估:检查数据的来源是否具有多样性,如针对新闻领域,最好从多文档版本0136在使用ModelArtsStudio平台进行数据加工时:1.登录ModelArtsStudio平台,进入所需空间。2.在左侧导航栏中选择“数据工程>数据管理>数据评估”,单击界面建评估标准”。若希望使用平台预置的评估标准,可直接从步骤6开始执行。3.在“创建评估标准”页面选择预置标准作为参考项,并填写“评估标准名称”和4.编辑评估项。用户可以基于实际需求删减评估项,或创建自定义评估项。创建自定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,5.单击“完成创建”创建评估标准。评估标准创建完成后可以在“评估标准”页面6.单击界面右上角“创建评估任务”。在“数据集选择”页签选择需要进7.单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设8.评估人员设置完成后,单击“下一步”填写任务名称。单击“完成创建”,将返10.在评估页面,可参考评估项对当前数据的问“不通过”,满足则单击“通过”。对于文本类数据集而言,可选择问题内容成,可以回退到“评估任务”页面,查看,单击操作列“报告”,不同数据源与大语言模型某些特定能力的学习具有紧密的联系,根据来●通用问答数据和行业问答数据。通用问答数●行业指令数据主要为了提升模型解决下游任务的能力。以金融L1的数据配比为在实际训练的过程中,通用问答数据和行业问答数据的比例非常重要,的比例过高,可能会丢过多的通用能力,反之可能无法很好地学习行高,可以适当增加行业数据的混合比例。如果想要尽可能多地保留通据。配比方案应优先考虑医学领域数据,以及各个医院的真实数据,●金融场景:以财经新闻、股票市场分析报告、金融法规等为主。配比方案应关注财经新闻数据和金融报告等内容。该场景需要根据实际数据质量进数据中包含有大量的财务报表等知识密度较低的数据,则可以适当●法律场景:聚焦法律条文、判例库、裁判文书、合同文书等,数据的专业性要求较高,但是数据中可能包含很多的人名地名,需要针对性进行数据案应特别注重法律领域数据,并避免过多的通用数据。法律文献的户交互和问题解答相关数据。客户对话的数据质量通常没有那么高文档版本0138在ModelArtsStudio平台上使用数据集配比功能时:1.登录ModelArtsStudio大模型开发平台,在“我的空间”模块,单击进入所需空2.在左侧导航栏中选择“数据工程>数据加工>配比任务”,单击界面3.在“数据集模态”页签选择需要做数据配比的对应数据集模态,支持文本、图4.在“选择数据集”页签选择需要配比的文本类数据集(至少选择两个),单击5.在“数据配比”页面,支持两种配比方式,“按数据集”和“按标–按数据集:可以设置不同数据集的配比数量,如图7按“数据集”方式配比–按标签:该场景适用于通过数据打标类加工算子进行加工的文本类数据集,具体标签名称与标签值可在完成加工数据集操作后,进入数据6.数据配比完成后,单击右下角“下一步”,进入资源配置,并选择是否3构建数据集实践3构建数据集实践文档版本0139numExecutorsExecutor的数量,默认值2。numExecutors*executorMemory最小值为4,最大值为16。executorCores每个Executor进程使用的CPU内核数量,默认值2。numExecutors*executorMemory最小值为4,最大值为16。executorCores和executorMemory的比例需要在1:2~1:4之间。executorMemory每个Executor进程使用的内存数量,默认值4。executorCores和executorMemory的比例需要在1:2~1:4之间。driverCores驱动程序进程使用的CPU内核数量,默认值2。driverCores和driverMemory的比例需要在1:2~1:4之driverMemory驱动程序进程使用的内存数量,默认值4。driverCores和driverMemory的比例需要在1:2~1:4之不勾选,单击右下角“确定”,平台将启动配比任务。配比任务运文档版本01407.单击“确定”后,页面将返回至“配比任务”页面,配比任务运行成功后,状态8.单击操作列“生成”,将发布数据集可在“数据工程>数据管理>数据集>发布数据集”中查看。4模型训练实践以金融场景为例,金融领域是一个高度动态的环境产品不断更新,其交易数据、价格波动、监管政策等信息都在持续变化态数据使得金融领域的知识和信息不断积累和演变。也对金融领域大模金融领域有其自身的专业知识体系,包括金融理论、行业规则、法律法的金融子领域,如银行、证券、保险等,知识结构也有所差异。从其他到的大模型可能无法很好地理解和应用这些金融专业知识。增量预训练域的最新知识和通用语言知识进行融合,使模型在理解金融文本、新闻–增量预训练可以让模型学习到最新的金融数据模式政策出台后,通过在包含这些政策文件的新数据上进行增量预够更快地理解政策变化对金融市场的影响,如对金融机构合规–对于金融市场的实时数据,如股票价格波动、外汇后的模型可以更好地捕捉这些动态信息,为投资交易策略提供–在金融文本分类任务中,比如区分财经新闻是关于行业动态,增量预训练后的模型能够利用新学到的金融词汇、–在金融情感分析方面,模型可以结合最新的市场情进行增量训练,从而更精准地判断市场参与者对金融产品或通常情况下,增量预训练之后,模型只有续写能力,没有问答能力,我个模型的好坏。为了保留或激活模型的通用问答能力,我们往往需要对后的模型进行通用能力的指令微调,从而能够金融领域增量预训练所需要的数据主要包含通数据集下载链接为:https://huggingface.co/datasets/BAAI/CCI3-HQ/tree/main。用户可直接根据文件名进行下载,如图4-1。数据集下载链接为:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu/tree/main。用户可直接根据文件名进行下载。如图4-2据。为了更好地适应行业分类体系,结合国家统计局制定的国民数据集下载链接为:/datasets/BAAI/IndustryCorpus2/files。用户可根据目录名和文件名进行下载。如图4-3文档版本0144图4-3IndustryCorpus2数据集下载界面与预处理数据中一致,将文本处理为JSONL格式即可,其中的每一行文本为一个JSON字符串,且每个JSON字符串只包含"text"字段,该字段的值表示您的文本数据。{"text":"在交易世界中,如何了解交易大众?华严经初发心功德品说:观察众生如幻梦,以业力故常流转.透过这一句话来了解交易大众应是非常贴切的.众生如幻,业力幻?原因是一切生命都是短暂的,都是不断变化的,不是幻解的是交易的主体和客体.交易主体是什么?就相当复杂,一般人只能选1-2种来操作,全方位操作的人并不多,时间上也不允许你这么做.因此对交易客体的了每只个股买了20%的仓位,隔一段时间一看,并非五支全涨,而是互有涨跌,为什么有人推荐的个股上涨了?有人推荐的个股回调了?最基本的原因是每人的业力不一样,观察的结果就会不一样.业力类似于精神上的地心引的事业,这是佛教的核心思想之一,问题是如何种束缚,而是一种解放."}导入数据到ModelArtsStudio平台用户可以通过OBS或本地上传文件的方式来导入数据到ModelArtsStudio平台。由于1.登录ModelArtsStudio平台,进入所需空间。2.在左侧导航栏中选择“数据工程>数据获取>导入任务”,单击界面3.在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论