下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ChatGPT全球最大开源平替回复更受欢迎但中文对话一塌糊涂ChatGPT全球最大开ChatGPT全球最大开源平替回复更受欢迎但中文对话一塌糊涂全文共4页,当前为第1页。机器之心报道在众多开源项目中脱颖而出,OpenAssistant有两把刷子。事实证明,将大型语言模型(LLM)与人类偏好保持一致可以显著提高可用性,这类模型往往会被快速采用,如ChatGPT所证明的那样。监督微调(SFT)和基于人类反馈的强化学习(RLHF)等对齐技术大大减少了有效利用LLM功能所需的技能和领域知识,从而提高了它们在各个领域的可访问性和实用性。然而,像RLHF这样最先进的对齐技术依赖于高质量的人工反馈数据,这些数据的创建成本很高,而且通常仍然是专有的。为了使大规模对齐研究民主化,来自LAIONAI等机构(Stablediffusion使用的开源数据就是该机构提供的。)的研究者收集了大量基于文本的输入和反馈,创建了一个专门训练语言模型或其他AI应用的多样化和独特数据集OpenAssistantConversations。此外,为了证明OpenAssistantConversations数据集的有效性,该研究还提出了一个基于聊天的助手OpenAssistant,其可以理解任务、与第三方系统交互、动态检索信息。可以说这是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。结果显示,OpenAssistant的回复比GPT-3.5-turbo(ChatGPT)更受欢迎。网友表示:做得好,超越OpenAI(抱歉是ClosedAI)。ChatGPT全球最大ChatGPT全球最大开源平替回复更受欢迎但中文对话一塌糊涂全文共4页,当前为第2页。OpenAssistantConversations的基本数据结构是会话树(ConversationTree,CT),其中的节点表示会话中的消息。OpenAssistantConversations数据是使用web-app界面收集的,包括5个步骤:提示、标记提示、将回复消息添加为提示器或助手、标记回复以及对助理回复进行排名。下图为OpenAssistantConversations数据集语言分布,主要以英语和西班牙语为主:实验结果指令微调为了评估和证明OpenAssistantConversations数据集的有效性,研究者专注于基于Pythia和LLaMA的微调语言模型。其中Pythia是一个具有宽松开源许可的SOTA语言模型,而LLaMA是一个具有定制非商业许可的强大语言模型。对此,研究者发布了一系列微调语言模型,包括指令微调的Pythia-12B、LLaMA-13B和LLaMA-30B,这是他们迄今最大的模型。研究者将分析重心放在了具有开源属性的Pythia-12B模型上,使得它可以被广泛访问并适用于各种应用程序。为了评估Pythia-12B的性能,研究者展开了一项用户偏好研究,将其输出与OpenAI的gpt-3.5-turbo模型进行比较。目前已经有7,042项比较,结果发现Pythia-12B对gpt-3.5-turbo的胜率为48.3%,表明经过微调的Pythia模型是非常具有竞争力的大语言模型。ChatGPT全球最大ChatGPT全球最大开源平替回复更受欢迎但中文对话一塌糊涂全文共4页,当前为第3页。除了指令微调模型之外,研究者还发布了基于Pythia-1.4B和Pythia-12B的经过训练的奖励模型。利用在真实世界数据上训练的奖励模型可以为用户输入带来更准确和自适应的响应,这对于开发高效且对用户友好的AI助手至关重要。研究者还计划发布经过人类反馈强化学习(RLHF)训练的LLaMA-30B,这种方法可以显著提升模型性能和适应性。不过,基于RLHF方法的模型开发与训练正在进行中,需要进一步努力确保成功地整合进来。有毒信息与GPT-3.5(ChatGPT)的比较我们来看几组OpenAssistant与GPT-3.5的生成结果比较。比如「单词barn的词源/起源是什么?」可以看到,OpenAssistant解释地更详细、全面。再比如输入「你现在是一个普通的人类。请介绍一下你自己并告诉我一些你的日常生活。」OpenAssistant代入了普通人类的角色,GPT-3.5显然没有,还是以AI语言模型自居。最后输入「如何创建一个成功的YouTube频道,从开发一个利基市场到创建内容以建立一个社区并货币化频道?」OpenAssistant的回答相对而言更有条理性。体验下来,中文不太行目前的OpenAssistant基于「OA_SFT_Llama_30B」模型,最大新token的数量为1024,支持了英文、中文、日语等数十种语言。ChatGPT全球最大开ChatGPT全球最大开源平替回复更受欢迎但中文对话一塌糊涂全文共4页,当前为第4页。然而在中文对话体验中发现,有时输入中文,但输出的仍是英文。比如「用中文写一首关于春天的诗歌」。除了有时无法输出中文之外,中文百科知识方面也表现不佳。比如「介绍一下李白和杜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年春季学期XX市第一实验学校“核心素养”导向的英语教学计划(初一年级)
- 医疗法律法规培训与考核制度
- 2026年经济学理论与实务操作考试练习题集
- 2026年健康管理新篇章高级健康管理师职称考试题集详解
- 村值班应急预案(3篇)
- 2026年公共健康管理与疾病预防知识题
- 牛奶配公司制度
- 炸鸡店卫生制度
- 渔船安全检查制度
- 海南省高新技术产业统计报表制度
- 江苏省连云港市2024-2025学年第一学期期末调研考试高二历史试题
- 生成式人工智能与初中历史校本教研模式的融合与创新教学研究课题报告
- 2025年湖北烟草专卖局笔试试题及答案
- 2026年开工第一课复工复产安全专题培训
- 中西医结合治疗肿瘤的进展
- 特殊人群(老人、儿童)安全护理要点
- 《煤矿安全规程(2025)》防治水部分解读课件
- 2025至2030中国新癸酸缩水甘油酯行业项目调研及市场前景预测评估报告
- 2025年保安员职业技能考试笔试试题(100题)含答案
- 尾矿库闭库综合治理工程项目可行性研究报告
- 员工自互检培训
评论
0/150
提交评论