下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
用智能体模拟人类行为导语:2025年5月,斯坦福大学以人为本人工智能研究所(HAI)发布《用智能体模拟人类行为》(SimulatingHumanBehaviorwithAIAgents),文章介绍了AI智能体在模拟社会行为中的应用,验证了其在行为模拟中的有效性。启元洞见编译文章主要内容,旨在为读者了解智能体在社会科学研究中的应用及其潜力提供参考。一、研究背景与方法在社会研究中,利用智能体模拟个体行为和互动的仿真方法已被广泛使用多年,早在AI智能体出现之前,传统的仿真方法便已成为一些社会研究的流行工具。构建智能体架构的传统方法,依赖于由研究人员手动指定的明确规则和环境。虽然这些规则使得结果的解释相对容易,但它们也限制了传统智能体可以执行的情境,并且过于简化了人类行为的真实复杂性。这反过来限制了仿真结果的普适性和准确性。生成式人工智能模型提供了构建通用智能体的机会,这些智能体可以模拟在多种情境下的人类态度。为了创建更能反映影响个体态度、信念和行为的多种、往往是特有的因素的仿真,本研究构建了一种新的生成式智能体架构,将大语言模型(LLM)与真实个体的深入访谈结合起来。本研究招募了1052名参与者,代表美国人口的各个年龄、性别、种族、地区、教育背景和政治意识形态,参加了为期两小时的定性访谈。这些深入访谈包含预设问题和适应性跟进问题,是一种基础的社会科学方法,研究人员已经成功利用这种方法预测超出传统调查和人口统计工具所能获得的生活结果。本研究还开发了一种人工智能面试官,根据半结构化访谈向参与者提问,内容涉及从个人生活故事到对当前社会问题的看法。然后,本研究根据参与者的完整访谈记录和大语言模型构建了生成式智能体。当向生成式智能体提问时,完整的访谈记录被注入模型提示中,指示模型在回答问题时模仿相关个体的回应。在生成式智能体建成后,本研究评估了它们预测参与者在完成深入访谈后进行的常见社会科学调查和实验时的反应能力。本研究测试了一般社会调查的核心模块(评估调查参与者的人口背景、行为、态度和信仰);44项“大五人格量表”(旨在评估个体的个性);五个知名的行为经济学游戏(独裁者游戏、第一和第二参与者信任游戏、公共物品游戏和囚徒困境);以及五个包含控制和处理条件的社会科学实验。二、研究结果总体来看,生成式智能体在还原个体真实世界中的个性特征方面展现出优异的表现。例如,生成式智能体在预测参与者对综合社会调查的回答时,平均标准化准确度达到了85%,这意味着,平均而言,生成式智能体能够将参与者的回答模拟得与参与者自己在两周后重新进行调查和实验时的回答几乎一样准确。这一结果相比于使用相同大语言模型,但未融合访谈数据的传统基于人口统计和人格设定的智能体,在准确率上提升了14到15个百分点。在大五人格测试中,生成式智能体在模拟个体的开放性、责任心等方面表现优于传统基于人口特征与人格设定的模型,标准化相关性达到80%。但在独裁者游戏、第一和第二玩家信任游戏、公共物品游戏和囚徒困境的综合评分中,标准化相关性为66%(与参与者自己在两周后的相关性相比)。除了上述测试,本研究还评估了生成式智能体在多个社会科学实验中的行为表现,例如感知他人意图如何影响责任归属、公平性如何塑造情感反应等。在本研究所复现的五项研究中,真实参与者与生成式智能体展现出一致的行为结果。生成式智能体还减少了不同社会群体之间的预测准确性偏差。鉴于对人工智能系统可能对弱势群体产生不利影响或误导表现的合理担忧,本研究进行了一个聚焦于政治意识形态、种族和性别的子群体分析。这些维度在文献中备受关注。本研究使用了人口平等差异(DemographicParityDifference),该指标衡量最优秀群体和最差群体之间的表现差异,以量化偏差。值得注意的是,与基于人口统计学的智能体相比,基于访谈的生成式智能体在多个任务中一致地减少了偏差。在政治意识形态偏差和种族偏差方面的减少因调查而异,而基于性别的“人口平等差异”在各项任务中保持相对一致(这可能是由于原本就存在较低的差异)。三、政策讨论生成式智能体有望成为估计公众态度和基于调查的实验处理效果的有力工具。例如,在设计全国性调查时,研究人员可以利用生成式智能体预测不同人群对特定问题的平均回应。然而,当前仍有诸多关键问题有待解决:生成式智能体在除态度以外的行为模拟中有多准确?要使其有效预测政策变动带来的影响,还需哪些技术和方法上的创新?虽然本研究正持续开展实证研究与技术开发,以拓展生成式智能体的应用边界,但本研究也强烈呼吁政策制定者在使用这些工具时保持审慎,批判性地评估其当前实际能力。对政策制定者、研究人员以及其他使用者而言,一个关键风险在于:在模拟精度仍有限的情况下,对生成式智能体的结果产生过度依赖。为了避免这种情况,本研究亟需开发一系列评估工具和判断机制,帮助用户明确在何种情境下可以信任模拟结果,何时应保持谨慎。此外,生成式智能体的应用范围不应超出其验证过的边界。另一个重大风险涉及隐私:用于构建生成式智能体的访谈数据通常是敏感的,数据泄漏可能对访谈者造成严重伤害。其他问题还包括个体形象的滥用,因为这些智能体可以逼真地模拟个人在调查问卷或实验中的回答。如果有人操控智能体的回应,将有可能错误地将诽谤性陈述归咎于使用数据的个体,这也可能导致严重的声誉损害。还需要考虑一系列其他的伦理和法律问题。例如,使用模拟已故人物的人工智能智能体有什么伦理影响?智能体被滥用为欺诈目的的风险如何?鉴于生成式人工智能未来发展的固有不确定性(如人工智能模型未来推理能力的提升),及早管理这些风险至关重要。政策制定者应考虑制定明确的规定,确定人工智能智能体在模拟人类时是否可以使用。政策制定者和研究人员应共同努力,确保使用适当的监控和同意机制,以增强信任、保护个人权利,并减少使用生成式智能体的风险。例如,本研究的团队提出了为本研究智能体库中的每个智能体使用审计日志的可能性。通过赋予参与过调查且其偏好被生成式智能体捕捉的个体一定的控制权,他们可以在观察生成式智能体的行为后,选择在不同时间节点授予或撤回使用权限,从而体现持续性的知情同意。这种机制允许个体在初始授权后的一天、数周甚至几个月后重新评估和调整其决定。若能将这一类保护措施纳入政策设计中,例如作为研究资助条款和条件的一部分,将有助于研究人员识别并防范那些利用深度访谈中共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏南京大学化学学院博士后招聘备考题库及答案详解(网校专用)
- 2026江苏南京大学医学院技术管理招聘备考题库含答案详解(b卷)
- 2025至2030中国水泥产业竞争格局分析及未来增长潜力研究报告
- 2026年叉车工人考试题库及一套答案
- 2026年叉车管理取证考试题库及完整答案1套
- 2026年叉车车考试题库及参考答案
- 2026年阜南叉车培训考试题库及答案一套
- 2026福建厦门一中集美分校(灌口中学)顶岗教师招聘1人备考题库参考答案详解
- 2025-2030丹麦生物科技行业市场趋势动态竞争合作及投资计划研究成果报告
- 2025-2030中国鞋楦设计与足部健康关联性研究及市场应用前景报告
- 村社长考核管理办法
- 儿童颅咽管瘤临床特征与术后复发风险的深度剖析-基于151例病例研究
- 防潮墙面涂装服务合同协议
- GB/T 15237-2025术语工作及术语科学词汇
- 外卖跑腿管理制度
- 冷链物流配送合作协议
- 生物-江苏省苏州市2024-2025学年第一学期学业质量阳光指标调研卷暨高二上学期期末考试试题和答案
- 2024年人教版一年级数学下册教学计划范文(33篇)
- 成都随迁子女劳动合同的要求
- 万象城项目总承包述标汇报
- 小学英语完形填空训练100篇含答案
评论
0/150
提交评论