版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会议:人工智能与机器学习及翻译告诉我更多?心里模型的个性化智能代理稳健性的影响摘要为了富有成效地和一个智能代理工作一个用户需要知道什么?智能代理和推荐系统获得广泛的应用,有可能造成最终用户了解这些系统如何运作,以解决他们代理人的个人化行为。本文探讨了影响实证研究提供的音乐推荐系统的知识结构等个性化的心理模型的稳健。我们的研究结果表明,参与者能够迅速推荐系统的建立健全的心智模式,在研究过程中能最大提高他们心理模型的参与者更有可能使推荐操作达到他们的满意。这些结果表明,通过帮助最终用户了解系统的推理,智能代理引起更多更好的反馈,从而更紧密地对准其输出与每个用户的意图。关键词引荐人的心智模式;调试;
2、音乐;个性化,智能代理;ACM分类关键词H.5.m信息接口和演示:杂项;绪论智能代理已经超越了平凡的任务,如过滤垃圾邮件。现在搜索引擎利用模式识别来检测图像内容(例如,剪贴画,摄影,和面),Facebook和图像编辑这一步,是在受过教育地猜测某个特定的照片。Netflix和亚马逊使用协同过滤感兴趣的项目推荐给他们的客户,而Pandora和Last.fm使用类似的技术来创造制作个人特质口味的电台。简单的以规则为基础的代理系统已经发展成为采用复杂算法的系统。这些智能代理的计算机程序,其行为变得完全指定后,他们才学会最终用户的培训数据。因为这一时期在现场学习,当一个智能代理的推理不正确或意外导致它执
3、行时,只有最终用户在一个更个性化的位置,或者更准确地说,调试代理的有缺陷的推理才能解决。调试,在这种情况下,是指用心,特意调整代理的推理(在初始培训之后),以便它更紧密地匹配用户的期望。最近的研究已经取得了进军以支持这种类型的功能1,11,14,16。调试,但是,甚至对于训练软件开发人员来说都可能是困难的,当他们无论是缺乏软件工程还是计算机知识学习,帮助最终用户这样做,均非易事。在本文中,我们考虑有多少普通的最终用户为了调试它们可能需要了解这些代理商。之前的工作都集中在一个智能代理本身可以解释为最终用户9,13,15,22,27,28,以及最终用户可能会如何作用于这样的解释来调试他们的智能代理
4、1,11,14,16,24。相比之下,本文考虑的是用户是否确实需要健全的心智模式,以及,心智模式是如何影响他们的尝试调试一个智能代理。为此,我们调查了四个研究问题:(RQ1):可行性:最终用户是否可以快速建立和调用一个健全的心智模式的一个智能代理的操作?(RQ2):精度:最终用户的心理模型是否有调试一个智能代理的积极作用?(RQ3):信心:是否建立一个健全的心智模式一个智能代理,提高最终用户的计算机自我效能和降低电脑焦虑?(RQ4):用户体验:提供完善的一个智能代理经验的最终用户与相互作用的不健全的模型和用户的心理模型是否不同?为了回答这些研究的问题,我们调查了解释实证研究音乐推荐系统最终用户
5、推理的影响。我们开发了一个原型,AuPair,让参与者设立广播电台,并做出调整,为他们选择的歌曲。一半的参与者收到推荐推理的详细解释,而另一半则没有。我们的论文的贡献是更好的了解用户的心理模型的智能代理行为是如何影响他们的能力来调试他们的个性化剂。背景及相关工作功能和结构的心智模式心理模型的内部表示是人们根据他们的经验在现实世界中建立的。这些模型让人们理解,解释和预测现象,然后采取相应的行动10。心智模式的内容可以是概念,概念或事件之间的关系(如因果关系,空间或时间的关系),及相关程序。例如,一个心智模式的电脑如何工作可能是因为它只是显示在键盘上键入和一些“记住”在电脑里面的东西。心理模型可以
6、在不同的丰富的IT专业人士,例如,(理想情况下)更丰富的心理模型的计算机是如何工作的。有两种主要的心智模式:功能(浅)模型意味着最终用户知道如何使用计算机而不是它是如何工作的细节,而结构(深)模型提供了一个详细的了解如何以及为什么它的工作原理。心智模式必须是声音(即,准确),足以支持有效的互动,已经观察到许多情况下不健全的心智模式,引导错误的行为18。心理模型的完整性也很重要,尤其是当事情出差错,结构模型比功能模型更完整。虽然结构模型可以帮助某人处理意外的行为,并解决问题,但是一个纯粹的功能模型不提供可能需要抽象的概念10。知道如何使用计算机,例如,并不意味着你可以修复一个失败的电源。要建立新
7、的心智模式,用户应公开透明的制度和相应的说明21。脚手架的指令对于学习使用新的系统20做出了积极贡献,这已被证明是一种方法。然而,面临的挑战之一,就是心智模式,一旦建成,更是出奇地很难改变,即使当人们意识到矛盾的证据28。智能代理的推理的心理模型最近一直在支持智能代理的推理调试1,11,13,14,16,25,但心智模式,用户建立尝试这个任务的同时,已经很少受到关注。一个例外是一个考虑用户的心理模型的正确性与一个基于传感器的智能代理,预测的办公室工作人员的可用性的研究(如交互时,“现在中断所以,和,所以一个良好的时间吗?”)28,但这项研究并没有让用户调试这些可用性的预测。使代理人的推理更加透
8、明,是一种影响心智模式的方式。由代理解释为特定决策的例子包括为什么为什么不代理的推理的描述13,15,可视化描述,助手的已知的正确的预测与已知故障26,电子“标签门”显示工人可中断的预测与每个预测背后的原因(例如,“会说话的检测”)28。戴伊和林最近的工作,导致应用程序的工具箱产生解释为流行的机器学习系统16。以前的工作发现,用户可能会改变他们的一个智能代理的心理模型当代理使得其推理透明时,但是,代理商的一些解释可能导致只有浅薄的心理模型。代理推理也可以清晰地对一个智能代理的新功能通过明确的指示,这可以帮助心理模型的它是如何运作的建设。然而,这些研究没有研究心理模型建设可能如何影响最终用户调试
9、智能代理的方法。一个智能代理的推理透明,可以提高满意度和可靠性的看法,例如音乐推荐,以及其他类型的推荐系统9,27。然而,有经验的用户满意度,实际上可能由于更多的透明度而减少。心理模型建设的研究,这些研究没有调查最终用户的心理模型和他们的满意度与智能代理的行为之间的联系。实证研究要探索心理模型稳健对最终用户调试的智能代理的作用,我们需要一个域名鼓舞参与者使用和调试。音乐的建议,可适应互联网电台的形式,满足这些要求,所以我们创建了一个互联网广播平台(名为AuPair的),用户可以个性化播放音乐适合他们的特定口味。为了符合真实世界的情况下使用智能代理,我们延长超越一个简单的实验室实验通过结合现场使
10、用的失控期与控制教程会话的实证研究的长度。该研究历时5天,由第1天的教程会话和预研究问卷,然后3天期间,参与者可以按他们希望得使用的AuPair的原型,并在第5天退出会话。AuPair收音机AuPair允许用户创建自定义的“站”并对它们进行个性化播放所需的音乐类型。用户通过一个单一艺术家的名字(例如,“播放与艺术家帕蒂史密斯相似的音乐”)播种启动新站。用户可以通过给予关于个别歌曲的反馈,或通过添加一般指引到站来调试代理。关于个别歌曲的反馈可以提供使用许多媒体引荐的常见到的5点评级规模,以及这首歌的属性(例如,“这首歌太圆润,来一些更充满活力”,图1)。要添加一般指引的站,用户可以告诉它“喜欢”
11、或“避免”描述性的词或短语(例如,“十分喜欢车库摇滚艺人“,图2,顶部)。用户还可以限制该站的搜索空间(例如,“决不会播放歌曲,从20世纪80年代”,图2,底部)。AuPair作为一个交互式的Web应用程序,实现用户交互和控制音频播放使用jQuery和AJAX技术的实时反馈。我们支持所有主要的Web浏览器的最新版本。远程Web服务器提供了基于用户的反馈和悄悄记录下的每一个用户交互通过AJAX的调用的建议。AuPair的建议是基于TheEchoNest(回声巢),允许访问文化的特性(例如,流派,情绪等)和在我们的库中的音乐文件的声学特性(例如,速度,响度,能源等)的数据库。我们建立了我们的音乐库
12、,通过结合研究团队的个人音乐收藏,使得数据库中有来自超过5,300种不同的艺术家d36,000首以上的歌曲。PIAyiriQT&OfSt;badfitSlowAbiuiditrtghtrl:ghtTo&lau-dAboutrightAboutriphitAbo-iJl:rLghtAlu-utrjigihtTooqiilatThis聾cm今i#iRichThisartistforthisstaticnSortgrat4ngThl*吝口両由Thump.WntfStripsby畑ehreshsrM图1:用户可以通过说为什么目前歌曲是好还是坏来调试Songpopularity0%和SO%Vteyoti
13、sa/neerypopularArtists机between1900tothepresfJ900Profit脚图2:参加者可以通过加入指定类型的音乐应不应该播放的方针这种广泛的标准调试。回声巢开发商API包括一个动态播放列表功能,这是我们作为我们推荐引擎的核心。动态播放列表放在一起使用机器学习的方法,并对最终用户是“可控”的。这是实现通过自适应搜索算法,构建一条通过收集类似的艺术家的路径(即,播放列表)。艺术家相似在AuPair中基于文化的特点,如使用的术语来形容艺术家的音乐。该算法使用聚类方法基于对一组相似艺术家的距离度量,然后获取相应的歌曲。用户可以调整距离度量(即聚类算法),通过改变具体
14、条款的权重,使得搜索到符合这些条款的喜欢的艺术家。相反也可以告诉该算法可以完全避免不良条款。用户可以加入一组限制,从搜索空间排除特定的歌曲或艺术家。每首歌曲或艺术家可以被查询以显示计算机对其声学和文化的特征的理解,如它的速度或“跳舞能力”。参与者我们的研究组共62人(29名女性和33名男性),年龄从18岁至35岁不等。62人只有一个事先熟悉计算机科学。这些受试者是从俄勒冈州立大学和当地社区,通过e-mail到大学的学生和工作人员,和张贴在城市周围的公共场所(咖啡馆,布告栏等)的传单招募的。参与者为付出的时间得到40美元的报酬。应用的潜在参与者通过网站自动检查一个HTML5兼容的Web浏览器(申
15、请人使用老版本的浏览器升级到较新的浏览器显示指示),以减少招募参加者缺乏可靠的互联网接入或首选Web浏览器不兼容我们的原型的机会。实验设计与程序参与者随机分配到两组,一个是脚手架治疗组,参加者接受有关AuPair的推荐引擎专门的培训,另一个是无脚手架对照组。抵达后,参加者回答了一份广泛应用的、有效的自我效能问卷,来衡量他们对解决一个假设(和不熟悉的)软件应用程序的问题的信心。这两个群体然后接受关于Aupair的培训,只有在解释Aupair如何工作的深度不同。无脚手架组给予15分钟关于Aupair的功能的教程,比如如何创建一个站,如何停止和重新启动播放,和其他的基本使用情况信息。同样的研究者提供
16、了每一位参与者同一脚本的教程来保持一致性。考虑到参与者学习风格的差异,研究者提出了互动式的教程,使用夹杂着示范和亲身参与的数字幻灯片。随着脚手架小组收到一个30分钟关于Aupair的教程(其中15分钟的训练是与无脚手架组的相同),被设计诱发的不仅是一个功能性的心理模型(与无脚手架组相同),但也是一个结构性的心理模型的推荐引擎。这种“幕后”培训内容包括说明Aupair如何决定艺术家相似的例子,推荐人“知道”的声学特性的类型,以及如何提取音频文件的信息。研究人员系统地遴选脚手架组培训内容,通过检查每一个可能的用户与Aupair互动,然后描述推荐人如何响应。例如,每一个参与者被告知,电脑会尝试“播放
17、类似艺术家的音乐”,但然后脚手架参与者被教导TF-IDF(长期频率逆文档频率,一个共同的字衡量信息的重要性检索)如何被用来发现“类似的”艺术家。在另一个实例中,每一位参与者表现出了控制使用描述性词语或短语引导代理,但只有脚手架参与者被告知这些描述来自哪里(传统渠道,像音乐排行榜,以及网路资源,如Facebook网页)。在此指导之后,每个参与者回答一组6个选择题的理解性问题,以建立他们的心理模型的稳健性。每个问题提出一个场景(例如,“假如你想你的站来播放更多类似披头士的艺术家的音乐”),然后问问题,从四项中选择一项,将使站的建议与既定目标相符合。因为心理模型固有的“凌乱,邋遢恍”,我们需要确定如
18、果参与者猜测或如果他们的心理模型不够健全,以消除一些不正确的反应。因此,作为衡量的信心,每一个问题也问有多少的选择可以在决定一个最终的答案之前消除。第七个问题问参与者在7点量表上评价他们了解推荐人的整体信心。整个介绍会议(包括调查问卷),无脚手架组的参与者历时30分钟,脚手架组参与者历时45分钟。两组均接受相同量的实践互动推荐。在今后的五天里,参加者可以自由访问基于Web的系统。我们让他们在此期间使用至少两个小时的Aupair,至少要建立三个不同的站。每当参与者通过Aupair听音乐,Aupair将记录使用情况的统计信息,如他们用于对系统进行调试的时间量,他们使用的调试控制和这些控件的使用频率
19、。五天后,学员回来回答第二组问题。这些问题包括与第1天相同的自我效能感和理解问卷(参与者没有被告知他们的理解反应是否是正确的),再加上NASA-TLX调查,以衡量知觉任务负载。我们还询问了李克特规模的三个有关用户的满意度与Aupair建议的问题,使用21点的规模与NASA-TLX调查的一致性,和标准的Microsoft可取工具包来衡量用户对Aupair的态度。数据分析我们用前面参与者所述的理解问题的答案来衡量心理模型的稳健性。每个问题测量特定类型的最终用户调试相互作用的深度理解,以及它们的组合作为参与者的了解整个系统的一个合理的代理。我们计算了稳健的参与者的心智模型用公式工i(正确性i+信心i
20、),那里的正确性是1的正确反应,或者1的错误响应和信心是1和4之间的值(代表参与者能够消除的回答的数量)。这些值进行了总结,对每一个问题i来创建一个参与者的理解分数,范围从-24(表示参与者对每个反应完全有信心但总是错的)到+24(表示参与者对每个反应完全有信心并总是正确的)。心理模型随着人们新的观测结果整合到他们的推理,以往的研究表明,参与者可能会调整自己的心理模型,而其决策过程透明,是一个智能代理工作。此外,建构主义学习理论强调知识转化,而不是知识的整体状态。因此,我们也计算心理参与者的两种理解的模型的分数的差异(第五天分数-第一天分数)。这一措施测量研究中每个参与者的知识转移多少,以一个
21、正的值表示增加可靠性,和一个负的值表明与不健全的模型的声音模式的替代。表1列出了所有的指标及其定义。指标定义心理模型的稳健性对理解题的反应(正确反应和信心加权的总和)。认知心理模型的稳健性对参与者被要求列举他们对推荐作出决定是怎么想的之后李克特问题“你有没有信心所有报表都是准确的吗?”的回应。心理模型的转任务后的心理模型的稳健性减去任务前的心理模型换的稳健性。调试的相互作用从自动日志文件得到的一个参与者用来调试播放操作数(例如,提供反馈,得到下面的建议,或查看歌曲的特征)。互动时间一个参与者的任务上花费的时间长度,即在Aupair上听歌互动。成本/效益对李克特问题:“你觉得你投入调整计算机的努
22、力是值得的结果吗?”的回应。满意度对李克特问题“您对电脑的播放列表有多满意吗?”的回应。表1:定义在我们的数据分析使用的每个指标。结果可行性(问题1)脚手架的有效性了解智能代理的工作是不平凡的,甚至智能系统的设计者和建设者可能也有相当大的难度。我们的第一个研究问题(问题1)考虑最终用户对带有健全的心理模型算法的推理过程的可行性如果参赛者未能了解如何给出推荐并给予在一个集中的环境中的人类的导师,期望他们自己的学习它看起来似乎不合理的我们测试心理模型稳健(用信心加权的理解成绩来衡量)在脚手架组和无脚手架组之间的差异。脚手架组比无脚手架组有显着较高的分数,无论实验任务之前和之后(第1天:韦尔奇的t检
23、验,p=0.004,t=-3.03时,DF=53.64)(第5天:韦尔奇的t-检验,P0.001,T=-3.77,DF=59.87)。为了确保这些差异主要是由于不同的置信水平,我们进行了同样的测试,而不加权信心的理解成绩,得到几乎相同的结果(第1天:韦尔奇的t检验,p值=0.003,T=-3.09,DF=55.11)(第5天:韦尔奇的t-检验,P0.001,T=-3.55,DF=59.36)。没有一组的平均理解得分在5天的考察后显着改变(图3)。册s册epunatfl-IDPD艺-S*匚皿富一.1图3:紧随五天教程,脚手架组的参与者(暗)比无脚手架组参与者(亮)保持更稳健的心理模型。参与者也表
24、现出他们认为的心理模型稳健的差异,至少在第一。在第1天,无脚手架组,他们准确地了解系统是如何选择的歌曲和回应反馈(平均得分为4.5,总分7)明显比随着脚手架组(平均得分为5.67)少一些(韦尔奇的t检验,p值=0.015,T=-2.51,DF=58.00)。然而,到了5天,无脚手架组的反应已经上升到平均5.25,对脚手架组(平均5.3)的统计没有明显差异。讨论这些结果提供了洞察四个方面的最终用户的实用性理解和调试一个智能代理的推理。首先,即使是短短的15分钟的脚手架教程有效地教导参加者如何“合理”的推荐。脚手架组参与者更容易正确地、自信地回答理解问题。这反过来表明,脚手架组的参与者应该比无脚手
25、架组参与者得到更好的装备来调试推荐人的推理,是我们探讨问题2的一点。第二,在为期五天的参与者自己与Aupair互动其心理模型的稳健性并没有显着改善简单地使用该系统并没有显着帮助学员对它的推理发展健全的心智模式。这是在对比最近的工作中的交互式机器学习,已经发现,一些系统(例如,手势识别框架),重复使用教人们系统如何运作的最突出的方面。第三,参与者的心理模型的稳健性在很大程度上延续研究的时间。这显然是在没有脚手架和脚手架组的情况下,第1天,第5天之间没有群体的理解成绩显着变化。这预示着最终用户的保留和召回的声音模式,初步了解这样一个智能代理。第四,初步建设不健全的是型号问题:不正确的模型一旦建成,
26、他们很难移位。即使没有形成不太健全的脚手架组心智模式,他们的信心,他们精神车型的增加,表明他们其实是正确的。在现场制作一个持续的解释,如9,14,26,可能是一种解决这个问题的方式。总之,这些研究结果提供的证据表明,家具终端用户结构简要说明了智能代理的推理,如使用的属性,这样的属性如何被收集,决策程序,可以显着提高他们的心理模型的稳健性。精度(RQ2)一个推荐人的效力是眼球的杀机。个性化的建议,不能用“金标准”来衡量精度,只有最终用户自己才能判断如何代理才符合他们个人的品味。因此,对于我们的第二个研究问题(RQ2),我们转向了一项更适当的措施,以探索精神影响模型稳健的“精度”即成本/效益参与者
27、的满意度。成本/效益从理论上讲,一个健全的心智模式使一个人的原因对他们的最好的行动方针在给定的有效情况10。因此,我们预计与会者测深仪心智模式(随着脚手架参与者,根据RQ1结果)比那些更有效地调试以下的声音模型。例如,明知推荐者可以通过使用更有效的转向独特的,具有高度特异性的话(例如,“默西河”),而应该有比广泛,常见的描述符(例如,“老歌”)帮助参与者调试代理的推理有效地比与会者谁不明白这一点。令人惊讶的是,当使用参与者的看法作为替代效益,稳健的成本/效益参与者的心智模式影响不大测量调试有效性。然而,智力成本/效益参与者谁最提高他们的心理模型的稳健报道,调试的努力是明显比参与者少,或根本没有
28、改善心智模式更值得被捆绑模式转型(表2,第1行图4A)。参与者有效的意见通过证实他们调试相互作用来调节或评估互惠生的建议(例如,提供反馈,得到下一个建议,或查看歌曲的功能)。计数这些调试相互作用被显著相关在心理模型稳健性的改善与脚手架参与者,同时不存在这样的相关性没有脚手架的参与者(表2,行2中和3及图4B)。发声改变心智模式,而且可能对调试有积极的作用,而改变一个最初不健全的模型也不会服务无脚手架参与者。此外,有最完善的稳健心智模式的与会者花了更少的时间在他们的相互作用(表2,4行和图4C)。在增加感知成本/效益和调试相互作用的方面,这表明积极的心理模型转换可以联系更有效的调试。上述结果的另
29、一种解释是,调试相互作用负责学员心智模式的转换,而不是其他方式。但是回想一下,没有脚手架组显示调试之间没有相关性相互作用和心理模型(表2,第3行)。因此,有证据表明,它在调试中是比较完善地增强有联系的改进模型。满意我们的第二个措施调试有效性和结果的准确度为参加者的满意度互惠产生的建议。为了衡量这一点,在研究结束时我们要求参与者(使用李克特量表)“如何满足你的电脑的播放列表?”由于与成本/效益的结果,既没有治疗也没有心智模式稳健是预测参与者满意度(表2,行5和6)。然而,在这里再次心智模式的转变似乎无所谓,心智模式转变为轻微的预测满意参与者的感受与互惠生的播放列表(表2,第7行)。例如,其心理模
30、型的稳健参与者减少的最表示不满和无法控制的电脑的感觉:“我们的想法是伟大的,能够”设置我的喜好“,但如果电脑继续玩我称之为坏的音乐选择,我宁愿使用潘多拉的可预测性。”测量的统计检验结果图像心智模式转型与成本/效益线性回归p=.041,R2=.07,F(l,60)=4.37图4A心智模式变换(脚手架)与调试相互作用Pearson相关p=.031,r=.39,t=2.27,df=28图4B心智模式的转型(无脚手架)与调试相互作用Pearson相关p=.952,r=.01,t=0.06,df=30心智模式的转型与互动时间Pearson相关p=.032,r=-.27,t=-2.19,df=60图4C介
31、于有脚手架/无脚手架组之间的满意度韦尔奇的t检验p=.129,t=1.53,df=59.9满意度与心理模型稳健线性回归p=.272,R2=.02,F(l,60)=1.23满意度与心理模式转型线性回归p=.053,R2=.06,F(1,60)=3.89满意度与成本/效益Pearson相关p.001,r=.73,t=8.25,df=60图4D满意度与调试的相互作用Pearson相关p=.293,r=-.13,t=T.06,df=60表2.积极的心理模型转换为贯彻以更好的效益,降低成本,并提高满意度显著成效阴影)相关联。定义对于每个度量标准列于表1。MentalModelTransformation
32、MentalModelTransformatiorMentalModelTransformatioi071421SatisfactionABCD图4:原始数据从表2中每个显著成绩的散点图。定义轴的测量列于表1中。相反,他们的心智模式最增至稳健的参与者之一表示的是更易于掌控的感觉“我喜欢有更多的控制来塑造站的想法。控制是有意义的,并很容易使用。用户有很多选择来调整站“。感知成本/效益从调试的推荐人也显著与参与者的满意度(表2,第8行和图4D),进一步的证据表明,满意度指标的调试代理的推理的能力增强有关。为确保参加者的满意度不只是时间的结果,努力投入,我们测试的报道满意度和每一个参与者进行调试交互
33、的数量之间的关系,但没有发现任何证据的相关性(表2,第9行)。讨论但应注意的是,一个附加的因素可能影响参加者的满意度。我们的音乐数据库中保存的歌曲由刚刚超过5,300艺术家-,相比之下,拥有超过80,000名艺术家19。参与者的满意度可能已被混淆的事实,一些与会者希望他们站将播放音乐,是无法获得互惠生。正如一位与会者评论说:“扮演的歌曲是不是我一直在寻找,选择是穷人。系统本身是优秀的,但我需要更多的音乐。“尽管这种潜在的因素,几个指标(成本/效益,调试相互作用,相互影响的时间和满意度)的汇合表明,在心理模型稳健性转换翻译成一种改进的能力调试推荐人的推理,从而导致更多的满意,互惠生的建议。因为我
34、们的证据表明心智模式的转换(这在研究过程中发生的)帮助参与者调试更有效,继续提供一个智能代理的推理解释,而最终用户与代理进行交互可能有助于提高他们的与代理的决定最终的满意。这些网上的解释,然而,并非由目前的研究调查,我们把我们的勘探解释之前(而不是过程中)与一个智能代理的用户交互的影响。为什么我们没有发现任何证据表明,研究结束的心智模型合理性是预测的调试能力,一个可能的解释可能是呈现给用脚手架教程参与者的资料不用于调试的推荐人的推理有帮助的。相反,最有效的参与者可能已经通过使用系统学会了调试。然而,这另一种解释是由事实减弱,原型是不透明关于如何做出的决定,当与会者提交了互惠生的推理解释的唯一一
35、次用脚手架教程中发生。信心(RQ3)呈现出复杂的系统给不知情的用户可以压倒他们。我们特别关注人民的意愿来调试智能代理,有些人(尤其是那些具有低计算机自我效能)可感知的风险,他们的调试更可能伤害代理商的推理,而不是提高它。同样,计算机焦虑是众所周知的负面影响(4“恐惧和忧虑个人觉得,当他们认为计算机技术的运用,还是实际使用,度”),如何(以及效果如何)的人使用的技术,并且是与电脑自我效能29呈负相关。如表3所示,近四分之三的参与者经历了增加第1天与第5天之间的计算机自我效能感。参与者,相反,是因为可能看到他们的电脑自我效能下降的增加。一X2比较表明,随着脚手架参加者显著比均匀分布更有可能(其中只
36、有一半会增加他们的自我效能感),以增加他们的电脑自我效能(X2=6.5333,DF=1,P=.O11)。这表明,暴露于智能代理的内部运作可能有助于平息,而不是增加,参与者的认知使他们的个性化剂恶化的风险。作为进一步的证据表明,它是了解系统是如何工作的(而不是使用它只是一个副产品)的影响参与者的电脑自我效能,参与者的认知心理模型稳健性显著与他们的电脑自我效能在本月底相关研究(Pearson相关系数,PIFFICULTHitouse-INNOYINGSIMPLISTICFRUSTRATINGMSTVI图5。标签云的负面描述性词语的互惠生。无脚手架参与者发现系统“铺天盖地”和“复杂”(上),而随着脚
37、手架组(底部)将其看作是“简单化”。参加者的描述揭示了他们所面临的困难微妙的图片。词云,其中一个字的频率是由它的消极描述尺寸的显示表明,随着脚手架集团的投诉可能源于更从困难使用该系统比困难理解它,这些参与者是容易抱怨系统“简单化“,”讨厌“,而”折腾“(图5,底部),而没有脚手架组出现甚至了解他们的调试相互作用的影响,理由是该系统为“混乱”,“复杂”,“铺天盖地”和“无效”(图5,上图)的麻烦。参与者的选择,正说明提供进一步的证据,随着脚手架参与者的心智模式带来正面贡献与代理(图6)交互。短语“好用”的支配他们的反应,沿着“创新”和“访问”。相反,如果没有脚手架参与者专注于代理的视觉外观,与喜
38、欢“干净”和“吸引力”字样。参与者与系统有了更深的理解可能更加强调比美学的互动体验。讨论众多的好处是有声思维模式相关联,并且在这个智能代理的情况下,获得这些不损害用户体验的出现成为可能。这是令人鼓舞的推荐系统(也可能是其他类型的智能代理)的最终用户调试的可行性,特别是当用户与相关联的调试代理的推理一个好处。MIMULEFFECTIVECOMPREHENSIVEFUNCCAMnnovative.VLCftnRESPONSIVEAPPEALING。噱g?clearCREATIVEwATTRACTIVEEASYTOUSE一ncACCUMLE,IALUABUCREATIVEFLEXIBLEepact映
39、勰ENTERTAINING朦腐嘗accesSbleEASYJTOUSEAPPEMINGFUNINNOVATIVE-COMPREHENSIVEg觀amt图6。标签云阳性描述性词语的互惠生。无脚手架参与者(上)集中在视觉外观多采用脚手架参与者(底部)。结论本文首次提供了实证探索心智模式影响最终用户如何尝试调试一个智能代理的。脚手架结构模型的一半,我们的研究的参与者中,我们了解到:尽管固有的智能代理的复杂性,随着脚手架的参与者迅速建立怎样一个这样的代理(一个音乐推荐)工作的东西,在没有脚手架“幕后”的声音心智模式与会者未能完成超过五天。参加者的心智模式的转换-从不合理的声音,是他们的预测与智能代理的
40、输出最终的满意度。学员有最大的变革能够有效地调整自己的引荐人的推理,用自己的推理更好(更快),比其他参与者对齐。这些相同的参加者也可能认为从他们的调试工作带来更大的利益。带有代理的推理结构知识与会者显著更有可能增加其电脑自我效能,这是众所周知的关联与减少电脑的焦虑和应对复杂的计算机任务时,增加持久性。谁是呈现结构性参与者知识没有证据表明感觉这个附加信息淹没,并认为与智能代理在正面光的互动,而参与者只持有功能的心智模式更频繁地描述消极方面的调试经验,如“混乱”和“复杂”。这项工作表明为最终用户提供其智能代理的推理结构知识的价值和实用性。我们的研究结果表明,这种方法能够更好地支持智能代理,告诉最终
41、用户了解它是如何工作的最终用户的个性化可以帮助他或她告诉代理更多关于它如何工作。致谢我们感谢研究参与者的帮助和翁-基恩黄对本文的意见。这项工作是由美国国家科学基金会0803487支持。参考Amershi,S.,Fogarty,J.,Kapoor,A.,andTan,D.Examiningmultiplepotentialmodelsinend-userinteractiveconceptlearning.InProc.CHI,ACM(2010),1357-1360.Bandura,A.Self-efficacy:Towardaunifyingtheoryofbehavioralchange.P
42、sychologicalReview,82(1977).Benedek,J.andMiner,T.Measuringdesirability:Newmethodsforevaluatingdesirabilityinausabilitylabsetting.InProc.UsabilityProfessionalsAssociationInternationalConference(2002).Bozionelos,N.Therelationshipofinstrumentalandexpressivetraitswithcomputeranxiety.PersonalityandIndivi
43、dualDifferences31(2001),955-974.Compeau,D.andHiggins,C.Applicationofsocialcognitivetheorytotrainingforcomputerskills.InformationSystemsResearc,h6,2(1995),118-143.EchoNest,The. HYPERLINK (July,2011).Fiebrink,R.,Cook,P.,andTrueman,D.Humanmodelevaluationininteractivesupervisedlearning.InProc.CHI,ACM(20
44、11),147-156.Hart,S.andStaveland,L.DevelopmentofaNASATLX(Taskloadindex):Resultsofempiricalandtheoreticalresearch,Hancock,P.andMeshkati,N.(Eds.),HumanMentalWorkload(1988),139-183.Herlocker,J.,Konstan,J.,Riedl,J.Explainingcollaborativefilteringrecommendations.InProc.CSCW,ACM(2000),241-250.Johnson-Laird
45、,P.N.MentalModels:TowardsaCognitiveScienceofLanguage,Inference,andConsciousness.CambridgeUniversityPress(1983).Kapoor,A.,Lee,B.,Tan,D.,andHorvitz,E.Interactiveoptimizationforsteeringmachineclassification.InProc.CHI,ACM(2010),1343-1352.Kolb,D.A.ExperientialLearnin.gPrentice-HallEnglewoodCliffs,NJ(198
46、4).Kulesza,T.,Wong,W.-K.,Stumpf,S.,Perona,S.,White,R.,Burnett,M.,Oberst,I.,andKo,A.J.Fixingtheprogrammycomputerlearned:barriersforendusers,barriersforthemachine.InProc.IUI,ACM(2009),187-196.Kulesza,T.,Stumpf,S.,Burnett,M.,Wong,W.,Riche,Y.,Moore,T.,Oberst,I.,Shinsel,A.,McIntosh,K.Explanatorydebugging
47、:Supportingend-userdebuggingofmachine-learnedprograms.InProc.VL/HCC,IEEE(2010),41-48.Lim,B.Y.,Dey,A.K.,andAvrahami,D.Whyandwhynotexplanationsimprovetheintelligibilityofcontextawareintelligentsystems.InProc.CHI,ACM(2009),2119-2128.Lim,B.Y.andDey,A.K.Toolkittosupportintelligibilityincontext-awareapplications.InProc.UbiComp,ACM(2010),13-22.McNee,S.M.,Lam,S.K.,Guetzlaff,C.,Konstan,J.A.,andRiedl,J.Confidencedisplaysandtraininginrecommendersystems.InProc.INTERACT,IFIP(2003),176-183.Norman,D.Someobservationsonmentalmodels,Gentner,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年港口REITs“盘活-投资-提升-再盘活”良性循环机制
- 2026年深海采矿活动环境管理策略优化方案
- 济南历下区2025-2026学年初三下第七次模拟化学试题含解析
- 陕西省延安市名校2026届初三第一次月考-化学试题含解析
- 常州市重点中学2026年初三下学期“扬帆起航”生物试题含解析
- 2026届内蒙古鄂尔多斯康巴什新区达标名校初三下-半期考试生物试题试卷含解析
- 2026年湖南省永州市祁阳县初三考前适应性测试化学试题含解析
- 甘肃省广河县重点中学2026年初三生物试题开学统练试题含解析
- 2026届安徽省濉溪县联考初三下学期阶段性练习化学试题含解析
- 2026年江苏省南京市宁海五十中学初三4月考试题-生物试题试卷含解析
- 2026届新高考生物精准冲刺复习:基因定位
- (必看)2025年3月29日陕西省事业单位联考C类《职测》真题及答案
- 拉森钢板桩施工专项技术方案
- 新能源装备制造项目风险评估报告
- 部队普通车辆装卸载课件
- 小学规范书写汇报
- 《婚姻家庭继承法(第八版)》课件 房绍坤 第1-8章 婚姻家庭法概述-收养制度
- 相似物料管理办法
- (高清版)T∕CSRME 009-2021 《露天矿山岩质边坡工程设计规范》
- 2023.12六级真题第1套
- 森林公园管理课件
评论
0/150
提交评论