付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、WItkey 威客 wit+key Howe 的定义+由非专业提供专业内容,消费者兼为内容创造者的一种模式。A Survey of Crowdsourcing Systems众包系统的近年,众包由分布式问题解决和商业生产模型发展演变而来。豪于 2006 年提出了众包这一概念,至此,大量有关工作聚焦于众包的不同方面,包括计算能力和性能分析等。本文对迄今为止众包的有关文献做个总体的概览,这些文献将众包分为其应用、算法、性能以及数据集这四个方面。1.引言部分提到了有些对计算机难以完成的工作(图像注释)对人类来说却是微道的,但是这同时也增加了企业的生产成本,众包就是为解决这一问题和充分利用人力资源。S
2、heep Market 就是一个明显的例子。互联网的普及也加快了众包的应用,本文第二部分是有关众包应用的研究,第三部分研究众包系统算法,第四部分是评估众包系统性能,第五部分介绍网络上可用的实验数据集,第六部分对所做的研究和工作做个总结2.A.亚马逊的投票系统 MTurk:几何推理任务、命名实体注释、观点、相关性评估、自然语言注释、邮件识别B.信息共享系统:Wikipedia、Yahoo! Answers、Yahoo! Suggestion Board、The website 43Things、Yahoos flickr、del.icio.usCrowdsourcing a Wikipedia
3、Vandalism Corpus众包一个百科破坏语料库百科是众包的一个成功的案例,其词条的编辑是一个合作的过程并且编辑者可以随时更改,这样有利于其提高和改进。但百科也面对着一些问题,如破环行为和编辑战等。其中对于百科破环行为的自动检测是所要考虑,为此,研发了一个大型的人工注释的破坏语料库(使用亚马逊的Mturk),这也为破坏检测算法的评估提供先决条件。语料库的设计包括:语料库布局(使用编辑前后的一对修改的 ID,以及其编辑是否是破坏行为的)、语料库的获得(百科中文章的修改历史)、预料库的注释(设计任务要使得工作者或者接包方能够认真完成而不)关于微任务市场(众包)的任务随着研究者对于微任务众包市
4、场的关注,任务属性也从简单的机械劳动转为特定的认知能力。这种任务和用户人数的增加也催生着更好的搜索界面以得到更具产出性的用户参与。在这篇当中提出,对于用户技能的理解和为他们提供合适的任务,不仅能够最大化产出的质量,而且就完成的更加出色的任务方面而言也能够最大化用户的利益。为了给用户任务,基于技能和建立了模型,进而实现了一个引擎。呈现的实验结果来自于对系统的初步评估,其中使用的公共数据是从最近在 MTurk 上进行的一些人工计算实验得来的。众包上的工作流(需求者发包,用户接包,后者上传成果,前者对搜集到的成果进行评估并选择最优的结果,最后付一定的给中标者或者对所有人付给不同的)是次优的。从需求者
5、的角度看,首先他需要设计具有创意性的策略以使得自己的任务能够在众包上处于一个显眼的位置;其次需求者需要设计更好的方法从而在搜集到结果或数据后,进行过滤或者质量检测。有研究(关于用户的搜索行为)表明在众包上工作者大部分都会只看最近刚发布的任务,而且是这其中的前两页。从工作者的角度而言,他通常是选择丰富的任务(可能自己并不擅长)。极少数用户会花时间仔细浏览 10 页或者以上去选择自己希望从事的任务。总而言之,列举一下现今微任务市场(众包)工作流的缺点,这些众包对于需求者和用户都不太有效。1、 真正有技能的工作者,他们对于特定的任务非常合适,却可能在合适的时间没法搜索到或者找到这些任务。而其他人可能
6、也无法对这个任务做出一定的贡献。2、 技能稍弱的工作者可能会尝试去做这些任务,产出一些不合标准的或者是由噪音的产出,在此情况下,需求者还需要额外花一定的精力去辨识和清除这些数据。3、 研究者可能会为此花费但不必要的成本,比如重新发布任务以获取冗余的判断。4、 能力低的工作者可能产出低质量的成果,同时冒着被的风险,这样反而会损害自己在众包上的信誉。5、 这样一个恶性循环导致柠檬市场,在这种市场中需求者对工作者缺乏信任,不愿意付出合适的,这样也导致吸引低质量的工作者参与进来。6、 低质量的输入(数据)会影响研究者和他们潜在的研究系统,最终导致他们也失去了使用众包的信心。建议的解决方法提出一个假设现
7、今微任务市场的工作流是导致低质量输出的一个主导。因此系统,基于工作者的技能和任务。范围假想,通过用户行为对于构建用户选择偏得到的内在或外在的反馈数据可以得出该工作者的好有用处的信息,同时提出两种不同的构建系统的方式。最后,的观点是:随着 MTurk 这种类型的市场中任务和工作者数量在今后几年上升,对于用户而言通过标准的浏览和搜索方法去寻找任务将更加。为此,需要具有改进给合适的工作者以机制的系统,以对工作者的产出能力有所。这样一来,任务后需求者也会得到质量更高的产出。最终,由于需求者再也不用去处理低能力工作者和破环者的产出或者在得到冗余标注上花时间,他们就能够给予工作者合适的。根据用户的技能和建模的关键是得到用户的信息。以下列举现在可以获得的相关信息:用户资料、显式反馈(用户对于任务明确的评价,需求者往往会在其发布任务中加入一些问题以了解用户对于任务时间等方面的信息)、隐式反馈(由于得到显式反馈会占用用户的时间,使得用户注意力转移;隐式反馈是从用户的浏览行为中获得,from 用户日志)、任务的细节信息(任务的描述、相关、相关的 HIT 数目、任务时间)、需求者反馈(工作者提交的任务是否被需求者接受,来自需求者的额外的奖金和评论或其他反馈)用户偏好模型1、Bag-of-Words Approach(只考虑隐式反馈,二元的偏好;使用任务描述词汇,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于虚拟现实技术的职业安全培训模拟系统开发课题报告教学研究课题报告
- 家居健康安全检查清单手册
- 智慧教育平台教师教育资源共享系统手册
- 骆驼祥子名著训练
- 小儿厌食症的中医外治疗法
- 2026年资产评估师之资产评估基础预测试题附参考答案详解【研优卷】
- 汽车零部件采购与供应商管理手册
- 2025年中国石油集团昆仑资本有限公司公开招聘正式启动笔试历年参考题库附带答案详解
- 2025年中国电信股份有限公司数据发展中心招聘笔试历年参考题库附带答案详解
- 2025年中国振华(集团)新云电子元器件(国营第四三二六厂)招聘16人笔试历年参考题库附带答案详解
- 2026年山东省青岛市市北区中考英语一模试卷(含答案)
- 2026安徽省交控建设管理有限公司校园招聘5人笔试历年参考题库附带答案详解
- 家具成品库绩效考核制度
- GB/T 31831-2025LED室内照明应用技术要求
- 静疗题库及答案400题
- 广东省深圳市龙华区行知学校2025-2026学年八年级上学期语文期中试卷(教师卷)
- 2025年消防设施操作员(中级)职业技能鉴定考前必刷必练题库600题(含真题、重点题)
- 2025年药品经营质量管理规范与GSP培训试题及答案
- 2014上海家政合同范本
- 滴灌系统过滤器配置施工方案
- 食品安全管理员培训模拟试卷
评论
0/150
提交评论