


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WItkey 威客 wit+keyHowe的定义+由非专业人士提供专业内容,消费者兼为内容创造者的一种模式。A Survey of Crowdsourcing Systems众包系统的调查近年,众包由分布式问题解决和商业生产模型发展演变而来。杰夫豪于2006年提出了众包这一概念,至此,大量有关工作聚焦于众包的不同方面,包括计算能力和性能分析等。本文,我们将对迄今为止众包的有关文献做个总体的概览,这些文献将众包分为其应用、算法、性能以及数据集这四个方面。1. 引言部分提到了有些对计算机难以完成的工作(图像注释)对人类来说却是微不足道的,但是这同时也增加了企业的生产成本,众包就是为解决这一问题和充分利用人力资源。Sheep Market就是一个明显的例子。互联网的普及也加快了众包的应用,本文第二部分是有关众包应用的研究,第三部分研究众包系统算法,第四部分是评估众包系统性能,第五部分介绍网络上可用的实验数据集,第六部分对我们所做的研究和工作做个总结2. A.亚马逊的投票系统MTurk:几何推理任务、命名实体注释、观点、常识、相关性评估、自然语言注释、垃圾邮件识别B.信息共享系统:Wikipedia、Yahoo! Answers、Yahoo! Suggestion Board、The website 43Things、Yahoos flickr、del.icio.usCrowdsourcing a Wikipedia Vandalism Corpus众包一个维基百科破坏语料库维基百科是众包的一个成功的案例,其词条的编辑是一个合作的过程并且编辑者可以随时更改,这样有利于其提高和改进。但维基百科也面对着一些问题,如破环行为和编辑战等。其中对于维基百科破环行为的自动检测是我们所要考虑的问题,为此,我们研发了一个大型的人工注释的破坏语料库(使用亚马逊的Mturk),这也为破坏检测算法的评估提供先决条件。语料库的设计包括:语料库布局(使用编辑前后的一对修改的ID,以及其编辑是否是破坏行为的标签)、语料库的获得(维基百科中文章的修改历史)、预料库的注释(设计任务要使得工作者或者接包方能够认真完成而不欺骗)关于微任务市场(众包平台)的任务推荐随着研究者对于微任务众包市场的关注,任务属性也从简单的机械劳动转为特定的认知能力。这种任务和用户人数的增加也催生着更好的搜索界面以得到更具产出性的用户参与。在这篇论文当中我们提出,对于用户技能的理解和为他们提供合适的任务,不仅能够最大化产出的质量,而且就完成的更加出色的任务方面而言也能够最大化用户的利益。我们为了给用户推荐任务,基于技能和兴趣建立了模型,进而实现了一个推荐引擎。我们呈现的实验结果来自于对我们系统的初步评估,其中使用的公共数据是从最近在MTurk上进行的一些人工计算实验得来的。众包平台上的工作流(需求者发包,用户接包,后者上传成果,前者对搜集到的成果进行评估并选择最优的结果,最后付一定的报酬给中标者或者对所有人付给不同的报酬)是次优的。从需求者的角度看,首先他需要设计具有创意性的策略以使得自己的任务能够在众包平台上处于一个显眼的位置;其次需求者需要设计更好的方法从而在搜集到结果或数据后,进行过滤或者质量检测。有研究(关于用户的搜索行为)表明在众包平台上工作者大部分都会只看最近刚发布的任务,而且是这其中的前两页。从工作者的角度而言,他通常是选择报酬丰富的任务(可能自己并不擅长)。极少数用户会花时间仔细浏览10页或者以上去选择自己希望从事的任务。总而言之,我们列举一下现今微任务市场(众包平台)工作流的缺点,这些众包平台对于需求者和用户都不太有效。1、 真正有技能的工作者,他们对于特定的任务非常合适,却可能在合适的时间没法搜索到或者找到这些任务。而其他人可能也无法对这个任务做出一定的贡献。2、 技能稍弱的工作者可能会尝试去做这些任务,产出一些不合标准的或者是由噪音的产出,在此情况下,需求者还需要额外花一定的精力去辨识和清除这些数据。3、 研究者可能会为此花费更多但不必要的成本,比如重新发布任务以获取冗余的判断。4、 能力低的工作者可能产出低质量的成果,同时冒着被拒绝的风险,这样反而会损害自己在众包平台上的信誉。5、 这样一个恶性循环导致柠檬市场,在这种市场中需求者对工作者缺乏信任,不愿意付出合适的报酬,这样也导致吸引低质量的工作者参与进来。6、 低质量的输入(数据)会影响研究者和他们潜在的研究系统,最终导致他们也失去了使用众包的信心。建议的解决方法:我们假设现今微任务市场的工作流是导致低质量输出的一个主导因素。因此我们提出一个推荐系统,基于工作者的技能和兴趣推荐任务。我们假想,通过用户行为得到的内在或外在的反馈数据可以得出该工作者的兴趣范围。我们讨论对于构建用户选择偏好有用处的信息,同时提出两种不同的构建推荐系统的方式。最后,我们的观点是:随着MTurk这种类型的市场中任务和工作者数量在今后几年上升,对于用户而言通过标准的浏览和搜索方法去寻找任务将更加困难。为此,需要具有改进机制的推荐系统,以对工作者的产出能力有所提升。这样一来,任务推荐给合适的工作者以后需求者也会得到质量更高的产出。最终,由于需求者再也不用去处理低能力工作者和破环者的产出或者在得到冗余标注上花时间,他们就能够给予工作者合适的报酬。根据用户的技能和兴趣建模的关键是得到用户的信息。以下列举现在可以获得的相关信息:用户资料、显式反馈(用户对于任务明确的评价,需求者往往会在其发布任务中加入一些问题以了解用户对于任务报酬时间等方面的信息)、隐式反馈(由于得到显式反馈会占用用户的时间,使得用户注意力转移;隐式反馈是从用户的浏览行为中获得,from用户日志)、任务的细节信息(任务的描述、相关报酬、相关的HIT数目、任务时间)、需求者反馈(工作者提交的任务是否被需求者接受,来自需求者的额外的奖金和评论或其他反馈)用户偏好模型1、Bag-of-Words Approach(只考虑隐式反馈,二元的偏好;使用任务描述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年期刊出版合作协议书
- 历年天台小升初数学试卷
- 七年上册第一单数学试卷
- 名校初中八上数学试卷
- 南阳九年级二模数学试卷
- 去年河南高考数学试卷
- 2025年传真保密机项目建议书
- 平顶山五中数学试卷
- 青州市青岛版数学试卷
- 历年邯郸市中考数学试卷
- 2024年度商业秘密许可合同:企业授权合作伙伴使用其商业秘密协议
- 慢性阻塞性肺疾病急性加重围出院期管理与随访指南(2024年版)解读
- 2024-2030年中国装配式装修行业发展分析及发展前景与趋势预测研究报告
- 报案材料范文模板
- 60万lng天然气液化项目可行性论证报告
- 电商合伙经营合同
- 水利水电工程单元工程施工质量验收评定表及填表说明
- HG+20231-2014化学工业建设项目试车规范
- 汽车贴膜店承包合同
- 知识题库-人社练兵比武竞赛测试题及答案(一)
- 学校中层干部管理培训
评论
0/150
提交评论