数据挖掘翻译1-6页_第1页
数据挖掘翻译1-6页_第2页
数据挖掘翻译1-6页_第3页
数据挖掘翻译1-6页_第4页
数据挖掘翻译1-6页_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、里面的笑话:识别幽默的卡通图片摘要 幽默是人类经历中一个不可或缺的方面。在创建计算幽默模型前景的鼓励下,我们研究了卡通幽默对于卡通图片语言的影响,我们的研究是基于大量卡通图片,而这些卡通图片是由纽约客主办的一个比赛所提供的。获得成千上万的相同的图片允许我们分析人们对相同的视觉刺激的反应宽度。我们首先描述我们如何获得不同卡通图片的幽默的判断。然后,我们再详述一个语料库的结构,在这个语料库中对于相同的卡通被认为更有趣的图片与较有趣的图片进行配对。我们分析这些卡通对并寻找两者的显著差异。接下来,我们建立一个自动分类器识别更有趣的标题。鉴于是两个图片和一个卡通,我们的分类器要在具有相同的笑话的图片中选

2、择更有趣图片需花费的69%的时间而要花费64%的时间在其他图片对。最后,我们使用分类器来找到最好的图片然后来研究它的预测结果如何被用来显著降低漫画大赛的评委的负载(工作量)。分类和主题描述符H.1.2(用户/机系统):人为因素;H.2.8(数据库应用程序):数据挖掘;H.3.1内容分析和索引):语言处理关键字幽默、卡通、卡通图片1.介绍幽默在生活和人们的思想中起着非常重要的作用。已投入相当多的讨论和研究在幽默的性质和作用。多个假设已经提出,从关于人类认知中幽默的深层根源的模型到它在社会化中的角色地位,目前为止,大量的幽默调查已在心理学、哲学和语言学领域开展,相比较而言,关于幽默的计算研究仍处于

3、起步阶段。创意作品,如笑话,传统意义上来说认为是处于计算机科学之外的。幽默被视为一种人类本能的特征。即使在科幻小说中,机器人和电脑几乎总是被描绘成不具备幽默特征的,无论他们多么精通语言或其他技能。我们相信聪明的幽默定义了一系列有趣的针对计算机科学的挑战。赋予机器识别和产生幽默的能力可以增强人机交互合作,通过改进对语义,意图和情感的理解。由于现在还不具备检测幽默的能力导致了算法交易系统:的失败:在愚人节新闻发布后,特斯拉汽车股票的上升且交易量激增。今天在这辆车里它带了什么去得到你?放松点!它闻你就像闻其他车一样。它完全用腿奔跑。在交替季节只是不要尾随。只有推动一次。他甚至清理道路。空闲的腿在主道

4、路上。舒服地吃六个。她跑得像我曾经做的梦。图1:提交的图片的名单,来自纽约客比赛的卡通例子。幽默也可以被用来提高注意力,记忆力和参与力,因此有许多有趣的应用在教育,卫生、通信和广告。在应用之外,追求信息理论幽默的模型可能会导致语言使用的新见解和更深层次的人类认知的基础。关于幽默的计算工作很大程度上集中于在有限领域的幽默的产生,如双关语和幽默的缩略词 5, 29。其他几个项目的关注幽默认知的相关工作(23、30、32)。在本文中,我们描述一个幽默认知领域的新方向。我们专注于幽默图片的识别工作,尤其是,来自纽约客杂志的卡通。纽约客举办了为期一周的比赛,在这场比赛中发布了一个图片所需要的卡通形象。读

5、者被邀请提交他们自己关于图片的见解。裁判选出了最搞笑的图片的名单,然后编辑部的成员人员将其缩减到最后的三个。最终的三幅图片随后被发布,读者投票选出他们最喜欢的。图1显示了一个示例卡通。在这幅漫画里,一个汽车销售人员试图出售一个奇怪的,混合的生物,它似乎是部分汽车,部分动物。在漫画如图1下面列出了裁判选出的最终的名单。大型幽默的语料库的缺失阻止了数据驱动的幽默研究。纽约客卡通比赛语料库在这方面尤其有趣,因为它包含成千上万相同卡通形象的图片。这使得我们可以来分析人们对相同的视觉刺激的反应宽度,因此使得可以进行假设测试而在其他全集(如很难测试。笑话集合)的测试变得困难。我们的任务如下:我们的目标是预

6、测在没有深度图片分析和理解文本的情况下图片的相关幽默,,通过利用人类标记场景和语言特征的自动分析。为了测试我们的想法,我们创建一个来自纽约客比赛的图片的数据集,以及人类的判断。我们识别和分析同一个笑话的不同的变化并找到影响感知幽默水平的因素。我们也通过通过图片说明自动识别一幅图片中的笑话,量化的强度不同的笑话的幽默强度和它们和卡通的关系。我们制定一个成对评价任务和给定两个图片和一个卡通构造一个分类器,来决定哪个图片更有趣。我们的分类器对于同一个笑话的不同图片测定达到69%准确性,对于比较任何两幅图片的准确率达到了64%。我们实现一个瑞士系统比赛排名所有图片。平均而言,所有裁判选出的的十大图片5

7、5.8%排名在前的,从而表明超出了当前的研究的细节,我们寻求更多大致框架以数据为中心的幽默研究。我们希望与之分享用一些关于探索数字内容的维度的幽默心理学研究的重要成果加入到数据挖掘的方向。我们相信,数据挖掘应该也将被应用到的心理现象和这些领域交叉的很多未知的机会。2.图片描述的影响图2:汽车集群大小类似与图1所示的卡通图片笑话。1096人提交了一个“混合”汽车的笑话。我们获得了16个纽约客的卡通图片,连同所有的他们提交的说明。每个卡通关联一系列的图片大小从3562到6557不等。平均每个卡通对应4808张图片。基于这些数据,我们制定一个成对的比较任务:给定的一个卡通和两张图片,来决定那一个更有

8、趣。原因有很多,人们可以感知一个图片比另一个更有趣。最重要的是,不同的图片可以告诉完全不同的笑话。去探索使得图片有趣的语言属性,使标题有趣,我们首先把注意力集中于可以产生同样的娱乐乐趣的图片。尽管参与者独立工作,他们往往产生惊人的类似的想法对于同一个卡通刺激的反应。例如,考虑如图1所示汽车卡通图,图2显示了对于这幅卡通图提交了相同想法的的人数。1096人所以参与者的17%提交一个混合汽车的笑话。超过三百人提交的一些不同的意见“它在路上跑”。其他受欢迎的主题包括“别踢轮胎”,“声音像一只小猫”、“备用的腿在主干”、“碳足迹”/“生物燃料”、“马力”小样本(见表1),和“全地形车辆”“她真是个野兽

9、”每一个重复十次。这种情况是很常见的漫画。2.1获得判断我们从数据集中挑选了10幅漫画。我们的首要目标是提取相同水平的图片集。我们甚至不谈论马力。马力?谁也不再谈论马力?这个宝贝,谁需要马力?我们没有测量它的马力。把它像马力,重新定义。四个早餐,马力的由来你认为马力是路要走。哦,马力是一个旧词与汽车.实际上,这个词马力和这个婴儿是没有意义的。它有更多的马力比你想象!表1:来自一个集群的样本图片笑话概念。King et.a1已经解决了关于相似的卡通与图片数据集的集群简单的话语单位问题。他们的研究结果表明一个简单的聚类算法在寻找相干的信息是非常有效的。我们注意到他们感兴趣的是图片的所有集群(或大多

10、数),然而我们专注于一个更为简单的任务:我们只关注到少数群体中的笑话集群的准确性。我们聚集的图片并给每个卡通挑选出三大图片集群。接下来,我们随机从每个群集选择10个属性条目,每十个属性条目构成一个批处理(见表1样本批处理。)我们控制图片的长度而给定的一个长度可以显著影响着图片幽默的感知。我们希望控制长度会带来更多的关注,或者可能带来更多微妙因素。为了控制长度,我们确保每一批包括五个5,6字长度的标题和五个9,10字长度的标题。随后,我们将只进行比较类似标题的长度;长度不同的两组是为了捕捉到不同层次的复杂性。对具体长度(5-6,9-10)进行选择,是因为他们代表许多入围的图片。要了解是什么让一些

11、图片看着比其他图片更加有趣,我们首先需要获得幽默的判断。我们通过Mechanical Turk招募了许多工人并用一个比较图片的滑稽程度的任务来挑战这些工人。工人们挑选出五幅卡通画和一个卡通形象,并从同一批随机抽取。他们进行排序这些图片从最有趣到最无趣。每一个回答都为我们提供了可以两两比较的10对(1比2 更有趣# #,3,4和5 # #。2 #比3更有趣比# 3,4和5 # #等等)。其他幽默的研究要求参与者在一个李克特量表中评估笑话。评估Likert评分可以得出幽默的判断。我们注意到有一个长期的争论:是否有效平均Likert评分。对于我们的研究,我们不相信我们可以将有序率数据作为区间数据处理

12、。心理学对主观评价的研究 31 表明成对比较比直接评价更好,因此我们选择要求工人进行直接比较。我们选择了排序后排在高位的图片对(80%或更多,类似的长度,排名至少有五人)。这些图片对给我们提供了真正的真理。我们有30个批次,每一个批次大概有3035名工人,共有1016个任务和10160个配对图片。只有35%的独特的对,其至少需要五人去排名来达成了80%项协议,产生了754对。这说明了任务的难度。2.2假设:幽默的迹象要制定一个机器学习问题的任务,我们寻找可以帮助区分图片之间滑稽好笑的不同程度的图片特征。后来,我们评估并比较了这些特征的预测能力。2.2.1不寻常的语言一组功能,我们追求的理念,即

13、被认为更有趣的图片趋向一种我们采取不寻常的方法的语言。为了量化“不寻常”,我们采用了一种语言模型。一种语言模型是一个函数用来指定字符串的概率测度。我们训练关于clueweb 2GB数据的 13 语言模型,意味着代表共同语言。评估不同级别的的独特性,我们计算四个模型,使用1个“字尾”,2克,3克,分别与4克。在计算语言模型之后,我们测量了在每一种语言的语境中图片的复杂度,复杂度是消极平均对数的指数。换句话说,一幅图片的复杂度是指我们如何利用语言模型预测它的功能效率:更高的复杂度,意味着图片更具独特性。表2显示了语言模型分析的结果。有趣的是,更有趣的图片往往使用不突出语言(记得我们只比较讲同一个笑

14、话的图片对。)我们注意到“保持简单”似乎是给喜剧作家的最常见的一条建议,这一建议也出现在在其他的动画图片比较规则中。除了计算词汇的独特性,我们计算了的幽默图片的系统特征。做这个,我们更换了图片中的每个单词和通过相应的词性(POS)标签的网页单词,得到NLTK 1。然后,我们学习语言模型和计算复杂度的分数在POS语料库里。有趣的图片往往在没有明显单字的水平的较难的语法;较高的N-gram模型的结果并不是很显著(见表2)。这再次表明,简单的图片是工人们判断得出的更为有趣滑稽的图片。2.2.2情绪在我们寻找有趣图片的有用特征,我们寻找了哈尔恰和普勒关于的幽默研究 23 。在这项工作中,作者探索的独特

15、幽默语言特征。其中一个发现的特点是消极的方向:一个经常使用的负字(不能,坏的,非法的,错误)在幽默的文字。本着这种精神,我们使用了一个内部的情感分析工具注释字幕。出人意料的是,我们的数据表明,相反Mihalcea和Pulman的结果,因为滑稽字幕往往更积极(见表2)。这一发现可能是由于该crowdworkers幽默的喜好,该内容自然就在眼前,或情绪分析仪无法检测嘲讽与相关的细微之处字幕的动画片。2.2.3以专家意见帕特里克房子,纽约人大赛的冠军,写下关于他的制胜战略15的文章。他建议使用“常见的,简单的,单音节词”和“避开专有名词是有可能疏远的“。根据这一建议,我们使用史提夫 - 福兰斯衡量可

16、读性轻松阅读12和自动可读性指数27。这些都是设计时考虑到较长的文本,但我们相信他们可能是对我们非常有用。我们还增加了一个二进制特征任何专有名词在标题中存在。与此类似,最近的工作10推测电影引号是更令人难忘,当他们可以在应用多个不同的上下文。要获取的一般性代理标题中,我们测量的第三人称的数量代词和不定对定冠词的数目。第三人称代词指被引入的东西更早,并因此更难使用在新的环境。同样,不定冠词更可能指比定冠词的一般概念。表2示出结果。有趣的标题取得了较好可读性分数,但该特征的其余没显示的辨别能力。当我们比较实例相同的概念笑话,一些这些功能都没有之间的替代字幕显著变化。 例如,考虑专有名词:偶尔的生物

17、燃料启发笑话可能会提到一个普锐斯(或给予字符的第一名),但是这是一个罕见的事件。 2.2.4笑话短位置最后,我们想知道是否的位置标题中的笑话有差别。 例如,它有助于有一个幽默的结尾,提供了一个令人惊讶或诙谐妙语?因为我们知道集群,每个标题来自于,我们可以很容易识别的位置笑话中的每个标题。我们增加了四个特点,说明了这季标题包含了开玩笑的短语。结果表明不太好笑的标题往往在第二季度的笑话更多的时候,和有趣的标题往往推迟启示的核心笑话结束(表2)。2.3 结果总结我们找到强有力的证据表明,从词汇的角度来看,有趣的标题比他们少搞笑的同行更简单- 词法,语法,以及使用的易用性,阅读指标。有一些证据表明,不

18、太好笑的标题目前的核心笑话早期在标题比有趣的人。其他指标,如专有名词和功能捕获一般性,没有达到显著的差异。 本可能是由于比较同一个笑话的意译,或者数据集的大小;我们将返回到这些在接下来的部分功能。2.4预测任务现在,我们的分析显示和属性如何讨论上面可以提供的功能为基础预测的任务,类似给我们提出了我们人类的法官之一:给定一对字幕,确定标题是有趣。给定一对字幕的,我们提取的特征讨论2.2节从两个。我们构造从两个向量套功能,以及它们之间的差异。载体的标签指示第一标题是否是比第二滑稽。我们进行5折交叉验证,作为大小数据集可以进行10倍太敏感了。拆分完成基于所述卡通,所以算法总是上测试动画片它没有训练上

19、。这是为了模拟由纽约人编辑实际使用,对于判断字幕新的较量。既然我们可以让每一对字幕的成正或负的例子(通过改变顺序),很容易平衡数据集,和由此的随机基线的精度为50。我们第一次尝试用一个标准来预测有趣标题袋的词模型。也就是说,我们试图预测哪些标题是有趣基于内容的孤独。随机森林使用袋的词只有功能达到52的准确率,仅略优于随机基线。我们估算使用不同特性的重要性基尼重要性得分6。功能的基尼重要性是归一化总量削减的准则带来的该功能。顶部特点,确定通过在平均决策树,可以分为以下类:代词:你,我,是,我,我们,我,你,他们问的话:怎么样,有什么否定的话:*不,不,不助动词:DO,应该需要的,可以,(认为)其

20、结果是,这些话是顶级鉴别是令人惊讶的,因为许多这些词通常被认为丢弃的“禁用词”(非信息的词语应该被过滤掉在预处理)在自然语言分析。幽默有趣的是,另一特点在识别文字23(除负极化)是人类为中心的词汇,包括代词。此外,我们请注意,没有明确的玩笑的话实现的高度重视为鉴,很可能是为我们比较字幕告诉同一个笑话。第一专有名词出现在该名单是“谷歌”(第32位),这可不是开玩笑的一句话在任何的集群。评价袋的词的分类后,我们增加了功能在2.2节中讨论。对于所有的功能包括,随机森林分类达到69的准确率。 最多重要的功能包括困惑(包括词汇和POS),情绪和可读性。袋没有字的功能被排在排名前50位的重要特征。3. 不

21、同行业的比较JOKES探索同一个笑话的不同变化后,我们现在进入比较不同的笑话。比较不同笑话是一个非常困难的任务,可能需要理解幽默更深入,更普遍的基础。、图3:从纽约人的较量卡通和与它相关的标记。一个列表说明一般设置的动画片或上下文。该其他说明它的异常。 主要有三种幽默理论3:救济理论(幽默释放紧张情绪和紧张),优势理论(幽默允许一个手感出众),和不协调理论(幽默是关于违反了我们的心智模式和预期)。最近的一个理论认为幽默从被同时视为良性侵犯茎,或无害的22。不协调理论是目前的主导理论幽默在哲学和心理学25。有观点认为,不协调的核心是幽默是百年的历史; 然而,没有严格的定义,将允许研究人员检测不协

22、调在特定情况下。在漫画的情况下,图像本身是不协调的,去对我们的期望。这不协调往往是不寻常的组合的结果。霍夫施塔特等人。简称类似的现象称为“帧共混物”14。帧融合当一个人模糊了两种不同的情况或情形发生在他们心中,形成混合的面。几乎所有的纽约客漫画属于这一类,如汽车动物的腿(图1),棒球运动员穿着高高跟鞋,一个人坐在一个笼子里,在一个狗窝,等上。在这些漫画,标题往往试图解析令人惊讶的不协调。对于卡通搞笑的读者需要了解双方的图像和字幕,然后将它们整合成一个有意义的整体。当碎片落入地方,读者感到满意和该放心张力表现为幽默。不协调理论卡通幽默的进一步支持按心理学的研究:琼斯等人。分析卡通幽默的成分和确定

23、的影响标题,图片,并在它们之间的相互作用整个动画片17幽默的评价。他们发现,该幽默的字幕不与显著相关整个漫画的幽默评级。然而,相互作用画面和字幕之间高度相关与卡通的幽默评级。有趣的是,更有趣图片和更少的搞笑标题,最高卡通排名。该结果可能与在我们提出在上一节中发现。我们认为,判断一个说明我们的算法必须有附带卡通的一些知识。尤其是,我们希望了解帧这是荟萃在发挥作用。越来越多的研究机构已集中在自动生成的文本说明图像19,11。然而,尽我们所知,没有人已成功训练的模式,可以提取深层语义描述卡通数据。因此,我们依赖于人的注释。对于每一个卡通,我们要求人们提供了两个列表标记,对应于创建两个共混帧产生的不协

24、调感。其中一个列表描述了一般的设置,或卡通(汽车,经销店,展示厅,销售员)的背景下。另描述了它的异常(轮胎,腿,动物,组合)。图3给出了一个例子。因为相比于卡通的数量是可忽略的字幕的数字,这个预处理步骤是快速和容易。我们得到的标签从三个不同的注解。我们观察到在注解中高层间的协议(平均杰卡德0.86);也就是说,输出不是很annotatorspecific。由于我们使用的单词嵌入(见下文),该话的准确选择并不重要一样多。3.1获取判决 我们回到的Mechanical Turk工作人员幽默的判断。我们由10个每个标题,这个新的批次时间,而不需要他们围绕着同样的开玩笑。和以前一样,我们一直对类似长度

25、的字幕该有至少五个排名和至少80的协议。我们有297批次,每一个由30-35工人完成,为总共10007任务和100070成对排名。标题对至少五人排名45.11达成了广泛的协议,导致4184个唯一对。3.2特性 我们用于第二任务的特征几乎相同与用于前面的任务(第2.2节)。我们现在解释的主要差异。3.2.1笑话地点 在2.2节,知道在这个笑话的位置标题很容易;字幕,毕竟,从挑集群字幕围绕同样的想法旋转的,所以笑话句话是众所周知的。但是,我们已经不知道的笑话提前。我们选择最低的困惑字(最高根据4-克模型独特)。如果单词是一个短语的一部分,我们选择了整个短语。而不完美的,这种方法是出奇的准确,在寻找

26、中央笑话标题。参见图4中的示例。红色的词组是通过困惑确定了的,紫的人都乱词汇 - 另一有用的方法来识别笑话。错别字经常拿起作为外的词汇。如果他们碰巧拼出一个真正的一句话,他们有时拿起低茫然字(参见,例如,“防盗色器件”,包括拼写错误的“装置”)。另外请注意,我们的算法失误多个表达式,如“虎坦克”。几个图4中的字幕没有一个笑话关联跟他们。这些是没有任何句极富特色的话在其中。例如,“与气城市是令人难以置信的“,是一种常见的表现,派生只有从与卡通对比的幽默。许多提交的材料(更重要的是,许多短期的入围字幕)依靠文本,使平凡听起来平凡。图4:识别笑话短语:红色短语具有低困惑。在紫色的词不会出现在我们的词

27、汇,并且经常寻找有用笑话(以及错别字)。因此,除的玩笑短语的位置,我们已经增加了两个功能:跨最低困惑标题,并且在笑话短语字的总数。3.2.2笑话几何现在,我们已经寻找了那句笑话在一个代理标题,我们要衡量这句话的相似性卡通的背景和卡通的异常。由于标签和标题都非常稀少,我们需要衡量语义相似。 Word中嵌入已经证明是成功的,涉及捕捉类似的任务语义相似性。特别是,Mikolov等。最近引入在Skip-gram模型24,为一种有效的方法学习一大堆单词高质量的矢量表示大量的非结构化文本数据。字嵌入利用神经网络计算;学到的载体是有趣的,因为他们似乎许多编码语言的规律和模式为线性翻译。对于例如,一个矢量计算

28、的结果矢量(马德里) - 向量(西班牙)+载体(法国)更靠近载体(巴黎)比任何其他字矢量。我们训练有素的字载体上十亿Word语言建模基准8。使用这些载体,我们标题的主要玩笑之间计算余弦相似短语,卡通标签。C,A是集环境和异常标记,分别并让J为一个集合中的特定标题笑话字(可是空的)。对于每一个字我们定义其相似之处卡通。的J到每个组标记的相似性是最大相似性(最短距离),以任何一组的令中成员。图5示出的想法。我们采取多种字幕在图3中,然后我们计算提交卡通他们相似的卡通背景(办公室,工作场所,秘书,电话)和异常(楼梯,天空,天堂)。上左侧,我们显示结果的散点图。虚线线是X = Y;字幕线之上更类似于的

29、异常,并在它下面的字幕更相似的泛指。图5(右)示出了相同的数据,但代替的显示既有相同之处,那只能说明之间的差异他们。这种表示可以更容易地观察感兴趣的模式。在这种表示,字幕接近向左更靠近卡通上下文。例如,“对不起,他刚走出办公室”是一个完全合理一句在办公室环境。在正确的字幕到底是更接近异常(“是的,你真的可以买到天国的阶梯”)。有趣的是,wordplays和双关语出现接近中间(“我们的技术人员正在解决问题的云“,”首席执行官刚上任的金降落伞加包!“,”走公司的晋升感觉更平坦这些天“)。3.3结果总结表3示出的统计信息为我们的每个特征。它是吸引这些结果与2.3节比较。而有趣的字幕还有更简单的语法结构,它现在看起来,他们用更加鲜明的词汇。几个比较同时不显著功能笑话成为比较不同的笑话很显著,反之亦然。例如,可读性和情绪不再像显著,因为他们是为单笑话任务。在另一方面,专有名词和第三人的话已成为显著,使用显著滑稽字幕少两个。正如前面提到的,同样的笑话标题往往使用类似的专有名词。这种情况是不同的,当考虑到多笑话。很多字幕完全依赖专有名词为笑谈。例如,为漫画中图3,两个字幕写着“哦,我的上帝,佛罗伦萨齐格菲已经去了天堂!“和”我怕伯恩斯先生已经一去不复返了来世。“一个可能的解释结果是,名字都没有获得普遍承认的疏远读者。这个笑话几何特性竟然是有趣的,具有绝对差异和距离

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论