关于CSR的总结.doc_第1页
关于CSR的总结.doc_第2页
关于CSR的总结.doc_第3页
关于CSR的总结.doc_第4页
关于CSR的总结.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

我们现在呈现一种能识别比较句的方法-CSR挖掘和机器学习的结合。在规则中序列模式被用作特征。CSRs是用一个类序列规则挖掘系统自动实现的。一个关键字策略用来过滤掉那些不可能是比较句的句子。对于分类,我们用两种方法进行实验:1. 直接用CSRs2. 基于规则用机器学习方法建立一个分类器。我们将讨论两种方法,下面先定义CSRs,然后产生数据用来发现规则。4.1 多个最小支持度的CSR序列模式挖掘是一个重要的数据挖掘任务,输入一个序列集,SPM的任务就是找出满足用户最小支持的所有序列模式。一个序列模式就是一个子序列-在输入序列中比最小支持率的阈值出现的频率高的子序列。CSR就是序列模式在左边,类标签在右边一种规则。不像类序列模式挖掘是无监督的,因为我们用固定的分类进挖掘序列模式规则,所以新的方法是监督的。现在我们就定义CSRs。I=是个项集,一个序列是个有顺序的项集。一个项集X是不空的。我们定义一个序列s,如果X是数据集D中的的实例()的的子序列,那么着个实例()叫做覆盖CSR;如果且,那么()满足一个CSR。规则的支持度是在D中满足规则的所有实例的百分比。规则的置信度是在D中覆盖规则又满足规则的的实例的百分比。 表一给了一个例子序列数据库(五个序列和两个类别 )。用最小20%的支持度和最小40%的置信度,例如CSRs中的而一个: 137, 8 c1 support = 2/5 and confidence = 2/3数据序列1,2满足规则,1,2,5覆盖规则。给一个类标签序列数据集D,给一个最小支持度和一个最小置信度,CSR挖掘出在D的所有类序列规则。挖掘算法是被涉及,超出这篇论文的范围。(详细见 20).多个最小支持度:上面的模型用的是一个最小支持度来控制规则的产生。但是,对我们的情况来说,这是不够的。因为有的单词(可以暗示是比较句)出现的频繁,有的单词出现的少。现存的序列模式发现在数据挖掘的算法用只有一个最小支持度来控制模式产生过程。识别含有低频率的单词的模式显然这是不足的。因为我们需要建立很低的最小支持度,这样就会导致高频率单词产生庞大的模式-(过拟化overfitting)。这样,我们提出多个最小支持度模型来解决这个问题。在这个模型中每一个单词基于出现在训练集中的频率有一个最小支持度。这个模型让我们找到了那些不会产生太多过拟和的含有的规则。需要指出的是多个最小支持度关系规则在18中被研究。但是,它的算法不能被应用到这里,因为算法需要用一个特殊的顺序精简每一个句子的单词,这样打破单词序列。为了得到多个最小支持度的效果,我们用(他是通过实验得到的参数,我们用0.01)。从第一行到第三行,我们看到最小支持度随着在数据中的的项目的频率的改变而改变,这样对于频繁项目的最小支持度会高些,而不频繁项目的支持度会低些。The function CSR产生出在W的项目的所有规则。1. Compute the frequencies of all the items in the training data 2. for each group of items W with the same frequency do 3. minsup = frequency(W) * ; 4. CSR(trainingData, W, minsup, minconf); 5. end_for 4.2 为挖掘构造数据集(Constructing the Data Set forMining)我们现在就来讨论怎么从文本中构建数据集。既然在这个项目中,而我们研究的是句子,那么每个句子被看做一个序列。但是,我们不能用原始的每个句子的单词,因为一些句子的内容不同,但它们的模式完全相同。如果用原始单词的话,这样的模式或许不会被发现。,例如:下面的两个句子比较了不同的物体。:“Intel is better than Amd”, and “Laptops are smaller than desktop PCs” 仅仅比较单词,系统不会发现任何模式,除了一个相同的的单词“than”。但是,人回很清楚地看见一个模式。这样,POS标注抓取了独立于语言模式的内容(你是对我们有用的)。4.2.1 关键字策略我们的对比较句很感兴趣。我们和容易找到一些关键字老覆盖几乎所有的比较句,例如:有很高的召回率。但是精确率却很低。这就需要我们设计一下策略进行学习。关键字策略:既然 召回率很高,精确率低,我们就尝试着改善精确率。更准确的说,我们只考虑包含至少一个关键字的句子,然后产生CSR来过滤掉那些非比较句。这已经暗示了我们的数据集产生。也就是说那些不含关键字的句子被移除。让我们看那看看什么是关键字,除了-er还有很多隐含比较句的单词,如beat, exceed, outperform。我们已经编制了一个关键字表。我们首先在比较级的子集上手工找30 个单词。我们然后用wordnet来找他们的同义词。通过手工整理后,最终得到69个单词。需要指出,关键字集也包含一些短语,如 number one, and up against. Non-gradable比较句不需要用关键字。所以,我们包括了又9个短语和单词,如:but, whereas, on the other hand,他们有事后被用在non-gradable比较句。像 as far as,的短语,被考虑为相同的关键词用POS标注JJR, RBR, JJS,RBS的单词是很好的暗示。但是,我们不能单独用这些原始的单词作为关键字。相反,我们用他们的POS标注,例如:, JJR, RBR, JJS and RBS作为仅有的四个关键字。这样关键字集K被定义:K = JJR, RBR, JJS, RBS words such as favor, prefer, win, beat, but, etc phrases such as number one, up against, etc我们有83个关键字和短语,虽然识别这些关键字是需要时间的,能一劳永逸。我们这个词表作为公共资源。或许,有一个通过机器学习,来识别这些单词的更自动的方法,但是那样会需要大量的人工标注句子。人工标注也是要消耗时间。(Thus, it may be more cost effective to manually identify such keywords instead, which is what we did)。我们不宣称我们的词集是完全的,随着我们项目的进展和其他研究者的研究,我们相信这个表会 不断扩大和完备。我们相信,我们有非常多的暗示短语和单词。需要再一次指出的是:并不是所有的包含关键字的句子都是比较句,其实很大一部分不是。因为在实验当中,我们会看到,在包含关键字的句子中只有32%是比较句。但是这些关键字能抓取94%的比较句。也就是94%的召回率和32%的精确率。4.2.2 建立序列数据集我们产生数据集如下:(1)对于每个包含至少一个关键字和短语的句子,we use the words that are within the radius of 3 of each keyword in the sentence as a sequence in our data。我们的实验结果显示半径为3是最佳选择。半径大于等于4会给更多的模式,从而导致数据过拟化。用太少的单词又不能给足够的信息。(2)每个单词被它们的POS标注代替。我们不能用实际的单词。对于每个关键字,我们用实际单词和对应的POS标注的结合来形成单独的项目。原因是:一些关键字有多个用法就有多个POS标注。在决定是否句子是比较句,它们的特殊用法可能是重要的。例如:一个关键字“more”可能是比较形容词(more/JJR),也可能是比较副词(more/RBR)。(3)根据句子是否为比较句,一个类别被标在每个序列上。例如:考虑比较句“this/DT camera/NN has/VBZ significantly/RB more/JJR noise/NN at/IN iso/NN 100/CD than/IN the/DT nikon/NN 4500/CD.”它有关键字more,最终被放入数据中的序列是:NNVBZRBmoreJJRNNINNNcomparative 需要指出的是:一个句子如果包含多个关键字,每个关键字在序列数据库中将产生一个序列。 CSR规则的产生:当数据库建立起后,我们就可以产生CSRs,且规则需要满足最小置信度(实验中用0.6,效果很好)。每个项目的最小支持度用控制,我们用0.10.手工规则:我们也增加了一手编制的规则。这样的规则很复杂且很难用当前的模式挖掘方法产生。例如:我们发现像whereas/IN, but/CC, however/RB, while/IN, though/IN, although/IN, etc.,常常和比较关键词在一块,所以它们是很好的暗示。我们有13个这样的规则。4.3分类学习召回一个CSR基本就表达了一个句子(包含模式X)是比较句的可能。清楚地,我们可以用这些规则直接进行分类。我们尝试如下:对于每个句子,我们找出被句子满足的所有规则,选择高置信度的规则对句子进行分类。如果该规则的分类是“comparative”,那么句子被分类比较句,否则就是非比较句。这是一个合理的策略,因为置信度是一个预言性的方法。但是,如我们在试验中看到的结果,这种方法并不理想,。我们认为关键的原因是给定的句子常常同时满足一些规则。这些规则的分类或许是冲突的。只选一种分类或许是危险的。为了处理冲突,一个有原则的方法是结合所有的规则来达到一个分类。朴素贝叶斯分类模型提供了一个天然的方法,因为它能够结合多个可能来达到一个结果。我们的实验结果显示,用这种学习的方法(基于CSRs)的分类器表现较好。我们在这就不介绍NB,因为它在机器学习当中非常standard。为学习准备数据:NB不能直接用序列数据库,因为它不能考虑单词的序列。我们用CSRs为NB学习建立一个新的数据库。特征集是:Feature Set = X | X is the sequential pattern in CSR X y Z | Z is the pattern in a manual rule Z y分类仍然是“comparative”和“non-comparative”。每个句子在数据中形成一个tuple。如果句子在特征集中有特别的模式,对应特征值为1,否则0.用结果数据。对于在NB,他是直观的。我们也尝试用SVM学习器,它不如我们的方法表现的好。5 实验结果这部分评价我们的方法和讨论结果。首先,我们描述用在我们实验当中的数据集,然后展示实验结果。5.1 数据集和Labeling我们从不同来源搜集数据,展示不同的文本,我们的数据有下构成:(1)消费者关于digital cameras, DVDplayers, MP3 players and cellular phones.的评论。评论从.下载得到。(2)来自不同网站的关于Intel vs AMD, Coke vs Pepsi, and Microsoft vs Google.主题的论坛讨论。(3)关于任意话题的新闻评论,如automobiles, ipods, and soccer vs football.Lableing:数据集全部被人工标注过的。因为标注是主观的,它有四个标注者来完成。为了使标注者在标注时达到一致,我们首定义了不同类得比较句(如3.3讨论)。标注者要求严格遵照定义,对于冲突的情况,通过讨论达到一致。5.2 实验结果在我们方法的每一步,我们给出precision, recall and F-score。它们中的一些被认为是基准。我们将显示在不同数据集的precision, recall and F-score。全部的结果在表一中给出(给出了不同方法的precision, recall and F-score)。除了前两个的其余结果通过了5-fold cross validation.我们讨论结果如下:(1)JJS, RBR, JJS and RBS的POS标注:我们用Brills Tagger。如果句子包含以上标注任意一个,它就被分类为比较句。我们得到64%的召回率,许多句子因为没有这些标注被除掉了。精确率是少于46%,这也暗示了有以上标注的许多句子不是比较句。(2)关键词:仅仅用这些重要的关键字,我们得到94%的召回率,例如:每个包含一个或多个关键字的句子(如4.2.1讨论)被考虑比较句。这显示那些关键字是很好的暗示。但是精确率却很低,32%。也就是说,F值很低。(3)用关键字作为特征的SVM和NB:通过SVM的学习,F值得到改善。我们用e LIBSVM package, kernel = GAUSSIAN, gamma = 0.0623 and C = 97 gave the best F-score of 51%.但是NB的结果很差。(4)CSRs:如果多个最小支持度CSRs被用来分类,得到较上面方法较好的结果,精确率为58%,召回率71%,F值64%。(5)用CSRs的SVN和NB:通过学习,F值得到很大改善,特别是NB,F值为75%。(6)用CSRs和人工规则的SVN和NB:用CSRs和人工规则的SVM和NB方法的F值得到提高。但是在精确率(79%)和召回率(81%),NB比svm强。这样人工规则帮着增加了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论