[硕士论文精品]q 基于特定领域汉语意见型问答系统的研究_第1页
[硕士论文精品]q 基于特定领域汉语意见型问答系统的研究_第2页
[硕士论文精品]q 基于特定领域汉语意见型问答系统的研究_第3页
[硕士论文精品]q 基于特定领域汉语意见型问答系统的研究_第4页
[硕士论文精品]q 基于特定领域汉语意见型问答系统的研究_第5页
已阅读5页,还剩66页未读 继续免费阅读

[硕士论文精品]q 基于特定领域汉语意见型问答系统的研究.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于特定领域汉语意见型问答系统的研究摘要英特网上的信息与日剧增,蕴藏着巨大的信息量。对产品的各种评价出现在各大论坛、电子公告板以及门户网站上。同时,用户也更渴望从海量数据中得到某类产品的评价信息。然而,采用现有的问答系统或信息检索系统,一般都是基于关键字检索,这样的系统有几个方面的不足首先,传统问答系统大多处理事实性疑问句,缺乏对用户提出的意见型问题的理解能力,不能很好地分析理解用户的真正意图;其次,传统问答系统的信息检索模块大多采用以关键字为基础的索引算法,缺乏对意见型语料的处理能力。例如,用户提出这样的问题“大众桑坦纳300的性价比怎么样”用户的实际目的是得到关于“大众桑坦纳3000”的“性价比”的正面和负面评价信息。采用关键字检索算法的传统问答系统很难正确回答出用户提出的问题。在本文中,我们设计了一种基于汉语意见型语料的问答系统。系统包括三个主要组成部分问句分析模块、答案数据库生成模块和答案抽取模块。系统下载评测论坛中的句子并建立意见型评论语句语料库,问句分析模块对意见型疑问句进行创新性地建模,把意见型疑问句建模为本文称这个结构为疑问意见三元组,QTOPIC代表疑问主题,QSENTIMENT代表疑问情感倾向,QTYPE为疑问类型,并提出全新的问句分类标准,当用户提问时,问句分析模块利用模式匹配算法和语言模型算法分析客户提出的意见型问题,进而得出问题的分类结果;由于语料库中含有大量复杂形式的领域词语,答案数据库生成模块首先利用条件随机场CRF模型识别意见句子的主题词语,然后采用词语矩阵算法识别句子的陈述,语法树矩阵算法有效地利用了语法分析的结果,而又避免了语法分析错误给系统带来的负面影响,最后对陈述进行语义倾向性分析,并把结果存储在答案数据库中;答案抽取模块根据问句分析的结果,结合概念匹配算法,在答案数据库中检索正确答案返回给用户。HTTP/INFO3DOUCOM/口碑营销关键词问答系统,意见挖掘,模式匹配,语言模型,条件随机场,词语矩阵,概念匹配STUDIESOFCHINESEOPINIONQUESTION/ANSWERSYSTEMBASEDONSPECIFICDOMAINABSTRACTTHEINFORMATIONCONTAINEDINTHEINTERNETISINCREASINGEVERYDAY,ANDTHEAMOUNTISGIGANTICTHECOMMENTSONPRODUCTSAPPEARMOREANDMOREUSUALLYONBBS,WEBFORUMANDWEBSITESATTHESAMETIME,USERSWANTTOGAINUSEFULCOMMENTSONPRODUCTSFROMTHEGIGANTICDATAANDINFORMATIONTHETRADITIONALQUESTION/ANSWERSYSTEMANDKEYWORDBASEDSEARCHENGINEALWAYSCANTDEALWITHBOTHTHEOPINIONQUESTIONSTHATTHEUSERSASKABOUTANDTHEOPINIONSENTENCESONINTERNETFIRST,THETRADITIONALQ/ASYSTEMCANONLYDEALWITHNORMALQUESTIONLACKSTHEABILITYTODEALWITHOPINIONQUESTIONSECOND,THETRADITIONALQ/ASYSTEMSIRMODELALWAYSUSEKEYWORDBASEDMETHODSWHICHLACKSTHEABILITYTOSOLVETHEOPINIONSENTENCESONINTERNETINTHISPAPER,WEDESIGNANOPINIONEDQUESTION/ANSWERSYSTEMTHATAIMSTOSOLVETHEPROBLEMSTHESYSTEMMAINLYCONTAINSTHREEPARTSQUESTIONANALYZINGMODULE,ANSWERDATABASEGENERATIONMODULEANDANSWEREXTRACTIONMODULETHESYSTEMDOWNLOADSOPINIONSENTENCESFROMWEBFORUMSANDUSESTHEMTOCREATETHELANGUAGECORPUSTHEQUESTIONANALYZINGMODULEMODELSTHEOPINIONQUESTIONASQTOPICREPRESENTSTHETOPICOFTHEQUESTION,QSENTIMENTREPRESENTSTHESENTIMENTOFTHEQUESTIONANDTHEQTYPEREPRESENTSTHETYPEOFTHEQUESTIONBESIDES,THEMODULEPROPOSESTHEOPINIONQUESTIONCLASSIFYINGSTANDARDFORTHEFIRSTTIMEWHENQUESTIONCOMES,THEQUESTIONANALYZINGMODULEUTILIZESPATTERNMATCHINGMETHODTOGETHERWITHLANGUAGEMODELALGORITHMTOANALYZETHEOPINIONQUESTIONANDGENERATESTHECLASSIFYINGRESULTSSECONDLYTHEANSWERDATABASEGENERATIONMODULEUSECONDITIONALRANDOMFIELDCRFMODELTHEIDENTIFYTHECOMPLEXDOMAINWORDANDTHENIDENTITYTHECLAIMSOFTHEOPINIONSENTENCESOFTHELANGUAGECORPUSUSINGWORDMATRIXALGORITHMWHICHEFFECTIVELYUTILIZESTHEINFORMATIONCONTAINEDINTHEDEPENDENCYANALYZINGRESULTSWHILEAVOIDSTHEBADEFFECTSTHATGENERATEFROMTHEERROROFHTTP/INFO3DOUCOM/口碑营销THEDEPENDENCYANALYZINGRESULTS,ATLASTTHERESULTSARESAVEDTOANSWERDATABASETHEANSWEREXTRACTIONMODULEAIMSTOGENERATETHEFINALRESULTOFTHEQ/ASYSTEM,THEMODULEUSECONCEPTMATCHINGALGORITHMTOMATCHCLAIMSINANSWERDATABASEANDQUESTIONANALYZINGRESULTKEYWORDSQ/ASYSTEM,OPINIONMINING,PATTERNMATCHING,LANGUAGEMODEL,CRF,WORDMATRIX,CONCEPTMATCHING图片目录图1传统问答系统设计流程4图2意见型问答系统设计流程13图3汽车领域本体结构16图4领域本体文档样例17图5TRIE树图例27图6问句标签序列在TRIE树上的匹配过程28图7答案数据库文件例子36图8答案数据库生成模块流程图37图9答案数据库生成模块流程图39图10陈述识别5544图11正例模式和反例模式5645图12词语矩阵算法流程图46图13答案抽取模块流程图53图14概念扩展55HTTP/INFO3DOUCOM/口碑营销表格目录表1HOWNET中“概念”及“义原”定义19表2传统问答系统问句类型划分22表3意见型问答系统问句类型划分22表4QUERYTAG标签及含义24表5问句类型总数量和问句测试数量32表6五种模型准确率的比较结果33表7五种模型召回率的比较结果33表8术语识别所利用的特征模板43表9依存句法标注及涵义47表10术语识别测试中三种模板的测试结果49表11陈述识别模型测试集合的参数设定50表12词语矩阵算法在各个测试集合上的结果50表13词语矩阵算法结合概念合并算法测试结果51表14问句类型对应的匹配方案和回答方式52表15问句类型对应的匹配方案和回答方式5265HTTP/INFO3DOUCOM/口碑营销6611引言11研究目的和意义目前,英特网上的信息与日剧增,蕴藏着巨大的信息量。但是,要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。如果采用人工方式对这浩如烟海的信息进行查询、统计,显然是低效和不切合实际的。然而,采用现有的问答系统或信息检索系统,一般都是基于关键字检索,这样的系统有几个方面的不足首先,传统问答系统大多处理事实性疑问句,缺乏对用户提出的意见型问题的理解能力,不能很好地分析理解用户的真正意图;其次,传统问答系统的信息检索模块大多采用以关键字为基础的索引算法,缺乏对意见型语料的处理能力。例如,用户提出这样的问题“大众桑坦纳3000的性价比怎么样”用户的实际目的是得到关于“大众桑坦纳3000”的“性价比”的正面和负面评价信息。采用关键字检索算法的传统问答系统很难正确回答出用户提出的问题。著名信息检索会议TRAC2008中提出意见型问答评测项目OPINIONPILOT后,问答系统的研究趋势必定将会向处理意见型文本的方向发展。同时,随着意见挖掘技术的不断更新和完善,其应用范围也将不断扩展,向不同领域方向发展。意见型问答系统正是在这样的背景下应运而生,它的设计理念、运行机制及其期望结果完全有别于现有的问答系统,系统采用问答系统的设计框架,整合了意见挖掘相关算法,使系统具备处理意见型语句的能力,意见型系统是对传统问答系统的一种补充和完善,同时也拓宽了意见挖掘相关算法的应用范围。这是一个新兴的研究课题,同时,也具备相当的研究价值。12本文贡献本文结合了问答系统和意见挖掘系统的精要,同时又在这两者基础上进行创新。传统问答系统一般包括三个部分,即问句分析、信息检索和答案抽取。本文设计的意见型问答系统根据处理意见型语料的特殊性把问答系统分为三部分,分别是问句分析、答案数据库生成和答案抽取。其中问句分析和答案数据库生成模块是设计的重点。问句分析模块主要分析用户提出的意见型问题。答案数据库生成模块主要利HTTP/INFO3DOUCOM/口碑营销2用意见挖掘算法分析从意见型语料库中的意见型语料来生成候选答案。本文的一个贡献是根据意见型问题的特殊性,对意见型问题处理模块进行了全新的建模,并提出了对意见型问题的分类方法。然后,本文利用基于规则的模式匹配算法结合基于统计学模型的语言模型算法构造出混合模型算法,很好地解决了意见型疑问句的分类问题,实验证明了算法的有效性。本文的另一贡献是,用意见挖掘相关算法代替了传统的关键字匹配算法,在更深的语义层面上解决了意见型信息的分析处理问题。同时在意见挖掘方面,提出以全新的以语法树矩阵信息为基础的陈述识别算法,算法有效地利用了语法分析的结果,同时又避免了语法分析的错误给算法带来的误差,通过实验证明算法确实行之有效。13文章结构本文以下章节是这样安排的,第二章主要介绍问答系统和意见挖掘技术相关研究成果;第三章主要是对意见型系统的设计概要介绍;第四章主要介绍问句处理模块的算法;第五章主要描述答案数据库生成算法;第六章对答案抽取模块进行介绍;第七章给出结论并对未来工作进行展望。32相关研究工作根据本课题所涉及的领域,本文将相关工作分为问答系统研究和意见挖掘研究这两部分,本章将介绍这两种技术当前国内外的研究情况。21问答系统研究211问答系统的研究现状随着网络和信息技术的快速发展,同时人们想更快的获取信息的愿望促进了自动问答系统技术的发展。最近越来越多的公司和科研院所参与了自动问答技术的研究。比如微软和IBM等著名的跨国公司。信息检索会议TRECTEXTRETRIEVALCONFERENCE是文本检索领域最为权威的组织,从1999年开始TREC推出了TRECQUSETIONANSWERINGTRACK,用于推动问答领域的工作。在2000年10月召开的ACL2000国际计算语言学学术会议上,有一个专题讨论会,题目是“OPENDOMAINQUESTIONANSWERING”43。自此,自动问答QUESTIONANSWERINGTRACK是最受关注的主题之一。越来越多的大学和科研机构参与了TREC会议的QUESTIONANSWERINGTRACK。目前已有的一些问答系统NULLSTAR4144麻省理工MIT就开发出一个问答系统STAR,从1993年开始发布在INTERNET上,可以回答一些有关地理,历史,文化,科技,娱乐等方面的简单问题。在2000年,MIT开发的STAZTT是世界上最早基于WEB的QA系统,返回段落或者句子。NULLANSWERBUS46ANSWERBUS是一个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语,德语,意大利语和葡萄牙语的问题,返回的是段落或者句子。NULLASKJEEVES45ASKJEEVES返回结果与普通的搜索引擎很相似,都是网页。特点是允许用户用自然语言句子提问,检索系统会自动分析用户的提问,然后通过人机交互方式,准确地辨识用户的意图,这样用户就能够充分表达他的检索需求。NULLASKMSR42微软研究院研制开发,为了快速查找相关文档的能力,建立在HTTP/INFO3DOUCOM/口碑营销4GOOGLE搜索引擎之上,返回简短词语或短语。ASKMSR是基于答案频率统计的问答系统。NULLWENIWENWENIWEN由100多个学生组织起来对INTERNET上的各个网页进行提问,这些提问被记录下来作为网页的索引,在实际使用时,如果用户的某个提问与作为索引的某些提问在语义上非常接近,那么就把与这些提问相连的网页返还给用户。但是它返回的结果仍然是网页,而不是真正的问题的直接答案。另外,其他典型的问答系统还有IONAUT,WEBCLOPEDIA,MULAER等等6。自从文本检索会议TREC在1999年的TREC8会议上引入了对问答系统的评测后,问答系统逐渐向问题多样化,问题复杂化,和评估的精确化方向发展。近年来,问答系统渗入学习机制,向多种语言,多领域发展。TREC2008中更是增加了意见问答OPINIONPILOT项目的评测,这一方向上,国内外仍然处于起步阶段,本文正是在这一方向上的一次尝试。212问答系统的基本原理问答系统是信息检索的一种,是在传统的基于关键词检索的基础上发展起来的精确检索,因此,在问答系统中,有传统信息检索的技术,更有问答系统特有的对问与答深入解析处理的技术。问答系统一般包含三个过程问题理解、信息检索以及答案抽取。如图所示。图1传统问答系统设计流程FIGURE1DESIGNOFTRADITIONALQUESTION/ANSWERSYSTEM问题分析处理对客户所提的问题作深入细致的分析与分解,为信息检索,尤其是答案处理服务,问题分析处理包括词法分析、句法分析、问题类型判别、句型判别,命名实体识别等等。问答系统中的信息检索与传统的基于关键词的信息检索类似,其主要功能为信息获取,即获取在INTERNET上或数据库、知识库中检索所有可能包含答案的文档或网页,并作初步的筛选,将结果提供给答案处理模块进行进一步的分析处理。答案处理模块是问答系统中核心环节之一,也是最后环节,其处理结果就是整个问答系统提供给客户的结果,答案处理的中心内容是从信息检索模块获取的结果5中,抽取出与问句相对应的答案。答案处理的关键是对检索结果进行解析,并与问题处理模块处理的结果相匹配,来寻找文档中或句子中包含的答案。213问答系统的关键技术根据问答系统的技术特色,可以把问答系统涉及的技术划分为这么几大类42信息检索和信息抽取的问答技术IRIE、模式匹配的问答技术IRPATTERNMATCHING、自然语言处理的问答技术IRIENLP、知识库问答技术IRKNOWLEDGEDATABASE。NULL信息检索和信息抽取候选答案的排序是这类技术的核心,排序的依据通常是提问处理模块生成的查询关键词。由于不同类别的关键词对排序的贡献不同,算法把查询关键词分为几类,即普通关键词O;从提问中直接抽取的关键词即扩展关键词E从WORDNET,HOWNET或WEB中扩展的关键词;基本名词短语B;引用词Q,通常是引号中的词;其他关键词T等等。公式21给出常用关键词的一种加权方法。SOCOREWOOWEEWBBWQQWCT公式21式21中的WO,WE,WB,WQ,WT分别是普通关键词、扩展关键词、基本名词短语、引用词和其他关键词的加权因子,他们体现各种关键词的重要程度。通常,WOWE,WQWBWT。式21中的O,E,B,Q,T是关键词本身的得分,文献30中系统使用答案关键词和提问关键词的覆盖度来表示,而文献31使用ISFINVERSESENTENCEFREQUENCY表示。基于信息检索和信息抽取的问答技术代表系统参见新加坡国立大学HUIYANG等人研发的系统30。NULL模式匹配如何自动获取某些类型提问某人的出生日期、某人的原名、某物的别称等的尽可能多的答案模式是基于模式匹配问答系统的关键技术。也就是说,如果能够获得意见挖掘的研究现状某类提问答案所有可能的答案表达方式模式,问答系统的设计将会变得相对简单。基于模式匹配的方法往往是先离线获得各类提问答案的模式323334,在运行阶段,系统首先判断当前提问属于哪一类,然后使用这类提问的所有模式来对抽取的候选答案进行验证。基于模式匹配的问答技术代表系统参见俄罗斯INSIGHTSOFT公司MARTINSOUBBOTIN等人研发的系统3536。NULL自然语言处理技术虽然前两种方法相对简单、有效,在TREC2001、TREC2002中获得了良好的成HTTP/INFO3DOUCOM/口碑营销6绩。但是,人们普遍认为要想更大程度地提高问答系统的性能,必须引入自然语言处理的技术,前两种方法有它自身的缺陷性。现阶段,自然语言处理的技术还不成熟,对句子的深层句法、语义分析还不能达到实用的效果。因此,大多数系统都是基于对句子进行浅层分析,获得句子的浅层句法、语义表示,作为对前两种方法的补充和改进。文献373839是这方面的代表性工作。基于自然语言处理的问答技术典型系统参见美国LANGUAGECOMPUTERCORPORATION公司SANDAHARABAGIU等人研发的系统39。该系统在TRECQATRACK20012004连续三年的评测中均获得第一名的成绩,且具有较大的领先优势。NULL知识库技术问答系统表现形式是问与答,在问答背后支撑的是各种知识,因此将语言知识、常识知识、专业领域知识等融入问答系统中,将使问答技术的研究更加深入,尤其是将ONTOLOGY的理论和方法运用到问答系统中,建立较为全面的和多层次的面向问答系统处理的ONTOLOGY,使问题的分类更加科学合理,尤其有助于对于复杂问题的分析和处理。这方面的研究与发展虽然还不是很成熟,但也己经在不少的问答系统里得到应用,如瑞士苏黎世大学FABIORINALDI等人研制的面向技术领域的问答系统40,意大利计算语言学研究中心的FRANCESCA研制的基于WORDNET的意大利语问答系信息检索和信息抽取的问答技术相对简单,容易实现。但它以基于关键词的检索技术也可被称为词袋检索技术为重点,只考虑离散的词,不考虑词之间的关系。因此无法从句法关系和语义关系的角度解释系统给出的答案,更无法回答需要推理的提问。22意见挖掘的关键技术意见挖掘已经成为最近研究的一个热点,并被应用在许多领域,诸如评论分析231410,产品意见测评2425,问答系统1517。本文开发的意见问答系统要处理大量意见型句子,要涉及大量意见挖掘的相关算法概念,在本节对相关算法进行介绍。根据KIM和HOVY1对意见的定义,它共有四个元素,即主题TOPIC、持有者HOLDER、陈述CLAIM和意见倾向SENTIMENT。这四个元素之间的联系是意见的持有者针对某主题发表了具有意见倾向的陈述。在这样的定义下,产生了相应的四个意见挖掘子任务。由于本文主要涉及了其中的三个子任务陈述定界CLAIMDELIMITATION、主题抽取TOPICEXTRACTION和意见倾向分析SENTIMENTANALYSIS,而针对这三个子任务介绍一下它们在国内外的研究现状。7221主题抽取国外有一些在英文方面的研究,主要集中在如何把句子中NP短语识别为主题来展开研究12926316182829。文章2认为INSITETERM就是某些领域的主题,INSITETERM是指一些词语,这些词语在某些领域中出现的频繁,但在其它领域出现得不频繁。比如,对PDA和CELLULARPHONE的评价文本中,NOTEBOOK和EMAIL被看作是PDA的INSITETERM,而HEALTH和FAST被看作是CELLULARPHONE的INSITETERM。但显然这些抽取的INSITETERM很难详尽的表达更为复杂的领域主题。此后的一些研究把重点放在对领域相关NP短语的方向上,归纳起来基于NP短语的主题识别方法有以下有代表性的三种NULL根据NP短语的特征识别主题词语,1定义三种启发式规则来识别主题候选词语,在利用概率测试算发19对候选词语进行过滤,最后得到主题。这三种启发式规则为NULLBASENOUNPHRASESBNP规则认为主题词语由如下模式组成NN,NNNN,JJNN,NNNNNN,JJNNNN,JJJJNN这里NN,JJ指句法分析后的POS词性标签,NN指名词,JJ指形容词。NULLDEFINITEBASENOUNPHRASESDBNP规则认为主题词语之前有定冠词THE的出现。NULLBEGINNINGDEFINITEBASENOUNPHRASESBBNP规则认为在句首的DBNP为主题词语。最后对每个BBNP做概率测试,确定BBNP是否为主题词语。这种方法主要存在的问题是会产生太多的非FEATURE词汇,并且还又很多FEATURE会以名词以外的其他形式呈现。NULL根据NP短语与主题提示词语共同出现的统计信息识别主题词语,HUANDLIU5通过利用上下文中的主题提示词来识别常见主题词语和非常见主题词语。常见主题表示语料上下文中经常出现的主题词语,非常见主题词语表示不经常出现的主题词语。常见主题分两步识别生成候选词语和过滤候选词语。候选词语由少于四个词语的NP短语组成,这些NP短语的出现概率要高于一定阈值。接下来就是对候选词语的过滤,分两步进行,COMPACTNESSPRUNING紧凑性过滤和REDUNDANCYPRUNING冗余性过滤。NULLCOMPACTNESSPRUNING对于长度超过两个单词的候选项,如果组成这个候选项的所有单词不经常出现在一起,那么就认为这个候选项是不紧凑的,从候选集合中删除这个候选项。更详细来说如果一个候选项的所有相邻单词在数HTTP/INFO3DOUCOM/口碑营销8据集合中的句子中距离不大于三的个数大于某个阈值,则认为这个候选项是紧凑的。比如,“DIGITALCAMERA”被认为是紧凑的,因为在数据集合中有句子“IAMLOOKINGFORWARDTOTHISDIGITALCAMERAFORALONGTIME和THISISTHEBESTDIGITALCAMERAONTHEMARKET”支持它。NULLREDUNDANCYPRUNING主要过滤单个单词组成的候选项。在数据集合中,如果某个候选项的PUREFREQUENCY低于则删除这个候选项。某个单个单词组成的候选项的PUREFREQUENCY是指它在数据集合中出现的次数减去包含它的复合候选项在集合中出现的次数。比如LIFE可能被过滤,因为在数据集合中只含有LIFE组成的词组,如BATTERYLIFE。识别完常见主题词语后,利用识别出的常见主题词语抽取主题对应的情感词。再利用抽取出的情感词对非常见的主题词语进行识别。这种方法的主要带来的问题是丢失太多的非常见主题词语。此外,对构词法的分析只适用于英文,不能移植到汉语处理中。NULL根据NP短语的语义和领域知识识别主题词语,9利用WORDNET中ISA关系网络和单词词法特征(INESS,ITY)来识别主题词语的PARTOF关系,剩下的关系被认为是FEATUREOF关系。但是利用WORDNET中的词语很难识别复杂的领域概念,比如词的缩写和复合结构领域词语(REARSEATINCARDOMAIN)。26利用半自动化的方法建立领域相关的本体,通过本体中的概念获得更多更详细的领域词语。然后同构定义一些概念与概念间结合的规则来识别复合机构的领域术语。这种方法根据词典或知识库中的词语来识别主题词语,算法的性能很大程度上依赖于知识的覆盖度,算法很难识别知识库以外的主题词语。通用知识库中通常不能含有很全面的领域相关术语,此外,手工建立复杂的知识本题也是不现实的。222陈述定界先前的很多研究者在选择陈述的时候都利用了粗分法,他们认为整个文档或者整个句子就是一个陈述1820158。另外一个与此相类似的方法是,为每一个句子分析出一个极性,然后句中所有的主题共享句子的极性。与此同时,一些研究者采用了更细颗粒度的研究方法,他们从关系抽取的角度来界定“主题”和“陈述”的关系。而其中陈述的选择也采取了更灵活的方式,如词、词组、子句或者整句。一些利用经验的方法将所有包含形容词或者副词的NP短语作为陈述2。本文提出的陈述定界方法类似于方法二的思想,即从关系抽取的角度来定界陈9述,但不同于方法二的是,本文进行陈述定界时抽取的关系,不是“主题”和“陈述”,而是“主题”和“陈述激发词”,然后本文计算主题和陈述激发词组成陈述的概率来得到句子的陈述,得到关系“主题”和“陈述”。即。223意见倾向分析KIMANDHOVY1用了两种方法首先手工收集了一些褒义贬义词汇,然后通过WORDNET同义词词林扩展这个集合;通过词语同义词词林在原始褒义词集合和贬义词集合的对比,计算词语的褒贬置信度,然后根据阈值判断词语极性。实验结果对形容词达到了686的准确度,对动词达到了72的准确度。HU等人5认为形容词与句子的主观性有密切关系,他们把所有的形容词作为意见词汇,然后进一步判断极性,他们的思想与1十分类似,即首先手工标注一个种子集合,然后利用WORDNET的同义词词林和反义词关系给未知极性词汇赋极性。TURY2做了短语级别极性分析的实验。进行了BIGRAM的极性分析,抽取两个连续的词,其中一个是形容词或者副词,然后统计词组极性。他首先根据一些启发式规则找出这种极性短语,然后利用褒义短语更多的与褒义词汇共现,贬义短语更多的与贬义词汇共现的思想计算互信息,统计词语极性。意见倾向分析224意见挖掘系统介绍NULLPULSEPULSE8主要解决两个问题,即主题识别和意见语义倾向性分析。系统选用的领域是用户的汽车评论,首先从REVIEWS中抽取了关于汽车制造商和汽车型号的分类树。然后系统抽取针对每个具体车型的评论,进行意见分析,最后以一种(TOPIC,SENTIMENT)的二维方式呈现出来。NULLWEBFOUDATIONWEBFOUDATION5是IBM研发中心开发的一个系统,是一种采用NLP技术构建知识库解决极性识别问题的系统。主要包含两个模块,即主题识别模块和极性分析模块。在主题识别方面5达到了较精细的颗粒度。它首先利用一个命名实体识别模块识别TOPIC,主要是识别文档中的大写字母短语。对FEATURE的提取首先根据一些启发式规则提取候选特征短语,主要是抽取句首后面紧跟动词短语的BNP。然后利用特征选择算法选择可能性大的短语作为TOPIC,其主要思想还是根据该候选特征词在特定主题文本中出现的频率来决定是否将这个短语作为主题特征。极性分析首先从文档中抽取主题词,必要的话也包含极性词的句子。然后根据一些特定规则决定极性词和主题词的对应关系。他们HTTP/INFO3DOUCOM/口碑营销10首先从GENERALINQUIRER,DICTIONARYOFAFFECTOFLANGUAGEDAL30和WORDNET35抽取极性词。一共收集了3000个极性词,其中包括2500个形容词和500个名词。系统利用构建的极性模式库识别极性词和主题词的对应关系。NULLOPINIONOBSERVERLIU等人2用事先已经分类好褒贬的评论作为语料,从原始语料中抽取TOPIC和FEATURE,并提供基于TOPIC和FEATURE的输出比较界面。用户能够通过可视化的方式清楚地观察出产品特征是否优秀。系统的处理过程分为两步,首先从网上获取关于产品的评论,分析该评论所针对的产品特征是肯定还是否定,然后通过可视化的方式显示该结果。用户只需简单地告诉系统想要比较的产品是什么,系统便能够自动地完成上述工作。OPINIONOBSERVER是基于NLP和带指导的模式识别来完成它的任务的。它通过带指导的模式识别方法来学习规则,用以识别高频特征词。然后它通过高频特征词附近的极性词通常是形容词所修饰的其他名词或名词短语来抽取低频特征词。OPINIONOBSERVER还借用WORDNET的同义词词林来扩展特征词的表述方式,从而能够识别对于同一种特征的不同说法,使得最后的结果更精确。23本章小结本章详细介绍了当前问答系统和情感挖掘技术的研究工作。问答系统方面主要包括NULL问答系统的研究现状研究情况以及主流的问答系统介绍NULL问答系统的基本原理问答系统框架、流程NULL问答系统的关键技术信息抽取、模式匹配、自然语言处理和知识库技术根据本文意见挖掘算法涉及的相关人物需要,本章介绍了意见挖掘相关研究的三个方面主题识别技术、陈述定界技术和语义倾向性分析技术,并结合这些算法分析了当前比较成功的意见挖据系统。113系统综述本节将介绍领域相关意见型问答系统的设计思想,模块概要设计和系统各个模块算法利用的知识资源。31系统设计思想基于主观性句子语料库的情感问答系统是建立在文本挖掘基础之上的、以计算机为工具,利用知识及知识推理等技术求解问题的知识系统。情感问答系统的发展大大取决于情感挖掘技术、问答系统技术以及相关领域的发展水平,由于技术要求相对较高,目前还处于起步阶段。本系统借鉴了国内外问答系统中的思想和技术,融合了情感挖掘技术的主流思想,并结合自己的一些设想,设计了这个基于主观性句子语料库的情感问答系统,虽然系统还有许多需要完善的地方,但其应用前景还是很可观的。根据问答系统和意见挖掘技术的特点,以及汉语文本处理技术的需要,本系统的设计思想如下(1)良好的汉语文本处理能力语料库中的语料是以汉语句子的形式出现的,汉语句子有其独特的语言特点,对汉语句子进行分析时,分词和词性标注是其首要的工作。本文的分词和词性标注是在哈工大已有的平台上进行的,其分词的准确性已经达到了比较高的层次。造成汉语问答系统和情感挖掘处理技术发展缓慢的另一个原因是汉语文本的语义分析更为困难,尤其在主观语句处理上,语义分析模块常常达不到很高的准确率,这导致很多依赖语义分析结果的算法很难应用在实际系统中。根据实际情况,本文提出统计学结合语义距离算法,有效地减少了语义分析错误给系统带来的负面影响。(2)良好的领域文本处理能力由于意见挖掘技术的限制,本文没有把系统设计成开放性领域的问答系统,而是设计成领域相关的系统。所以,系统必须对领域文本有比较好的处理能力,而领域文本也有其处理的特点和难点。首先,领域文本含有大量领域相关词汇,对这些词汇的识别和词汇关系的分析处理是系统的重点。其次,领域词汇往往比较复杂,HTTP/INFO3DOUCOM/口碑营销12但通过词典的方式很难准确识别,如何准确识别这些形式复杂的词汇也是系统必须解决的难点。(3)良好的问题分析能力传统的问答系统主要处理用户提出的客观性问题,比如“喜玛拉雅山有多高”。而情感问答系统主要处理用户提出的主观性问题,如“本田车的发动机有什么优点”。为了正确地对用户的提问进行回答,首先要充分领会用户的提问意图。本系统主要采用基于规则的方法结合统计学方法的混合模型对主观性问题进行分析处理的试验。(4)良好的意见型文本处理语料库中的句子是从特定领域的论坛上下载的用户及专家评论信息。传统的问答系统通常利用信息检索技术,创建文档的特征记录并为之建立索引的方法来处理文档和句子。但以特征词为基础的处理方法很难应用在带有主观性色彩的评论性语句中。所以本文采用意见挖掘技术对数据库的句子进行处理,生成意见三元组并保存到答案数据库。由于意见挖掘技术尚不成熟,目前系统只能从人工建立的主观语句语料库中进行候选答案的生成。从太平洋汽车网站下载语料,经过人工整理生成语料库,其中主观语料库中包含人工收集的主观句子和客观句子。(5)良好的答案生成能力如何生成准确而又简洁的答案是问答系统最重要的一个环节。答案数据库中的句子分析结果往往含有多个陈述,问句分析结果必须准确匹配答案数据库中的结果,所以本文引入概念匹配算法,以便生成精准的匹配结果。32系统模块设计本文设计的领域相关意见型问答系统分为三个模块,包括问句处理模块,答案数据库生成模块和答案抽取模块。首先,系统从特定汽车评论网站上下载汽车评论语料,建立意见型语料库。对于用户提出的意见型疑问句,系统从问句中提取疑问情感三元组,然后利用算法模型,对问句分类,把分类结果结合情感三元组的结果输出给答案检索模块。答案数据库生成模块利用意见挖掘技术处理意见型语料库,生成答案数据库,答案数据库中的结果包含意见型句子的分析结果,结果是以情感三元组的形势存在的。最后,答案检索模块将问句处理模块的结果与答案数据库中的结果作匹配,并将匹配的结果返回给用户。13图2意见型问答系统设计流程FIGURE2DESIGNOFOPINIONQUESTION/ANSWERSYSTEM比如,用户向系统提问“飞渡有什么优点”系统分析用户的需求,知道用户希望得到有关飞渡的正面评价。然后,系统利用意见挖掘技术处理语料库中的句子。最后,答案检索模块根据问句分析模块和答案数据库中的信息生成最后的结果返回给用户。假设,语料库中含有“飞渡”相关的句子S1全新的设计,本田飞度的内饰是同级别车中的佼佼者。S2本田飞度的外观一般。S3本田飞度的动力稍有提升,换挡拨片增添驾驶乐趣。S4本田飞度的操控轻盈,利于上手。S5本田飞度的指向略微有些模糊,底盘不是很扎实。S6本田飞度的各项测试成绩都很出众。S7本田飞度的抓地力稍显不足。S8本田飞度的空间十分宽敞,尤其是后排。S9长途驾驶本田飞度会让人稍显疲惫。S10本田飞度的车内储物格很多,实用性很强。问句分析模块答案数据库生成模块意见型句子语料库答案数据库答案抽取模块QUERYCLAIM意见型疑问句答案HTTP/INFO3DOUCOM/口碑营销14S11开关车门时本田飞度的手感并不理想。S12本田飞度出色的制动性能测试给人以安全感。那么,系统最后返回给用户关于飞度正面的评价信息,即A1本田飞度的动力稍有提升,换挡拨片增添驾驶乐趣。A2本田飞度的操控轻盈,利于上手。A3本田飞度的各项测试成绩都很出众。A4本田飞度的空间十分宽敞,尤其是后排。A5本田飞度出色的制动性能测试给人以安全感。33模块设计本节将介绍系统三个模块的概要设计,对模块作简要介绍。331问句分析模块问句分析模块主要处理意见型疑问句,即用户对产品提出的疑问。例如,“桑塔纳3000的油耗怎么样”理论上,疑问句可以对疑问句意见四元组的任何一部分提问,但实际情况中,疑问句常常含有隐含的意见持有者(HOLDER)成分,陈述(CLAIM)由主题和情感组成,所以句子只能提问主题和情感部分。问句处理模块根据实际问句的情况,把意见型疑问句的提问方式分类,并利用不同算法对问句进行分类测试。最后,模块把分类结果和疑问意见四元组的部分结果整合成为输出结果,发送给答案抽取模块。332答案数据库生成模块答案数据库生成模块从特定汽车评论网站上下载汽车评论信息,建立意见型语句语料库,再利用意见挖掘算法处理语料,生成答案数据库。答案数据库的生成是系统的核心部分。系统之所以不采用现有的互联网搜索引擎作为意见型系统的信息抽取来源,主要是由于现有的搜索引擎主要是以问句中提取的关键字为基础,通过查询互联网或者是知识库中的知识,并对结果进行排序得到最终的答案。但基于关键字检索的方法并不适合应用在对情感提问的系统中。首先,互联网上缺乏主观性的评论信息,依据关键字检索出来的结果很差,例如在GOOGLE中输入“本田”,前100篇网页中基本都是客观性的信息,根据目前的技术水平,只能应用知识库来进行检索。其次,如果用户查询“本田车的优点有哪些”按照采用关键字检索的方法,15系统将按照“本田车优点”查询知识库,但句子的原意是询问对本田车褒义的评价,优点只是褒义的一个子集,即使系统采用了扩展关键字的方法也很难穷尽所有褒义的概念。意见挖掘技术把优点,喜欢,缺点等具体的词语抽象成褒义贬义的概念,更具有实用性。所以,按照意见挖掘方法来建立主观问答系统答案数据库会得到更好的效果。333答案抽取模块答案抽取模块将根据问句分析模块的结果来得到返回答案的不同形式。比如,对于问题“本田雅阁的发动机有什么好的地方”,那么,系统应该根据问句的需求返回答案数据库中主题为“本田”“雅阁”,语义倾向性为褒义的意见型句子。如果用户提出的问题是“哪种车的性价比比较好”,那么,系统应该在答案数据库中检索主题含有“性价比”,且语义倾向性为褒义的句子,并把句子在领域本题上汽车品牌对应的主题返回给用户。34系统资源建设本文设计的是基于领域的意见型问答系统,由于领域相关性和处理意见型语料的需要,系统算法的设计将需要领域知识库和情感词知识库的支持。本文将领域知识库设计成一个层次化的领域本体,将情感词知识库设计成情感词词典,词典中包含情感词的情感语义倾向性。341领域本体建设本文选择汽车领域作为研究领域,由于汽车领域含有大量领域相关词汇,并且有一些词汇有相当复杂的形式。为了使系统具有更好的识别能力,系统的三个模块都应用到了汽车领域本体(ONTOLOGY)的知识。答案抽取模块还利用到领域词语间概念的关系。所以在这里,对本文设计的领域本体(ONTOLOGY)和领域本体(ONTOLOGY)的建立作一下介绍。本文设计的汽车领域本体包含四部分知识,分别是汽车的品牌和型号、汽车的组成部件、汽车的性能指标和汽车的总体评价。汽车的品牌和型号部分包含汽车的品牌和型号词语,例如“宝马”“BMW”等;汽车的组成部件部分包含组成汽车的具体机构词语,例如“发动机”“离合器”等;汽车的性能指标部分代表汽车整体或组成部件的性能或专业指标词语,例如“油耗”“转速”等;总体评价部分主要包含一些对产品通用型的评价词语,例如“性价比”“外观”等。本文HTTP/INFO3DOUCOM/口碑营销16将领域本体设计成一个层次型的结构,如图3所示图3汽车领域本体结构FIGURE3CARONTOLOGYSTRUCTURE利用人工方式手工生成领域本体(ONTOLOGY)是不太现实的,这将耗费大量人力和时间。在汽车词典中含有大量有关汽车领域的词语,但并非每条词语都适合作为领域本体(ONTOLOGY)的一部分。比如“直列六缸发动机”,“V8发动机”,都是与发动机相关的词语,应该得到合并。所以本文采取半自动化的方法建立领域ONTOLOGY。算法利用汽车词典中的词语作为原始生成词库,如果任意两个词语含有相同的子串,则认为这个子串可能含有这两个词语的原始语义,比如短语“直列六缸发动”机和“V8发动机”中,公共子串是“发动机”,同时“发动机”也是这两个短语的原始语义。当找出所有候选公共子串之后,统计各个子串在子串集合中出现的次数,如果次数大于一定阈值,那么就提取子串将其加入到候选领域本体(ONTOLOGY)词语集合,最后再利用人工把这些子串形成的词语加入到领域本体(ONTOLOGY)对应的部分中。利用半自动的方法大大减少了人工检索的繁重工作,只利用很少的人工便可以手工生成领域本体(ONTOLOGY)了。以下是领域本体(ONTOLOGY)的部分结构。汽车的组成部件品牌和型号汽车的性能指标汽车本体发动机中控台油耗操控性外观性价比宝马大众祺瑞汽车的总体评价17图4领域本体文档样例FIGURE4CARONTOLOGYEXAMPLE342情感词典的建设情感语义倾向性分析在本文不是很重要的模块,所以本文采取建立情感字典的方法来识别情感词语的语义倾向性。无论领域有多大差别,对主题进行评价的情感词语几乎是一定的,本文利用HOWNET生成情感词词库,利用词库中的词语对句子中的情感词语的识别,并利用词库中词语的极性对情感词语进行语义倾向性分析。在本文设计的意见问答系统中,问句分析模块和答案数据库生成模块都用到了情感词词典,因此在介绍这两个模块以前,本节将首先介绍这一资源的构建过程。词语的意见语义倾向性或者极性能很好暗示句子或者篇章层次的意见语义倾向性,极性词是进行“陈述定界”以及“意见倾向分析”工作的基础。在陈述定界模块中,我们就是通过将“极性词”作为“陈述激发词”来抽取陈述的;而在意见倾向分析模块中,我们定义的各种类型的意见倾向分析核函数也都是以极性词为基础进行的。极性词含义HTTP/INFO3DOUCOM/口碑营销18心理学研究发现了词和人类意见倾向之间的可测性1。所以词语或短语对于意见挖掘来说,是个重要也是最基本的特征。在人类语言中有一类词,人们直接使用它们来表达自己的感情,或喜或厌,或褒或贬。尤其是当人们对某一事物的好坏做出评价的时候,往往通过使用这类词语来表达自己鲜明的观点。我们把带有意见倾向的词语称之为极性词(POLARITYWORD)。通常,极性词有两类意见倾向褒义(POSITIVE)和贬义(NEGATIVE)。例如,“端庄”、“豪华”、“漂亮”为褒义词;“简陋”、“污染”、“狭窄”为贬义词。本文所有极性词均来自于知网(HOWNET)。知网(HOWNET)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中有两个主要的概念“概念”与“义原”。“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。与一般的语义词典(如同义词词林或WORDNET)不同,知网并不是简单地将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述。如,“贵”这个词对应了12个概念,如表1所示。其中,义原项是对概念的详细说明。19表1HOWNET中“概念”及“义原”定义TABLE1DEFINITIONOFCONCEPTVECTORQTOPICSTRINGQSENTIMENTQTYPE表示疑问句的类型,值可以是以下五种字符串WPOS,WNEG,WBOTH,WYORN,WTOPIC之一。其中WPOS表示褒义疑问句,WNEG表示贬义疑问句,WBOTH表示问褒贬疑问句,WYORN表示问是非疑问句,WTOPIC表示问原因和问主题疑问句。QTOPIC代表疑问句的疑问主题,由于疑问句中可能含有多个主题,比如,“对本田的发动机有什么评价”这句疑问句中就含有“本田”和“发动机”两个主题,所以QTOPIC的类型为VECTOR。结构体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论