[硕士论文精品]q 基于概念图的中文语义分析系统的研究与实现_第1页
[硕士论文精品]q 基于概念图的中文语义分析系统的研究与实现_第2页
[硕士论文精品]q 基于概念图的中文语义分析系统的研究与实现_第3页
[硕士论文精品]q 基于概念图的中文语义分析系统的研究与实现_第4页
[硕士论文精品]q 基于概念图的中文语义分析系统的研究与实现_第5页
已阅读5页,还剩61页未读 继续免费阅读

[硕士论文精品]q 基于概念图的中文语义分析系统的研究与实现.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要在自然语言处理中,语义分析一直是研究的难点。它需要语法分析、知识表示等方面的技术支持,同时需要考虑到语言学、心理学、哲学等方面的理论指导。它的研究成果对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括信息检索、机器学习、文本生成和自动问答等。本文主要是在研究语义分析的基础上,建立了一个具有自动问答功能的系统。论文主要从以下几个方面作了重点研究和创新。首先,对国内外研究现状进行了分析,提出了本课题研究的对象及目的。论文着眼于对汉语真实文本进行语义分析,来模拟人类从语言中获取知识和使用知识的过程。其次,在知识表示和推理方面进行了研究。根据汉语语义的特点扩充了概念图的知识表示方法,实现了在概念图基础上的语义计算功能。并且对汉语语法关系到语义关系的转化规律进行了研究,总结了一套转化规则。再次,设计并实现了基于语义的自动问答系统,并构造了学习知识和使用知识的模型。该系统主要包括六大模块,分别为句法分析及预处理模块、语法图到概念图转化模块、概念图显示及修改模块、问题概念图的生成模块、概念图的检索模块和结果输出模块。句法分析及预处理模块主要采用了哈工大的LTP20系统,实现文本的自动切分和标注,提取出隐藏于文本中的语法结构信息。语法图到概念图转化模块是本文研究的一个重点,通过统计24种依存语法关系类型与49种语义关系之间的对应规律,本文提出了一套语法到语义的转化规则。通过这些规则就可以把所有的依存关系转化为相对应的语义关系,直接在概念图中进行使用。概念图显示及修改模块主要是为了提高系统的精度,提供了一个对初始概念图进行修正的功能。问题概念图的生成模块是针对用户的问题进行分析,把问题也转化为相对应的结构,从而可以从知识库中检索答案。最后的结果输出模块是负责把检索到的信息转化成自然语言的方式反馈给用户,这里使用了字符串和语音两种形式。HTTP/INFO3DOUCOM/口碑营销西北大学硕士学位论文最后,给出了本系统的评测结果。通过对现实文本的分析和评测,显示出本系统对知识的学习和问题的分析方面具有很好的性能,特别是通过问题扩展在召回率上具有良好的表现。关键词自然语言处理,概念图,语义分析,语法分析,相似度ABSTRACTABSTRACTSEMANTICANALYSISPLAYSANIMPORTANTROLEINMANYAREASOFNATURALLANGUAGEPROCESSING,ANDNOWITHASBECOMEAHOTSPOTANDNODUSITISSUPPORTEDBYTHEKNOWLEDGEOFSYNTAXANALYSISANDKNOWLEDGEREPRESENTATIONATTHESAMETIME,ITISNEEDTOTAKEINTOACCOUNTOFTHETHEORIESINTHEDOMAINOFLINGUISTICS,PSYCHOLOGY,PHILOSOPHYANDSOONITISHELPFULFORINFORMATIONRETRIEVAL,MACHINELEARNING,TEXTGENERATION,QUESTIONANSWERANDETCTHEMAINWORKINTHISDISSERTATIONISTOSTUDYTHESEMANTICANALYSISINCHINESEASYSTEMABOUTMACHINELEARNINGANDQUESTIONANSWERHASBEENBUILTATTHESAMETIMETHEMAINWORKANDINNOVATIVERESULTSOFTHEDISSERTATIONISORGANIZEDASFOLLOWSFIRSTLY,INTRODUCETHERESEARCHSTATUSOFTHEOVERSEASANDTHEDOMESTICALSOEXPLAINTHEOBJECTANDTHEGOALOFTHEWORKTHEDISSERTATIONMAINLYABOUTTHEANALYSISOFCHINESEREALTEXTSENSE,ANDTHESYSTEMTRYTOIMITATETHEPROCESSOFHUMANHOWTOGETTHEKNOWLEDGEANDHOWTOUSEITSECONDLY,DOSOMERESEARCHINTHEDOMAINOFKNOWLEDGEREPRESENTATIONANDREASONINGEXPANDTHETHEORYOFCONCEPTUALGRAPHSACCORDINGTOTHEFEATURESOFCHINESEBASEONTHISSTRUCTUREWECANMAKESEMANTICVALUATIONFURTHERMORE,SUMMARIZEASETOFRULESTOTRANSLATETHEGRAMMARRELATIONSINTOSEMANTICRELATIONSTHIRDLY,DESIGNANDIMPLEMENTTHESEMANTICANALYSISSYSTEMASEMANTICANALYSISMODELHASBEENGIVENINTHISSECTIONTHEREARESIXMODULESWHICHAREAPPLIEDINTHESYSTEMPRETREATMENT,TRANSLATION,DISPLAYANDMODIFY,QUESTIONGENERATION,CALCULATIONANDOUTPUTINTHEMODULEOFPRETREATMENTWEUSETHEHITRLABRESOURCESTOPARTICIPLEANDLINEOUTTHECHINESETEXTTRANSLATIONISTHECOREOFTHEWHOLESYSTEMASETOFRULESARESUMMARIZEDTOBEUSEDINTRANSLATING24GRAMMARRELATIONSINTO49SEMANTICRELATIONSTHERESULTSCALLBEUSEDINGENERATINGCONCEPTUALGRAPHSINTHEDISPLAYANDMODIFYMODULEWECANCORRECTTHEMISTAKESOFTHECONCEPTUALGRAPHS。IIIHTTP/INFO3DOUCOM/口碑营销西北大学硕士学位论文QUESTIONGENERATIONISTOTRANSLATETHEQUESTIONSINTOTHESAMESTRUCTUREONWHICHWECANSEARCHTHEANSWERSOUTPUTISTOTRANSLATETHERESULTCONCEPTUALGRAPHSINTONATURALLANGUAGEWEUSETEXTANDVOICETOOUTPUTTHERESULTLASTLY,GIVEANEVALUATIONOFOURSEMANTICANALYSISSYSTEMTHEEXPERIMENTRESULTSHAVEBEENPROVEDTHATTHEMODELISEFFECTIVEINSEMANTICANALYSISANDKNOWLEDGELEARNINGITMAKEABETTERRECALLTHANOTHERSYSTEMSKEYWORDSNATURALLANGUAGEPROCESSINGNLP,CONCEPTUALGRAPHS,SEMANTICANALYSIS,SYNTAXANALYSIS,SIMILARITYIV西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西J匕大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到中国学位论文全文数据库或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名童J丝指导教师签名至匿盘力妒孑年月冯日2006年O月A牛日西北大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名妄LJ兽。萝年F月工岁日HTTP/INFO3DOUCOM/口碑营销第一章绪论11概述第一章绪论弟一早瑁了匕自然语言理解NATURALLANGUAGEUNDERSTANDING,简称NLU研究如何让计算机理解和运用人类的自然语言,使计算机懂得自然语言的含义以及在理解的基础上进行人机交流。自然语言理解处理的对象是自然语言。语言是自然界、社会和人的思维之间的特殊存在物,是思维和客观世界之间互系互动的桥梁,具有主观性和客观性。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一。自然语言处理使用的是计算机技术。即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行量化的研究,并提供可供人与计算机之间能共同使用的语言描写。其过程是通过建立形式化的数学模型分析、处理自然语言,并在计算机上用程序实现分析和处理的过程,从而达到以机器模拟人的全部或者部分语言能力的目的【21。由于工具的特殊性,在自然语言自动处理过程中,实际的自然语言被抽象成能够供计算机使用的计算模型,因此要真正理解自然语言自动处理的问题,并找出解决的办法,还需要从语言处理建模的角度来探讨这些问题【3J。如何构建一种模型准确地表示语言的语义信息,并在此基础上模拟人类的思维活动,是自然语言处理领域一个基础性的难题。12课题的研究背景及其意义人类历史上用语言文字形式记载和流传的知识占知识总量的80以上。据统计,目前计算机的应用范围,用于数学计算的仅占10,用于过程控制的不到西北大学硕士学位论文5,其余85以上都是用于语言文字和信息处理的,并且随着计算机的普及和性能的提高、价格的降低,这一趋势还在增大。因此汉语自然语言处理已成为一个引人注目的重要学科。自然语言理解就是如何让计算机正确处理人类的语言,并据此做出人们期待的各种正确响应【4】O自然语言是信息的主要载体,是人类交流的主要工具,人类使用自然语言进行交流的过程就是信息传递的过程。自然语言的理解更应该关注的是交互对象所要表达的深层次的意思,即语义知识。但是现在对汉语自然语言理解方面的研究,主要集中在对语言本身复杂性的探讨。在语言学家看来,自然语言处理要解决的问题是如何重构一个语言和如何判断一个句子是否属于某个语言【51,也就是解决“怎样说”的问题,而面向信息处理领域的自然语言处理则更侧重解决“说了什么”的问题,即语义方面的问题。目前比较成熟和系统的理论体系并较好地付诸予实践的大多是在语法方面,而汉语自然语言理解的研究仅仅停留在语法层次是远远不够的。语言交流的真正目的是语义交流,使交流的双方在概念的层次上达到一致。为了让计算机模拟实现人类语言交流的过程,必须解决人脑存储的网状结构和自然语言的线性结构的矛盾。关联产生意义,只有在多维的模型下,才能模拟出复杂的世界知识信息。具有线性特征的自然语言,只有在转化成相对应的网状结构,才具有真正的意义。所以本文的主要研究工作就是如何利用概念图的理论进行网状的存储信息和线性的语言信息之间的相互转化,以及在转化成网状信息后如何进行匹配和推理。语义理解在自然语言处理的许多应用领域中具有重要的理论和实践意义。它的研究成果可以直接应用于人机交互HCI、机器学习MACHINELEARNING、文本生成TEXTGENERATION等方面,对机器翻译MACHINETRANSLATION、信息检索INFORMATIONRETRIEVAL、超文本导航HYPERTEXTNAVIGATION、语音合成SPEECHSYNTHESIS、自动校对SPELLINGCORRECTION、自动文摘AUTOMATICTEXTSUMMARIZATION和自动问答QUESTIONANSWER等领域也具有重要的指导价值。2HTTP/INFO3DOUCOM/口碑营销第一章绪论13国内外研究现状自然语言理解领域的研究最早可以追溯到第二次世界大战结束时那个时代,由于刚刚发明的计算机能够进行符号处理,使得自然语言理解和处理成为可能。当时人们从破译军事密码的工作中得到启示,以为不同的语言只不过是对“同一语义”的不同编码而已。于是想当然地认为,采用译码技术“破译“理解这些“码”语言应该不成问题。结果却大大出乎人们的意料,自然语言自动处理要比破译密电码困难得多。大多数的研究者主要从语言本身的复杂性来探讨这个问题,寻找到了许多原因,其中包括存在与各级语言单位字、词、句、篇章等局部歧义性LOCALAMBIGUITY,上下文的影响CONTEXTUALDEPENDENCY,语法与语义的相互依赖关系,语言环境,知识背景等等。出现了适宜句法分析的扩充转移网络ATN,AUGMENTEDTRANSITIONNETWORK、情景语义学SITUATIONSEMANTICS、言谈语言学DISCOURSELINGUISTICS和语用学PRAGMATICS等研究热点。这些工作主要还是停留在对语言本身的分析上,通过对一种语言的语用信息的统计,总结到一些使用规律。它没有办法反应出语言使用者的思维模式和过程,无法产生符合人类认识领域的创造性思维活动。于是人们开始从事语义方面的研究,以更准确和形象的模拟人脑的思维过程。现在许多知识表示语言可以用来表示语义,如一阶谓词逻辑、概念图、KIF61、FLOGIC【7】、描述逻辑等。另外还有CYE公司的CYCL,它是一个商业领域的知识表示语言。在语义网上使用的知识表示语言是W3C标准的RDFS和OWL,则都是具有XML语法的知识表示语言。在理论方面,德国学者JTRIER在20世纪30年代首次提出了研究语言词汇的语义结构理论语义场SEMANTICFIELD理论,19世纪50年代美国人类学家提出一种义素分析方法。在70年代随着认知科学的兴盛,研究者又相继提出了语义网络SEMANTICNETWORK、概念依存理论CONCEPTUALDEPENDENCYTHEORY、格语法CASEGRAMMAR等语义表示理论。到80年代一批新的理论脱颖而出,具有代表性的有词汇功能语法LFC,LEXICALFUNCTIONALGRAMMAR、功能合一语法FUG,西北大学硕士学位论文FUNCTIONALUNIFICATIONGRAMMAR和广义短语结构语法GPSG,GENERALIZEDPHRASESTRUCTUREGRAMMAR等。依托于语法和语义理论研究,研究者们开发了一大批著名的系统,如LUNAR系统、SHRDLU8】系统、MARGIE系统、SAM系统、PAM系统等。这些系统绝大多数是程序演绎系统,大量地进行语义、语境以至语用的分析,而WORDNETT9。10】常被用于消歧和机器翻译等自然语言的处理。在国内,汉语自然语言理解的研究与国外相比起步较晚,但经过近20年的发展,汉语自然语言理解技术获得了长足的进步,取得了很多重要的成果。其中在汉语语料的标注和利用带标记的语料来自动获取语言知识等领域取得了不少成果。国内有影响力的中文语料库、词语语料库、句法语料库等【11】北京大学计算语言学研究所与富士通公司FUJITSU合作,加工2700万字的人民日报语料库、1998年清华大学建立的L亿汉字的语料库、北京邮电大学在美国LDC的汉语句法树库的基础上进行自动获取语法规则的研究、香港语言资讯科学研究中心建立了LIVACLINGUISTICVARIETYINCHINESECOMMUNITIES语料库、台湾建立了平衡语料库SINICACORPUS和树图语料库SINICATREEBANK。近来与国际发展相适应,并针对中文信息处理的特点,采用统计和规则相结合的技术,中科院计算所研制出汉语词法分析系统ICTCLA,清华大学的黄昌宁先生等人设计出汉语句法分析模型CRS。另外,国内学者开始重视语义和知识表示,并有意识的抛开英语自然语言理解的研究模式,寻找适合汉语自身的方法。黄曾阳先生的概念层次网络HNC,HIERARCHICALNETWORKOFCONCEPTS理论T12】和董振东先生的知网HOWNET1131、东北大学和北京大学对WORDNET的汉化等,都在努力探讨适用于汉语自然语言处理的新方法。14主要研究方法现在流行的自然语言处理模型,主要有分析模型和概率统计模型。分析模型的代表人物是语言学家NCHOMSKY,他提出了生成句法GENERATIVEGRAMMAR的理论【141。他认为语言描写和分析的目的在于建立一种理论,研究人的语言生4HTTP/INFO3DOUCOM/口碑营销第一章绪论成能力,即怎样用有限的成分和规则生成无限的可接受的、合乎文法的句子ACCEPTABELGRAMMATICALSENTENCES。这个理论表明在自然语言的各级语言单位中都存在一定的内在规律性,因此依据这种规律性,就可以为语言处理建立一种计算模型。一切理性分析的语言计算模型ANALYTICALMODEL都是建立在这种理论假设之上的。通过对输入集加以适当的限制,理性分析模型对于解决较小规模的自然语言处理问题具有一定的效果。可是,由于真实语言的输入集是无限的,这种通过有限规则集,特别是少量规则集的建模方法,很难满足自然语言处理的全部需要。因此语言的理性分析模型面对大规模的真实文本时,都难以通过“可扩展性”SCALABILITY的考验。这也就是理性分析模型的局限性所在。与CHOMSKY理论相反,行为心理学家BESKINNERTL5】提出了另一种语言理论。这个理论认为人类语言能力的获得来自于学习,语言是通过不断实践而“约定成俗“的结果。这就是自然语言形成的经验主义解释。概率统计模型STATISTICALMODEL属于经验主义的计算模型。概率统计建模采用从数据中学习的方法,至今取得很大的成功,目前已成为自然语言处理中占统治地位的建模方法。概率模型的成功其实更应该归功于网络时代信息的数字化和网络化,正因为这些变化,为统计模型带来了取之不尽、用之不竭的数据资源。但是概率统计模型也存在许多缺陷。首先,语言的计算模型FIO是不连续映射,根据统计学习理论【16】不难知道,通过学习与训练获取不连续映射的困难很大,通常存在学习不收敛、学习误差大、推广能力弱等诸多问题。因此基于概率模型的大规模文本处理的结果准确度通常受到一定的限制。其次,概率统计方法完全抛弃了词语在句子中的语义信息,直接或者间接地把词语在上下文中出现的频度作为衡量的标准。这将无法接受许多真实文本中“合理但不合情“的语句,同时在句式推广、语义判断、语句生成等方面显得束手无策。最后,虽然网络上的文本数据生语料几乎是无限的,但带有正确层次结构标注的数据依然匮乏,统计模型仍然面临严重的“数据稀疏”问题。因此单纯的概率模型也不能全部解决自然语言处理的自动化问题。西北大学硕士学位论文15本文研究范围及研究观点无论是理性的分析模型,还是经验的概率模型都不能解决语言自动处理的全部问题,特别是大规模的真实文本。其原因是因为人类对语言的应用建立在理解的基础之上,并不是简单的根据句法规则罗列词汇,也不是根据语料资源获得规律。人类语言交流具有目的性,即交流信息,言者把自己掌握的信息,通过语言传递给听者,使两者获得尽可能相同的认识。语言的使用是为了交流语义,所以自然语言处理研究的目的也应该是交流语义。语义的表达方式和推理能力的研究是本文的重点。但是自然语言处理的直接研究对象还是自然语言。语义决定语法,语法反映语义。所以首先要解决的问题就是根据自然语言的使用规律即语法信息,得到语言使用者的表达意向。怎样建立自然语言序列和结构化的语义信息之间的转化,也是本文的一个研究内容。基于以上原因,本文参考概念依存理论,充分考虑语义信息,采用概念图的技术,来模拟人类从语言中获取知识的过程,把中文文本信息转化为网状存储结构,并在此基础上实现基本的推理功能,最后通过对概念图的线性化得到自然语言形式的表达方式。主要使用哈工大的IRLAB资源,利用LTP20系统可以实现文本的自动切分和标注,在句法分析基础上结合知网2004的世界知识信息定义来确定和计算概念关系,得出语义信息。16本文的内容和组织论文主要包括六章内容。第一章是本课题的研究背景及其意义、国内外研究现状和主要的研究方法,确定了研究重点是用概念图进行浅层语义分析。6HTTP/INFO3DOUCOM/口碑营销第一章绪论第二章对知识的存储和表示方法研究,总结了概念图技术在知识表示中的优势。第三章对汉语的语法和语义特点进行了分析,并阐述了本文中语法分析和语义分析中所采用的方法和使用的资源。第四章针对文中提出的核心算法进行了剖析。详细分析了语法与语义之间的转化算法和概念图检索及相似度计算算法。第五章详细分析了整个系统的实现。给出了整个系统的详细设计,架构了一个语义分析系统模型,并对各个模块的实现原理进行了说明和分析。最后是对系统的评测和对评测结果的分析。第六章对全文进行了总结。概述了系统的局限与改进,同时给出了进一步的研究工作和展望。7西北大学硕士学位论文第二章知识的存储和表示方法研究人类的语言交流就是获取和使用知识的过程。怎样把这些知识抽象出来,用适合计算机存储的方式进行表示,是用计算机进行自然语言处理的前提。只有解决了知识在计算机内的存储和表示问题,自然语言处理才能成为可能。21模型分析自然语言理解所要研究的问题,就是人类使用自然语言进行交流的过程。若想研究这个问题,首先要了解信息在人脑中是如何存储的。经脑科学家多年研究,已发现大脑由众多神经元组成。并且这些神经元由突触连接形成一个复杂的网络系统,由此来完成记忆、联想、判断和推理等思维活动。大脑的生理结构特性,决定了信息在人脑中的存储结构既不是线性的,也不是平面的,而应该是网状的。但是用于语言交流的工具都是线性的,文字在空间上是线性的,语音在时间上是线性的。这就和人脑中信息的存储方式不一致,必须存在一个转换过程。所以人类通过语言进行信息交流的过程可以总结为以下几个步骤图21可以直观地描述这个过程1首先选取一部分存在于言者脑中的网状信息,把它线性化为语言信息。2通过语音文字等形式传递给听者。3听者把接收到的线性信息还原成网状结构,和自身存储的信息相匹配,并且把新增信息填补到自己的网状结构中,实现听者存储映像和言者存储映像的一致。8HTTP/INFO3DOUCOM/口碑营销第二章知识的存储和表示方法研究0争今天明天图21语言交流过程蛰。Q蛰V谚暴这里要申明一点的是,上文中提到的网状信息并不是直接对应于现实世界,而是介于语言和现实世界中间的一个认知构建COGNITIVECONSTRUCTION层次,它将语言表达EXPRESSIONS和现实世界REALITY联系起来。在这个认知中介层,人们对现实世界形成各种概念和概念结构【17】。只有实现了这三个步骤,计算机才能够真正地在语义的层次理解自然语言,跟人类进行直接的语言交流。人类运用自然语言进行交流的前提是双方的世界知识信息存在一定的重合,在共识之上的交流才是有效和有意义的。我们用计算机来模拟这个过程,应该再现知识在人脑中的存储形式。知识的表示有很多种方法,本文中采用的是概念图的表示方法。22概念图知识表示方法研究概念图CONCEPTUALGRAPH是由JOHNESOWA在他1984年出版的论著CONCEPTUALSTRUCTURESINFORMATIONPROCESSINGINMINDANDMACHINEITSL中提出的一种基于语言学、心理学、哲学为一体的知识表示工具。其出现后引起了世界各国计算机科学工作者的重视,并逐渐应用到人工智能领域的理论研究及应用各个方面。其中较多的是用于自然语言处理、知识获取、规划及推理等方面。概念图是一种具有一阶谓词逻辑的完整表达能力的图形化表示。它不但能够9豫西北大学硕士学位论文表示传统的知识表示方法所能表示的知识,而且具有形式直观、表达能力强、数学基础严密、语言功能强、推理简单,能够更好的表示背景知识并具有继承特性等特点。概念图同CHARLESSPEIRCEI僦EXISTENTIALGRAPH19】以及语义网络SEMANTICNETWORK20】有着非常密切的联系,但又有所区别。221概念图的组成一张概念图通常由一组分别称作概念CONCEPT和概念关系CONCEPTUALRELATION,简称RELATION的节点之间以有向弧相连而构成,如图22所示。图22概念图示例“一件由NIKE公司设计的红色T恤”概念图是有限的、连通的、有向图,其特点如下。1该图两类节点为概念和关系。2每个关系有一个或多个弧,每个弧必须连接到概念。3。若一个关系有N个弧则称为N元关系。4一个概念可以形成一个概念图,但每个关系必须连接到其它概念。它的形式化定义为CGCONCEPT,RELATION,F,其中CONCEPTC1,C2CM是概念节点CONCEPTNODE的集合;RELATIONRL,R2M是关系节点RELATIONNODE的集合;FCONCEPTXRELATIONURELATIONCONCEPT是弧的集合。概念图中概念节点画为方框BOX表示问题领域中的一个具体的或抽象的概念。每个概念节点都由两部分构成一个类型标签TYPELABEL,比如图中的“TSHIRT”、“RED“、“CORPORATION。下文有时也简称为类型TYPE,以及一个一般标识GENERICMARK“或者个体标识INDIVIDUALMARK,比如图中的“NIKE”来10HTTP/INFO3DOUCOM/口碑营销第二章知识的存储和表示方法研究作为概念的指代REFERENT。在概念图中,个体标识被记为一个单独标记,即一系列的数字如LTSHIRT,809。带有个体标识的概念代表的是一个表示特定个体的概念;而带有一般标识的概念则表示一个一般性的概念,它是可变的用以代表该概念类型下的任何一个个体。在不引起歧义的前提下,一般标识在图中可以省略。概念也可以用一对方括号括起来而写成线性文本的形式,如RED、CORPORATIONNIKE等。概念间关系节点在图中用圆CIRCLE,有时画成椭圆来表示,弧的表示是用箭头把概念节点和关系节点相连,关联有单值和多值关联。每个关系节点只有一个类型标签ON图中的“COLOR”、“DESIGNER“等。于是图中所示的概念图也可以写成【REDDESIGNER一【CO印ORATIONNIKE】DESIGNER应该是DESIGNER建立这样的概念图结构,概念和关系必须要满足以下约束概念是离散的单元;概念间的关系不是扩散的,是有序结构;关系都是离散的,耦合的形式需要进行分解。如果与某个概念节点相连的弧的条数超过2,即存在多元关系时候,那么就无法在一行中写出该概念图的线性形式。例如AGIRL,SUE,ISEATINGPIEFAST其概念图表示为图23。图23概念图示例“一个叫做苏的小女孩快速地吃派”这样的一种结构怎样转化成计算机能表示的形式,SOWA提出的解决方法是倘若在不考虑弧的箭头方向的情况下,该概念图可看作一棵树。选取有最多数量的弧连接到的那个概念作为图的首节点HEAD,然后逐行写出它所连出的每一条分支。则图23就可以写成树的形式如下。西北人学硕士学位论文【EAT一AGENO一GIRLSUE】MANR一FAST】OBJ一PIE】为了显示概念图的可扩展性,分支上也允许定义子图的首节点,并展开新的分支。但是,当该概念图不是一棵树即存在环路时,我们就需要使用变量“术X”、“木Y”等作为一般标识,来指示为了打破环路而分别出现在不同分支行上的同一概念。上述过程就是概念图的线性化,通过线性化可以把概念图转化为树的形式,以降低图匹配的复杂度。本文中的概念图相似度计算和最后的文本生成算法都参考了这个理论。有向弧的箭头方向按如下所示的对子图的读法来决定,即对于CONCEPTL一RELATION一CONCEPT2】我们的理解为“THERELATIONOFACONCEPTLISACONCEPT2”。也就是说,图22可以直译为“THECOLOROFATSHIRTISACRIMSON,ANDTHEDESIGNEROFTHESAMETSHIRTISNIKETHATINSTANTIATESACORPORATION”。222概念图中概念和关系的类型层次能描述客观世界或者可能的情况的有意义的概念图,结果经验为真。这类概念图称为规范图。规范图由以下四个部分组成。1一个层次结构T。2一系列的个体标识集I。3一个一致关联将T中的标识关联到个体标识集I中。4一个有限的概念图集B,叫做规范基础,是由全部类型标识T和相关事物雠”或I中的个体标识组成。在层次结构T中,概念的类型标签和关系的类型标签分别被组织成两个不12HTTP/INFO3DOUCOM/口碑营销第二章知识的存储和表示方法研究同的类型层次TYPEHIERARCHY。每一个都是定义在类型标签集合上的偏序关系PARTIALORDERING,用于表示类型标签之间的继承INHERITANCE,或称包含SUBSUMPTION关系。记偏序关系为,又设S、T、U为类型标签它们要么同为概念,要么同为关系,则有以下定义1如果ST,那么称S是T的子集SUBTYPE,或S包含于ISSUBSUMEDBYT。而T是S的父类SUPERTYPE,或T包含SUBSUMESS,也可以记作TS。2如果S既是T的子类,又是U的子类即ST且SU,那么称S是T和U的公共子类COMMONSUBTYPE。3如果S既是T的父类,又是U的父类即ST且SU,那么称S是T和U的公共父类COMMONSUPERTYPE。4在类型层次中有两个最基本的类型标签顶层类型UNIVERSALTYPET和底层类型ABSURDTYPEA_,并且有对VT,上TT在原来的基础上改的综合以上定义我们可以看出,类型层次实际上构成了一个格LATTICE,称为类型格TYPELATTICE。与概念的类型层次密切相关的一组定义是概念的泛化GENERALIZATION与特化SPECIALIZATION。将一个概念的类型标签替换为其在概念类型层次上的一个父类,或者将概念的个体标识移除,就完成了一次泛化。反之,将概念的类型标签替换为其子类,或者为概念添加个体标识,则完成了一次特化。规范形成规则就是特化规则,泛化是其逆过程。特化不保证正确性,泛化保证正确性。223概念图与逻辑演算概念图支持更直接的到自然语言的映像,概念图拥有对经典逻辑和其它不能用一阶谓词逻辑表示的逻辑的形式扩展。对一切线性形式的理论都可以转化成图形式;同时概念图可以与其它逻辑理论愉快共存。每张概念图都是一条断言ASSERTION通过为每个一般标识绑定一个存在量词EXISTENTIALQUANTIFIER,把每个概念表示成以其类型为名字、以一般个体标识为参数其中,一般标识对应为变元VARIABLE,个体标识对应于常元CONSTANT的一西北大学硕士学位论文元谓词,在把每条概念间关系表示成以其类型为名字、以所连概念的一般个体标识为各个参数的N元谓词,最后以所有先前定义的存在量词为前缀QUANTIFIERPREFIX、以所有谓词的合取CONJUNCTION为公式体BODY,就可以把一张概念图映射为一阶谓词逻辑中的一条断言。例如,图22对应的逻辑公式为JX了YREDX八COLORY,X八TSHIRTY八DESIGNERY,NIKE八CORPORATIONNIKE从这里也可以看出,概念图的表示通常要比逻辑公式更为简洁,这是因为图中的有向弧比变元更能直观地显示元素之间的关联。在概念图的表示法中,两张图的合取CO玛UNCTION就是简单地“把它们画在同一张纸上”。非NEGATION的表示则是通过一个“1”符号将否定语境NEGATIVECONTEXT同它周围的断言划分开来。所谓语境CONTEXT就是指一个类型为命题PROPOSITION的概念P,它的指代是由若干概念图构成的一个非空集合,此时该集合中的每个概念图都被称作出现在P的语境中。因为语境本身还是一个概念,所以允许语境的嵌套。在图形化和线性化时,语境采用与概念相同的记号,即分别记作矩形和一对方括号。由于所有的布尔运算都可以规约到非和合取,因此可以利用嵌套的否定语境来表示它们。下图分别显示了图P和Q在肯定语境、否定语境、析取DISJUNCTION和蕴含IMPLICATION下的表示。ABCPAQPAQPVQD1一一图24概念图逻辑运算的图示A肯定语境B否定语境C析取D蕴含14固固HTTP/INFO3DOUCOM/口碑营销第二章知识的存储和表示方法研究互指链接COREFERENCELINK用来表示同一个概念同时出现在不同的语境中。互指链接在概念图中以虚线表示。因为互指链接所连的节点实际上代表的是同一个概念,所以多条互指链接也可以串接起来,构成一条链路,叫做“等价链”。含有一个或多个等价链的概念图称为复杂图,没有等价线的图称为简单图。如果一个概念C在这样一条等价链上,并且链上出现的所有其他概念都和C处在同一个语境或者在被C的语境所包含的某个语境中,那么概念C被称作是支配的DOMINATION,其它概念即为被支配的DOMINATED。如果C支配所有支配它的概念,那么成C为主概念DOMINANTCONCEPT。对同一等价线G中的概念A支配概念B,需满足G中有一条路径C1,C2,C3,C。,铲CL,BCN对每一个I有CI和CIL出现在同一语境中,或者CI支配CIL。224概念图的优势首先,概念图是建立在介于语言和现实世界之间的一个认知层次上,摆脱了具体某种语言对思维和推理模式的影响。这就符合认知心理学PIAGET的理论,他通过考察语言在儿童认知能力发展中的作用,提出自己的观点,即语言不能包括所有的认知能力,而且它也不能决定认知能力的发展,只能反应认知能力的发展12。这样就能解释为何聋哑人和正常人的认知能力没有明显的不同。其次,概念图具有描述抽象概念的能力。因为对每个感知对象P,有一个概念C叫做P的解释抽象,P叫做C的映射。有映像的概念叫做具体概念,但是有些概念没有映像叫做抽象概念。这样不但可以利用概念图解释具体的概念,还可以利用其产生新的从未见过的图像。这就使得概念图不但是描述现象的工具,同时也具有推理、联想和可能产生创新的能力。第三,概念图的理念是结构就是意义STRUCTUREISMEANING。其结构数学基础严密,可以有效的避免歧义的现象,防止语言处理过程中因采用的技术原因带来增加错误的可能。图的形式更利于处理汉语中复杂的语法现象,通过意义上的理解建立严格的概念图结构避免歧义的产生,从而减少信息处理中消歧的工作量。第四,概念图采用的是基于图的正向推理策略。但是用概念图表示的知识规西北大学硕士学位论文则的匹配不同于传统的基于规则的系统。它是一个不完全的匹配,涉及到对概念图的处理。事实与规则的匹配问题,实际上是概念图的匹配问题。两个概念图的匹配分为通过投影匹配和最大连接匹配两种情况。这两种匹配算法都是不完全匹配,通过这类匹配,可以增加概念图的推理和预测能力,同时可以使知识的复用性获得很大提高。最后,概念图的理论在心理学上受到奥苏贝尔的有意义学习理论的支持,他的有意义的学习、同化和概念深度的提出能够很好的解释人类的认识学习过程,并能利用和反映到概念图中。认知主义学习理论和建构主义学习理论肯定了概念图的结构上的合理性和优越性。泛脑网络学说认为,人的大脑可从宏观到微观分为回路、神经元群、神经元及分子序列四级层次的网络。人的学习、记忆和思维正是通过这样一个网络系统来进行的。概念图的结构特征充分地符合了这一人脑的生理机制。23本章小结子日“工欲善其事,必先利其器“,工具和方法的选择对事情的成败将起到决定性的影响。本章引入了本文中使用的知识表示方法概念图,分析了概念图的表示形式、表达能力、推理功能等方面的特点。这是设计系统的理论基础,将在后面的章节中进行具体使用和编程实现。HTTP/INFO3DOUCOM/口碑营销第三章语法与语义的转化研究第三章语法与语义的转化研究本文处理的对象是汉语,所以对汉语的特点必须做一个细致的分析。本章将对汉语的语法特点和语义特点进行研究,目的是找出汉语的使用规律和所表达的语义的关联关系,以及汉语各种语义之间的转化规律。31汉语特点分析虽然世界知识在人脑中的存储是复杂的结构,但是我们处理的直接对象是自然语言,这是一个线性的序列。这个序列是由字符按照一定的语法规则组合而成,我们要实现语义上的理解和分析,必须先解决语法和语义之间的转化问题。本文研究的语言是汉语,以后的语法分析和语义分析都是针对现代汉语进行的。汉语是不同于印欧语的一种独特的语言【221。首先,汉语是一种孤立语,同一词类可以担任多种句法成分且没有形态变化。其次,汉语句子的构造原则与短语的构造原则基本一致,短语的组成成分又可以是各种短语。汉语表现这种普遍递归性的特殊之处在于,短语担任不同的句法成分时,形态不发生任何变化;再次,汉语的语序相当灵活。汉语的这些特点,给汉语分析造成了很大的困难。然而汉语的以下特点使得汉语比印欧语在语义方面具有更大的优势。汉语的组合特点,在汉语中字同字组合,词同词组合,词同词组组合,以及词组同词组组合,方式和手段都是二致的,组合起来产生的关系是一致的,从字到词,到词组,到句子,就是一个组合过程,而组合的原理是“一以贯之”。各级的组合,虽然小异,不失大同【231。汉语是一种“义合“的语言。字同字、词同词、词同词组以及词组同词组等各级组合,只要意义相合就可以组合,这就是汉语生命力之所在。几千个汉字的不同组合,使得汉语中新词和新概念层出不穷,很好地适应了当今信息革命和科技发展的需要【24J。西北大学硕士学位论文32汉语语法结构分析321汉语语法特点索绪尔强调语言符号能指与所指之间联系的任意性,通过汉语语法理据性的研究发现,不能过分强调这种联系的任意性。如果过分强调能指与所指联系的任意性,就否定了语言的规律性,就否定了语言研究的必要性和可能性,也就否定了语言学本身。语言学的任务之一是发现语法理据性即非任意性,发现结构和语义、表达的联系。语法的基础是语义,语义成分不同造成词的语法功能差异【25】。这就是语法分析的指导意义。语法分析的主要任务有两个【261。首先是确定输入的结构,一般来说,语法分析包括对句子中词的处理,重点在于被句子中的中心词,以及动词的主语、宾语以及它们的修饰词或短语修饰等等。通常可以画成语法树的方式描绘,称为分析树。其次是语法结构的规范化,如果我们把大量的输入结构映射成较少固定结构,那么在语义分析的过程就可以在这个基础上进行,减少了复杂度。对现代汉语语法研究产生重大影响的国外当代语法分析理论主要有【27】语义特征分析理论、配价分析理论、语义格分析理论、论元结构分析理论、空语类分析理论、约束理论、轻动词分析理论、中心词分析理论,以及认知分析理论、篇章分析理论、韵律语法分析理论等。这种种分析理论,都各自在某个方面对现代汉语某些语法想象作出了其它分析理论所不能作出的较好的解释,并帮助我们进一步加深了对汉语语法的研究。本文中采用以朱德熙先生为代表的结构主义也称描写语言学的一套分析描写的理论方法。在语法答问28L一书中,朱德熙先生认为汉语语法特点关系全局的只有两条首先是汉语词类跟句法成分之间不存在简单的一一对应关系;其次是汉语句子的构造原则跟词组的构造原则基本上是一致的。在这两条特点之下,每条都概括了一些具体的特点,如动词和形容词可以作主语、名词可以作定语、形容词可以作谓语和状语、主谓词组和主谓旬语法构造关系相同等等。更进一步,对不HTTP/INFO3DOUCOM/口碑营销第三章语法与语义的转化研究同的句型,其能够表达的语义类型也是所有语义关系的一个子集,即一种句型主要能够表达几种固定的语义关系,在这些规则上再加以约束,就可以准确的确定句子的语义类型。语义决定语法,语法反映语义。语法现象是对人们使用自然语言的过程中的规律的总结,是人们为表达语义所采用的组织语言的方法。通过统计我们可以发现,语法和语义之间存在固定的多对多映射关系,即语法可以为语义分析提供一定的支持信息。而且现在国内的学者们对语法分析的研究相对成熟,本文中采用的哈工大IRLAB资源采用的就是基于依存语法的语法分析技术。利用其LTP20系统可以实现文本的自动切分和标注,并能够提供句法分析功能。这为以后的语义处理提供了很大的帮助。322本文语法分析方法本文所做的研究在语法分析方面,引用了哈工大的IRLAB资源,利用LTP20系统实现文本的自动切分和标注,并能够提供句法分析功能。目前该系统在开放测试下准确率能够达到9189,封闭测试准确率能够达到9867。该系统能够对经过分词和词性标注后的句子进行语义消歧,并在每个词后面标注上相应的语义号【301。在词性标注方面,该系统采用863的标注体系,以下是其部分符号的解释。A形容词B区别词C连词D副词E叹词G语素字H前接成分I习用语19西北大学硕士学位论文在句法分析方面,该系统采用依存语法理论。依存句法是由法国语言学家LTESNIERE在其著作结构句法基础1959QB提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者【3L】。句子成份间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇合成词、短语、单句、复合直到句群的各级能够独立运用的语言单位之中,这一特点称之为依存关系的普遍性F321。依存句法分析可以反映出句子中各成分之间的语义修饰关系,它可以获得长距离的搭配,并跟句子成分的物理位置无关。二十世纪七十年代,ROBINSON提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公型33】1一个句子中只有一个成分是独立的。2其它成分直接依存于某一成分。3任何一个成分都不能依存于两个或两个以上的成分。4如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存处于A和B之间的某一成分。5中心成分左右两边的其它成分相互不发生关系。该系统的标注规范有定中关系ATTATTRIBUTE、数量关系QUNQUANTITY、并列关系COOCOORDINATE、同位关系APPAPPOSITIVE、前附加关系LAD1EFTADJUNCO、后附加关系RADRIGHTADJUNC0、动宾关系VOBVERBOBJECT、介宾关系POBPREPOSITIONOBJECO、主谓关系SBVSUBJECTVERB等共24种依存关系类型。另外,还提供了树库的观察工具,以便于直观地观察句子的依存树。该系统的词性标注和句法分析能力,可以为以后的语义分析提供良好的支持功能。HTTP/INFO3DOUCOM/口碑营销第三章语法与语义的转化研究33汉语语义结构分析331汉语语义特点语义分析,笼统地讲是对语言单位的意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论