1006大设计翻译版_第1页
1006大设计翻译版_第2页
1006大设计翻译版_第3页
1006大设计翻译版_第4页
1006大设计翻译版_第5页
免费预览已结束,剩余53页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

GeneratingChineseriddleAuthor:TanChuanqiTutor:LvRiddleisregardedasoneofthemostuniqueandvitalelementsintraditionalChineseculture.Byusingcomputertechnologytogeneratetheriddleautomatically,ithelpstheindividualswithoutspecializedriddleknowledgetocreateriddles,thustogetmorepeopleinvolvedinriddlerelatedactivities,leadingtowiderpromotionoftraditionalChineseculture.ThisthesistakestheriddlesrelatedtothedeconstructionofChinesecharactersasthemajorresearcharea,whichemphasizesthecombinationofthewrittenformandthematchofcomponentsoftheChinesecharacter,byevaluatinganddescribingthevariouscomponentsfromtheshape,functionandmeaning.Thus,thisthesiswillfocusonthreemainpointsasByfirstlythisarticlepresentstheysisoftherelevantknowledgeoftheChineseriddle,fromthewayofriddles’constitutionaswellasthecommondescriptionoftheseparationofthecomponents.Thispaperfiguresoutthattheriddlegenerationistheprocessofseparating,explaining,andre-constructing.Thenextstepistosetuptherelevantcorpus.Bycrawlingriddlecorpus,andcombiningthemethodsofStatisticalNaturalLanguageProcessingandmanualannotation,thisthesispointsoutthemethodofextractingalignmentsandrulesiteratively,successfullyestablishedthecorpusofalignmentsandrules.Furthermore,thisthesisemploysthetemplate-basedmethodandreplacement-basedmethodforriddlegeneration.Theapproachconsistingofthecollaborationof“rankingaftergeneration”and“case-basedreasoning”isputforwardtogeneratingtheChineseriddles.Specifically,TheRankingSupportVectorMachineandlanguagemodelisusedtotraintherankingfunction,andcontributestojudgingthegeneratedriddles.TheexperimentalresultsillustratetheeffectivenessoftheproposedmethodforgeneratingChinesecharacterriddles.Inaddition,thisthesismakesconsiderablycontributestotheresearchinNaturalLanguageProcessingforChinesetraditional:riddlegeneration,template-basedgeneration,replacement-basedgeneration,riddleranking,rankingsupportvectormachine绪 研究背 国内外研究现 研究目标与内 理解字谜构 建立语料数 自动生成字 课题来 的组织结 相关技术现 语料库建 自然语言生成相关技 自然语言生成的体系结 自然语言生成的相关算 排序支持向量机算 统计语言模 本章小 字谜生成系统设 研究任务流程分 系统顶层流程分 数据资源分 字谜生成系统模块设 本章小 语料库建 谜语语 原始谜语数 预处理谜语数 谜语语料规 拆字 原始拆字表数 扩展拆字表数 拆字表语料规 对齐关系与规 提取方案概要介 提取对齐关系与规则语 对齐关系语料数 对齐关系与规则规 本章小 字谜生成系 候选答案生成模 候选答案测试模 提取字谜特 训练语言模 基于排序支持向量机的排序算 系统实 本章小 实验结果评测与分 实验方 实验步 实验结 实验结果分析与总 本章小 总结与展 工作总 未来展 致 参考文 绪论2014年春节期间,连续三天《中国谜语大会》,目的就是为了弘扬中华传统文化、丰富群众文化生活。中出现的谜语,有从古代一直传到现在的经典谜语,也有跟社会紧密相关的新谜语。虽说谜语也一直在随着时代的进于并未系统学习过相关知识的普通谜语者来说,学习和创作谜语有着一定的难度。而普通人也难以自主创作谜语,的则是参与猜谜语等相关活动。好的参与有关谜语的活动,融入谜语这一传统语言文化,这也将对传统语言文化的 自然语言生成(NturlngugeGnrtion)作为自然语言处理(NturlngugeProing)中的一项重要任务,旨在将计算机数据转化为自然语言。语言生成的研究报、文献和信息查询等等;其二,作为检验特定语言理论的一种技术[1],如FwttGnSysStirlingNigl多语种生成系统(包括英语、德语、日语、法语、荷兰语、西班牙语、交通大学的多语言天气预报发布系统、交通大学和的导游系统以及中国科技大学的机器人足球现场解说系统重庆大学的、易勇等人研究了中文诗词的风格判定,其主要讨论了如何计算语言学自1998年至1999年建造了“中国古代诗词计算机辅助640多万字的语料。以这个语料库为实验材料,其还进行了词汇的自动提取、自动分析部分名家诗(160万字)的语料完成切分及词性标注的基础上,系统又对唐宋诗的词汇使用情况进行了统计分析,提取了词汇共现信息、词汇对仗信息、作者词汇特息以图1.1微软亚洲对联系微软亚洲的自然语言计算组则针对格律诗与对联进行了相关研究,其研发了的约束。拆字字谜便是这一修辞手法特征的。举例来说,在《中国谜语大会》1.2(1.21.3.1学的特定解释,而对齐关系与规则,就是辅助这一解释过程的语料资源。第一章绪论料库抽取出一套对应语言知识以及语则已经有了不少的研究工作。2080年代以来,随着计算机性能的飞速提高,语料库的容量急剧增大,针对人类日常生活中使用的语言统称为自然语言,自然语言处理(NaturalLanguage自然语言生成(NaturalLanguageGeneration,NLG)是以计算语言学和人工智能为基言知识的学习,进而生成能够使人理解的文本或语音序列。生成过程中NLG系统依照..23渐成为人们关注的焦点, 选 合合词合词2.1图2.3NLG体系结 图2.2管道模模板模板生成技术(Template-basedGeneration)是自然语言生成研究者们最开始使用的模式短语/规则扩展技短语/规则扩展技术(Phrase/PlanExpansion)基于Mann和Thompson修辞结构理论,其思想是通过描述文本结构的来生成文本,又称为RST(RhetoricalStructureTheory)技术。此技术认为文章是由句子、段落甚至更大的组成单位共同组成,排序支持向量机算法(RankingSupportVectorMachine,RSVM)是基于支持向量机算法(SupportVectorMachine,SVM)的扩展应用。支持向量机是在统计学习理论的Guyon和Vapnik等人提出了最优边界分类器算法[11]这是支持向量机算法的最初模型。1995年,Vapnik完整地提出了基于统计学习理论的支持向量机学习算法[12]。 ,,

2.4H为分类超平面,H1、H2分别为过各类中离分类超平面最近的样本且平2.4排序支持向量机算法(RSVM)的思想如下:在支持向量机算法(SVM)中,训练为样本,,,,,,,而在排序学习的训练中,原始样本为,,,,,若可认为的排序应比更高时,即可生成训练样本,SVMSVM算法 ,则样本的排序应于高,反之亦然字符识别系统以及机器自动翻译系统等。本文将介绍应用很广的n-gram模型。n-gram1980年提出来,是一种应用很广的统计语言模型。它采用了马尔科夫假设,即认为每个预测变量只与长度为n-1的上下文有关,即:n称为模型的阶数,其取值决定了模型的精度和复杂性。试验表明,n值n=1、2,3Unigram、BigramTrigram模型[15]。Bigram下,以句子“<sIwantenglishfoods>

那么,我们在实际问题时,更大的n意味着对下一个词出现的约束信息,具有更大的辨别力,更小的n意味着在训练语料库中出现的次数,具有更可靠的统计信原则上,能用Bigram解决,绝不使用Trigram。本章主要介绍了本课题在研究过程中所可能用到的相关技术和理论基础。2.1节介绍了语料库建设的意义与方法。2.2节介绍了自然语言生成的体系结构,并介绍了三种3.3节具体分析本文要使用的数3.13.1中的中文字谜生成系统,以上各研究任务,建立语料数据、建立模型等等,均是为了实现中文字谜自动生成的功能。3.1节从课题研究候选字输入汉输出候选字输入汉输出字3.2部分部分部分选取应描 选取应描 选取应描描述描述描述述3.3法通过“千里”对应“马”扩展出“百里”或“”能对应什么,我们可以将这种对应类似的比喻成专有名词。而规则可以覆盖、更广范围的对应关系,一个对齐关系本文将其视为一种规则。通过这种规则,我们可以得到一类语料,比如“没心情”对应案,作为优秀字谜输出,此模块则会涉及到语言模型(LanguageModel)、支持向量机3.4本章着重介绍了中文字谜自动生成的研究任务、系统需求并给出了设计方案。3.1节从课题研究任务的角度分析了课题研究的流程。3.2节从系统实现的角度分析了中文字谜生成系统的系统流程。3.3节通过对字谜生成过程进行微观分析,介绍了本课题需要用到的数据资源。3.4节介绍了字谜生成系统的模块设计方案。本章将首先介绍本课题利用的初始数据资源,然后将结合基于规则的方法与25条规则,最终建立起有关字谜生成的语料库。本课题研究涉及到的三大语料资字谜,即谜底为一个字符的谜语作为本课题研究的原始数据集合,共计17210个谜4.1表4.1序谜谜1邝2崽3哥4始5梦6Z7埔8开9盂员,表4.2序谜谜1二2兰3晴4榛5舂6奏7舂8日9秦楮谜语语料规 春日偶成榛67624.3所示。表4.3序汉部分部分部分1吖口丫2阿阝可3啊口阿4锕钅阿5嗄口夏6哎口艾7哀口衣8埃土矣9唉口矣爱爫冖友表4.4序汉部分部分部分3啊口阿表4.5序汉部分部分部分3啊口阝可4.1序汉部分部分部分1吖口丫2阿阝可3阝口丁4啊口阿5口阝可6锕钅阿7序汉部分部分部分1吖口丫2阿阝可3阝口丁4啊口阿5口阝可6锕钅阿7钅阝可8嗄口夏9哎口艾口乂吖口丫阿阝可阝口丁啊口阿口阝可以参文分词的常见方法。规则与统计相结合的方法:规则处理的优势在于能充分利用现有的语言学研究成果,而统计处理的优势则在于它的全部知识是通过对大规模语料库的参数训练自动得到的,因此可以获得很好的一致性和很高的覆盖率,并且可以将一些以充分发挥两者的优势[17]。有的独特文学,其语言表达方式不同于我们日常接触的口语或语。谜语中的对4.1描规则找到的对应关系。则提取谜语4.1考虑到汉语词组一般不超过,而在谜语中出现频率高的单个汉字,往往起到其词频。其部分高频结果如表4.6所示。表4.6二元词组词三元词组词四元词组词同心心ForeachinForeachin谜语语Foreach二元词组/三元词组/四元词组in谜Foreachin谜底汉字的拆字表数Count[词组,拆分Count[词组,拆分4.7二元词组对词三元词组对词四元词组对词氵木山山木口宀日日木人马宀9通过以上算法,本文得到了联合谜底的词频统计结果。表4.7为按上述算法得到的提取规则获得对齐关二元组,部分数据见表4.8。表4.8“西”组数二元词组词Foreach子Foreach子序in高频词集Count[子序列Count[子序列利用这些规则,系统即可结合拆字表得到这些高频的对应关系,再利用这些规4.9为表4.9规表示方式含A-去掉字A中的部分A-去掉字A中的部分A-去掉字A中的部分A-去掉字A中的部分4381140904.10为部分语料表4.10对应个数对应汉字对应对应对应对应对应木春松林口嘴氵水—日1勒1勋1划1凼对齐关系与规则规系统将对齐关系按“汉字+对应1+对应2+„„+对应N”的形式,其部分数据 二再一又北勒划出](.)$A-B1出](.)$A-B1进一步扩展。4.3节介绍了对齐关系及规则语料的抽取。以上内容共同构成了本课题的字谜生成系统本课题并不希望涉及太多语言学知识,即以生成可接受的字谜为目的,而不过分要5.1模板生ForeachForeachin谜底汉字的拆字表数Foreachin模板集替换生以字谜“雨落横山”为例,本文将此谜面分析为“[]落[]”,针对汉字“雷”。若依然ForeachForeachin常用汉字集If汉字与谜底至多有一个拆分不同ThenForeach汉字的谜语语料in谜语语料库通过分析字谜结构,分析谜面构成方式,以我们掌握到的字谜语料为基础,扩展出谜面的长度:分析已有数据可发现,绝大多数字谜的谜面是不超过10个字的对应关系表示的过程。在分解汉字结构时,系统也有多种分解方式。以“湖”据,并结合大多数人的习惯,一般汉字被拆分为2或3个部分为佳;5.1表5.1特征名称特征含义其值abs(Length-5),通过调研与统计整个文本的n-gram一方面,一般语言模型使用的训练语料数据多来源于、小说等文章,其语言风表5.2输入序列语言模型得分--5.19评分,其分数意义见表5.3。表5.3评意123至右依次表示评分、标注编号、LM_sentence、LM_sentenceDivideLength、表5.431:-2:-3:-4:-春到柳31:-2:-3:-4:-枝上柳31:-2:-3:-4:-梧桐31:-2:-3:-4:-疏林不31:-2:-3:-4:-楼前流31:-2:-3:-4:-断桥流31:-2:-3:-4:-大树迎31:-2:-3:-4:-断桥31:-2:-3:-4:-桥边21:-2:-3:-4:-处处春21:-2:-3:-4:-杨11:-2:-3:-4:-三十六11:-2:-3:-4:-断桥11:-2:-3:-4:-春光迎11:-2:-3:-4:-柳梢头11:-2:-3:-4:-春光11:-2:-3:-4:-相思表5.531:-2:-3:-4:-天下31:-2:-3:-4:-江水31:-2:-3:-4:-清江31:-2:-3:-4:-江水31:-2:-3:-4:-江上31:-2:-3:-4:-江31:-2:-3:-4:-江北31:-2:-3:-4:-江31:-2:-3:-4:-天31:-2:-3:-4:-一半31:-2:-3:-4:-江11:-2:-3:-4:-空上不11:-2:-3:-4:-不要功11:-2:-3:-4:-江头不11:-2:-3:-4:-不要功11:-2:-3:-4:-不要江11:-2:-3:-4:-一桥飞架南11:-2:-3:-4:-江北不11:-2:-3:-4:-江左不11:-2:-3:-4:-掩盖半天表5.631:-2:-3:-4:-窗外是31:-2:-3:-4:-回首31:-2:-3:-4:-回首是31:-2:-3:-4:-一口惹31:-2:-3:-4:-北国31:-2:-3:-4:-飞鸟鸣垄上行21:-2:-3:-4:-北国21:-2:-3:-4:-回头不来此地21:-2:-3:-4:-四面壁11:-2:-3:-4:-回首11:-2:-3:-4:-鸟飞鸣11:-2:-3:-4:-窗外11:-2:-3:-4:-叩之前是非多11:-2:-3:-4:-飞鸟鸣11:-2:-3:-4:-亭中是11:-2:-3:-4:-南回11:-2:-3:-4:-西园惹11:-2:-3:-4:-结同心惹是非11:-2:-3:-4:-四围11:-2:-3:-4:-明月一11:-2:-3:-4:-不要回11:-2:-3:-4:-日间不到权值向量,各特征的权值如表5.7所示。表5.7特征名称权值向量----按以上排序函数,测试系统即可对候选字谜进行排序,从中选取较高的候选答表5.8二杜思湘秦春雨下按5.1及5.2小节的分析,以及第三章对系统设计及流程的分析,语料库的建设、语言模型的训练、排序函数的训练工作均与最终生成系统的工作相,以上工作会先于生生成模表5.9属类描Dictionary<string,表5.10方描模板生成方式主,question为用户输入AnswerPart(stringcharacter,模板生成方式中,为各部分找到描述方式,candidate,List<List<Beam>>bination,intlevel,List<Beam>list)Replace(stringcharacter)candidate,stringanswer,stringfrom,stringto)

最终结果存于candidate中替换生成方式主,question为用户输入的特征

5.11属类描征其值为abs(Length-表5.12方描语言模

表5.13方描系统的候选答案生成模块与候选答案测试模块。5.3节介绍了中文字谜生成系统的详细字,普通个人计算机可在1秒内给出结果;对于拆分数为3的汉字,一般可在2秒左右应应 810121416182022242628303234作为谜底的出现次数6.1按作为谜底出现的次数来划分,将中文汉字分为作为谜底出现5次以下、6-2个谜语(2个则全部使用)作为测试将生成的标注序列交由人工按表6.1的评分标准进行标注表6.1分评分标准12345表6.2谜语(思标注标注谜语(梦标注标注5555442343235455555554545555545555354335谜语(杜标注标注谜语(画标注标注3355424455山田接云55345455435555555555山中,果木凋555543555552.5%1表6.3系统整体统计谜语来源评模板生成替换生成谜语语料表6.4单个汉字统计全思梦春亚标注标注标注标注标注标注标注标注标注标注模板生成4334替换生成5谜语语料4543554因画木羊奋标注标注标注标注标注标注标注标注标注标注模板生成534替换生成4谜语语料44455皓杜嗦朱调标注标注标注标注标注标注标注标注标注标注模板生成3替换生成谜语语料554555抨单沩袒谓标注标注标注标注标注标注标注标注标注标注模板生成替换生成444谜语语料54445455分析实验结果,从统计中我们可以发现,使用模板生成的字谜得分最低,本章介绍了中文字谜生成系统的测试方案、测试过程和。6.1节介绍了实验的测试方案。6.2介绍了系统的测试过程与。6.3节则对实验结果进行了分析建立中文谜语这一特定语言的语料库,收集16472条中文字谜数据。使用14090个对齐关系。以上语料数据的建立,为自动生成中文字谜奠定了会更好一些。若能提出更合适的方式,更方便的提取谜语相关的语料数据,或利用致谢四以及毕业设计中所有给过我帮助、指导和关心的各位老师、师兄师姐、同学和家算组(MSRA-NLC组)提供给我完成毕业设计的各类资源与帮助。得到了很大的提升,也让我有了更加真实的项目经历。除了学习,老师在生活上也感谢答辩组的各位老师,老师、老师、老师、老师,感谢各最后,要感谢我的家人,特别是我的父亲和母亲。用辛苦付出给了我接受高等教育的机会,并在次遇到或对前途感到迷惘的时候,都会用支持和理解给继续努力向前,不辜负的培养和期望。杨国文.自然语言生成研究的动态与方向[J].当代语言学,1998,2:11-黄友能,.基于特定任务域的自然语言生成系统实现方法[J].铁路计算机应用罗凤珠,.中国古代诗词格律自动检索与教学系统[J].中文信息学报,1999,13(1):35-42.2005,32(7):156-158.,胡俊峰.唐宋诗之词汇自动分析及应用[J].语言暨语言学,.JiangL,Z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论