Word排版素材_长文档草稿.doc_第1页
Word排版素材_长文档草稿.doc_第2页
Word排版素材_长文档草稿.doc_第3页
Word排版素材_长文档草稿.doc_第4页
Word排版素材_长文档草稿.doc_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、 绪论II(一) 课题的背景和意义II1 研究的背景II2 研究的目的和意义II(二) 国内外研究现状IV1 主题图和主题图融合研究现状IV2 词汇相似性度量研究现状V3 句子相似性度量研究现状VI(三) 本文的研究contentVIII1 研究contentVIII2 研究方法及技术路线VIII(四) 扩展主题图的融合X1 扩展主题图融合定义及原则X2 扩展主题图融合过程XII(五) 语义冲突XIII1 语义异构的原因XIII2 语义冲突的定义及类型XIV(六) 语义相似度在扩展主题图融合中的使用XVII1 简单文本分类的应用XVII2 扩展主题图融合中的文本分类技术应用XVIII3 主题融合与词语语义相似度XXI4 知识元融合与句子语义相似度XXII(七) 本章小结XXIVXXIII1、 绪论(1) 课题的背景和意义1 研究的背景本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。2 研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题-知识元资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)2,均是封闭的系统,在计算未登录词时效果很差。(2) 国内外研究现状863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。1 主题图和主题图融合研究现状主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:20003,这项国际标准定义出了Topic Maps的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图XML Topic Maps(XTM)4成为ISO/IEC 13250的一部分。同年,ISO委员会又提出主题图查询语言 TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。主题图融合方面,在国外,2004年Lutz Maicher等人提出了SIM算法5和2007年由Jung-Mn Kim6提出了TM-MAP算法。SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法7,TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。2 词汇相似性度量研究现状国内比较突出的是中国科学院计算技术研究所的刘群8等人提出的基于知网的词汇语义相似度计算。刘群等的语义相似度计算方法以知网为计算依托,充分利用了知网中的义原(描述一个“概念”词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用知网中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法9,该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的Satanjeev Banerjee10等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。3 句子相似性度量研究现状目前,国内外存在着很多句子相似性度量的方法。在国外,Niladri11提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。Nirenburg12等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似性度量原理都是词组合法。Lambros等提出同时依据句子的表层结构和content计算相似度的方法13, 方法使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。国内研究汉语句子句子相似度的学者也较多。李素建14基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人15等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。吕学强16等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵17等使用向量空间模型的TFIDF法和基于语义本体的方法,面向常见问题集计算问句间的语义相似度;杨思春18等使用具有部分格语义的语法功能句型计算模式来实现句子相似度计算等等。上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。(3) 本文的研究content1 研究content本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术语义相似性度量技术。首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。最后,对所提的两种相似性度量算法进行综合测试分析,并融合到扩展主题图融合模块,整合到整个863系统中进行实际应用。本文的研究content包括以下几个方面:(1) 扩展主题图融合研究:在研究扩展主题图的融合原则及过程基础上,分析融合过程中所产生的语义冲突,研究其产生原因,并对其进行分类。(2) 提出一种基于本体和语料库的综合词汇相似性度量算法:为解决扩展主题图融合过程中主题元素间的融合问题,设计实现了一个结合本体与语料库,辅以规则和同义词计算的权重参数自适应调节的综合词语相似性度量算法。(3) 提出一种基于全信息理论的句子相似性度量算法:研究常见的句子语义表示模型,综合句义三维模型和全信息理论,从语法,语义和语用三个方面对待融合知识元的资源来源句子进行综合度量。(4) 算法的测试与分析:在专业领域和公共领域对所提相似性度量算法进行多领域的实验测试,并将其与其他算法进行对比分析,研究分析其性能指标。(5) 算法与系统的整合:将所提相似性度量算法融合到扩展主题图融合模块,并整合到863计划系统中进行实际使用,测试其功能和性能。2 研究方法及技术路线本文的研究方法从以下几个方面进行阐述:(1) 扩展主题图融合与语义冲突:通过对扩展主题图融合过程的分析,确定可能出现的语义冲突,冲突的关键技术语义相似性度量的具体使用场景。(2) 词汇相似性度量的研究:综合研究已有的词汇相似性计算算法,进行分类与对比分析。建立一个与课题相关简易的计算机领域的语料库,使用网络搜索双检验模型进行相似度计算,并将其与基于页空间数的语义相似度计算结合起来,形成一种基于语料库的语义相似度计算算法。对已有的基于知网的方法进行改进,同时引入规则分析和同义词词典计算,提出一种利用本体和语料库的综合词语相似度算法(A new word similarity computation algorithm based on HOWNET and CorpusHCSC)。(3) 句子相似性度量的研究:分类已有的句子相似度计算方法,分析各自的优缺点。研究已有的句子语义计算模型,并将其与全信息理论结合起来,分析全信息理论在模型中的使用。综合句义三维模型与全信息理论,提出基于全信息理论的句子相似度计算方法。(4) 算法的测试与应用:综合测试提出的语义相似性度量算法,并将算法应用到课题的Yotta系统中,实现算法与实际工程的结合。总体上,本文拟采用“发现扩展主题图融合中的语义冲突解决冲突,提出算法算法实现与测试应用到实际系统”的技术路线,如图 一-1所示:图 1-1本文的技术路线(4) 扩展主题图的融合1 扩展主题图融合定义及原则(1) 扩展主题图融合的定义扩展主题图融合是将相同或者不同领域知识资源的局部扩展主题图按照一定的规则进行合并,形成一个集中统一的全局扩展主题图,扩展主题图融合的定义如公式(2-1): (2-1)扩展主题图融合可以消除冗余的主题图结构,将同一或不同知识领域的局部扩展主题图合并为全局扩展主题图,形成具有众多主题的全局导航扩展主题图。另外可以将在分布式环境中的异构知识资源集中起来,发挥扩展主题图强大的导航、知识管理的优势。主题图融合中,确定不同主题图中的合并项是难点问题。现有的主题图设计模型采用的是OASIS20(Organization for the Advancement of Structured Information Standards)制订的公共项目标识符(Published Subject indicators,PSI21)作为主题的统一标识,PSI相同的主题均可合并22。但是PSI尚未完全形成规范,也没有完全覆盖主题图设计的应用领域,仅在某些非常通用的领域(如语言、国家和地区名称)中才定义了PSI。因此,基于PSI目前还无法完全实现主题图的融合。而综合使用相似性度量技术计算主题图的元素,根据计算结果实现主题图的融合。(2) 扩展主题图融合原则扩展主题图源于主题图,扩展主题图的融合原则也借鉴了主题图的融合原则。在主题图的标准中,规定了主题图融合的方法及应该遵循的原则,如下所述:1 相等原则相等原则定义了一个完整的主题图处理程序必须保证主题图结构的一致性,其具体包括:字符串相等原则、主题名称相同原则、关联相同原则、作用范围(scope)相同原则、主题资源相同原则、URL相同原则,补充知识元名称相同原则和知识元资源相同原则。2 等价原则等价原则用来识别主题图结构的等价语法描述,相同的主题或知识元由于描述方式的不同,其描述语法存在着不同,等价原则就是辨别、处理这些不同。3 变量处理原则元素定义的变量名称,其处理范围由该元素的参数和其所属的双亲或上位的元素联合定义决定。4 合并原则描述了主题图中主题间合并的原则,补充知识元的合并原则。5 重复处理原则对主题图中主题指示符、主题资源和主题间的关联关系进行删除、精简去除重复的原则,补充知识元指示符、知识元资源和知识元间关联关系的删除、精简原则。2 扩展主题图融合过程为了减小扩展主题图XTM文件的容量,以适应课题展示的需要,课题组对扩展主题图的元素进行了删减。扩展主题图的融合就是比较各主题及知识元间的基名及资源,判定是否需要合并;如合并,则需要对其各自对应的关联关系进行合并,否则直接将两个扩展主题图的XTM合并。合并后的XTM文件要符合标准DTD的定义,具有完备性。扩展主题图的融合过程的步骤如下:1)对融合前的局部扩展主题图文档预处理,消除其不一致及冗余的元素;2)将预处理后的两个局部扩展主题图文档中的主题、知识元两两比较,确定合并项;3)将融合判决的元素进行融合,同时处理其各自对应的关联关系;4)对融合后的扩展主题图进行冲突检测,检查全局扩展主题图中冗余的元素,确保其一致性及准确性。融合流程如图 一-2所示:图 1-2 扩展主题图融合过程(5) 语义冲突1 语义异构的原因数据的含义就是语义。简单的说,数据就是符号。数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语义具有领域性特征,不属于任何领域的语义是不存在的。由于信息概念具有很强的主观特征,目前还没有一个统一和明确的解释。我们可以将信息简单的定义为被赋予了含义的数据,如果该含义(语义)能够被计算机所 “理解”(指能够通过形式化系统解释、推理并判断),那么该信息就是能够被计算机所处理的信息。自然语言源于信息理论,自然语言是由语言、语法和语义构成的。生活中,语义往往由于信息的不确定性产生不一致性。计算机所处理的信息,由于领域、理解角度、表示方法的不同也会产生语义的不一致性。语义异构则是指对同一事物在解释上所存在不一致性,也就体现为同一事物在不同论域中理解的不一致性。同时同一数据在不同的数据源上的表示也存在着不同,产生语义异构。导致语义异构的具体原因23如下:(1) 不同的信息使用多种术语(词汇)表示同一概念;(2) 同一概念在不同的信息中表达不同的含义;(3) 各信息使用不同的结构来表示相同(或相似)的信息;(4) 各信息中的概念之间是存在着各种联系,但因为各信息的分布自治性,(5) 这种隐含的联系不能体现出来。2 语义冲突的定义及类型语义异构是语义冲突的前提与基础,语义冲突是指当描述同一现实世界事物时,两个对象在描述方式、结构上和content上的不同造成的语义不一致性。在扩展主题图融合过程中,有很多方面的原因会产生语义冲突:扩展主题图各个元素是经过数据标注或者知识资源文档的自动抽取产生的,其中难免会产生冗余的信息,比如冗余的主题或知识元、冗余的关系等等;在标注过程中由于标注者的认知问题,可能对同一主题或知识元进行不同形式的标注,也可能会出现相同的主题、知识元间标注出自相矛盾的关系;同时由于中英文的差异,会出现中文术语与其英文翻译、英文简写的语义冲突。本文根据扩展主题图的元素结构和语义冲突形式的不同,将融合中的冲突分为四大类:数据冲突、结构冲突、规则冲突和临时性冲突。冲突的具体分类如图 一-3 扩展主题图融合中冲突分类图所示:图 1-3 扩展主题图融合中冲突分类图其中数据冲突和结构冲突属于扩展主题图融合过程中的语义冲突,下面对其进行详细介绍:(1) 数据冲突:是指对相同概念的不同感知所引起的冲突。具体又蕴含ID冲突和命名冲突。1 ID冲突是指两个局部扩展主题图中,相同元素的ID不同,或者相同ID对应不同的元素。定义2-1:ID冲突。,表示概念。1) 如果,但,则为ID冲突。2) 如果,但,则为ID冲突。(2) 命名冲突是指两个局部扩展主题图中,相同概念使用不同名字或者不同概念使用相同的名字。 定义2-2:命名冲突。,表示概念。1) 如果,但,则为命名冲突。2) 如果,但,则为命名冲突。(3) 结构冲突:相同的概念群在不同主题图中采用不同的逻辑结构进行表达所造成的冲突。具体又划分为层级结构冲突、属性冲突。1 属性冲突是指相同元素,其属性集合不相同。相同概念的属性名相同,属性值不同时,出现属性值冲突。相同概念的属性值相同,属性名不同时,出现属性名冲突。定义2-3:属性冲突。,表示两个概念。1) 如果,但,则为属性值冲突。2) 如果,但,则为属性名冲突。2 层级结构冲突是在不同主题图中,对概念描述的层次结构不同引起的。定义2-4:结构冲突。,表示两个概念。如果, ,为结构冲突。(6) 语义相似度在扩展主题图融合中的使用扩展主题图的元素来自于不同或相同的资源文件,即主题、知识元出自异构的封闭系统。融合过程中产生的冲突处理步骤是:检测语义冲突和消除语义冲突。消除语义冲突可以依靠元素的合并处理,而检测语义冲突的关键技术即是语义相似度度量。语义相似度计算可以判别在多个系统内是不同概念表示同一事物,还是同一概念表示的是不同事物,是扩展主题图融合的第一步。此后的元素合并、属性保留都是基于相似性计算的结果。相似性计算算法的关键技术是词语、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量研究在主题图融合过程有着很重要的作用。1 简单文本分类的应用语义相似性度量的计算是将两个扩展主题图XTM文件中的元素两两对比计算,如XTM文件元素个数为n,则需计算的时间复杂度为。为减少计算量,必须精简元素的比较计算。文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、信息学、人工智能等个学科,是自然语言处理的一个重要应用领域。将文本分类技术应用到扩展主题图融合中的目的是根据文本分类的结果,如两个XTM文件属于同一类别,则进行的元素计算,否则直接进行两个文件的合并。(1) 文本分类及文本分类技术 文本分类:按照事先定义的类别来决定一篇文本的归属的过程被称为文本分类。其类别可以通过概念进行定义,也可以通过标注学习得到,同样也可以通过预先认为设定。当前,随着信息存储技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,而且其数量每天仍在急剧增加。在这种情况下,基于机器学习的文本分类使用越来越广泛。贝叶斯分类器、支撑向量机(SVM)、自组织映射(SOM)、粗糙集、k近邻(KNN)、决策树、关联规则、分类器集成以及向量相似度等模型得到了广泛使用24。这些方法大致可以分为三大类:基于统计模型的方法(如贝叶斯分类器、KNN、向量相似度等)、基于连接的方法(如SOM)和基于规则的方法(如决策树、关联规则等)。课题的知识资源主要指计算机学科资源,共有七个课程:计算机网络、计算机组成原理、数据结构、JAVA语言、平面几何、计算机系统结构和操作系统。本文的文本分类的目的是将指定的XTM文件划分到七个课程中某一具体课程。2 扩展主题图融合中的文本分类技术应用扩展主题图XTM文件具有特定的结构,元素管理方便。本文采用基于Bayes公式和投票法相结合的综合文本分类技术。朴素贝叶斯分类算法25是一种最常用的有指导意义的方法,它以贝叶斯理论为基础,是一种在已知先验概率与条件概率的情况下的模式识别方法。 朴素贝叶斯分类算法基于独立性假设,即一个属性对给定类的影响独立于其它属性。算法的核心是贝叶斯公式(2-2): (2-2)i=1,2,n,且。贝叶斯分类器在文本分类经常使用。假设文本实例d可由n个属性值描述。L是目标属性集合。则对于给定的类,d属于类的概率为。对于待分类样本d,我们使用贝叶斯分类器将其划分为最可能的类别(如公式2-3所示):这里公式的给出与上面的不一致 (2-3)在贝叶斯分类器中,为先验概率,很容易计算,但的计算比较困难,特别是在特征项的数量n较大,且特征项之间相依程度较高时,其计算将是极其费时间的。为了简化计算,一般引入了条件概率独立假设,即假定各特征项之间是相互独立的,这就是朴素贝叶斯分类器。 假定对于给定的类,任意的特征项之间相互独立,则式2-3可转化为公式2-4: (2-4)投票法其核心思想是:将文档的特征与已有的类型特征相比,分别进行打分,分数最高的类型即为该文档的类型。投票算法常使用Bagging算法:训练R个分类器,i=1,2,R,分类器之间只是类型元素不同。其中是通过从训练集(N篇文档)中随机取(取后放回)N次文档构成的训练集合训练得到的。对于新文档D,用这R个分类器去打分,得到的分数最高的那个类别作为D的最终类别。基于Bayes公式和投票法相结合的综合文本分类技术在扩展主题图融合过程中的具体应用步骤:(1)输入的两个扩展主题图的XTM文件;(2)取出其各自的主题集(Topics);(3)主题集与七大课程的概念比较打分(Score);(4)判断打分是否都为零;(5)如为零,则两个XTM文件都属于其他类;(6)否则计算各自最高者,得出其所属类别;(7)如类别不同则直接合并;否则两两相似度计算。单个XTM文件的分类流程如图 一-4所示:图 1-4 XTM文件分类流程图3 主题融合与词语语义相似度扩展主题图中Topic元素的主要属性有baseNameString

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论