




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着计算机和网络技术的高速发展,自然语言识别技术越来越重要,机器翻译、信息检索、自动文 摘等自然语言技术已经在很多领域被采用并取得了很好的效益。计算机技术也改变了人们的学习和培训 方式,学生可以通过电脑学习和考试,所以人们试图把自然语言识别技术运用到主观题自动阅卷系统中, 这也成为计算机领域的一个研究热点。 本文首先介绍了自然语言理解的发展现状,对大规模、可计算的语义知识库h o w n e t 进行知识抽取 和转化,为后面的工作作好资源准备。并分析了现有的汉语分词技术。接着,对其中的关键技术建立语 义相似度模型做进一步深入研究,在现有的理论基础之上提出自己的基于h o w n e t 词语语义相似度模型 和句子语义相似度模型,并把此模型运用到主观题阅卷系统中,使系统得以运行和实现,达到初步的运 行目标。最后,通过实验验证本文所提方法的正确性 关键词:自然语言理解、主观题阅卷、知网、相似度模型、匈牙利算法 a b s t r a c t a b s t r a c t w i t ht h eh i g h - s p e e dd e v e l o p m e n to ft h et e c h n i q u eo fc o m p u t e ra n dn e t w o r k s ,t h en a t u r a ll a n g u a g e u n d e r s t a n d i n gt e c h n o l o g i e si sb e c o m i n gm o r ea n dm o r ei m p o r t a n t m a c h i n et r a n s l a t i o n , i n f o r m a t i o nr e t r i e v a l a n da u t o m a t i cs u m m a r i z a t i o nh a v eb e e ne m p l o y e di nm a n y 绷t op u r s u et h eh i g i ie f f i c i e n c y t h ec o m p u t e r t e c h n o l o g ya l s oh a v ec h a n g e dt h em o d eo fs t u d y i n ga n dt r a i n i n g , s t o d e n t sc a ns t u d ya n dt a k et e s to i l c o m p u t e r s op e o p l ea mt r y i n gt om t h en a t u r a ll a n g u a g eu n d e r s t a n d i n gt e c h n o l o g yi nt h ea u t o m a t e d a s s e s s m e n ts y s t e m t h i sh a sb 4 _ 7 a n car e s e a r c hh o t p o ti nc o m p u t e ra l - p & a tf i r s t , t h i sp a p e ri n t r o d u c e dt h ep r e s e n tr e s e a r c h i n gs i t u a t i o no fn a t u r a ll a n g u a g eu n d e r s t a n d i n g , t h e n i l l u s t r a t et h eh o w n e tt e c h n o l o g ya n dc h i n e s ew o r k b o u n d a r yt h e o r y n e x t , a u t h o rd e s c r i b et h ek e y t e c h n o l o 盯b u i l d i n gt h em o d e lo f s e m a n t i cs i m i l a r i t yd e e p m y ,a n dp r e s e n t sh i so w nm o d e lo f w o r d ss e m a n t i c s i m i l a r i t yb a s e do nh o w n e ta n ds e n t e n c es e m a n t i cs i m i l a r i t ym o d e lb a s e do nh u n g a r ya l g o r i t h m f i n a l l yt h i s m o d e li st e s t e di nt h ea u t o m a t e da s s e s s m e n ts y s t e mo ff r e et e x t s ,a n dm a k et h ec o t r e c t o e s so ft h i sp a p e r m e n t i o n i n gm e t h o dt ob ev i r i f i e db yt e s t i n gc a s 铝 k e y w o r d s :n a t u r a l l a n g u a g e u n d e r s t a n d i n g 、a u t o m a t e d a $ s e s s m e l l t 、h o w n e t 、s i m i l a r i t y m o d e l 、h u n g a r i a n a l g o r i t h i n n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一网工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 研究生签名:日期:旦f ;l p 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办 理。 研究生签名:耻导师签名:啦日期 第一章引言 1 1 自然语言理解概述i l l 第一章引言 自然语言是指人们日常使用的语言,它是人类学习和互相通讯的工具自然语言处理( n a t u r a l l a n g u a g ep r o c e s s i n g ,简称n l p ) 是语言信息处理的一个分支,是研究使用计算机理解和生成自然 语言的基础理论和基本技术。处理自然语言的关键是要让计算机“理解”自然语言,因此自然语言处理 又叫自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) 1 j i 自然语言理解分为”: 1 语言的理解:通过语音识别、理解与合成,使计算机能“昕懂”,并作出回答 2 书面语的理解:把文字输入计算机。通过分析和生成使计算机能“看懂”,并作出回应。 总体说来,自然语言理解的目标就是让计算机能够处理人类语言,并作出人们所期待的各种正确响 应,建立起人与机器间密切而友好的关系,以便进行高度的信息传递与认知活动。自然语言理解是语言 学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。随着 计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广 度越来越高,自然语言处理问题已成为了网络社会和网络经济发展的瓶颈。目前自然语言理解的研究程 度仅仅处在能够让计算机正确的理解语言信息上,计算机的智能还远远没有达到能够象人一样理解自然 语言的水平,而且在可预见的将来也达不到这样的水平理解自然语言之所以困难,有三个重要因素: ( 1 ) 目标表示的复杂性。例如语义的概念依存网表示,要从语句中提取这种表示的关键字就相当地复 杂,同时还需要更多相关的客观世界的知识。 ( 2 ) 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想的,但现实中自然语言到 目标语言表示的映射极难达到一对一的要求。 ( 3 ) 成分问的交互程度。在语言中,每个语句都是由多个成分组成的,若每个成分的映射与其他成分 无关,那么,映射过程就比较简单。遗憾的是,自然语言中的成分交互程度相当高,句子中改变一 个成分,常常会大大改变句子的整体结构,这使得映射的复杂稃度大大增加。 因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话, 或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。 1 1 1 自然语言的分析层次 语言的分析和理解过程是一个层次化的过程现代语言学家把这一过程分为三个层次:词法分析、 句法分析和语义分析。如果接收到的是语音流,那么在上述三个层次之前还应当加入一个语音分析层。 虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成 自然语言分析层次如图1 1 语音分析 一 词法分析_ - 句法分析- - -语义分析 。, 图1 1自然语言分析层次 ( 1 ) 语音分析:语音分析是根据音位规则。从语音流中区分出一个个独立的音素,再根据音位形态规则找 出一个个音节及其对应的词素或词。 ( 2 ) 词法分析:词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。 东南大学硕士学位论文 ( 3 ) 句法分析:句法分析是对句子和短语的结构进行分析自动句法分析的方法很多,有短语结构语法、 格语法、扩充转移网络、功能语法等等句法分析的最大单位就是一个句子。分析的目的就是找出词、 短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。 ( 4 ) 语义分析:语义分析就是通过分析找出语义、结构意义及其结合意义,从而确定语言所表达的真正含 义或概念在语言自动理解中,语义愈来愈成为一个重要的研究内容 1 2 国外自然语言理解的主要成果眦j l j1 3 11 4 1 国外在自然语言理解方面的研究起步较早,并在该领域产生了很多有影响的理论下面介绍一些比 较著名的常用理论。 ( 1 ) 转换生成法:用语言生成方法去研究形式语言,把句子的结构分为深层结构和表层结构。它基本上完 全抛弃了语义、语境等方面的知识,只局限在一个形式化的机制上因此很难确切的描述自然语言。 ( 2 ) 1 戎存语法:主张以动词作为一个句子的中心支配其他成分,而其本身不受任何其他成分的控制。这种 语法是有方向性的,常常是一个词支配另一个词,这种支配与被支配的关系体现了句子中词的关系。 ( 3 ) 格语法:句子的深层结构由命题和情态组成,每个名词性短语以某种关系与动词相联系,这种关系称 为格。它们是格语法研究的核心常见的格有:施事格,受事格、工具格等等格语法容易实现,而 且揭示了一些新的语言现象,所以受到广泛的重视和使用。 ( 4 ) 语义网络语法:这是一种语义表达方式,是被作为探讨人类记忆的心理学模型而开发的,它能够表达 自然语言中的单词和句子意义,是人工智能重要的知识表达形式。 ( 5 ) 功能合语法:是非转换的语法理论,它避免沿用转换规则,以复杂特征集和合一运算作为语法系统 的基础,提高短语结构语法有限的分析能力,限制其过强的生成能力。 1 3 国内自然语言理解的主要成果嘲 国内从7 0 年代末期开始汉语理解的研究,现在我国的自然语言理解的研究水平有了很大的进步, 并取得了丰硕的成果,大体可以总结如下: ( 1 ) 机器翻译:以冯志伟教授为代表的计算语言学学者早期在机器翻译研究方面做了大量的工作。并总结 出了不少珍贵的经验和方法,为后来的计算语言学研究奠定了基础。 ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室主要从事基于语料库的汉语理解。近 年来,在自动分词、自动建立知识库、自动生成句法规则、自动统计字词的使用和关联频率方面做了 大茸的工作并发表了不少很有价值的论文。 ( 3 ) 语篇理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教授等在计算语言学的语篇理解 方面的研究也取得了一定的成就。 ( 4 ) 概念层次网络:中科院的黄曾阳先生在自然语言研究当中通过长期的探索和总结。提出了“概念层次 网络”理论。这个理论框架是以语义表达为基础,并以一种概念化,层次化和网络化的形式来实现对 知识的表达这一理论的提出为语义处理开辟了一条新路。 ( 5 ) 受限汉语:北京信息t 稃学院的周锡令教授主持的受限汉语的研究为自然语言理解提出的一种方法。 他认为短期内计算机还很难做到真l e 的理解自然语言,在继续对自然语言理解方面进行研究的同 时应该研究受限的规范的汉语,这样可以让研究成果较快的实用化。 ( 6 ) 知网( h o w n e t ) ”1 :由董振东先生提出的一种汉语知识表示方法。知网把客观世界看作是有很 多的概念构成。概念与概念之间有各种各样的关系,这些关系相互交织就构成了一个网。要表示一个 客观世界,就是要确定这些概念、概念的属性以及概念之间的关系。 1 4 本文问题的提出 在以上所描述的对自然语言处理的背景下,经过多年的研究,许多国内专家已经感觉到,由于汉语 2 第一章引言 的复杂性,对它的处理仅仅靠统计概率是不行的,必须依赖可靠的语言知识库,从语义入手,以词义为 基础,结合句法规则,再以句为突破的单位经过5 0 余年的探索,很多技术层出不穷,近年来,随着一 些大规模、可计算的语义知识库,包括h o w n n e t 、w o r d n e t 等的开发利用以及语义分析技术不断成熟, 为进行大规模的真实文本的语义分析和理解提供了有利的支持。机器翻译、信息检索、自动文摘等技术 得到了长足的发展和应用。这些都为主观题阅卷系统的研究和开发提供了资源和理论基础。使得让计算 机对基于自然语言的主观题自动阅卷成为可能:另一方面,现在网络正在改变着传统的教育方式,网络 教育发展很快,把考试搬到网络上正成为一种趋势考试的无纸化、网络化不仅能有效减少老师的工作 量、提高工作效率,也能使考试更加公平、公正这样就必须构建一个能够智能、全面的测试学生水平 的考试系统。但当今世面上开发和运行的考试系统都是对客观题( 选择、填空、判断) 的批阅,对主观 题却无能为力,这制约了在线考试系统的普及和网络教育的发展,影响了对学生各方面能力的正确评判。 因此对文字类主观题的自动批改是实现校园教学和远程教学系统中在线考试功能的一个关键技术,此类 关键技术的解决将使考试系统的功能有一个质的飞跃。并使很多问题迎刃而解因此对主观题阅卷系统 的研究是有实际意义和研究价值的 1 5 主观题阅卷技术的研究现状 基于内容的文字类主观题的自动批改主要是基于对自然语言的理解,对大规模真实文本的语义分 析和理解的基础之上而得以实现,目前国内外在机器翻译、信息检索、自动文摘等技术方面研究的较多, 但有关主观题阅卷技术这方面的研究还不是很多。真正使用的系统更少 张量等”。一个针对计算机基础上机操作考试中文字录入题的自动批改技术,因为该系统主要是考 查学生所录入的字数的多少以及错录、漏录情况,所以可以用字符串匹配的方法来实现。 王邯等”3 针对当前计算机水平考试和等级考试中普遍采用的程序填空类试题,探讨了计算机自动 批改c 程序设计填空题的实现。系统的基本思想是对学生答案与标准答案在语义上进行匹配采用 类似于编译程序设计技术对标准答案进行词法和语法分析,将其分解成标识符、常量和运算符,由各部 分得到整体语义;对每个标准答案生成其语义等价类,因为c 语言中一个语句或表达式可能有多个等 价形式;对学生的答案进行词法、语法分析并进行优化;将处理后的学生答案与等价答案匹配即可。 该系统虽然初步实现了填空题的自动批改,但其批改对象是用程序设计语言书写的语句或表达式,而程 序设计语言较自然语言语法规则严格且无歧义,因而不适合基于自然语吉的主观题的自动批改。 李辉阳等”3 研究了有限领域中简述文字的自动判读问题,提出以基于关系的带权匹配技术来实现 计算机辅助教学中的简单论述正误的判定在许多学科中,要求理解本学科的一些基本知识点及相关概 念并对其进行简单论述是比较重要的考查方式,为此作者研究了基于简单书面论述的判定原理和方法 他们对概念的表述方式和常用句式进行了较为细致的分析,归纳出三种句式,进一步把句子中各词之间 的关系分为六种,然后根据词在表达语句意义时的轻重程度并结合上述关系确定它们的权值,权值总分 为该题的满分。在自动识别和判读时,首先对论述语句进行分词并确定它所用的表达句式属于上述三类 中哪一类,然后分析句中各部分是否具有正确逻辑关系,并计算句式中各核心成分、强化修饰成分、否 定修饰成分、转义修饰成分等的权值,最后对照正确论述语句的权值完成判读过程。该系统在一定程度 上模拟了老师阅卷过程,对计算机自动批改列举题、简述题、筒答题等主观题有一定的借鉴意义。 国内针对各类非标准化试题自动阅卷技术的研究刚刚起步,与之相关的文献也不多见。从查阅的现 有资料中,我们没有看到整个成型技术出现。而且很多真正意义上的相关研究也都是基于某一专业领域 的,它极大的限制了系统的普及,况且这种专业领域知识库的建立由开发者本人而非专家完成是有很大 难度和限制的。当然这也主要和当时的辅助资源缺乏有关。随着大规模、可计算的语义知识库知网 的进一步完善和函盖专业领域的词语逐步增多,使一种通用的主观题阅卷系统成为可能,当然由于本系 统的研究完全基于知网,它的词库的多少和函盖范围的大小直接影响系统的功能和准确度。 3 东南大学硕士学位论文 1 6 本文的主要工作 我们对目前发展较快的机器翻译、信息检索、自动文摘等技术进行深入研究。提出并改进了自己的 语义相似度模型的建立方法,并在主观题阅卷系统中进行运用和实现。在课题的研究过程中,本文主要 在以下几个方面进行了探讨: ( 1 ) 利用知网,从中抽取必要的词汇语法信息和语义信息,并将其转化为方便系统实现的表达形式 建立本系统的知识库。 ( 2 ) 为了提高知识库的检索速度,建立一种行之有效的索引结构和查找算法。 ( 3 ) 对以往的词语相似度算法进行实验并改进提出一种适合本系统的词语相似度算法 ( 4 ) 在词语相似度算法的基础上利用匈牙利算法建立句子和句群的相似度计算模型。 ( 5 ) 提出有句子相似度值给出正确分数评判的算法。 ( 6 ) 把以上研究的理论运用到实际系统中进行实验,对实验结果进行对比和分析,提出更好的改进方法和 建议,修改相似度模型使主观题阅卷系统达到预期目标。 1 7 本文的研究目标 1 )提出一种基于专家知识库h o w n e t 的语义相似度模型,井把它实际运用到系统中,实现一个基于自 然语言理解的主观题自动阅卷系统。 2 )建立基于知识库h o w n e t 的中文分词词库索引文件。 3 1提出一种有效的基于知识库h o w n e t 的词语相似度计算方法。 在词语相似度的计算方法之上提出一种使用与自然语言处理的句子语义相似度模型的算法 5 ) 提出句子得分评判算法。 6 1利用本文研究的理论实现一个主观题自动阅卷系统。使其运行达到预期的目标 4 第二章相关知识介绍 第二章相关知识介绍 在本章中,主要介绍本系统中用到的一些关键技术和基础知识。首先介绍了自然语言处理中用到关 键技术中文分词技术。然后介绍和分析了我国的汉字编码技术以及大规模、可计算的语义知识库知网 的概念和结构 2 1 中文分词技术 在自然语言处理领域,汉语和英语文本不同,汉语文本由连续的汉字字符组成,所以几乎所有的 中文处理技术都要经过分词这个关键步骤。主观题阅卷系统属于自然语言处理的范畴,对学生答案进 行评判首先就要进行中文分词,然后再作相应的处理。对汉语自动分词是中文信息处理领域的一项基 础性课题,是智能化中文信息处理的关键。但是不同系统对自动分词的要求也不尽一致,比如机器翻 译对自动分词的要求较高,应做到尽量无错。比较而言,主观题阅卷系统对自动分词的要求则不是太 高,但要求分词处理能够保持一致性。本节通过对现有的分词算法进行研究分析。根据研究方法的出 发点不同进行归纳分类并得出适合本系统的分词方法。 2 1 1 汉语分词概念 词是最小的能够独立活动的有意义的语言成分,是计算机处理信息的基本单位。词界 ( w o r d b o u n d a r 7 ) 是词语之间的间隙。词界的标志是两个词之间的间隔符。汉语分词的过程也就是找出 词界的过程。词、词素、短语之间的界限模糊,没有统一的分词标准,这给汉语分词造成了不小的困 难。鉴于这种情况,国家技术监督局公布信息处理用现代汉语分词规范,在其中提出“分词单位” 的概念,指“汉语信息处理使用的、具有确定的语义或语法功能的基本单位,包括本规范的规则限定 的词和词组”,并且给出一些元规则来判断分词单位。虽然该规范还有许多需要改进和商榷的地方, 但它是中文分词研究规范化的第一步。现在的多数自动分词系统都是以该规范为确定词的基础。 2 1 2 分词技术分类, 1 ) 基于词典的分词技术 这一类型的分词方法都是使用机器词典作为分词依据的,故称为基于词典的分词。基本思想是基于 字符串匹配的机械分词:按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行 匹配,若在词典中找到某个字符串,则匹配成功( 识别出一个词) 。匹配方法根据方向不同、字串长度优 先次序不同,分为正向最大匹配、逆向最大匹配、双向匹配、逐词匹配、最少切分、全切分等匹配方法。 由于自然语言的复杂性,该类分词算法会出现分词歧义( 即对同一段汉字串分词会出现不同的划分结 果) ,需要利用各种语言信息进行歧义校正因此,基于词典的分词方法的模式为:机械分词+ 歧义校正 2 ) 基于统计的分词技术 由于汉语词的定义的模糊性,有些学者利用统计方法,通过对大规模真实文本的统计,让计算 机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据 和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能 构成一个词。因此字与字相邻共现的频率或概率能够较好地反虑成词的可信度。可以对语料中相邻共 现的各个字的组合的频度进行统计,计算它们的且信息。互信息体现了汉字之间结合关系的紧密程度 当紧密程度高于某一个阀值时,便可认为此字组可能构成了一个词。 基于统计的分词方法优点在于,能够有效地自动排除歧义,能够识别新词、怪词,解决了基于字 典的分词方法的弊病。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常 用字组,例如“这一”、“之一”,“有的”、“我的”、“许多的”等,并且对常用词的识别精度 差,时空开销大。一般的应用中,我们一般是将其与基于字典的分词方法结合起来,既发挥匹配分词 5 东南大学硕士学位论文 切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 3 ) 基于a i 的分词技术 专家系统和神经网络是当前人工智能研究的两个热点。将两者应用到中文自动分词中来提高分词 的智能性,是近年来研究的一个热点。 专家系统分词法:从模拟人脑功能出发,将分词过程看作是知识推理的过程,构造推理网络,将 分词所需的汉语词法、句法、语义知识分离出来,把知识表示、知识库结构与维护作为考虑的中 心。知识分为:常识性知识,采用。语义网络”表示;启发性知识,采用“产生式规则”表 示。在分词时,将待分词或已分词看作词法树上的节点,分词过程可归结为利用常识性规则生成 词语树,利用启发性规则校正歧义部分过程。专家系统优点是知识库易于维护和管理。但对外界的 信息变化不敏感,反应缓慢,不能从经验中学习。 神经网络的分词方法:模拟人脑的运行,分布处理,建立计算模型,将分词知识分散、隐式地存人 神经网络内部,通过学习和训练改变内部权值,以达到正确的分词效果。该分词方法的关键,在于 知识库的组织和网络推理规则的建立。分词系统中,将知识分为语法知识和语境知识。语法知识作 用域在一个词内,语境知识作用域是语句。分词过程是生成一个分词动态网的过程,首先确定阿络 处理单元,然后根据链接权重激活输人输出单元之间的链接,进行匹配。神经网络分词法具有对 外界变化敏感、反应迅速。且具有自学习,自组织的能力;缺点在于对已有知识维护更新困难,网 络模型表达复杂,训练时间长 2 1 3 本系统中分词技术的选择 以上三类分词方法代表了分词方法的三种发展方向。其中,基于词典的分词方法由于其算法成熟, 易于实现,是目前普遍使用的切分方法。基于统计的分词方法由于其良好的歧义切分能力和低频词识别 能力,受到越来越多的研究人员的重视,发展较快。但实际使用中,单独使用的较少,一般都与基于词 典匹配的分词方法结合使用,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上 下文识别生词、自动消除歧义的优点。基于人工智能领域的专家系统分词和神经网络分词是较为理想的 分词方法,是未来发展的方向,但是由于自然语言复杂灵活。规则提取,知识表示非常困难,所以目前 该类分词方法还处于实验室阶段,尚未用于实际应用。通过三种分词方法的比较我们认为主观题阅卷 系统对自动分词的要求不是太高,只要分词处理能够保持一致性即可本系统中我们就采用算法成熟, 易于实现,目前普遍使用的基于词典的分词方法。由于我们的系统是基于h o w n e t 知识库运行的,为了保 证系统的效率和分词处理后分得的词语与h o w n e t 知识库的词语的一致性,我们需要基于h o w n e t 知识库建 立分词词库,建立方法后面章节介绍。 2 2 汉字编码技术与标准 2 2 1 g b 2 3 1 2 编码 g b 2 3 1 2 编码是中华人民共和国国家汉字信息交换用编码,全称 中两个主要的概念:“概念”与“义原” “概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。 “概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的。词汇”叫做“义原” 。义原”是用于描述一个“概念”的最小意义单位。 与一般的语义词典( 如同义词词林,或v o r d n e t ) 不同,知网 并不是简单的将所有的“概念” 归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述。 知网 一共采用了1 5 0 0 义原,这些义原分为以下几个大类: 1 ) e v e n t l 事件 2 ) e n t i t y f 实体 3 ) a t t r i b t i t e1 属性值 4 ) a v a l u e i 属性值 5 ) q u a n t i t y i 数量 6 ) q y a l u e i 数量值 7 ) s e c o n d a r y f e a t u r e1 次要特征 8 ) s y n t a x i 语法 9 ) e v e n t r o l e 动态角色 i o ) e v e n t f e a t u r e s 动态属性 对于这些义原,把它们归为三组:第一组,包括第1 到7 类的义原,称之为“基本义原”,用来描 述单个概念的语义特征;第二组,只包括第8 类义原,称之为“语法义原”,用于描述词语的语法特征, 主要是词性( p a r to fs p e e c h ) ;第三组,包括第9 和第1 0 类的义原,称之为“关系义原”,用于描述 概念和概念之间的关系。 除了义原以外,知网 中还用了一些符号来对概念的语义进行描述,如下表2 1 所示: 多个属性之间,表示“和”的关系 #表示“与其相关” 表示“是其部分” s 表示“可以被该v ( 表示动词) 处置,或是该“v ”的受事,对象,领有物。或者内 容 表示会v 或主要用于v ,即施事或工具 + 对v 类,它表示它所标记的角色是一种隐性的,几乎在实际语言中不会出现 表示指向 表示多半是,多半有,很可能的 l o 第二章相关知识介绍 表示可以做“v ”的空间或时间 表示可以是“n ( 表示名词) ”的材料,如对于布匹,我们标以4 7 衣服”表示布匹可以 是“衣服”的材料 )( 1 ) 对于v 类,置于 】中的是该类v 所有的“必备角色”。如对于“购买”类,一 旦它发生了,必然会在实际上有如下角色参与:施事,占有物,来源,工具尽管在 多数情况下,一个句子并不把全部的角色都交代出来 ( 2 ) 表示动态角色。如介词的定义 ( )置于其中的应该是一个词表记,例如,( c h i n a l 中国) 表示不存在,或没有,或不能 表示某一属性为一种敏感的属性,例如:“味道”对于。食物”,“高度”对于“山脉”, 。温度”对于“天象”等 口标识概念的共性属性 表2 1 知网知识描述语言中的符号及其含义 把这些符号又分为几类,一类是用来表示语义描述式之间的逻辑关系,包括以下几个符号:工_ 二二_ , 另一类用来表示概念之f 司的关系,包括以下几个符号:堡l ! ! 量q ! ! ,第三类包括几个无法归 入以上两类的特殊符号:i ! ( 2 我们看到,概念之间的关系有两种表示方式:一种是用“关系义原”来表示,一种是用表示概念关 系的符号来表示。按照我们的理解前者类似于一种格关系。后者大部分是一种格关系的“反关系”, 例如“$ ”我们就可以理解为“施事、对象、领有、内容”的反关系,也就是说,该词可以充当另一个 词的“施事、对象、领有、内容”。 义原一方面作为描述概念的晟基本单位,另一方面,义原之问又存在复杂的关系。在知网中, 一共描述了义原之间的8 种关系:上下位关系、同义关系、反义关系、对义关系、属性一宿主关系、部 件一整体关系、材料一成品关系、事件一角色关系可以看出,义原之间组成的是一个复杂的网状结构, 而不是一个单纯的树状结构不过,义原关系中最重要的还是的上下位关系。根据义原的上下位关系, 所有的“基本义原”组成了一个义原层次体系( 如图2 3 ) 这个义原层次体系是一个树状结构,这也 是进行语义相似度计算的基础 一e n t i t y l 实体 卜t i i i 吲万物 卜p h y s i c a l 物质 卜a n i m a t e l 生物 i - a n i m a l h u m a n 动物 卜h u m a n l 人 l l h u m a n i z e d i 拟人 i - a n i m a l 兽 - b e a s t l 走兽 图2 3 树状的义原层次结构 从表面上看,其他的语义词典,如同义词词林和w o r d n e t 。也有一个树状的概念层次体系,好 像 知网和它们很相似,但实际上有着本质的不同。在同义词词林和w o r d n e t 种,概念就是描写 词义的最小单位,所以,每一个概念都是这个概念层次体系中的一个节点。而在知网中,每一个概 东南大学硕士学位论文 念是通过一组义原来表示的,概念本身并不是义原层次体系中的一个节点,义原才是这个层次体系中的 一个节点。而且,一个概念并不是简单的描述为一个义原的集合,而是要描述为使用某种专门的“知识 描述语言”来表达的一个语义表达式。也就是说,在描述一个概念的多个义原中,每个义原所起到的作 用是不同的,这就给我们的相似度计算带来了很大的困难。下面就对这个描述概念的知识描述语言进行 一些考察。 2 4 。2 知网) 的知识描述语言 知网对概念的描述是比较复杂的。在知网中,每一个概念用一个记录来表示,如下所示: n o = 0 1 7 1 4 4 wo = 打 gc = v ec = 一网球,牌,一秋千,砍极,球一得很棒 we = p 姆 g 剖 陟 d e f = e x e r c i s e 锻练。s p o r t l 体育 其中n o - 为概念编号,w _ c ,g _ c ,e _ c 分别是汉语的词语、词性和例子,we 、o _ e 、e _ e 分别 是英语的词语,词性和例子,d e f 是知网对于该概念的定义,称之为一个语义表达式其中d e f 是知 网的核心。这里所说的知识描述语言也就是d e f 的描述语言 在 知网) 的文档中,对知识描述语言做了详尽的介绍。不过,由于该文档过于偏重细节,不易从 总体上把握。本节中对这种知识描述语言给出一个简单的概括。 看几个例子( 如表2 2 ) : 打0 1 7 1 4 4 e x e r c i s e i 锻练。s p o r t 体育 男人 0 5 9 3 4 9 h u m a n l 人,f a m i l y l 家,m a l e t 男 高兴 0 2 9 5 4 2 a v a l u e i 属性值,c i r c u m s t a n c e s l 境况,h a p p y ) 福,d e s i r e d i 良 生日 0 7 2 2 8 0t i m ej 时间,d a y l 日, c o m e t o 、r 删问世,$ c o n 毋 a t u l a t e j 祝贺 写信 0 8 9 8 3 4 w r i t e l 写c o n t e n t p r o d u c t = l e t t e f l 信件 北京 0 0 3 8 1 5 p l a c e j 地方,c a p i t a l l l 国都,p r o p e r n a m e l 专,( c h i n a l q 3 国) 爱好者o 0 0 3 6 3 h u m a n 人+ f o n d o t 喜欢,# w h i l e a w a y i 消闲 必须 0 0 4 9 3 2 m o d a l i t y 语气 富 0 1 5 2 0 4 n o u n u n i t 名量,& ( g r a p e 葡萄) ,& ( k e y l 钥匙) 从良 0 1 6 2 5 l c e a s e i 停做,c o n t e n t = ( p r o s t i t u t i o n l 卖淫) 打对折 0 1 7 3 1 7 s u b t r a c t l 自r l 减,p a t i e n t - p r i c e ) 价格,c o m m e r c i a l i 商,( r a n g e l 幅度= 5 0 的 儿童基 p a t t i 部件,i n s t i t u t i o n i 机构,p o l i t i c s l 政,# y o u n g l 幼,# f u n d i 资金,( i n s t i t u t i o n l 金会 0 2 4 0 8 3 机构= t r o t 联合国1 表2 2 ( 2 0 0 0 ) 系统导出的词条都是以文本方式存放的( 如图3 i ) 必须转化数据库 - 一一嘲攫罐蹦戳积瓣瓣瓣瓣嚣醚茹曩l 盎藿鼯l 鑫。g 川,蛊酬二篡 文件( e ) 编轻( ) 格式( 必帮助( 出,。 h i ) - 1 1 6 9 3 k 7 w _ c - j t 椒 # gc 。h t ec 一 也e - g r e e np e p p e r蟊 g _ e - h薹 ee -蓼 d e f - p ”t i 部件t u e g e t a l e l 蔬菜e m r g o l 胚。s e a t l 吃 哪。a 鍪 v _ c - - w 椒一 g _ c 。h 舞 e _ c -: w _ e - g r e e np e p p e r雾 se h 驻 ee i d e f - u e g e t a b l el 蔬菜 ,l i 、一一t “一”、一。”1 ”。z 。二”“# 日8 r “1 。? c : 图3 1 知网词条文本格式 的格式才能完好的应用到我们的系统中,为了很好的提取知网词库同时能使我们开发的系统具有通 用性,我们专门在系统中增加一个知识库提取模块,模块操作界面如图3 2 : 图3 2 知网知识库提取界面 1 4 第三章基于知网的知识库的获取 这里给出词库建立过程和算法: i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村委大楼出租合同范本
- 租赁螺旋钻机合同范本
- 火锅商铺转让合同范本
- 设施外包合同范本
- 男鞋生产合同范本
- 年产10万套人工驱雷电设备生产线项目可行性研究报告模板-立项备案
- 山东建筑公司合同范本
- 铺面租赁拍卖合同范本
- 租人租车合同范本
- 花卉销售配送合同范本
- 2025年中国协同办公软件行业市场发展前景及发展趋势与投资战略研究报告
- 颈椎病课件完整版
- 传染科专科护士培训
- 综合设计我的书包课件
- 《海洋遥感技术》课件
- 企业人力资源管理师三级历年真题及答案(2024年11月-2025年5月)版
- 2024年度德国企业博士实习生招聘与雇佣合同3篇
- 华为-供应链管理课件
- 企业环保组织机构情况及管理制度模版(3篇)
- 【培训课件】商务礼仪培训
- 政府机关员工宿舍管理条例
评论
0/150
提交评论