


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
客观知识是知识组织的对象,客观知识都是用一定形式的语言表达出来的,语言是知识的直接承担者,可见,语言与知识组织之间存在着密切联系。自然语言是表达客观知识最直观、最普遍的方式,因此,如何对自然语言进行处理,使其更好地为知识组织服务,是知识组织领域需要着重研究的一个问题。利用文字和语言表达思想的能力是人类与其他动物的主要区别之一,而自然语言是现实的所有表达方式中最强有力的。在知识组织中,自然语言是指用原有作者或用户使用的语言,包括关键词、自由词等,它们出现在文献的提名、摘要、正文中。自然语言处理侧重于计算机对句子、篇章的处理美国认知心理学家曾提出四条准则作为衡量计算机理解语言的标志:1、能成功地回答输入语料中的有关问题;2、在接受一批语料之后,有作出该语料摘要的能力;3、能用不同的词语复述输入的语料;4、有将一种语言翻译为另一种语言的能力。无论使用什么机器,或采用何种算法,只要具有这四种功能之一,就可以说该机器实现了自然语言理解。计算机要理解和处理自然语言,必须像人一样具有词法、语义和语用等知识。就人自身而言,对语言文字信息的理解和处理大致有6个层次,与此相应的,自然语言处理也有六个层次:1、语音学层次,对声音的识别、理解与合成;2、形态学层次,对各种词形和词的可识别部分的处理,如前缀、后缀、复合词等;3、词汇学层次,重点是全词操作和词汇系统控制;4、语法学层次,与语言结构单元的鉴别有关,即对输入的单词序列进行分析,看它们能否构成合法句子,如果能则给出相应的合法句子结构;5、语义学层次,对自然语言文本意义的识别、理解和表示,涉及各级语言单位(单词、词组、句子、句群等)所包含的意义及其在语言使用过程中所产生的意义;6、语用学层次,对上下文和语言交际环境以及背景意义和联想意义的语义分析。由于自然语言处理侧重句子、篇章,因而,语法分析、语义分析、语用分析构成了自然语言处理的基本部分。自然语言处理与知识组织的关系自然语言处理和知识组织发生联系与知识组织的计算机化和自然语言化有着直接的关系。知识组织是为了从某一知识集合中找出特定知识,知识需求者构造出合适的语言集合作为提问,向知识组织系统进行查找。随着这种查找过程的计算机化和自然语言化,这项工作 (构造出合适的语言集合) 便从知识需求者转移给计算机检索系统内部,从而给计算机检索系统提出了更高的要求,而自然语言处理应用于计算机检索系统成为必要与关键。从知识组织的过程来看,知识组织的步骤主要包括知识源处理、提问式处理、匹配过程、结果排序输出。自然语言处理可以应用于其中任何一个或全部步骤中,在知识源处理阶段,自然语言处理的应用能够对知识源进行更精深的分析和提炼,这也是知识组织发展的必然结果。在提问式处理阶段和匹配过程阶段,运用自然语言处理有两个明显的好处:使用自然语言提问,一是用户更容易表达出它们的知识需求,二是自然语言处理的全面应用有利于消除一些问题,例如,用户的提问未将潜在的有用信息包括在内,用词正确却导致输出的结果与需求不匹配等(不懂这个例子)。在知识排序输出阶段,自然语言处理的应用能提高知识排序的质量,因为它能更确切地理解用户的需求倾向。从自然语言处理方面看,如前所述,知识组织是自然语言处理的四个应用领域(哪四个?)之一,因而也构成了其研究内容的一个方面,关系十分密切。从自然语言处理的六个层次的技术来看,应用到知识领域多是形态学、词汇学这两个层级的技术,属于前者的如自动标引(利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程)中的词汇识别,属于后者的如自动标引时的停用词(停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字)排除、缩略语处理等。其他如在语音、语法、语义、语用等层次上的应用则较少。比较特殊的是语用学层次,自然语言处理目前在这一层次上有很大困难,而知识组织领域采用的一些方法如知识表示、语义网等则似乎走在了前面。自然语言在知识组织中的应用自然语言不同于分类系统、叙词系统以及代码系统等人工语言,它的组织用词普遍取自文献本身(提名、摘要、各级标题、正文),只有个别的由标引员自主赋予(即自由标引)。知识组织的目的在于方便人们找到有用的知识和利用知识,从而创造出更多的有用知识,虽然自然语言很早就被纳入检索语言的范围中,但在手工条件下其应用很困难,因而让规范语言占了上风。随着情报组织、信息组织向知识组织的过渡,以及计算机的广泛应用和知识数量的急剧增加,使得规范语言的缺陷日益暴露,而自然语言的应用则成为可能和趋势。在知识组织中使用自然语言具有许多优点:1、符合客观需要,可以不受限制地随时加入新词,输入成本低;2、适应全库内容组织,相对于受控语言易用性强,检索简便;3、不存在人为标引误差(来自于文献本身),完全是专指的;4、对新词不存在延迟,可以跟踪科学发展,加快知识组织的进度;5、能够有效地、精确地组织单个词语、人名、组织等;6、可以为高级组织提供可能,比受控语言统一性好但与人工语言相比,在知识组织中使用自然语言也存在一些弊端,主要包括:1、自然语言中充满词语的多义性和句子的歧义性,人工处理时可以通过考察和联系上下文予以解决,但在自然语言处理中则难于控制;2、自然语言的语法和语义表达千变万化,不可能用一种简单而通用的模式加以描述,而人工语言的语义则可以由人来直接定义;3、自然语言的句子结构复杂多样,缺少一致性,而人工语言的结构则相对简单;4、自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系,而人工语言的结构和语义之间 有着整齐的一一对应的同构关系,常常可以对结构和语义分别进行处理。由于自然语言具有上述独特性质,使得自然语言成为知识组织的一个重要问题,正是由于自然语言不受规范化的控制,不能反映概念语词之间的一一对应关系,也不能反映概念关系的隐含性,因此,在实际操作中通常对自然语言采取一些辅助措施(如使用后控词表),以弥补其缺陷。将自然语言处理技术应用于知识组织,将会使知识组织的语言更加灵活,从而更好地满足用户的知识需求,实现知识组织的目的。自然语言处理在知识组织中的应用1、规范语言组织系统的自然语言化。两种:一是向规范语言组织系统中增补大量的自然语言入口词,二是在规范语言组织系统的前端增设一个自然语言接口。两种方法都可在标引和组织阶段使用自然语言,而知识组织系统仍然为严密的规范语言所控制。自然语言接口在技术上并不复杂,目前的主要问题是缺乏自然语言与知识组织的对应转换词典,包括汉语的对应转换词典和外语与汉语的对应转换词典。这种对应转换词典以专业性的比较适应,综合性的不仅编制困难,而且使用效果也不理想。实际上是对传统规范语言组织系统的改良,虽然加入了自然语言及其处理技术,但却并未改变其规范语言组织系统的性质。2、知识组织与自然语言处理的有机融合。也分为两种:一是在无标引的知识组织系统中,以关键字、词、词组作为组织用语,在文本中直接进行匹配查找,这种方式实际上就是融入了自然语言处理技术的全文检索;二是在知识组织系统中,标引时采用自动标引、抽词标引或赋词标引,目的是赋予知识以自然语言标引词,以便在对知识进行组织时直接用自然语言进行匹配查找。将自然语言处理技术有机地融入知识组织中,从而产生了一种与规范语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 炼油能耗分析与节能减排-洞察及研究
- 伦理视角下的图像模型-洞察及研究
- 机器学习在政策分析中的应用-洞察及研究
- 畜牧产业集群竞争力-洞察及研究
- 气化技术安全风险评估-洞察及研究
- 深度学习在偏微分方程求解中的应用-洞察及研究
- 动态障碍物检测方法-洞察及研究
- 云计算安全成本效益分析-洞察及研究
- 云平台下的多源媒体数据处理与分析方法-洞察及研究
- 低碳矿业发展路径-洞察及研究
- 2019人教版高中英语选择性必修一UNIT 3 Fascinating Parks 单词表
- 《上海市奉贤区小区机动车停放管理工作调查报告》4300字
- 水中总氯的测定方法确认实验报告(HJ586)
- GB/T 15566.8-2007公共信息导向系统设置原则与要求第8部分:宾馆和饭店
- 2022届东北三省四市暨沈阳市高考二模(解析版)
- 国家开放大学《现代汉语专题》章节自测参考答案
- 老舍《我的母亲》 中职课件
- 教科版二年级(上)科学1.5各种各样的天气(课件)
- 分段函数-完整版获奖课件
- 信访人的权利、义务和禁止行为告知书
- 2022年发展对象个人汇报材料
评论
0/150
提交评论