




已阅读5页,还剩84页未读, 继续免费阅读
(计算机应用技术专业论文)文本标注的数据库表达及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
at h e s i sf o rt h ed e g r e eo fm a s t e ri nc o m p u t e r a p p l i c a t i o nt e c h n o l o g y o n r e p r e s e n t a t i o no ft e x ta n n o t a t i o n i nd a t a b a s ea n di t s a p p l i c a t i o n b ys o n g y a n g s u p e r v i s o r :p r o f e s s o rh u a n gw e i z u n o r t h e a s t e r nu n i v e r s i t y f e b r u a r y2 0 0 8 上 一rh , l r 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚 的谢意。 学位论文作者签名:泵相 签字日期:朋y 巧 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:、泵千日 导师签名 , :略2 仡 0 ;一 签字日期栅儿7 签字日期:唧硐7 玢 l 产 l 肆 p _ f i p 0 白 p 东北大学硕士学位论文摘要 文本标注的数据库表达及应用 摘要 词典普遍被作为一种含有大量语言学知识、常识知识的知识库。传统英语词典中一 般包含词形、词性、词义、例句、习语、各种语法语用说明以及出处、领域等注解。从 传统词典中提取出这些语言词汇知识并加以结构化存储,使词典中的知识利于计算机使 用和处理,将有利于促进语言学、自然语言处理、机器翻译和知识工程等相关领域的研 究,同时有利于语言教学。 现有的纸版词典是面向人类读者,而非计算机的。其基本存储格式为文本格式。虽 然词典的排版遵循一定的规则,但由于是给人阅读的,其中也存在相当多的随意性。其 中很多部分之间的界限并不明显,对于计算机自动解析具有相当的困难。 对词典文本信息的抽取取决于文本中文本信息实体的识别和标注。本文提出一种文 本标注的数据库表达方法,将文本实体特征信息和标注结果表达在数据库中,从而使特 征信息参数化。并提出文本信息标注的基本方法为依据文本信息实体的特征标记和标记 序列组合特征以及实体间关系来识别和标注实体。这样使文本标注的通用性增强,有利 于标注结构类似的其他词典文本。 首先,本文分析了文本标注领域的相关概念和概念之间的关系,给出了文本标注的 通用数据库表达方法。 然后,本文以牛津高阶英汉双解词典( 第四版) ( 简称o a l d 4 ) 文本的标注与 信息抽取为应用,详细阐述了基于文本标注的数据库表达方法的o a l d 4 文本标注与信 息提取系统的分析、设计与实现。 最后,对本文的工作进行了总结和展望。提出需要进一步研究的工作和改进的建议。 关键词:文本标注;信息抽取;知识库建设;英汉词典 一i i ; 岛 , 一 , o n r e p r e s e n t a t i o no f t e x ta n n o t a t i o ni nd a t a b a s ea n di t s a p p l i c a t i o n a b s t r a c t d i c t i o n a r i e sa r eu n i v e r s a l l yr e g a r d e da sak i n do fr e p o s i t o r yw h i c hc o m a i n sa1 0 to f k n o w l e d g eo fl i n g u i s t i c sa n dc o m m o ns e t i s e al e n u n ai nac o n v e n t i o n a le n g l i s hd i c t i o n a r yi s u s u a l l yc o m p o s e do ft h ef o r m so ft h ew o r d ,t h ep a r t so fs p e e c h , t h es e n s e s ,t h ee x a m p l e s e n t e n c e s ,t h ei d i o m s ,t h es y n t a c t i ca n ds e m a n t i cs p e c i f i c a t i o n sa n dt h ec o m m e n t so f d e r i v a t i o na n dd o m a i n b e i n ge x t r a c t e df r o mt h ec o n v e n t i o n a ld i c t i o n a r i e sa n ds t o r e di nt h e s t r u c t u r e df o r m , t h ek n o w l e d g ei nt h ed i c t i o n a r i e sc o u l db eu s e da n dp r o c e s s e dc o n v e n i e n t l y b yc o m p u t e r s ,w h i c hi sb e n e f i c i a lt ot h er e s e a r c ho n t h er e l a t i v ef i e l d so fl i n g u i s t i c s ,n a t u r a l l a n g u a g ep r o c e s s i n g ( n l p ) ,m a c h i n et r a n s l a t i n ga n dk n o w l e d g ee n g i n e e r i n ga n di s a l s o b e n e f i c i a lt ot h el a n g u a g et e a c h i n g t h ee x i s t i n gc o n v e n t i o n a ld i c t i o n a r i e si np a p e rm o u l da r eb u i l tf o rh u m a nb e i n g sb u tn o t c o m p u t e r s t h e ya r eu s u a l l ys t o r e di nt e x tf o r m a t t i n g a l t h o u g ht h e r ea r es o m er e g u l a t i o n sf o r t y p e s e t t i n g ,m a n yu n b e n d i n gs t r u c t u r e sa n de n t i t i e sa r es t i l la p p e a r e d ,b e c a u s et h et a r g e t r e a d e r sa r eh u m a nb e i n g s t h eb o u n d a r i e so fm a n yp a r t so ft h el e m m aa r eu n a p p a r e n t ,s oi ti s v e r yd i f f i c u l tf o rc o m p u t e r st op a r s et h e m t h ei n f o r m a t i o ne x t r a c t i o nf r o mt h ed i c t i o n a r i e sl i e so nt h ei d e n t i f i c a t i o na n da n n o t a t i o n o ft h ei n f o r m a t i o ne n t i t i e si nt h ed i c t i o n a r yt e x t t h er e p r e s e n t a t i o nm e t h o do ft e x ta n n o t a t i o n i nd a t a b a s ei sp r e s e n t e di nt h i st h e s i s t h i sm e t h o dm a k e st h ef e a t u r e so ft h ei n f o r i l l a t i o n e n t i t i e sa n dt h ea n n o t a t i o nr e s u l t ss t o r e di nd a t a b a s es ot h a ta l lt h ei n f o r m a t i o no ft h ef e a t u r e s s h o u l db ep a r a m e t e r i z e d t h eb a s i ca n n o t a t i o nm e t h o di st oi d e n t i f ya n da n n o t a t et h ee n t i t i e s b yc o n s i d e r i n gt h er e l a t i o n s h i p sb e t w e e nt h ee n t i t i e s ,t h ec h a r a c t e r i s t i cm a r k so f t h ee n t i t i e s a n dt h e i rc o m b i n a t i o n s t h eg e n e r a l i t yo ft h ea n n o t a t i o ns y s t e mi si m p r o v e db yt h i sm e t h o d i ti sh e l p f u lt ob u i l da na n n o t a t i o ns y s t e mc o n v e n i e n t l yf o ra n o t h e rd i c t i o n a r y st e x tw h i c hh a s as i m i l a rs t r u c t u r e f i r s t l y , t h ec o n c e p t sa n dt h e i rr e l a t i o n s h i p si nt h ef i e l do ft e x ta n n o t a t i o na r ea n a l y z e di n t h i st h e s i s a f t e rt h a t ,t h eg e n e r a lr e p r e s e n t a t i o nm e t h o di nd a t a b a s ei sp r o p o s e dt ot e x t a n n o t a t i o n n e x t ,t h er e p r e s e n t a t i o no ft e x ta n n o t a t i o n i nd a t a b a s ei s a p p l i e dt o t h ea n n o t a t i o n p r o g r a mo ft h eo x f o r da d v a n c e dl e a r n e r se n g l i s h - c h i n e s ed i c t i o n a r yf o u r t he d i t i o n ( o a l d 4 ) t e x t n ea n a l y s i s ,d e s i g na n di m p l e m e n t a t i o no ft h ea n n o t a t i o na n di n f o r m a t i o n e x t r a c t i o ns y s t e mf o ro a l d 4b a s e do nt h er e p r e s e n t a t i o no ft e x ta n n o t a t i o ni nd a t a b a s ea r e p r e s e n t e di nd e t a i l 一i t t 一 p 东北大学硕士学位论文 a b s t r a c t f i n a l l y , t h ec o n c l u s i o na n dt h ef u t u r ew o r k sa r ed i s c u s s e d t h ef u r t h e rr e s e a r c hw o r k s a n dt h es u g g e s t i o n sf o ri m p r o v e m e n ta r ep r o p o s e d k e y w o r d s :t e x ta n n o t m i o n ,i n f o r m a t i o ne x t r a c t i o n , r e p o s i t o r yc o n s t r u c t i o n , e n g l i s h - c h i n e s e d i c t i o n a r y i v 一 ;刷o 岛 阶 0 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i a b s t 】 乙j l i i :t i i i 第一章绪论1 1 1 课题来源1 1 2 课题背景1 1 3 本文主要工作3 1 4 本文结构4 第二章相关理论与技术5 2 1 语料库与机读词典5 2 1 1 语料库一5 2 1 2 机读词典与词汇知识库6 2 2 本体论一7 2 2 1 本体论的起源与发展7 2 2 2 本体的定义7 2 2 3 本体的分类8 2 3 文本标注与信息抽取9 2 - 3 1 文本标注9 2 - 3 2 信息抽取。1 0 2 4 正则表达式技术11 2 5 小结。1 2 第三章文本标注的数据库表达方法1 3 3 1 文本标注领域本体分析1 3 3 2 文本标注在关系数据库中的表达1 4 3 3 小结17 第四章o a l d 4 文本标注与信息提取系统的系统分析1 9 4 1 需求分析1 9 4 1 1 功能需求分析2 0 4 1 2 可用性与性能需求分析2 4 4 1 3 可扩展性与可复用性需求分析2 4 一v 一 东北大学硕士学位论文目录 4 2o a l d 4 应用本体分析2 5 4 2 1o a l d 4 文本信息实体类型分析2 5 4 2 2o a l d 4 文本信息实体关系分析3 3 4 3o a l d 4 实体文本标记特征分析3 5 4 4o a l d 4 中随意性文本结构与错误文本特征分析4 0 4 5 小结4 1 第五章o a l d 4 文本标注与信息提取系统的设计与实现4 3 5 1 系统的总体设计4 3 5 1 1 系统的总体架构4 3 5 1 2 文本标注的总体流程4 4 5 2 数据模型设计4 6 5 2 1 文本标注的数据模型设计4 6 5 2 2 信息提取结果的数据库存储4 7 5 3 文本标注的递归算法设计4 8 5 3 1 文本标注递归算法的主要数据结构4 9 5 3 2 文本标注递归算法的核心思想5 0 5 3 3 文本标注递归算法流程5 l 5 3 4 中英文切分方法5 8 5 3 5 实例说明5 9 5 4 存储显示转换算法与文本提取算法6 0 5 4 1x m l 显示与关系数据库存储的相互转换算法6 0 5 4 2 文本提取算法6 3 5 5 人机界面的设计与实现6 3 5 5 1 总体界面设计6 3 5 5 2 主要界面的详细设计与实现6 4 5 6 实验结果分析6 8 5 7 小结6 9 第六章总结与展望7 1 6 1 总结一7 1 6 2 展望。7 2 参考文献7 3 致谢7 7 一一 1 二 ? 、 、 东北大学硕士学位论文第一章绪论 第一章绪论 本章总揽全文,目的是为了阐明本文研究的意义、课题的主要研究工作以及本文的 组织结构。本章首先介绍了课题的来源,然后介绍了课题研究的背景及相关领域的发展 现状,并论述了本文研究工作的意义。最后,概括介绍了本文的主要工作和组织结构。 1 1 课题来源 本课题是科技部创新基金项目“教育软件的流水线制作平台及应用 ( 项目代码 0 1 c 2 6 2 1 2 1 1 0 2 9 2 ) 的一部分。 1 2 课题背景 “语言知识库的建设确实是最基本、最重要的基础研究。,【l 】怎样构造“词汇知识库” 并结合计算机技术的发展,使其更好的应用于自然语言处理研究和英语语言学习是一个 重要的值得关注的课题。 国外在语言知识库构建的主要成果有普林斯顿大学的w o r d n e t 2 , s 、加州大学伯克利 分校的f r a m e n e t 4 1 、巴黎大学g r o s s 的i n t e x 5 1 、微软公司的m i n d n e t 6 , 7 1 等。国内在语 言知识库构建方面的主要成果有董振东的h o w n e t i s , 9 、俞士汶等的现代汉语语法信息词 典【1 0 】等。这些语言知识库的构建大部分为手工完成,只有微软公司的m i n d n e t l 6 , 刀是利用 微软强大的自然语言处理技术自动构建的。手工构建耗费大量的人力和时间,通常需要 几年甚至几十年的时间。语言知识库的计算机自动构建或计算机辅助构建方法是一个很 值得研究的方向。 人类长久以来利用书籍以文字和图表的形式记载并传播了大量知识,如果能够从现 有书籍入手,利用计算机技术抽取出其中的知识并结构化存储,就可以构造出非常庞大 的知识库。现在已经有一些这些方面的研究,例如微软的m i n d n e t 6 , 7 】就是从词典中自动 抽取知识,v i n a yk c h a u d h r i 等人研发的a u r a 系统【l l 】则是利用计算机技术辅助专家从 科学教科书中抽取知识构造知识库。 词典普遍被作为一种含有大量语言学知识、常识知识等的知识库,它在计算机科学、 语言学等研究和教学方面起着重要的作用,特别是在信息检索、过滤、共享、集成、文 本分类、外语教学等应用中已经证明了它的重要性。 词典除了提供词汇知识以外,其中大量的例句也可以单独提取出来作为非常好的语 料库资源,尤其是英汉双解词典中的例句既有英文例句又有其对应的中文翻译,可以作 为良好的平行语料库资源。词典中的例句具有规范、典型、简洁、准确的优点,十分有 东北大学硕士学位论文 第一章绪论 利于英语语言教学和自然语言处理研究。 现有的纸版词典是面向人类读者,而非计算机的。词典的内部形式是纸制印刷形式, 其存储形式一般为简单文本格式或二进制格式,它的外部形式一般都是文本形式。虽然 词典中含有大量的语言学及常识知识,但是计算机很难理解其中的信息。而且由于词典 文本包含有大量的专用符号和简写等特殊记号,英汉双解词典中还存在中英文文本复杂 交错的问题,另外词典文本还包含很多语法结构不完整的句子,因此,也很难利用自然 语言处理技术从词典文本中直接挖掘出语言学知识、常识知识等有用信息。因此迫切需 要词典的电子化、结构化,使词典的价值得以延伸,进一步丰富我们的词汇知识库和语 料库,从而更好的为自然语言处理相关技术的研究和语言教学服务。 现有的纸版词典很多,而且都蕴含了丰富的语言资源。而大多数词典文本属于半结 构化文本,有一定的结构和格式规定,但也存在一定的随意性,而且某些文本信息实体 的范围不容易界定。通过对词典文本的分析发现可以在确定需要标注的信息实体类型, 实体间关系,实体的标记特征之后通过这些信息来识别并标注实体,因此这类文本信息 标注的基本方法为依据文本信息实体的特征标记和标记序列组合特征以及实体间关系 来识别和标注实体。 为了能对不同文本特别是不同词典文本进行标注,进而对标注结果进行信息提取, 从而丰富词汇知识和语料库资源,本文希望探索文本标注特别是针对词典文本这种半结 构化文本标注的通用方法。而关系数据库是目前对大量数据存储、管理和查询的最有效 手段,因此本文希望找到文本标注的数据库表达方法,从而使标注知识参数化,可以针 对不同文本特征录入不同的文本标注特征知识,而计算机可以利用不同的标注知识来自 动标注相应的文本。同时也使标注结果表达在关系数据库中。这正是本文研究的目标和 意义。 因为从词典中提取出的知识要用于英语教学,所以对词典中信息的标注和提取要求 较高的准其性。因此,提供一个带人工辅助标注功能的人机交互界面也是有实际意义的。 这样可以使人查看标注结果并及时修改错误的标注,还可以在标注的过程中让人来帮助 计算机消除标注过程中的歧义和难以识别的部分,进而有效提高标注的准确性。 牛津高阶词典是半个多世纪前由霍恩比编撰的,开创了英语教学词典的先河;后经 不断修订再版,该词典更臻完善。而牛津高阶英汉双解词典是牛津高阶词典的忠实译本, 以英英、英汉双解形式出版,其权威性已为世所公认【1 2 1 。该词典第四版增补本内容比第 三版增加6 0 以上;增辟新词不编,精选新词约3 0 0 0 个,并附国际音标和2 4 0 项说 明新词或用法的附注;共收词及词组6 0 0 0 0 条,习语和短语动词1 2 8 0 0 项;新设立2 0 0 项专题处理的语法或困难词语用法说明;词典中还有大量注解内容,包括领域、出处、 语法、语义和语用等,其中对动词还标注了动词的使用模式,一共3 2 种动词模式,对 一2 一 l r l i 东北大学硕士学位论文第一章绪论 名词和形容词也标注了类别;另外,在词义后通常有若干例句。 可以说,牛津高阶英汉双解词典第四版增补本( 简称o a l d 4 ) 是一个丰富的语言 词汇知识库,其中不仅包含词形、音标、词性、词义,同时伴随着词义的还有大量的关 于语法、语用方面的语言学知识,如果能将它们分别提取出来并结构化存储在计算机中, 将会进一步促进自然语言处理的研究工作,同时丰富外语教学和语料库资源,提高外语 教学的灵活性。另外,运用自然语言处理技术从提取出来的词义文本中还可以进一步提 取语义知识,而且,提取出来的中英对照词义还有助于机器翻译中译词选择和建立语义 词典的研究工作。 本文要在文本标注的数据库表达方法基础上,建立一个通用的文本标注模型,并以 o a l d 4 文本的标注为应用,建立对o a l d 4 文本的标注系统。将o a l d 4 种的语言知识 标注并提取出来,应用语言教学、自然语言处理和机器翻译等领域的研究。同时,提取 出来的结果还可以做进一步处理得到更多的语言知识。 1 3 本文主要工作 本文研究过程中做了大量的基础性分析和实验工作,最终设计并实现了一个应用本 文所提出方法的文本标注系统。本文主要的工作分为以下几部分: ( 1 ) 分析并总结了现有语料库和语言词汇知识库的构建过程,提出了本文研究的需 求和目标。 ( 2 ) 通过对文本标注领域的概念、关系、任务、过程的分析,探索文本标注的统一 表达方法,提出了文本标注的数据库表达方法。 ( 3 ) 详细分析了牛津高阶英汉双解词典( 第四版) ( 简称o a l d 4 ) 的词条用法、 使用说明和大量不同类型词条的组织结构,并做了大量前期试验以发现o a l d 4 文本中的特殊词条类型和错误文本类型,最终总结出统一的o a l d 4 文本词条 结构。 ( 4 ) 总结了需要标注的o a l d 4 文本信息实体类型和实体间关系类型,并建立了各 实体间关系。 ( 5 ) 通过对大量词条文本字符串的特征分析,总结了各实体的标记特征和实体标记 关系类型,并建立了各实体标记关系。 ( 6 ) 设计了o a l d 4 文本标注与信息提取系统的三层架构和各层之间的接口。 ( 7 ) 扩展了文本标注通用数据模型,建立o a l d 4 系统的文本标注数据模型和信息 提取结果的存储模型。 ( 8 ) 设计并实现了标注器中的文本标注递归算法- - a n n o t a t e ,同时实现了信息提取 算法。 一3 一 东北大学硕士学位论文第一章绪论 ( 9 ) 设计并实现了系统的人机界面,实现了系统的标注知识录入、标注和提取过程 控制、标注结果显示、人工辅助标注和标注结果修改等功能。同时设计并实现 了标注结果显示形式和存储形式之间相互转换的算法。 1 4 本文结构 本文共分六章,组织结构如下: 第一章介绍了本文的课题来源、研究背景、现状及意义,然后概括了本文的主要工 作,说明了本文的组织结构。 第二章介绍了本文研究工作所涉及的相关理论与技术,包括语料库与机读词典、本 体论、文本标注与信息抽取和正则表达式技术。 第三章对文本标注领域进行了分析,给出了文本标注的数据库表达方法,并建立了 文本标注的通用数据模型。 第四章给出本文要实现的系统的需求分析,同时对要标注的目标文本o a l d 4 无格 式文本进行了分析,总结了词条文本组织结构、需要标注的实体类型、实体问关系、实 体的标记特征、和随意性文本结构与错误文本特征。 第五章在前面建立的模型和分析结果基础上设计并实现o a l d 4 文本标注与信息提 取系统。首先介绍了系统的总体设计,包括架构设计和总体流程设计,然后介绍了数据 模型设计,之后给出了系统的几个重要算法的设计,最后给出了系统的界面设计与实现, 并进行了实验和实验结果分析。 第六章对本文工作进行总结同时提出了对未来工作的展望。 一4 一 东北大学硕士学位论文第二章相关理论与技术 第二章相关理论与技术 本章介绍本文研究工作中涉及的相关理论与技术。首先介绍了语料库和机读词典, 然后介绍了本体的定义和分类,最后介绍了文本标注、信息提取和正则表达式技术。 2 1 语料库与机读词典 现代语料库语言学( m o d e mc o r p u sl i n g u i s t i c s ) 是2 0 世纪中叶开始的语言研究科学。 随着计算机技术的不断进步,语料库在语言教学与外语教学、自然语言处理等诸多应用 领域发挥了巨大作用。机读词典( m a c h i n er e a d a b l ed i c t i o n a r y ) 是一种语言词汇知识库, 从广义上来说也是一种语料库。传统的纸版词典中蕴含了大量的语言词汇知识,如果能 够把它们转化为机读词典,将进一步丰富我们的语料库资源和计算机可处理的语言词汇 知识库,为进一步的自然语言处理技术研究和外语的计算机辅助教学提供更丰富的资 源。这一节,我们简要介绍语料库和机读词典的相关知识。 2 1 1 语料库 从狭义上说,语料库( c o r p u s 或c o r p o r a , c o r p u s e s ) 是指按照一定的语言学预则,运 用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量 的大型电子文本库【1 3 1 。但是从广义上说,语料库就是存放语言材料的仓库。 语料库是一个由大量在真实情况下使用的语言信息经过科学的收集和组织而集成 的专供研究使用的资料库【1 4 】。最早的预料库是2 0 世纪6 0 7 0 年代的b r o w nc o r p u s 和 l o b c o r p u s ,分别汇集了1 0 0 万词次的美国和英国书面英语。后来,预料库的发展越来 越趋于大型化,到了9 0 年代,推出了容量为1 亿词次的b r i t i s hn a t i o n a lc o r p u s ( b n c ) ; 由英国的g r e e n b a u m 教授主持的t h ei n t e r n a t i o n a lc o r p u so f e n g l i s h ( i c e ) 预料库汇集了全 球2 0 多个国家和地区的英语语料。 平行语料库是一种双语或多语的语料库,也就是说,库中不但有源语文本,还有对 应的译语文本。这些平行语料文本一般采用句子或段落对齐方式编排。常见的平行预料 库有以下三种。第一种是由源语和译语组成的单向预料库;第二种是由两种源语及其相 互的译语组成的双向预料库;第三种是由译语组成的预料库。以英语和汉语为例子:以 英语做源语而以汉语做目的语的属于第一种;以英语和汉语同时做源语又以英语和汉语 同时做目的语的属于第二种;以他语作为源语,同时以英语和汉语作为目的语的属于第 三种。平行语料库除了具有普通语料库的功能外,还有着自己独特的作用。在中英文词 义对照、对应词的选择、义项的划分等方面都有着很大的功用。 一5 一 东北大学硕士学位论文第二章相关理论与技术 2 1 2 机读词典与词汇知识库 词典不仅可以作为一种丰富的知识库,也可以只为广义的语料库,同时词典还具有 用语规范的特点,很适合于进行计算语言学、计算机科学等的研究工作,在自动提取概 念之间的关系,信息检索、文本分类、自然语言处理、机器翻译等领域都具有重要作用。 表2 1 国内外语义词汇知识库 t a b l e2 1d o m e s t i c - o v e r s e a ss e m a n t i ck n o w l e d g eb a s eo f g l o s s a r i e s 国外在电子词典的开发和研究上处于领先的地位,已经建立了一些可用的机读词 典,其中比较成功的有w o r d n e t 15 1 ,m i n d n e t 1 6 1 等。其中w o r d n e t 是人工建立的语义词 典,已经成功用于英语的信息处理。m i n d n e t 是从l d o c e ( 朗文当代英语词典) 和a h d 3 ( 美国传统词典第3 版,a m e r i c a nh e r i t a g ed i c t i o n a r y ) 中的词汇解释或例旬中获取语言 概念语义知识而建立的语义机读词典。日本计划开发包括日语和英语的1 0 部大型机器 一6 一 东北大学硕士学位论文第二章相关理论与技术 词典,种类包括基本词典、术语词典、搭配词典、概念分类词典和概念描述词典等。 国内的机读词典建设还很不系统,计算机化比较低。比较成功的是董振东先生建立 的“h o w n e t ,【1 7 1 ,它是一个以汉语和英语的词语所代表的概念为描述对象,以解释概 念和概念之间的关系为基本内容的常识知识库,且已经成功用于中文信息处理及相关领 域。国内外著名的语义词汇知识库如表2 1 。 2 2 本体论 本体论( o n t o l o g y ) 原本起源于哲学,在近些年来在信息科学领域得到了广泛应用, 它的重要性也已经在很多方面表现出来。基于本体的知识库系统、基于本体的自然语言 处理、基于本体的文本信息抽取都是当今研究的热门,而且基于本体的语义w e b 研究 也得到了长足发展。本节将简单介绍本体论相关知识。 2 2 1 本体论的起源与发展 从西方哲学史来看,本体论作为一门学问起源于对万物本原的追问。早在1 7 世纪 本体这个词就已经诞生,从哲学意义上看,本体论关注的是“存在 ,即世界在本质上 有什么样的东西存在,或者世界存在哪些类别的实体。所以哲学上的本体论是对世界任 何领域内的真实存在所做出的客观描述,而且这种描述不一定完全建立在已有的知识基 础上,还包括“求真”的过程。 正如本体论的诞生与哲学早期的发展密切相关,在过去一段时间里,本体论在计算 机科学领域的发展也与人工智能和信息技术的起步和发展密不可分。在知识库构建、数 据管理系统( d b m s ) 、领域建模领域的研究中都面对了同一个类似的问题,即需要对 某个领域进行通用概念上的描述。因此,必须回答这样的问题:对于某个领域,本质上 有些什么样的对象、过程、属性和关系? 什么是一项事务、一个人以及一个组织? 它们 之间的相互依赖关系如何? 这正是本体论所研究的内容【l 8 1 。 2 2 2 本体的定义 在计算机及相关领域,本体与哲学上的本体有所区别,它是指应用本体论的基本方 法,通过概念分析、建模,把现实世界中的实体抽象为一组概念与概念之间的关系的理 论和方法【1 9 】。 2 0 世纪下半叶以来,在计算科学与技术的范围内( 包括计算机科学、软件工程、信 息系统等) ,本体论已经成为了一个蓬勃发展的研究和应用领域。专注在软件工程与技 术这个领域内,g r u b e r 首先给出了一个本体的定义【2 0 ,2 1 】:“本体是一个概念化的明确说 明。”概念化( c o n c e p t u a l i z a t i o n ) 可以理解为要表达的世界的抽象和简化形式。明确 一7 一 东北大学硕士学位论丈第二章相关理论与技术 ( e x p l i c i t ) 的意思是指概念和约束都被明确的定义。后来,其他学者们又在这个定义的 基础上增加了两点,一个是形式化的,一个是共享的。形式化的( f o r m a l i z e d ) 是指本体 必须是计算机可以处理的。共享的( s h a r e d ) 可以理解为所获取的知识是一个领域内专 家们所共同承认的。1 9 9 8 年s t u d c r 等人给出了一个较为明确且全面的解释:“本体是对 概念体系的明确的、形式化、可共享的规范说明 【2 2 1 。目前使用比较广泛的本体定义还 有波音公司m i c h a e lu s c h o l d 博士等在1 9 9 6 年提出的:“本体是一套术语词汇表和术语 含义的规范说明。 【2 3 l 2 2 3 本体的分类 本体的分类有很多种,从不同的角度会得到不同的分类。下面就介绍几种非常典型 的分类。 从通用程度的角度,g u a r i n o 将本体进行了分类【2 4 】如表2 2 。 从概念体系结构类型的角度,v a nh e i j s t 和他的同事建立了一种分类如表2 3 。 在本体工程领域还有一种常见的分类,即轻量级本( l i g h t w e i g h to n t o l o g i e s ) 和重 量级本体( h e a v y w e i g h to n t o l o g i e s ) 。这种分类是基于内部结构丰富程度分类的简单说 法。轻量级本体更接近于词表或者术语表,而重量级本体则是“更深层次的、在领域语 义上提供更多约束的特定知识模型 【2 6 1 。前者包括概念、概念词表、概念间关系和描述 概念的属性;而后者为了澄清术语的含义,则还包含公理和约束。从轻量级本体到重量 级本体逐渐过渡,有受控词汇表、信息层级、框架、带有逻辑约束的本体等。这种分类 方式考虑了两方面的平衡性,前者具有简单的优点,而后者则功能更加强大。而类似于 框架的这种本体则是一种折中。 表2 2g u a r i n o 根据通用层次对本体的分类 t a b l e2 2c i u a r i n o sc l a s s i f i c a t i o no fo n t o l o g ya c c o r d i n gt og e n e r a l i t yl e v e l s 本体类型解释说明 上层本体 ( h i g h l e v e lo n t o l o g i c s ) 领域本体 ( d o m a mo n t o l o g i e s ) 任务本体 ( t a s ko n t o l o g i e s ) 应用本体 ( a p p l i c a t i o no m o l o g i e s ) 描述通用的概念,如时间、空间等,独立于具体领域 和问题。它们独立于具体的领域或问题。它们的目的 是统一大的用户群之间的标准。 通过对上层本体的具体化,来描述一个通用领域( 信 息系统、医学等) 的概念体系。 通过对上层本体的具体化,来描述一个通用任务或活 动( 如开发、销售等) 通过对领域本体和任务本体的具体化,来描述同时属 于领域和任务的概念,它们通常对应于领域实体在执 行一个活动时所扮演的角色。 一8 一 东北大学硕士学位论文第二章相关理论与技术 表2 3v a nh 刨s t 根据概念体系结构类型对本体的分类 t a b l e2 3v a nh e i j s t sc l a s s i f i c a t i o no fo n t o l o g ya c c o r d i n gt ot h et y p eo fc o n c e p t u a l i z a t i o ns t m c t i l r e 本体类型解释说明 术语本体 ( t e r m i n o l o g i c a lo n t o l o g i e s ) 信息本体 ( i n f o r m a t i o no n t o l o g i 骼) 知识表达本体 ( k n o w l e d g er e p r e s e n t a t i o no n t o l o g i e s ) 指定用来表达一个所研究的领域的术语。然后 试图获得一个指定领域的统一语言。例如, u l m s ( u n i v e r s a lm e d i c a ll a n g u a g es y s t e m ,通 用医学语言系统) 。 指定数据库记录的结构,为标准的信息存储建 立框架。例如,门诊病历建模框架。 指定知识概念体系的内部结构。这种本体比上 面两种本体更高级。它们集中于描述一种特定 知识的运用。 2 3 文本标注与信息抽取 2 3 1 文本标注 文本标注就是对文本中存在的实体识别并标注上实体类别的过程,在本文的研究中 文本标注是文本抽取的基础,也是最为关键的步骤。当文本信息实体被完全标注之后, 建立在标注结果之上的文本抽取将变得非常简单,因为文本抽取就是抽取文本中具有独 立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025合同范本知识产权质押反担保合同模板
- 项目融资保函担保合同
- 建筑物生命周期中的环境管理
- 北京辅警招聘试题及答案
- 租用铺面合同协议书范本
- 提前赎回合同协议书
- 广艺书法复试题目及答案
- 初一语文试题卷及答案
- 小学五年奥数试题及答案
- 精加工试题及答案
- 形势与政策补考2-国开(XJ)-参考资料
- 高中英语-人教-选修二-单词默写
- 江苏省苏州市(2024年-2025年小学四年级语文)部编版质量测试(下学期)试卷及答案
- 高等职业学校铁道机车车辆制造与维护专业岗位实习标准
- 炸药成型与装药的制备-性能关系
- 2024年山东省德州经开区小升初数学试卷
- 剧毒易制爆化学品防盗、防抢、防破坏及技术防范系统发生故障等状态下的应急处置预案
- HY/T 0409-2024近岸海域水质浮标实时监测技术规范
- 《正常分娩》课件
- JGJ25-2010 档案馆建筑设计规范
- 医之有“道”告别难“咽”之隐-基于5A护理模式在脑卒中恢复期患者改善吞咽障碍中的应用
评论
0/150
提交评论