(计算机软件与理论专业论文)信息抽取在企业知识收集系统的应用.pdf_第1页
(计算机软件与理论专业论文)信息抽取在企业知识收集系统的应用.pdf_第2页
(计算机软件与理论专业论文)信息抽取在企业知识收集系统的应用.pdf_第3页
(计算机软件与理论专业论文)信息抽取在企业知识收集系统的应用.pdf_第4页
(计算机软件与理论专业论文)信息抽取在企业知识收集系统的应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)信息抽取在企业知识收集系统的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机和企业办公自动化的普及,电子文档成为企业文档的最主要的 形式。i n t e m e t 的出现,加速了电子文档的交流,同时使得电子文档的数量急剧 膨胀。企业对文档的应用也有了新的需求,文档由原来的信息的载体逐步转变 为信息和知识的综合体。 信息抽取应运而生,它是为了在大量的文本信息中找到用户感兴趣的信息 点而产生的技术。谢菲尔德大学研发了一个信息抽取和自然语言理解的软件平 台g a t e ( g e n e r a la r c h i t e c t u r eo ft e x te n g i n e e r i n g ) ,在这个解决方案中,文档 标注使得信息抽取和知识收集的结合成为可能。g a t e 系统对文档进行自动或 手动标注以后,文档就成为内容和标注的结合体。这种处理,为企业基于文档 收集知识提供了平台。 这篇论文,以g a t e 文档标注的结果为依据,将w i n d o w s 版本的g a t e 程 序,迁移到w e b 上来,根据知识收集的需要,实现了标注和词典功能,并且设 计了数据库来扩展文档的自动和手动标注,同时提供了对标注结果的分类柃索 功能。 关键词:信息抽取标注辞典g a t e a b s t r a c t w i t ht h ep o p u l a r i t yo ft h eu s a g eo fc o m p u t e ra n do ai ne n t e r p r i s e ,e l e c t r o n i c d o c u m e n t sa r em o r ea n dm o r eb e c o m i n gt h em a j o r i t yo fe n t e r p r i s ef i l e s i n t e m e t a c c e l e r a t e st h ec o m m u n i c a t i o no fe l e c t r o n i cd o c u m e n t sa n dm e a n w h i l et h ea m o u n to f t h e mb o o m s u p c o m p a n y sp r e s e n tt h en e wr e q u i r e m e n t s0 1 1t h ef u r t h e ra p p l i c a t i o no f c o m p a n yd o c u m e n t s ,a n dd o c u m e n t sa r eb e c o m i n gt h em i x t u r eo fi n f o r m a t i o na n d k n o w l e d g e i n f o r m a t i o ne x t r a c t i o nc o m e si n t ou s eu n d e rt h el i g h to ft h i st r e n da n di ti s p r o d u c e df o rt h el o o k i n gu pi n t e r e s t i n gp o i n t sw i t h i nal o n gt e x ta r t i c l e t h e u n i v e r s i t yo fs h e f f i e l dd e v e l o p e dan a t u r el a n g u a g eu n d e r s t a n d i n ga n di n f o r m a t i o n e x t r a c t i o np l a t f o r mg a t e ( g e n e r a la r c h i t e c t u r eo ft e x te n g i n e e r i n g ) ,i nt h i ss o l u t i o n a n n o m t i o nt e c h n o l o g ym a k e st h em i x i n go fi n f o r m a t i o ne x t r a c t i o na n dk n o w l e d g e c o l l e c t i o np o s s i b l e a f t e rt h ea n n o t a t i n gm a n u a l l ya n d o ra u t o m a t i c a l l y , d o c u m e n t s a r eb e c o m i n gt h em i x t u r eo fc o n t e n ta n da n n o t a t i o n t h i sp r o c e s s i n gp r o v i d e sa p l a t f o r mf o rc o m p a n y t oc o ll e c tk n o w l e d g eb a s e do nt e x td o c u m e n t s t h i st h e s i s b a s e do nt h er e s u l t so fg a t ea n n o t a t i o n t r a n s f e r r e dt h ew i n d o w s v e r s i o no fs o f t w a r et ow e bp l a t f o r m ,a n du n d e rt h er e q u i r e m e n t so fk n o w l e d g e c o l l e c t i o n ,i m p l e m e n t e da n n o t a t i o na n dg a z e t t e e r , t h e nd e s i g n e dd a t a b a s et oe x t e n tt h e m a n u a la n da u t o m a t i ca n n o t a t i o n ,m e a n w h i l ep r o v i d e sa w a yt oa c c e s st h ea n n o t a t i o n r e s u l t s k e yw o r d s i n f o r m a t i o ne x t r a c t i o n 。a n n o t a t i o n g a z e t t e e r , g a t e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得鑫洼盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 一虢罗杉珂一期:矽汐夕年多月三日 学位论文版权使用授权书 本学位论文作者完全了解基鲞盘堂有关保留、使用学位论文的规定。 特授权丕叠盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 芗物可 签字日期:砌乡年石月? 日 导师签名: 考墨之司 签字日瓤咖丫年厂月、日 第一章基于信息抽取的知识收集系统概述 第一章基于信息抽取的知识收集系统概述 1 1 基于信息抽取的知识收集的研究背景 1 1 1电子文档的积累 随着计算机的普及,各种办公软件、电子邮件为用户提供了极大的方便, 同时也为企业和个人管理电子文档提出了新的要求。目前比较流行的文档管理 软件,比如e m cd o c u m e n t u m ,主要是追踪文档的修改纪录,版本控制,共享 安全等功能。对于没有文档管理系统的用户和个人来说,主要是按照文档的用 途、时间或文档类型进行大致归类对于时间比较久远的文档的管理以及使 用,就变得比较困难。 w e b 的发明使得电予文档以彳i 可思议的速度传播和膨胀,所谓的信息爆 炸,比预想的来得更早更严重。一个用户在使用电子文档的时候,记忆这些文 件的名字尚且很难,记忆这些文档的内容更加不可能。 全文搜索技术的发明,g o o g l e 、y a h o o 币l l 百发等搜索软件的使用为用户提 供了一个查询信息的快捷途径,同时也使得用户的电子文档的数日急速增加 f 2 】 o 1 1 2 文档使用与知识收集 文档的使用分为两类:一类是使用完以后就抛弃,如果以后需要,重新搜 索;另外一类,在使用的同时,做记录或笔记,然后把使用的文档,保存起 来,以后使用或用于交流。第一种使用,目前流行的全文搜索系统能满足绝大 多数的需求。对于第二种文档使用,除了文档,还涉及知识收集。 如何把人们的知识以一种高效的方式保存,以方便的形式使用,是当前计 算机研究人工智能领域一个很重要的课题。全文检索技术,为人们提供了一个 查找文档的途径,得到需要的文档以后,知识获取和收集,却不是全文检索的 服务领域。信息抽取技术,为用户提供了一个工具,它能帮助用户从文档或语 音中,提取出用户感兴趣的信息点。这种提取,为用户提供了快速定位信息的 一种手段1 3 1 。 1 1 3 企业的知识收集与价值诉求 全文搜索和信息抽取技术,为用户快速定位文档和信息点提供了手段,基 于这些信息的知识获取和收集,就成了下一步追逐的目标。这些知识的存储、 访问、归类、共享,就已经超越了文档的现有的使用价值。对这些知识的使 第一章基于信息抽取的知识收集系统概述 用,归根结底要建立在对知识的存储和定位上。是否可以把知识和信息点结 合,借助于全文搜索和信息抽取技术,为知识的收集和访问提供解决方案 4 1 , 是这片文章要探讨的核心。 另外抬业员工贡献劳动的同时,对员工所拥有的知识的发掘也成了下 个企业追逐的利益目标。企业员工对任何一个有关企业产品,服务的建议或意 见,或许对企业就是有用的。产品开发期间,需求发现阶段,每一个员工的意 见或建议,都可能成为一个新的功能:设计实现阶段,任何一个开发人员的建 议,或许都会为产品的性能和服务提供帮助。对这些意见建议收象存储,就会 形成企业的知识库。维基百科率先作类似的知识收集,但基于词条的设计理念 和基于抽取的概念又有本质的不同。 1 2国内外的研究现状 1 。2 1信息抽取的研究 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于 以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、 篇章分析技术、多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 以及对时间信 息的处理等等。在应用方面,信息抽取应用的领域更加广泛,除自成系统以 外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。 目前,除强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主 要来自美国国家标准技术研究所( n i s t ) 组织的自动内容抽取( a c e , a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测会议。最近一次评测( a c ep h a s e2s u m m e r e v a l u a t i o n ) 主要有两大任务:实体识别与跟踪e d t ,e n t i t yd e t e c t i o na n d t r a c k i n g ) 、关系识别与描述( r d c ,r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n ) 。 中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实 体的识别方面,在设计实现完整的中文信息抽取系统方面还处在探索阶段。其 中,国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) 和新加坡肯特岗数字实验室 ( k e n tr i d g ed i g i t a ll a b s ) 参加了m u c 7 中文命名实体识别任务的评测。i n t e l 中国研究中心的z h a n gy i m i n 和z h o uj o ef 等人在a c l 2 0 0 0 上演示了他们 开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系 统利用基于记忆的学习( m b l ,m e m o r y b a s e dl e a r n i n g ) 算法获取规则用以抽 取命名实体及它们之间的关系p j 。 哈尔滨工业大学的赵妍妍等人针对中文事件抽取技术,对事件类别识别以 及事件元素识别进行了深入研究,很好的解决了事件抽取中训练实例正反例不平 衡以及数据稀疏问题,取得了较好的系统性能。哈尔滨工业大学的机构信息抽 第一章基于信息抽取的知识收集系统概述 取系统,也达到了实用的水平。 1 2 2g a t e 的研究和应用 g a r e 是谢菲尔德大学研发的一个自然语言理解的平台,现在已经用在很 多的研究和开发项口。 新西兰的g r e e n s t o n ew a i k a t o 大学研发的d i g i t a ll i b r a r i e sa n dc u l t u r a l h e r i t a g e 是一个构建和分布数字图书馆信息的软件包,它是基于g a t e 和a n n i e 开发的。加拿大c l 安全部门研发的e m a i ls u m m a r y 是一个电子邮件摘要服 务程序,用来截获电子邮件的概要信息。中国科学技术信息研究所的姜彩红等 人基于g a t e 和i c t c l a s ,开发了中文专利摘要系统。该系统能处理批量的中 文专利信息,为专利知识库的自动构建准备了充分的语料基础: 1 3 论文的目的和意义 这篇论文在研究了部分现有的信息抽取的项目以后,结合信息检索技术和 维基的概念,设计了一个基于g a t e 平台的知识收集系统,这个设计的目的是 将信息抽取和知识库的积累结合起来:用户在信息抽取的结果上,查找感兴趣 的信息点,然后针对这些信思点,添加注释。经过该系统处理的文档,就成为 信息点以及用户对特定信息点的注释的结合体,大大丰富信息抽取的意义。 该系统实现以后,可以根据用户的定义,在文本文件,w o r d 文件,p d f 文 件中查找用户指定的文本信息:用户根据查找的结果,为特定的信息添加注 释。这个设计的实现是基于网络的,这就意味着,用户可以共享信息以及针对 信息的用户所作的注释。由于信息抽取的结果,带有信息点的定位信息,用户 可以很容易地在文档中找到特定类型的信息点;又由于特定的信息点往往带有 某个用户的注释信息,所以可以达到信息共享和交流的目的。这种针对某个信 息点的共享和交流,为特定领域知识的积累,提供的应用的可能。 1 4 论文内容安排 论文的主体分为四部分: 系统功能分析( 第二章) 这一章分析了当前流行的信息检索和信息抽取的技术和应用,对基于信息 抽取的知识收集系统的可行性以及可能遇到的技术和实现上的问题,做了大致 地分析和设想。 系统设计部分( 第三章) 这一章描述了系统主要的功能,包括用户界面,处理流程,异常处理等。 系统实现部分( 第四章) 第一章基于信息抽取的知识收集系统概述 这一章详细描述了系统每个功能的实现方法,用户操作流程,以及实现过 程r f l 用到的关键的技术。 系统测试部分( 第五章) 近章根据功能的设计使用不同格式的测试文栏;f 文本文件w o r d 和 p d f 文件) ,对系统的主要的功能,进行测试,并记录测试结果,并且分析了溅 试过程中出现的问题。 第二章基于抽取的知识收集系统分析 第二章基于抽取的知识收集系统分析 2 1 知识收集系统需求分析 知识收集系统( k c sj ,是基于信息抽取工具g a t e 构建的。由于企业知识 库的构建,是在企业网络构造的一个网络应用程序,所以将g a t e 从w i n d o w s 版本迁移到网络,是知识收集系统的第一步。 由于w i n d o w s 程序和网络程序完全不同的消息处理和资源利用机制,在设 计知识收集系统的时候,需要仔细分析g a t e 的消息和资源使用机制。 g a t e 将语料和处理分开看作两个独立的模块然后构造管道来组织处 璎,资源和语料资滁它还提供了x m l 和数据库两神持夕、化模式 g a t e 提供了分词词典转换器等处理资源当前的知i h 收集系统考 忠从怀注开始,计划采用词虮处理资源就是从现有的文本文件中自动获得甲 户预定义的信息? g a t ew i n d o w s 版本的程序实现了手动标滓这个为用户编辑标注提供了 可能k c s 计划实现这个手动标注并加、注释的功能使得昭白能针对某个信 息点作如下的功i i 任意选择文字片断进行标注 浏览标注 保存标注历史 由于对文档的标注作了保存,也为用户以后浏览标注提供功能。所以为已 经标注过的文档建立索引,让用户按照索引查找后浏览,是k c s 系统应该提供 的功能。由于g a t e 现有的程序不提供索引功能,这部分的功能,就得借鉴现有 其他优秀软件的成功的经验。目前参照了g a t e 的标注类型,m a j o r 类型年i m i n o r 类型,在这三个标注属性上建立了索引。w i k i 基于词条的设计【2 5 】,不可照搬, 因为那样会丧失信息抽取的基本特征。k c s 系统的索引还需要进一步的研究, 因为这个大大影响或增强k c s 系统的性能和用户感受。 以上是k c s 系统第一阶段开发的功能要求,下面详细分析开发这个系统所 需要的资源,包括开发环境的构建,技术背景,可能存在的问题和如何规避 等。 2 2 信息抽取 信息抽取技术是指从一段文本中抽取指定的事件、事实等信息,形成结构 化的数据并存入一个数据库,供用户查询和使用的过程【5 1 。也就是从文本中抽 取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述, 第二章基于抽取的知识收集系统分析 然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等 各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形 式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化 数掘: 信息抽取技术的最终目的就是开发实用的信息抽取系统从自田文本中抽 取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、 经济f 6 f 7 1 、医学、科学研究9 1 等领域有着极大的应用空间。 2 2 1信息抽取的基本步骤 通用的信息抽取系统结构是由c c a r d i e 提出的,该结构由五个步骤组成 【5 】: f 1 符号化和标 手( q o k e n i z a t i o na n d f a g g i n g i 输,、文档首先经过分段、分句后进亍词性标j 主宵些系统还会加7 、语义仁 汪? 对于中文文档而茜存文档完成了分句后还耍进行自动分词的处理。由r 丁 汉语奉身的特点,该步骤的处理对于中文信息抽取系统的性能起着比较关键的 作用 ( 2 j 句法分析( s e n t e n c ea n a l ) ,s i sj 信息抽取系统将识别待处理文本的名词短语、动词短语等各种语法结构, 并选择一步或多步策略进行句法分析,以识别与抽取任务相关的各类命名实体 州e ) 。 ( 3 ) 抽取( e x t r a c t i o n ) 系统利用与领域相关的抽取模式来识别待处理文本中各个命名实体间的关 系,根据抽取任务将需要抽取的信息抽取出来,并填入到输出模板的槽中。 ( 4 ) 指代合并( m e r g i n g ) 它主要解决待处理文本中命名实体的指代重复问题( c o r e f e r e n c e r e s o l u t i o n ) 。系统如果发现两个指代都指向同一个命名实体,则将两个指代合 并。让信息抽取系统识别待处理文本中相同命名实体的不同表达式,并将它们 合并是一项比较艰巨的任务。这个问题解决的好坏直接影响着信息抽取系统的 性能。 ( 5 ) 模板生成( t e m p l a t eg e n e r a t i o n ) 这一步主要完成推理和新模板生成的工作。推理是根据抽取任务并结合领 域知识来对待处理文本进行推断以得出抽取信息。当待处理文档中包含多个事 件( e v e n t ) 时,则需要生成多个模板分别对这些事件进行信息抽取【l 】。 2 2 2 命名实体识别 第二章基于抽取的知识收集系统分析 命名实体【1 0 】是文本中基本的信息元素,是正确理解文本的基础。狭义地 讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地 点等,通常用唯一的标志符( 专有名称) 表示,如人名、组织名、公司名、地 名等广义地讲命名实体还可以包含时间、数虽表达式等至于命笔实体的 确切含义,只能根据具体应用来确定j 比如,在具体应用中,可能需要把住 址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。命名实 体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。 在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据 m u c1 1 1 】评测结果,英文命名实体识别任务的f 指数( 召回率与准确率的加权 几何平均值权重取1 ) 能达到9 0 以上。命名实体识别的难点在于: 1 、存不同领域、场景下命名实体的外延千j 差异: 2 、数帚巨弋不能枚举难以全部收录在词庐! 中: 3 、某些类犁的实体名称变化频繁行目没千,瓶格的规律可以遵循: 4 、表达形式多样; 5 、首次出现后往往采用缩写形式: 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法一般 来说,基于规则的力法性能要优于基于统计的方法。但是这些规则往往依赖于 具体语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经 验的语言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行 训练,标注语料时不需要广博的计算语言学知识,并且可以在较短时间内完 成。因此,这类系统在移植到新的领域时可以不做或少做改动,只要利用新语 料训练一遍即可。此外,基于统计的系统要移植到其他自然语言文本也相对容 易一些。 2 3知识获取 知识获取是从专家或其他专门知识来源汲取知识并向知识型系统转移的过 程或技术【l 】。知识获取和知识型系统建立是交叉进行的。知识型系统初建时, 一般只获取最必需的知识,以后随着系统的调试和运行而逐步积累新的知识。 对知识库进行扩充和更新时,需要检查新老知识的相容性,以维持知识库的整 体性,还要对新补充的知识分类存储,以供运用【l2 。知识获取是构筑知识型系 统的一个重大课题,但研究得尚不充分。 2 0 世纪6 0 年代以前,大部分人工智能程序所需知识是由专业程序员手工 编入程序的。当时较少直接面向应用系统,知识获取问题还未受充分重视。随 着专家系统和其他知识型系统的兴起,人们认识到必须对落后的知识获取方式 第二章基于抽取的知识收集系统分析 进行改革,让用户在知识工程师或智能程序( 知识获取程序) 帮助下,在系统 的运行过程中直接逐步建立所需的知识库1 1 3 。 计算机可通过以下几种基本途径直接获取知识| 1 4 】: f 1 1 借助于知识丁程i j 币从专家莸取: ( 2 ) 借助于智能编辑程序从专家获取m y c i n 系统的知识获取程序 t e i r e s i a s 就采用了这种方式; ( 3 ) 借助于归纳程序从大量数据中归纳出所需知识; ( 4 ) 借助于文本理解程序从教科书或科技资料中提炼出所需知识: 而知识收集只是提供一个知识收集和存储的平台,不涉及知识系统的构 造,也不符合知识获取的几个阶段5 l 。没有知识库的支持,也没有机器学习的 参与丁推理它就是把知识按照一定的规则倮1 j i 、分类以供提取实际上是一 爪简单的按照类型分娄的信启、存储系统,只是在信息分类的时候按照信息、相 天的主题进仃分类而己: 2 4 全文搜索引擎 全文搜索6 | 引擎是一个从网站提取信,营、建:嘲页数据院的程事f 1 7 l ,搜亲 引擎的自动信息搜集功能分两种。 一种是定期搜索,即每隔一段时间( 比如g o o g l e 一般是2 8 天) ,搜索引擎 主动派出“蜘蛛”程序,对一定i p 地址范围内的互联网站进行检索,一旦发现 新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一 定时间内( 2 天到数月不等) 定向向你的网站派出“蜘蛛”程序,扫描你的网 站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发 生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此 目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动 将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到 与用户要求内容相符的网站,便采用特殊的算法一通常根据网页中关键词的 匹配程度,出现的位置频次,链接质量等计算出各网页的相关度及排名等 级,然后根据关联度高低,按顺序将这些网页链接返回给用户l l8 i 。 2 4 1 谷歌工作原理 g o o g l e 系统中,下载网页是由几个分布式c r a w l e r s 完成的u g 。一个u l u 服 务器负责向c r a w l c r s 提供u r l 列表,抓来的网页交给存储服务器s t o r c s c r v c r ,然 后由存储服务器压缩网页并把它们存到知识库r e p o s i t o r y 。 第二章基于抽取的知识收集系统分析 每个网页都有一个i d ,称作d o c l d ,当新u r l 从网页中分析出时就被分 配卟d o c l d 。由索引器和排序器负责建立索引i n d e xf u n c t i o n ,索引器从知识库 中读取文档对其解压缩和分析。每个文档被转换成一组词的出现情况,称作 命t i * h i t sh i t s 纪录了词在文档ir 的位置最接近的字号 大小写。索引器把这 些h i t s 分配到一组桶( b a r r e l ,中,产生经过部分排序后的索日:索引器的h 一 个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述a n c h o r s 文件中。该文件包含了足够的信息,可以用来判断每个链接链出链八节点的信 息和链接文本。u r l 分解器r c s o l v e r 阅读链接描述a n c h o r s 文件并把相对u r l 转 换成绝对u r l ,再转换成d o c l d 。为链接描述文本编制索引,并与它所指向的 d o c l d 关联起来,同时建立l 妇d o c l d 对组成的链接数据库,用于计算所有文档的 p a g e r a n k 值:用d o c l d 努茭后的b a r r e i s 迁绐捧亭器s o r t e r 再根据w o r d f d 进行 鼻娄建土反同索引i n v e r t e di n d e x 运小撕作蘑怡纠好妊,以便儿可不需要暂 存空间排序器还鲒出d o c l d 和偏移量列亡建j7 反向索b j 1 、 d u m p l e x i c o n 的程序把这个列表和南索引器产生的字典结台在一起建立一十 新的字典,供搜索器使用。这个搜索器就是利用一个w e b 服务器使用由 d u m p l e x i c o n 孵生成的字啦利用_ = 二违反向索引咀腰页丽等级p a g e r a n k ”来匝l 菩用户的提问。g o o g l e 的全文搜索技术拉u ,能为系统提供很多可以扩展利 用的空间,但是知识收集又不是纯粹的搜索引擎这篇论文的重点是收集建立在 标注上的注释或评论。 25 维基技术 n 自c _ p _ ,b id h 口l e d 旆。o t l t r - c t _ d ng f i l d o 严自 m 。o 。一t 娜”o e “u e 。v e m 日r d 3 c 4 u 1 日t i o n 口r 日_ c 。p b r d 目o 】ej m l 口n bm n 1h o ” “l o w l o 口l i ;o n 。n 口l o d t o 自一o bb o o 口口c c o m n t t h _ n p d j l a n e5 o g n l r c 日n 】e i e m l n e d t n e 一“口1 0 d i s l c d “i h im 帅l e 日d g n o c b k 自r o fr 一_ 日n “ t 。吣i m h 目i b e m 口_ d - e q “7 l e i _ i _ o d o n a t r u c t u m d 。 l | la p p l l c m lq o fe t o 一“dd b nn jdjr 3 1 q l a a n dp 。 - _ ir - c t u ”f p d c h t ou _ m 。r l l hr ”+ 【r “_ t ? 1 c h ” “b 8 十c u b r m t 删州u c ) l o 一d c o n k m n g e t u 5 e 口 m u g l j 2 ( 1 9 io p 8 r m 一“9 8 5 c3 1 m u 64 f 1 嚣2 ) 。nl a 【9 n c 口u m n p s 图2 一l 维基英文界面 第二章基于抽取的知识收集系统分析 1 9 9 5 年沃德坎宁安为了方便模式社群的交流建立了一个工具一波特兰模 式知识库( p o r t l a n dp a u e mr e p o s i t o r y ) 2 1 j 。在建立这个系统的过程中,w a r d c u n n i n g h a m 仓f j 造了w i k i 的概念和名称,并且实现了支持这些概念的服务系统: 这个系统是最早的w i k i 系统。1 9 9 6 年至2 0 0 0 年间波特兰模式知识j 车同缝 着而向社群的协作式写作不断发展出一些支持这种写作的辅助工兵,从而使 w i k i 的概念不断得到丰富。同时w i k i 的概念1 2 2 j 也得到了传播,出现了许多类似 的网站和软件系统。 维基百科的创始人是吉米威尔士和桑格,两人先在2 0 0 0 年创建了 n u p e d i a ,却未成功。2 0 0 1 年1 月1 5 日,走头无路的他们试着建立了维基百 科,一个月后就增加了6 0 0 条词条,1 年后更是激增到2 0 0 0 0 条。2 0 0 6 年3 月1 曰,它迎来了第一百万个词条是用户伊万麦克厘i 纳提交的+ 维基百科本身有二个0 ;人注意的特意正是这些特点使维基目科与传统的 百科全书有所区别1 2 3 : 首先维基百科始终就将自己定位为一个包含人类所有知识领域的百科全 书,而不是一本词典,在线的论坛或其他任何东西。 其次计划也是一个w i k i ,这允许了大众的广泛参与:维基百科是第一个 使用w i k i 系统进行百科全书编撰工作的协作计划。 还有一个重要的特点,那就是维基百科是一部内容开放的百科全书。内容 开放的材料允许仟何第三方不受限制地复制、修改及再发布材料的任何部分或 全部。维基百科使用g n u 自由文档协定证书。 维基百科提供了一个开放的平台,供用户编辑和使用【2 4 1 。维基百科维护的 是知识,而不是关键词信息。 2 6 信息抽取与全文检索 信息抽取与信息检索存在差异【1 0 】,主要表现在三个方面: 功能不同 信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列 表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 处理技术不同 信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合 ( b a g so fw o r d s ) ,不需要对文本进行深入分析理解;而信息抽取往往要借助自 然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 适用领域不同 由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统 第二章基于抽取的知识收集系统分析 则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。 另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽 取系统通常以信息检索系统( 如文本过滤) 的输出作为输入;而信息抽取技术 又可以瑚来提两信息检索系统的性能二者的结合能够更好地服务于卜曰户的信 息、处理需求。信息抽取虽然斋要列文卒进行一定程度的理解但与真正的文本 理解( t e x tu n d e r s t a n d i n g ) 还是不同的。在信息抽取中,用户一般只关心有限 的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深 层理解问题。因此,信息抽取只能算是一种浅层的或者说简化的文本理解技 术。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文 本:但广义上讲,除了电子文本以外,信息、抽取系统的处理对象还可以是语 昔、图像、视频等其他媒体类犁的数据:这里只讨论狭义- 卜的信息抽耳丈研究 即针j ;然讫言文本自信息抽h j : 2 7g a t e 及信息抽取 2 。7 1g a t e 简介 g a t e 口是谢菲尔德大:学研发的一个自然语言理解的软件、r 台他可以为 用户提供三个层次的应用: 它是一个语言处理的平台和框架,是一种解决方案; 它是一个开发软件框架,用户可以基于这种框架开发自己的产品,k c s 系 统就是这种使用方式: 它是建立在框架之上的一个图形化的产品。 单机版的程序就是这种应用的实现,用户界面如下: 第二章基于抽取的知识收集系统分析 lf , t e o i 3 tr o n ;t o oj sh e l o l 产鲁0 静;。一 o 。:。曼:r “”“ 1 j 驯n i = 咄f 1 一o 4 0 + 一: 图2 2 g a t e g u i 272 语言工程可重用对象集 语言丁程可重用对象集( c r e o l e ) 2 7 1 是g a t e 的组件对象模型这种框 架提供了个解决方案来支持自然语言的处理,包括语料资源处理资源,管 道等。g a t e 架构把语科资源和处理资源分开语料资源仅包含数据,而处理资 源是基于数据的算法的实现,应用( 管道) 则把用广定义好的处理资源配置和 组织起来执行特定的语言处理功能。 s c h e m a 是用户定义的标注类型是一种系统使用的数据结构:g a t e d o c u m e n t 是存储处理数据的数据结构,是整个处理的核心,文档的内容和处理 的结果都保存在这个数据结构中。c o r p o r a 是文档的集合( 文集) ,为方便用户 批量处理文档。 系统提供了一系列处理资源,包括分词,词典,转换骷等。通过分析, k c s 系统将会使用词典功能实现自动标注功能。 2 7 3 开源 g a t e 是谢菲尔德大学的一个自然语言处理的软件,是用j a v a 语言编写的 开源软件。目前该研究机构提供w i n d o w s 版本的程序和源代码。 g a t e 由g n ul i b r a r yp u b l i cl i c e n e e 官方授权,g n u 官方授权允许其他系 统使用g a t e 作为支持库但是这些系统是不被包舍在g n u 授权下的。 任何针对g a t e 的修改,都必须明确注明并且无条件免费使用,但是非 第二章基于抽取的知识收集系统分析 g a t e 库部分不适用此授权 2 74 持久化模式 g a t e 系统提供了两类持久化的方,t 叫数据库 x m l 文件格式数据睥 支持o r a c l e p o s t g r e s q l k c s 系统tk 4 采) f j x m ll “存储语料信息数据眸存 储将会在后续的开发中引入。 275 处理流程 g a t e 对语料资源的处理流程如下 厂百二忑i 磊i _ 1 l x n ms g m 。 ,:! 一 一一0 c t f i i 刁 i e m o d l l l e s 二至:一燃i 一 鲎! 警燃 l 颦h :燮:】 臣刍匡 丁磊习 图2 - 3g a t e 对语料资源的处理流程 首先从u r l 或文本文件引入语科资源,形成g a t e 文档,然后按照某个设 定好的程序,将这些处理资源加入管道,顺序执行,如上图所示。 2 76 重要数据结构 通过对g a t e 词典功能的分析,有三个重要的对象,在词典处理和标注中, 起着非常重要的作用 3 0 i : g a t ed o c u m m t : 这个数据结构,与语料资源对应存储了语料内容和处理卧后的结果。下 面介绍四个成员: 表2 一ig a t ed o c u m e n t 娄主要成员 第二章基于抽取的知识收集系统分析 名称类型用途 c o n t e n t 字符串类型 存储文档的纯文本内容,非纯文本 的,存储转换以后的结果 u r l u r l 存储文档的存储伊信,皂系统根 据这个信息,将文档内容读入系统 a n n o t a t i o n s e ts e t 存储文档的标注集 a n n o t a t i o n : 这个结构,代表了每一个标注,不管自动标注还是手动标注,都会产生 a n n o t a t i o n 对象,这个对象存储在a n n o t a t i o n s e t 数据结构中,而a n n o t a t i o n s e t 又存储在文档中,在对文档序列化输出的时候这些对象被输出为x m l 文档 巾的特定的节卢, 2 7 7网络化 g a t e 提供了一个信息抽取的解决方菜,其l ,甲机版本的信息抽取程序是 这种解决方案的具体实现。这种单机版本的程序,对于k c s 系统是不能满足要 求的企、比内部知识库的建立依赖于多人的参与知识库的建立过程,其实就 是领域知识的共享和探讨的过程,构建w e b 平台,能为用户提供自由父流和 收集知识的高效途径。 目前,g a t e 没有提供信息抽取平台的网络实现,为用户提供了一个单机 版本的程序,而且是开源的。这样,用户就可以搭建自己的w e b 开发平台,按 照自己的需求,开发扩展应用。 通过对单机程序代码的分析,在w e b 化过程中,要做以下几方面的分析工 作: 单机版本的资源创建机制是否适用w e b 平台 这个问题有三方面的内容: 服务器端能否使用g a t e 框架提供的服务。g a t e 系统在初始化的时候, 需要设定目录的访问路径和权限,确认g a t e 库的可用等初始化的任务,确保 g a t e 系统初始化一次,可被不同用户访问; 客户端能否根据本地文件地址,成功创建文档资源。客户端在创建文档资 源的时候,要向服务器提供本地文件的u r l 信息,服务器根据这些信息,在服 务器端创建文档对象,要确保这种b s 模式可行; w e b 程序工厂模式的实现。一种抽象实现的工厂模式,控制系统语料和处 理资源的创建,这种模式,可为控制用户的访问数量,提供接口。 单机状况下的消息传递机制是否适用w e b 平台 单机版本的程序,是窗体对象之间消息的交互,而w e b 程序则完全不同。 第二章基于抽取的知识收集系统分析 单机版本的程序中,对象之间的创建和使用关系很杂,对象之间的消息传递也 很复杂,w e b 版本的程序要做到像w i n d o w s 程序那样的用户体验,很难。这一 次的w e b 化,主要要体现功能上的实现。 单机状况下的界面显示机制昆否适用w e b 平台 j a v a 提供的g u i 用户对象很丰富再加上灵活的消息机带1 单机版本的程 序在用户和程序交户上,是w e b 程序可能达不到的用户感受; g a t e 程序的信息抽取内核对资源的使用状况如何,多用户同时连接,服 务器的处理能力和资源的使用状况,都是单机版本的程序所不能比拟的,在系 统的测试阶段,是否以及如何实现处理性能的测试,也是设计阶段应该考虑的 一个因素。 2 8 知识收集系统扩展应用 g 盯e 已经提供了信息抽取的平台通过匕o :的分析再至l ,他可以为用引 创建w e b 化的基于g a t e 的信息抽取系统但是k c s 系统不仅仅是信息抽 取,它是在抽取结果上的扩展应用。这就需要在现有的基础上,扩展知识收集 功能 知识荻取以及知识库的建立,是人工智能一个很重要的领域,目前还没有 一个通用的知识获取的方法和途径。但是基于词典的查找方式,是最原始,也 是最通用的方式。企业定义自己的词典,然后在指定的文档中发掘被词典包含 的词汇,然后标注出来【3 。如果这些被标注的文档能被保存在一个公共的可访 问的空间,而且,这些文档所拥有的标注能被建立某些索引,那通过文档来访 问这些标注,并且围绕标注建立的讨论( 假如是共同感兴趣的) ,就会形成特定 形式的知识。这些围绕某一特定内容的讨论,一定程度上和w 1 k i 是类似的,但 又相当不同。 k c s 是围绕标注的。用户用过创建s c h e m a 给系统增加标注类型,通过指定 词典名称和扩展名,来进一步细分标注1 3 2 1 。但是通过词典查询到的都是l o o k u p 类型的标注。只有m a j o r 和m i n o r 两个可能的属性可以建立索引,这对大量的标 注库是不够的,而且没有官方或公认的m a j o r 币i m i n o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论