(信号与信息处理专业论文)中文信息抽取关键技术研究与实现.pdf_第1页
(信号与信息处理专业论文)中文信息抽取关键技术研究与实现.pdf_第2页
(信号与信息处理专业论文)中文信息抽取关键技术研究与实现.pdf_第3页
(信号与信息处理专业论文)中文信息抽取关键技术研究与实现.pdf_第4页
(信号与信息处理专业论文)中文信息抽取关键技术研究与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文 中文信息抽取关键技术研究与实现 摘要 随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准 确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这 样的背景下产生并发展起来的。 本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个 面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域 的应用进行了初步探索。 论文的主要研究成果如下: 1 设计实现了一种自底向上的有监督机器学习算法,不仅能较准确 地完成规则的自动提取,还能较好地实现领域间的移植。在此基础上, 设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验 系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系 统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛 事新闻点播系统表明,“信息抽取+ 短信息 的智能信息服务模式是完全 可行的。 2 采用隐马尔科夫模型对体育赛事新闻文本进行抽取,设计并实现 了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方 式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合 的中文信息抽取方式取得了比较令人满意的效果。 3 在体育赛事新闻领域对命名实体识别进行了重点研究,通过基于 规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。 4 探索了信息抽取在信息内容安全领域的应用。针对中文手机垃圾 短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此 基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验 结果。 最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并 展望了进一步研究的方向和思路。 关键词:信息抽取机器学习命名实体识别隐马尔科夫模型 北京邮电大学硕士研究生学位论文a b s 仃a c t r e s e a r c ha n dr e a l i z a t l 0 no n t h ek e yt e c h n o l o g i e so f c h i n e s ei n f o r m 姗0 ne ) 汀rac t l 0 n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fn e wm e d i a s ,s u c ha si n t e m e t ,h o wt of i n d t h eu s e f u li n f o r m a t i o nr a p i d l ya n da c c u r a t e l yf r o mat r e m e n d o u sa m o u n to f e l e c t r o n i cd o c u m e n t sh a sb e c o m ea b u r n i n gp r o b l e m ,i t i si ns u c ha b a c k g r o u n dt h a ti n f o r m a t i o ne x t r a c t i o nw a sb o ma n dd e v e l o p e d t h i st h e s i sw o r k so ns o m ek e yt e c h n o l o g i e so fc h i n e s ei n f o r m a t i o n e x t r a c t i o n ,d e s i g n sa n di m p l e m e n t ss e v e r a l t e s ts y s t e m s ,a n de x p l o r e st h e a p p l i c a t i o n so fi n f o r m a t i o ne x t r a c t i o ni ni n f o r m a t i o nc o n t e n ts e c u r i t y t h e m a i nc o n t r i b u t i o n so ft h i st h e s i si n c l u d e : 1 as u p e r v i s e dl e a r n i n ga l g o r i t h mw i t hb o t t o m - u ps t r a t e g yi sp r o p o s e d , i tc a nn o to n l y g e n e r a t er u l e sa u t o m a t i c a l l ya n da c c u r a t e l y , b u ta l s oc a n t r a n s p l a n ta c r o s sd o m a i n s d b a s e do nt h i sa l g o r i t h m ,t w ot e s ts y s t e m sa r e d e s i g n e da n dr e a l i z e d :c o r p o r a t i o n sp e r s o n n e lc h a n g e sn e w si n f o r m a t i o n e x t r a c t i o nt e s ts y s t e mi nf i n a n c ea n de c o n o m i c sd o m a i na n dm o b i l eg a m e n e w so r d e r i n gt e s ts y s t e m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h mi s e f f e c t i v et ot h eb o t hs y s t e m s i na d d i t i o n ,t h ec o m b i n a t i o no fi n f o r m a t i o n e x t r a c t i o na n dt h et e c h n o l o g yo fm o v a b l et e r m i n a t i o ni se x p l o r e d ,t h em o b i l e g a m en e w so r d e r i n gt e s ts y s t e ms h o w st h a tt h ei n t e l l i g e n ti n f o r m a t i o ns e r v i c e m o d e ,“i n f o r m a t i o n + s m s ,i sf e a s i b l e 2 h i d d e nm a r k o vm o d e i ( h m m ) i su s e dt oe x t r a c ts p o r t sg a m en e w s , w h i c ht h et h i r de x p e r i m e n t a ls y s t e mi sb a s e do n ar u l e s b a s e dm e t h o di sa l s o j o i n e d ,i tb r i n g si m p r o v e m e n to ft h ep e r f o r m a n c eo fi n f o r m a t i o ne x t r a c t i o n t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ec o m b i n a t i o no fs t a t i s t i c s - b a s e da n d r u l e s b a s e dm e t h o d si ss a s t i s f a c t o r y i 3 n a m e d e n t i t yr e c o g n i t i o ni n r u l e s - b a s e dm e t h o di su s e da n dp e r f o r m t h er e s u l t so fm a t c h e s ,e t c s p o r t sg a m en e w s i s d r e s s e d a w e l lo nr e c o g n i t i o no fg a m en a m e s , 4 a p p l i c a t i o no fi n f o r m a t i o ne x t r a c t i o ni ni n f o r m a t i o nc o n t e n ts e c u r i t y i se x p l o r e d ,f o rf i l t e r i n gt h ec h i n e s es m ss p a m ,a no r i e n t a t i o nj u d g e m e n t m o d e lc o m b i n i n gr u l e s - b a s e dm e t h o da n ds t a t i s t i c s 。b a s e dm e t h o di sp r o p o s e d ac h i n e s es m sc o n t e n tm o n i t o r i n gt e s ts y s t e mi s d e s i g n e da n dr e a l i z e d , e x p e r i m e n t ss h o wg o o dr e s u l t s r n 一一 ln ei l n a lp a r ts u m m a r i z e st h ew o r ki nt h et h e s i s ,a n dd i s c u s s e st h e p r o s p e c t sa n dt h ef u t u r ed i r e c t i o n so nc h i n e s ei n f o r m a t i o ne x t r a c t i o n k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n m a c h i n el e a r n i n gn a m e de n t i t y r e c o g n i t i o n h i d d e nm a r k o vm o d e l ( h m m ) i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:超越 本人承担一切相关责任。 日期:型量:i :堑: 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期: 日期: 北京邮电大学硕士研究生学位论文第一章概述 1 1 选题背景 第一章概述 随着计算机的普及和互联网的迅猛发展,人们获取信息的手段发生了巨大的改 变,从原来单一地依靠报纸、电视等传统媒体发展成为主要依靠网络等新兴媒体。面 对网络上每天出现的海量级的电子文档,如何从中及时准确地找到自己需要的信息已 经成为一个亟待解决的问题。信息抽取正是在这样的背景下产生并发展起来的。 目前,信息抽取的主要任务是将大量无序的信息及时、准确地进行整理,提取出 特定的事实,组织成便于查询检索的形式。例如,信息抽取系统可以从财经新闻中抽 取出公司人事变动的情况:公司名、职位名、离职者、继任者等;从体育新闻中提取 出比赛结果:赛事名称、比赛项目、球队名称、比赛成绩等等。抽取结果以结构化的 形式描述,保存在数据库中,供用户查询和进一步分析使用。 广义上讲,信息抽取的研究对象包括电子文本、语音、图片、视频等,而狭义 的信息抽取研究则主要针对的是自然语言文本。本文研究的主要就是狭义的信息抽 取。 狭义信息抽取的研究对象主要分为三类阻1 : 结构化文本( s t r u c t u r e dt e x t ) :按照一定格式严格生成的文本,如数据库中的文 本信息等。对结构化文本的信息抽取非常容易,准确率也非常高。 自由文本( f r e et e x t ) :文本中文字合乎于自然语法规则的文本,如新闻报道、 科技文献等。 半结构化文本( s e m i s t r u c t u r e dt e x t ) :介于结构化文本和自由文本之间,文本文 字不完全符合自然语法规则的文本。半结构化文本一般比较简短,没有固定的形式, 如分析报表、简短广告文等。 信息抽取和信息检索是密切相关的,两者既有互补,又存在明显的差异。为了处 理海量文本,信息抽取系统通常以信息检索系统( 如文本过滤) 的输出作为输入;而 信息抽取技术又可以用来提高信息检索系统的性能。二者的差异主要体现在以下三方 面n 】: 3 北京邮电大学硕士研究生学位论文第一章概述 ( 1 )功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求 相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴 趣的事实信息。 ( 2 )处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把 文本看成词的集合,不需要对文本进行深入分析理解;而信息抽取往 往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析 处理后才能完成。 ( 3 )适用领域不同:信息检索系统通常是领域无关的,而信息抽取系统则 是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。多 数信息抽取的研究是从以规则为基础的计算语言学和自然语言处理技 术发源的,而信息检索则更多地受到信息理论、概率理论和统计学的 影响。 同时,本文的研究得到了以下课题的支持:北京邮电大学信息工程学院青年教师 科研启动基金一“面向奥运的移动赛事新闻点播系统的研究 ,国家2 4 2 信息安全计 划项目一“基于c i m n l u 和m a s 的“群发信息”内容安全监控系统。 1 2 信息抽取的发展和研究成果 从自然语言文本中获取结构化信息的研究最早开始于2 0 世纪6 0 年代中期n 3 ,这 被看作是信息抽取技术的初始研究。从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开 展起来,这主要得益于两个因素口1 :一是在线和离线文本数量的几何级增加,二是“消 息理解会议”( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 对该领域的关注和推动。 信息抽取的前身是文本理解。1 。人工智能研究者一直致力于建造能把握整篇文档 的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好,向其他新领 域移植的性能却很差。2 0 世纪8 0 年代末开始,美国政府一直支持m u c 对信息抽取 技术进行评测。各届m u c 吸引了许多来自不同学术机构和业界实验室的研究者参加 信息抽取系统竞赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然 后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。 回顾历次m u c 会议,可以清楚地看到信息抽取技术发展的历程。 首届m u c 会议( m u c - i ) 于1 9 8 7 年5 月举行,这是一次探索性的会议,没有 明确的任务定义,也没有制定评测标准,总共有6 个系统参加,所处理的文本是海军 军事情报,每个系统的输出格式都不一样。 m u c - 2 于1 9 8 9 年5 月举行,共有8 个系统参加,处理的文本类型与m u c 一1 4 北京邮电大学硕士研究生学位论文 第一章概述 样。m u c - 2 开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被 明确为一个模板填充的过程。 m u c - 3 予1 9 9 1 年5 月举行,共有1 5 个系统参加,抽取任务是从新闻报告中抽 取拉丁美洲恐怖事件的信息,定义的抽取模板由1 8 个槽组成。从m u c - 3 开始引入 正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。 m u c - 4 于1 9 9 2 年6 月举行,共有1 7 个系统参加,任务与m u c - 3 一样,仍然 是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由2 4 个槽组成。 m u c - 5 于1 9 9 3 年8 月举行,共有1 7 个系统参加。此次会议设计了两个目标场 景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情 况。除英语外,m u c - 5 还对日语信息抽取系统进行了测试。在本次会议上,组织者 尝试采用平均填充错误率( e r r ,e r r o rp e rr e s p o n s ef i l l ) 作为主要评价指标。m u c - 5 的一个重要创新是引入了嵌套的模板结构。信息抽取模板不再是扁平结构的单个模 板,而是借鉴面向对象和框架知识表示的思想,由多个子模板组成。 m u c - 6 于1 9 9 5 年9 月举行,训练时的目标场景是劳动争议的协商情况,测试时 的目标场景是公司管理人员的职务变动情况,共有1 6 家单位参加了这次会议。m u c 一6 的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景 模板( s c e n a r i ot e m p l a t e s ) 填充任务外,又引入三个新的评测任务:命名实体( n a m e d e n t i t y ) 识别、共指( c o r e f e r e n c e ) 关系确定、模板元素( t e m p l a t ee l e m e n t ) 填充等。 m u c - 7 于1 9 9 8 年4 月举行,训练时的目标场景是飞机失事事件,测试时的目标 场景是航天器( 火箭导弹) 发射事件。m u c 一7 新增了一项新任务一模板关系任务, 意在确定实体之间与特定领域无关的关系。共有1 8 家单位参加了m u c 一7 评测。值 得注意的是,在m u c - 6 和m u c - 7 中开发者只允许用四周的时间进行系统的移植, 而在先前的评测中常常允许有6 - 9 个月的移植时间。 m u c 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。 m u c 定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取研究事 实上的标准。可以说,正是m u c 系列会议使信息抽取发展成为自然语言处理领域一 个重要分支,并一直推动这一领域的研究向前发展。 随着m u c 系列会议的停办,美国国家标准技术研究院( n i s t ) 组织了自动内容 抽取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测。a c e 评测1 9 9 9 年7 月开始酝酿, 2 0 0 0 年1 2 月正式开始启动,迄今已经举办过多次评测,其研究的主要内容是自动 抽取新闻语料中出现的实体、关系、事件等内容。 中文信息抽取的研究起步较晚,目前很多研究都集中在中文命名实体的识别和其 5 北京邮电大学硕士研究生学位论文第一章概述 他的简单抽取任务乜1 。在设计实现完整的中文信息抽取系统方面还出于探索阶段,并 取得了一定的成果,如北京大学会议新闻抽取系统,上海交通大学多语种投资信息 抽取系统嘲等。 1 3 信息抽取的关键任务 信息抽取的关键任务包括:命名实体识别、句法分析、篇章分析与推理、知识获 取等n 1 。 1 3 1 命名实体识别 命名实体是文本中基本的信息元素,命名实体识别( n a m e de n t i t yr e c o g n i t i o n ) 是 信息抽取最为基本的任务,实现从众多信息中表示并分离出相关的命名实体,这是正 确理解文本的基础。 广义上讲,命名实体不仅是指现实世界中的具体的或抽象的实体,通常用专有名 称表示,如人名、组织名、公司名、地名等,而且还可以包含时间、数量表达式等。 命名实体识别的任务就是要要判断一个文本串是否代表一个命名实体,并确定它的类 别。 命名实体识别的方法主要有基于规则的方法和基于统计的方法。一般来说,基于 规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域、 文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。 相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的 计算语言学知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时 可以不做或少做改动,只要利用新语料训练一遍即可。此外,基于统计的系统要移植 到其他自然语言文本也相对容易一些。 1 3 2 句法分析 句法分析在自然语言处理领域中具有十分重要的地位,同时也是公认的研究难 题。通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是 计算机理解自然语言的基础。 因为信息抽取通常只是对某一领域中数量有限的事件或关系进行抽取,并不需要 得到句子的完整结构表示,加之完全分析技术的鲁棒性和时空开销都难以满足信息抽 取系统的需要,所以越来越多的使用浅层句法分析技术已经成为信息抽取领域的一个 6 北京邮电大学硕士研究生学位论文第一章概述 趋势。 浅层句法分析( s h a l l o wp a r s i n g ) ,也叫部分句法分析( p a r t i a lp a r s i n g ) 或语块分析 ( c h u n kp a r s i n g ) ,是近年来自然语言处理领域出现的一种新的语言处理策略。它是与 完全句法分析相对的。完全句法分析要求通过一系列分析过程,最终得到句子的完整 的句法树,而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某 些结构相对简单的成分( 通常称之为语块) ,如非递归的名词短语、动词短语等,这 样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模真 实文本处理系统中迅速得到利用。 1 3 3 篇章分析与推理 一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的实 体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为了准 确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现 象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章分析、推 理能力对信息抽取系统来说是必不可少的。 信息抽取系统只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。在 此过程中那些用以区分不同事件、不同实体的关键信息很可能会被遗漏。因此,信息 抽取中的篇章分析与推理是相当困难的。 1 3 4 知识获取 信息抽取系统需要强大的知识库的支撑。领域知识获取策略通常有两种:手工+ 辅助工具( 图形用户接口) ;自动半自动+ 人工校对。前者相对简单一些,人工工作 仍然是主体,只是为移植者提供了一些图形化的辅助工具,以方便和加快领域知识获 取过程。后者采用有监督的、无监督的或间接监督的机器学习技术从文本语料中自动 或半自动获取领域知识,人工干预程度较低。这两种策略不是完全对立的,只是自动 化程度高低不同而已。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程, 知识瓶颈问题只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识获取 瓶颈问题的真正出路。 1 4 信息抽取的研究方式和比较 目前,信息抽取的主流方式主要有两种:基于规则的方式和基于统计的方式。 7 北京邮电大学硕士研究生学位论文 第一章概述 基于规则的信息抽取是一个学习和应用的两阶段过程嘲:规则的学习和应用规则 获取目标信息。信息的抽取规则主要用于指明构成目标信息的上下文约束环境。只要 :f 1 :文本中找到满足规则所指约束条件的信息,也就达n t 信息抽取的目的。因此,规 则本身的学习和提取成为基于规则的信息抽取的关键,而目标信息的抽取则退居为次 要。基于规则的信息抽取的优势在于抽取的效率和准确性较高,但劣势也很明显,即 领域限制很严格,系统可移植性差。 基于统计的信息抽取准确性较低,但可移植性较好,对领域知识的要求不高。目 前比较常见的统计模型有:隐马尔可夫、最大熵、概率上下文无关等。特别是隐马尔 可夫模型,目前己具备较强的统计理论基础,已形成健全的训练算法,能健壮地处理 数据,很适用于处理自然语言。 鉴于基于规则和基于统计这两种信息抽取方式优劣突出且能很好的互补,越来越 多的研究者致力于探索实现两者的有效结合,以达到更好的抽取效果。 1 5 信息抽取面临的挑战和发展趋势 信息抽取面临的主要挑战是知识工程的瓶颈问题1 ,即信息抽取的移植性问题。 就英文来说,在某个特定领域构建信息抽取系统,技术上已基本成熟,但仍需花费大 量的人力和物力。知识的自动获取实际上仍没有达到完全自动。 目前,信息抽取系统的移植面临以下四个方面的挑战哺1 : 适应新的领域信息。构建系统资源( 如词库、知识库等) ,并设计新的模板使 系统可以处理一些特定领域的概念。 适应不同子语言特征。修改语法和词库,使系统能处理应用或领域内典型的 特定语言结构。 适应不同的文本流派。特定流派的文本( 如医学结论、科学论文、政策报告 等) 具有特定的词汇、语法和篇章结构。 适应不同类别的文本。基于w e b 的文档可能与新闻报纸之类的文本有着强烈 的差别,必须能适应不同的情况。 现代信息抽取呈现以下三方面的趋势陋1 : 信息抽取的范围不断扩大。从信息抽取的信息源看,早期的信息抽取主要集 中于自由文本,现在的信息抽取则扩展到话语信息抽取和w e b 页面信息抽 取。从信息抽取的领域看,已从军事、政治、医学等领域,延伸到商业、科 技等领域,且仍有进一步扩大的趋势。 信息抽取技术的多样化。信息抽取一般与领域性知识有较紧密的关系,因此, 8 北京邮电大学硕士研究生学位论文第一章概述 在最初的信息抽取中,规则语法、上下文无关和自动机技术等应用得较为广 泛。随着语料库的成功构建,特别是w e b 页面的迅猛增长,基于统计的技术 和机器学习方法在信息抽取中发挥着越来越重要的作用。可以说,信息抽取 技术已摆脱了狭义的自然语言理解技术的束缚,向着多样化的方向发展。 知识获取的进一步自动化。信息抽取面临的主要挑战是系统在领域间的可移 植性问题,这一问题关系着信息抽取技术适用范围的大小。知识的自动获取 就是针对这个问题而提出的,并经历了手工编码、半自动获取和自动获取三 个发展阶段,其中,知识的自动获取己成为信息抽取技术的核心。目前,知 识的获取主要面临三个方面的问题。一是没有提出标准的知识框架。领域之 间所需知识差别很大,通用的知识框架能帮助快速获取这些知识。二是知识 的自动获取范围较窄。目前仅限于规则模式的自动获取,而对于概念层次等 至关重要的内容仍由手工编码完成。三是自动化的程度仍偏低,要求一定的 手工参与。因此,知识获取自动化仍是研究的重点。 1 6 本文的基本思路和主要工作 1 6 1 中文信息抽取相比英文信息抽取的难点 中文信息抽取的研究相比英文信息抽取的研究起步较晚,而中文自身的特点也使 中文信息抽取相比英文信息抽取存在特有的难点: ( 1 ) 命名实体识别。这是中文相比英文最大的难点所在。命名实体识别在英语 中已经取得了很好的研究成果,然而中文的命名实体识别研究还处在不成熟的阶段。 中文命名实体识别的难点主要表现在1 : 词在汉语中是个模糊的概念,没有明确的定义。即使人理解汉语也会出现边界 歧义的情况,机器处理更加不可避免。分词仍然是中文信息处理的一个难题。边界模 糊不仅存在于非实体词之间,也出现于实体词和非实体词之间。因此对于分词中的错 误,相应地也会造成命名实体识别中的错误。另外在命名实体识别时也会对分词结果 作一些调整,这样命名实体识别和分词相互交叉,使得汉语命名实体识别面临更多的 问题。 汉语命名实体的生成规律以及结构更加复杂,尤其是缩略语的表示形式具有多 样性,很难提取构成规则,因此不可能将一种识别模型应用于所有的命名实体。 汉语缺少在命名实体识别中起重要作用的词形变换特征。英语中的这类信息能 9 北京邮电大学硕士研究生学位论文第一章概述 很好地指出实体的位置和边界,比如英语中的命名实体大都是以大写字母开头,而汉 语并不具备这类显式的特征。 汉语命名实体也可以包含普通字词。事实上,汉语中除了一些比较特殊的字词 外,几乎所有的中文字本身都可以作为一个词来使用,包括那些常用的人名用字和地 名用字,这给命名实体识别带来了很大的困难。 到目前为止,能用于汉语命名实体识别的开放型语料还很少,因此一方面需要 开发大型命名实体标注语料库,另一方面研究不依赖大型命名实体标注文本库的算法 也具有重要的意义。 ( 2 ) 句法结构。分析中文句子的结构不能像分析英文句子那样,仅依靠一些语 法公式就能进行,原因在于陋1 : 英语是一种典型的屈折语,即是一种以词形变化作为表示语法关系的主要手段 的语言,其特点是有丰富的词形变化来表示词与词之间的关系,词类与句法成分之问 有相对简单的对应关系。汉语的词类和句法成分之间的关系则是错综复杂的,其根本 特点是同一词类可担任多种句法成分且无形态变化,单纯依靠词类来确定句法成分是 行不通的。汉语句子要表达一个完整的意思,更多取决于词或短语间的语义约束,句 法成分之间的语法约束反而弱化了。 另外,英语中的同形兼类词当以不同的词类作为句法成分时,其形态差别会显现 出来。而汉语中的兼类词是同形兼类词,无论在不在句子中,形态都是一样的,这使 得在词的兼类与词类的多功能之间划一条界限变得很困难。 汉语句子的构造原则与短语的构造原则基本一致。在“词组为本 的汉语语法 体系中,通常认为汉语的句子不是由词直接组成,而是由词先组成短语,再由短语实 现句子。英语句子的结构模式是“主语部分+ 谓语部分 ,而汉语句子并不限于这种唯 一的模式。各种类型的自由短语都可实现为句子。汉语句式结构的多样性增加了汉语 句法分析的难度。 汉语短语结构的另一个重要特点是各类短语的组成成分又可以是各种类型的短 语,这表现出了汉语句法成分特有的套叠现象。汉语短语担任不同句法成分时形态不 发生任何变化。汉语中的主谓结构不仅可以作更大短语中的宾语、主语和定语( 相当 于英语中的宾语从句、主语从旬和定语从句) ,而且可以做谓语。而英语中每个句子 必须有一个限定形式的谓语动词,而且也只能有一个限定形式的谓语动词( 不考虑并 列情况) ,因此英语中没有“谓语从句 的概念,而汉语中就有主谓谓语句。可以说, 结构上,汉语的短语可能相当于英语的短语,也可能相当于句子。汉语句法分析的难 度可想而知。 1 0 北京邮电大学硕士研究生学位论文第一章概述 1 6 2 中文信息抽取的基本研究思路 中文信息抽取的研究主要是通过对一些英语信息抽取方法和技术的借鉴来实现, 希望通过移植这些方法和技术,达到中文信息抽取的目的。这种研究思路取得了不错 的成果,但汉语本身的特点决定了完全照搬外文信息抽取的方法不足以很好地解决中 文的信息抽取。目前,很多学者都在探索符合中文自身特点的方法和技术,提高中文 信息抽取的质量。 基于规则和基于统计两种信息抽取方式结合使用是中文信息抽取研究的一条重 要思路,通过二者的有效结合,取长补短,并结合中文自身的特点,能实现对中文信 息的较好地抽取。 1 6 3 本文的主要工作 本文对中文信息抽取的几个关键技术进行了研究,包括命名实体识别,抽取规则 提取,基于规则、基于统计、规则和统计相结合的信息抽取技术等,并且结合关键技吉。 术的研究先后设计实现了多个面向不同领域的信息抽取实验系统,作为实验和测试的 平台,包括: 用基于规则的方法设计并实现了财经领域公司人事变动的信息抽取实验系 统; 针对特定应用领域可移植的问题,我们研究开发了一个机器学习辅助模块, 通过有监督的学习自动提取新主题领域的抽取规则; 应用上述机器学习模块和基于规则的方法,结合智能移动信息服务的应用背 景,设计并实现了一个面向奥运的移动赛事新闻点播系统,初步探索了“信 息抽取+ 短信息 的智能信息服务模式; 采用基于统计和基于规则相结合的方法,设计并实现了一个面向体育赛事新 闻的中文信息抽取实验系统; 此外,还对信息抽取在信息内容安全领域的应用进行了初步探索,初步实现 了对手机短信特定主题特定倾向性的分析。 1 7 论文的组织结构 本文共分为五章: 第一章主要介绍了论文的选题背景,对信息抽取进行了概述,指出了中文信息抽 取的难点,给出了本文的基本研究思路和主要工作; 北京邮电大学硕士研究生学位论文第一章概述 第二章主要介绍基于规则的信息抽取的关键技术研究,以及设计实现的两个实验 系统; 第三章主要是对规则与统计相结合的信息抽取关键技术的研究,并介绍了设计实 现的实验系统; 第四章对信息抽取在信息内容安全领域的应用进行了初探,并介绍了我们的实验 系统: 最后一章是对整个论文工作的总结和展望。 北京邮电大学硕士研究生学位论文第二章基于规则的中文信息抽取关键技术研究与实现 第二章基于规则的中文信息抽取关键技术研究与实现 2 1 引言 本章主要是针对基于规则的中文信息抽取关键技术的研究,介绍了抽取规则的提 取方法,重点介绍了设计实现的两个实验系统:财经领域公司人事变动新闻的信息抽 取实验系统和面向奥运的移动赛事新闻点播系统。 2 2 抽取规则提取 2 2 1 常见的规则提取方式 基于规则的信息抽取分为两个阶段:提取规则和应用规则,其中,规则的学习和 提取是关键,只要找到了规则,信息抽取的目的也就达到了。 手工编制规则是早期的信息抽取系统经常采用的方式。这种提取规则的方式只有 具有专门知识的人才能胜任。规则的编制过程枯燥、费时、容易出错和产生疏漏,费 用较高。另外,人工编制的知识库较难达到很高的语言覆盖面。当信息抽取的任务发 生改变时,要组织人员重新编制规则,此时,原来的开发人力资源往往很难得到,系 统的可移植性很差。规则的提取成为构建信息抽取系统的瓶颈,因而,如何自动地获 取规则逐渐成为一个热门的研究主题。 规则的半自动提取减少了手工参与,在一定程度上实现了规则提取的自动化。规 则的半自动提取主要有三种方式:一是由概括性规则开始,通过实例的学习获取规则, 是从一般到特殊的过程,是一种自顶而下的学习法。二是由具体性的规则开始,通过 合并获取得到具有覆盖能力的规则,是从特殊到一般的过程,是一种从底向上的学习 法。介于两者之间的第三种方式,则既有从特殊到一般的泛化过程,又有从一般到特 殊的具体化过程。 规则的自动提取是从未标注的文本或生文本中学习规则,基本不需要专业的领域 知识,且基本不需要手工参与,可移植性很好。 北京邮电大学硕士研究生学位论文第二章基于规则的中文信息抽取关键技术研究与实现 目前,对中文信息抽取规则提取方法的研究并不多。相比英文,汉语的复杂性决 定了中文信息抽取规则的提取存在更多的困难:英语分析中的很多方法在汉语中并不 适用,因此需要根据汉语的特点研究新的方法;机器学习通常需要大量的标注语料, 这一点对中文更加重要,这是由汉语的复杂性和多样性决定的,而语料库的建立需要 繁重的人工劳动,如何用较少的训练数据得到较好的结果是一个很大的挑战。 2 2 2 本论文采用的规则提取算法 信息抽取规则有两种类型:单槽和多槽阻1 。单槽规则从文本中抽取孤立的片段; 而多槽规则抽取的是相关的片段并保持它们之间的关系,因而具有更好的适应性。论 文中我们讨论的是多槽规则。 论文中我们研究了一种新的信息抽取规则提取算法。该算法采用了从底向上的有 监督的机器学习策略,用启发式的方法确定规则的提取路径,并用l a p l a a 删算子评 估规则的表现,通过语义的扩展达到并改善了准确性和适应性之间的平衡。运用该算 法,规则的提取变成一个规则泛化的过程,或者说是一个找出更一般的或相当的规则 的过程。 算法所采用的信息抽取规则描述方法: 信息抽取规则定义了约束和操作。约束描述了含有目标信息的句子的模式,而操 作则定义了满足约束的句子该做什么。因此,规则尺可以表示为r ( ,) ,其中 是 规则的约束,如果对于句子z ,l i 引, 4 1 ,则表示句子x 满足规则尺,于是从x 中抽 取出目标片段,j ,即为结果。 算法的流程图如下图所示: 1 4 北京邮电大学硕士研究生学位论文第二章基于规则的中文信息抽取关键技术研究与实现 图2 - 1 规则提取算法流程图 北京邮电大学硕上研究生学位论文第二章基于规则的中文信息抽取关键技术研究与实现 由此,我们采用的具体算法如下: 步骤l :从已标注的语料中读入一个实例。 步骤2 :检查读入的实例是否被规则集覆盖( 规则集初始化为空集) 。如果是,转 到步骤1 2 。 步骤3 :从读入的实例中提取初始规则。 步骤4 :确定泛化路径。 步骤5 :依次泛化约束。 步骤6 :泛化后调整规则。 步骤7 :检查调整后规则的表现是否得到改善,如果是,转到步骤8 ;如果否,则 转到步骤9 。 步骤8 :取消约束。 步骤9 :保留约束。 步骤1 0 :检查是否有约束未被调整,如果是,转到步骤5 。 步骤11 :将规则放入规则集。 步骤1 2 :检查语料中的所有实例是否已被读入,如果否,则转到步骤l 。 步骤1 3 :语义扩展。 步骤1 4 :得到规则集。 在泛化过程中,有两个重要的问题: ( 1 ) 泛化路径的确定。 泛化过程中,为了得到最好的规则,每个词都需要通过它在训练集中的 l 印胁c i a 肛进行评估。不同的泛化路径可能得到不同的规则。因此,句子中的词需要 根据中文的特征进行分析、过滤和排序。 规则中的项有两个特征: 词的词性是决定其是否出现在规则中的一个重要因素。 离已标注词越近的词越可能出现在规则中。其中,已标注词是那些手工标注 的、需要被抽取的目标片段。 我们需要为每个词性预先定义一个优先级;当词的词性相同时,计算它们与最近 的已标注词的距离。通过下列公式计算词的权值: p r i o r i t y2 ,( 胛) + g ( z ) 式( 2 1 ) ,、 1 g 2 ; 式( 2 2 ) 1 6 北京邮电大学硕士研究生学位论文第二章基于规则的中文信息抽取关键技术研究与实现 ,( 胛) 是词性优先级,石是词与离它最近的已标注词的距离,x 1 ,o b a s e _ r u l e b e s t l a p = l 。0 d e c i d et h eo r d e ro ft h ew o r dt oc o m p u t el a p l a c i a n * f o re a c hw o r di nb a s e _ r u l eb yo r d e r i f ( t h el a p l a c i a n * o fr u l ew i t h o u tw o r d ) 潭谴天地 要篱 努析: 静观i t 人事变动 2 0 0 3 - 0 6 - 0 91 0 :4 9方家平ic h i n i b y t ) 变是世界上唯一的不变变、题面弧匾亟五d 变、变,是当前i t 界的显著特点, 企业名称变更、经营方向转变、人 事变动等等。变风4 渐起特别是 今年以来国内外1 1 企业上演的一幕 幕人事变动大戏更是引人关注,值 得深思 h 人喜变动风潮 纵观今年的国内外! 侥台,风 云无常,变化万千,你方唱罢我登 场,城头变换大王旗 6 9 9 9 1 月2 1 日世界最大的家用电 器制造商瑞典伊莱克斯集团宣布正式任命甍国人白桦志为伊莱克斯家电中国区总裁。负责伊 藁克斯在中国囊电产品的全面运营,并于当日正式上任 2 月份,海信电脑公司紧急换帅,高玉岭接替王伟孔出任总经理2 月底,爱普生( 中国) 公司董事长山崎淑夫返回精工爱普生公司日本总部工作原爱罾生( 中国) 有限公司总经理竹 林纪久正式接任董事长职务,同时爱晋生总舒信息产品营业推进部代表部长牛马升为爱普生中 国有限公司总经理 3 月上甸,t c l 通讯公司万明坚不再担任公司总经理职务。由常务副总经理顾工接任3 月 图2 4新闻网页截图 抽取结果: 匿翻匿霜露豳啊豳翰鞭黼麟缀缓缀缀蒸麟麟鬓戮黪j 锄一j j o _ j 崮 图2 - 5 抽取结果截图 2 l 北京邮电大学硕士研究生学位论文 第二章基于规则的中文信息抽取关键技术研究与实现 ( 2 ) 测试 选取网上采集的4 2 篇新闻作为测试语料,其中,包含人事变动事件的有1 0 篇, 共涉及4 0 个公司的4 9 个人事变动。 采用准确率( p r e c i s i o n ) 和召回率( r e c a l l ) 作为评价标准,其中 。 正确抽取的事件数 n 岱i o n 。芴甬丽两茬丽疆丽 式( 2 5 ) r e 焉筹 加删 测试结果:共抽取到3 8 个人事变动事件,其中正确抽取3 6 个。p r e c i s i o n = o 9 5 , r e c a l l = 0 7 3 。 测试结果表明,系统准确率较高,召回率较低,表明:规则的提取比较精确,因 此准确率较高;出现错误的原因是人名识别有误,可见命名实体识别错误是影响系统 性能的重要因素;规则覆盖面较窄,因此召回率较低。 通过实验系统一,机器学习模块在财经新闻公司人事变动这一特定领域内提取规 则的有效性和实用性得到了较好地验证,并很好地证明了基于规则的信息抽取方式的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论