(计算机应用技术专业论文)非结构化文本中领域术语获取方法的研究.pdf_第1页
(计算机应用技术专业论文)非结构化文本中领域术语获取方法的研究.pdf_第2页
(计算机应用技术专业论文)非结构化文本中领域术语获取方法的研究.pdf_第3页
(计算机应用技术专业论文)非结构化文本中领域术语获取方法的研究.pdf_第4页
(计算机应用技术专业论文)非结构化文本中领域术语获取方法的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)非结构化文本中领域术语获取方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着领域新技术的飞速发展,大量数字化科技文献都以非结构化文本的形式与日 俱增,如何有效地获取其中的领域术语,对于构建数字图书馆、领域本体、编撰领域 词典等都具有重要的现实意义,因此成为人们关注的焦点。相比已有领域术语获取方 法一词典方法、规则方法、简单统计量方法的种种不足,比如需要领域专家参与且 费时费力,或者不能融合领域术语的各类特征等,本文借鉴了统计学习理论和信息抽 取的相关研究采用了如下的方法:基于分类的方法、基于序列数据标注的方法、基于 r e r a n k i n g 的方法进行领域术语自动获取的研究工作。 为此本文首先对领域术语获取进行了问题转化,从信息抽取的角度定义了术语获 取工作的输入输出和任务描述,并以此为基础提出了基于统计学习理论的领域术语获 取的工作机理和框架流程,同时阐明了其中文本预处理、特征表示策略、统计学习模 型的选择和比较是领域术语获取工作的核心。 然后本文分别探讨了分类方法、序列数据标注方法、r e r a n k i n g 方法的工作机理和 针对术语获取的问题分析;在术语的特征表示部分,分别提出了针对上述三种方法的 特征表示策略,并通过实验说明了本文提出的方法相比g e n i a 项目提供的b a s e l i n e 方法 可以有效地提高领域术语自动获取的性能评测指标。另外,针对目前还没有使用 r e r a n k i n g 进行术语获取研究的现状,本文借鉴了该思想方法并与序列标注模型相结合 形成一个串行的处理流程,即在c r f 模型的基础上,通过排序支持向量机对候选标记 序列进行重排序,将最好的候选排序到最前面,从而获取领域术语。从实验结果可以 看到在术语获取问题上,序列数据标注方法优于分类方法,而r e r a n k i n g 方法又在序列 数据标注评测结果的基础上有了一定的提高。 虽然本文采用的三种统计学习方法相比g e n i a 项目报告的b a s e l i n e 有显著的性能提 升,但依然可以通过增加更丰富的特征和使用额外的资源库提高性能;另外针对本文 目前所使用的r e r a n k n g 方法,可以将代价敏感的排序损失函数引入到r a n k i n g s v m 中, 用于减少排序顶部位置上的错误率,从而更准确地获得文本中的领域术语。 关键词:领域术语;统计学习;信息抽取;序列数据标注:r e r a n k i n g 论文类型;应用基础 a b s ”a c t a b s t i 己a c t w i t ht h er a p i dd e v e l o p m e n to fn e wt e c h n o l o g i e s ,d i g i tf i t e r a t u r ea st e c h n o l o g yd o c u m e n ta n d w h i t ep a p e r , w h i c hi sak i n do fu n s t r u c t u r e dt e x t , i si n c r e a s i n gd r a m a t i c a l l y 皿ee f f i c i e n t a c q u i s i t i o nf r o mt h e s eu n s t r u c t u r e dt e x t sp l a y sg r e a ti m p o r t a n tr o l ei nc o n s t r u c t i n gd i g i t l i b r a r y , d o m a i no n t o l o g y , d o m a i ng a z e t t e e r sa n ds oo n c o m p a r e dt od i c t i o n a r ya p p r o a c h , r u l eb a s e da p p r o a c h , a n ds t a t i s t i c a la p p r o a c h , w h i c hh a v es o m es h o r t a g e sl i k ed i c t i o n a r y a p p r o a c ha n dr u l eb a s e da p p r o a c hn e e dd o m a i ns p e c i a l i s t s h e l pa n dc o s tc o n s i d e r a b l et i m e a n dm a n u a li a b o r , a n ds t a t i s t i c a la p p r o a c hc a n n o tr e p r e s e n tv a r i o u sk i n d so ff e a t u r e so f d o m a i nt e r m s ,t h r e ea p p r o a c h e so nd o m a i nt e r ma u t o m a t i ca c q u i s i t i o na sc l a s s i f i c a t i o n a p p r o a c h ,s e q u e n c ed a t al a b e l i n ga p p r o a c h , a n dr e r a n k i n ga p p r o a c h e sa r es t u d i e di nt h i s t h e s i s ,f o l l o w i n gb yt h et h e o r yo fs t a t i s t i c a ll e a r n i n ga n dt h er e s e a r c ho ni n f o r m a t i o n e x t r a c t i o n f i r s t l y , t h i st h e s i sc o n v e y st h ed o m a i nt e r ma u t o m a t i ca c q u i s i t i o np r o b l e mi n mat a s ko f i n f o r m a t i o ne x t r a c t i o n ( d ,a n dd e f i n e st h ei n p u lo u t p u t ,a n dt a s kd e s c r i p t i o n sf r o mt h e p e r s p e c t i v eo fi e ,a n dt h e np r o p o s e st h em e c h a n i s ma n dp r o c e d u r eo fd o m a i nt e r m a c q u i s i t i o nb a s e do ns t a t i s t i c a ll e a r n i n gt h e o r y a l s o t h i st h e s i sd i s c l s s e st h a tt h e r e r et h r e e c 0 i er e s e a r c hw o r k sf o rt e ma c q u i s i t i o n :t e x tp r e p r o c e s s f e a t u r er e p r e s e n t a t i o n , a n dt h e c o m p a r i s o na n dc h o i c eo ft h es t a t i s t i c a ll e a r n i n gm o d e l a n dt h e n , t h i st h e s i ss t u d i e st h em e c h a n i s mo fc l a s s i f i c a t i o na p p r o a c h ,s e q u e n c ed a t a l a b e l i n ga p p r o a c h , a n dr e r a n k i n ga p p r o a c h ,a n da n a l y s i st h ep r o b l e m sf o rt e r ma c q u i s i t i o n , r e s p e c t i v e l y a l s o ,t h i st h e s i sp r o p o s e sd i f f e r e n tf e a t u r er e p r e s e n t a t i o ns t r a t e g yf o rt h et h r e e a p p r o a e l l e sa b o v e ,a n dd o e s1 0 t so fe x p e r i m e n t si no r d e rt ov e r i f yt h ep e r f o r m a n c eo f p r o p o s e da p p r o a c h e s e x p e r i m e n t a lr e s u l t ss h o w , o u rf e a t u r er e p r e s e n t a t i o ns t r a t e g yc 柚 s u p p o r td o m a i nt e r ma u t o m a t i ca c q u i s i t i o nf r o mt h eu n s t r u c t u r e dt e x tp r e t t yw e l la n dh a v ea g r e a tp e r f o r m a n c eu p g r a d et h a nb a s e l i n ea p p r o a c hp r o v i d e db yg e n i ap r o i e c t m o r e o v e r , w e c o m b i n er e r a n k i n ga p p r o a c h w h i c hi sn o ts t u d i e db yo t h e rr e s e a r c h e r sr e c e n t l y , a n d s e q u e n e ed a t al a b e l i n gr o o d e ls u c ha sc r f , a n da c q u i r et e r m ss e r i a l l y , a n dt h e nr e r a n kt h e s e v e r a lc a n d i d a t e sb yr a n k i n gs v m ,a tl a s to n l yt h et o pc a n d i d a t eo ft h er e r a n k e dr e s u l t si s u s e d t h e nw ec a ng e tt h et e r m sf r o mt h et o pc a n d i d a t ea n di t ss e n t e n c e f u r t h e re x p e r i m e n t s s h o w , r e r a n k i n ga p p r o a c ho u t p e r f o r m st h et w oa p p r o a c h e sa sc l a s s i f i c a t i o nm o d e la n d s e q u e n c ed a t al a b e l i n gm o d e l a l t h o u g ht h et h r e ep r o p o s e ds t a t i s t i c a ll e a r n i n gb a s e da p p r o a c h e sp e r f o r m sb e t t e rt h a nt h e b a s e l i n e a p p r o a c hp r o v i d e db y g e n i a p r o j e c t , t h e i rp e r f o r m a n c e a s r e c a l l p r e d i c t i o n f - m e a s u r ec a l li m p r o v eb yu s i n gm o r er i c hf e a t u r es e ta n de x t e r n a l r e s o u r c e sa sg a z e t t e e r sa n dm e d l i n ec o r p u s a l s o ,i fw eb r i n gt h ei d e ao fc o s t - s e n s i t i v e 1 1 1 兰型奎兰堡主兰垡丝苎 l e a r n i n gi n t or a n k i n gs v m ,w em a yr e d u c et h ee r r o rr a t eo ft h et o pc a n d i d a t ei no r d e rt o a c q u i r ed o m a i nt e r mm o r ea c c u r a t e l y k e y w o r d s :d o m a i nt e r m ;s t a t i s t i c a ll e a r n i n g ;i n f o r m a t i o ne x t r a c t i o n ;s e q u e n c ed a t al a b e l i n g ; r e r a n k i n g t y p eo f t h e s i s :a p p l i c a t i o nf u n d a m e n t a l 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下 独立进行研究所取得的成果。学位论文中凡引用他人已经发表或 未发表的成果、数据、观点等,均已明确注明出处。除文中已经 注明引用的内容外,不包含任何其他个人或集体已经发表或撰写 过的科研成果。对本文的研究成果做出重要贡献的个人和集体, 均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定, 同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和 汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相 关的学术论文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名:基塞五趔热导师签名: 日期:红矽 1 绪论 1 1 研究背景与意义 1 绪论 随着信息技术的飞速发展,人类社会的信息载体发生了巨大的变化,正在逐渐从 目前纸介质等信息载体过渡到大量以电子图书、电子文档、网页等为代表的数字形式 的信息载体,而且随着互联网络的发展,更加速了这种过渡的进程。同时根据f o r r e s s t r e s e a r c h 的统计资料,目前全世界数字信息量每年以1 2 弋( 1 0 1 8 字节) 的速度剧增, 而与此形成鲜明对比的是,真正能够转化为生产力的知识却非常匮乏。尽管大量的数 字信息中蕴含着丰富的知识,但是缺乏有效的知识获取手段,知识获取并未与信息增 长同步。面对这样的挑战,人们从上个世纪8 0 年代就开展了大量从非结构化文本中获 取知识的研究并取得了一定的成绩,但是领域知识自动获取的研究依然相当薄弱,比 如目前依然未有一个有代表性的领域知识库是通过自动方式建立起来的。而领域术语 获取正是领域知识获取的基础性研究工作,是领域知识中重要的知识单元,同样也是 领域知识库的重要组成部分。所以有效的研究从非结构化文本中自动获取领域术语的 方法,成为当前无论是数字图书馆的建设还是领域本体的构建、领域知识库的建立和 辞典编撰等都具有重要的研究价值和意义。 术语学引论中认为术语是用来专门指称某一专业知识活动领域一般( 具体或 者抽象) 理论概念的词汇单位,通常由一个词或者多个词汇组成;本文也借鉴了这个 定义,并且由于本文实验的数据集是建立在英文科技文献的基础上,所以术语定义中 的词汇就是英文中的单词( w o r a ) 。我们平常在阅读科技文献,学习专业课程时随处可见, 比如计算机网络领域中的路由器、生命科学中的d n a 等都是领域术语。另外,本文在 此提及的非结构化文本是指没有固定结构和格式的文本,在本文中可以认为是纯文本; 正是由于非结构化文本中缺乏结构信息或者格式信息,导致了从中获取领域术语变成 一件非常困难的任务。 如前说述,如何有效地进行领域术语的自动获取具有非常重要的作用和意义,同 时对它的研究也是一件很有挑战性的工作,具体表现在: n ) 领域术语获取具有重大的现实需求。 在数字图书馆的建设中,领域知识尤其是领域术语起着非常重要的作用,是数字 图书馆的重要元素。在领域本体的构建中,领域术语同样是一个重要的基本组成部分; 只有先获取了领域术语,才能以此为基础研究领域术语之间的语义关系。在辞典编撰 中尤其具有现实意义,以往的词条通常是某学科领域的专家通过自身的学科背景来判 断和提供,这一方面的确保证了其科学性和准确性,但另一方面在编撰综合性辞典时, 如何调动大规模的领域专家协同工作又是一个新的问题。同时,面对信息化时代所带 来的知识更新加剧,单纯依靠专家的知识很难保证学科词条的时效性,难以及时更新i l j 。 ( 领域术语获取需要从原来主要以手工获取方式获取转变成自动获取。 原有领域内新技术的发展都伴随着大量数字化领域文献比如:技术文档、白皮书 的出现,新的领域术语因此也在不断涌现,使得手工方式获取或标注面临着巨大的困 兰州大学硕士学位论文 难和负担,并且已经变得难以承受。同时人工获取和标注受主观因素影响甚大,依赖 手工获取术语的工作具有代价高、不可信赖、不一致、主观性强等问题,难以适应如 今数字化文献大量涌现所具有的大规模和动态变化的趋势。 ( 3 ) 领域术语获取的研究已经具备必要的基础。 以统计学习理论为基础的数据挖掘技术的发展为领域术语的自动获取提供了可 能。特别是模式分类方法,数据序列标注模型等机器学习方法的引入,为领域术语的 自动获取提供了理论基础。 由此可见,领域术语获取在如今信息飞速发展,领域技术资料爆炸式增长的时代 具有重要的研究意义和实用价值。所以本文研究的定位是:用统计学习的理论,结合 领域文本和领域术语的特点,分别用分类的方法、序列数据标注的方法和重排序的方 法对非结构化文本中领域术语的自动获取进行研究和比较,并通过实验验证这些方法 的有效性。 1 2 国内外研究现状综述 1 2 1 领域术语自动获取的研究进展 从上个世纪5 0 年代末到现在,国内外学者对于术语获取进行了一定的研究,概括 起来主要有以下的前5 种方法;至于第六个方法即基于重排序的方法进行领域术语自 动获取,目前还没有相关的研究,该方法正是本文研究的重点也是,也是本文的创新 点所在。 a ) 基于词典的方法一主要是利用领域专家已经编撰好的领域辞典,采用某种匹 配策略,从文本中抽取术语1 2 j 。 ( 2 ) 基于规则的方法一是指利用人工总结的获取规则获取概念。 上述两种方法虽然简单且易于实现,但是缺点也是显而易见的。因为不论是人 工编撰词典还是人工总结规则,都是件费时费力的工作,同时动态维护它们也是一项 很大的工程。所以专家学者又有了更好的解决方法。 ( 3 ) 简单统计量的方法一利用简单统计量( 比如词频、互信息、熵、c - v a l u e 和 n c - v a l u e 等) 来衡量几个连续字符组成词的可能性,并设置阈值,大于阈值的候选术 语被保留并作为统计方法判断出来的领域术语。 简单统计量中的词频是一个很重要的统计信息,因为在科技文献中,领域术语通 常会以较高的频率多次出现。在孙乐【3 】等人实现的双语术语词自动抽取中,也是根据领 域术语中单词的词性出现频率数,得到术语通常的词性组合并最终得到候选领域术语 词。另外,互信息也用来比较和考察两个词( 被看成随机变量) 共现概率和它们各自 独立出现在语料中的概率,若这两个词的互信息值越大,说明它们的关联越大它们的 组合也越有可能组成一个术语,d a m e r a u 1 9 9 3 4 】在文献中就使用了互信息来度量两个 词组成术语的可能性大小。 之后以n o b a t a l 5 j 为代表,将反映物质混乱程度的熵引入了术语获取中,并假设相 邻词序列的左右邻居词的分布越随机,即左右熵越大,那么这个词序列越可能是一个 术语。 2 0 0 0 年,f r a n t z i l 6 1 提出了c - v a l u e 和n c - v a l u e 公式,用来识别多词术语,并分别 获得了5 5 ,6 0 的准确率。 ( 4 ) 分类的方法一首先建立一个分类模型以模拟一个特定的任务,然后从已标注 2 1 绪论 的训练数据中学习分类模型的权值、估计模型的参数,并获得一个推广性能最好的分 类模型( 分类器) ,用以预测新样本的类别。 l i l n 司l l 练了一个s v m 分类器用于识别两字符的未登录词,作者共选取了5 类特征, 将文本中所有两个字符的字符串表示成带标记的特征向量用于训练s v m 模型。在 s i g h a n 的数据集上测试,取得了5 7 4 8 的准确率和7 3 1 6 的召回率。 基于分类的方法是一种比较有效的术语获取方法,它不再需要领域专家,只需要 有一定专业知识的人对语料进行人工标注即可。同时分类模型的学习过程不需要人工 干预,且能综合候选领域术语词的特征,是目前解决该任务比较有效的一种方法。但 是基于分类的方法也存在一定的不足,比如不能利用前后单词或者词汇的判定结果, 且分类模型固有的假设( 该假设认为同一个句子中的单词( w o r d ) 满足独立同分布的 统计特性) 不符合实际情况等问题,所以需要有更好的方案解决术语获取问题。 ( 5 ) 序列数据标注的方法一是针对序列数据的标注问题( s e q u e n c e d a t al a b e l i n g , o r t a g g i n g ) 而提出来的一种方法,该方法中数据序列被当作一个整体进行输入:而序列 数据标注模型是在整个序列的基础上进行学习,从而得到一个序列数据的预测模型。 序列数据标注模型是针对序列数据的标注问题而提出来的统计学习模型,其研究 对象是序列性的数据,目前相关的研究较少。这几年随着机器学习和生物信息学等领 域的发展,这一领域已有一些成果出现。比如j i a m p o j a m a f n 等博j 使用了p e r c e p t r o n h m m a l g o r i t h m 识别生物学和医学中的术语,并取得了6 8 6 的f - m e a s u r e 。 捧 ( 6 ) 重排序的方法指一个基准模型( 即b a s e l i n e ,比如最大熵模型) 首先生成 个最好的候选( n - b e s tc a n d i d a t e s ) ,然后通过使用一组局部和全局的特征对这些候选 进行重排序,通常只有最好的那一个重排序结果被使用。 将重排序方法用在术语获取上,目前还没有相关的研究。但是重排序方法,在信: 息抽取( i e ) 中的一些研究中已经取得了较好结果;在浅层句法分析( s h a l l o wp a r s i n g ) 中以c o l l i n s 9 为代表考察了用r e r a n k i n g 方法重排序n - b e s t 个现有概率模型的产生的候 选输出,并且实现了8 0 7 5 的f - m e a s u r e 。j o h nc h e n 等【”j 采用重排序进行n - g r a m s u p e r t a g g e r ,准确率从9 1 7 3 提高到了9 4 1 4 。本文将使用这种方法进行术语获取的 研究。 1 2 2 领域术语自动获取研究存在的主要问题 通过对目前术语获取方法相关工作的调研,可知无论是人工获取方法还是基于规 则的获取方法都需要大量有专业技能的领域专家的参与,既费时又费力。直到基于简 单统计量的方法可以说是克服了以往人工大量参与的缺点,但是由于它不能够融合表 示术语的各类特征所以获取的准确率不高。而基于分类的方法是获取术语比较有效的 方法;这种方法要求首先通过训练数据训练分类模型,获得该分类模型的参数,然后 用该模型对测试数据进行预测。所以一旦建立好了具有良好推广能力的分类模型,就 可以去完成相关的获取任务了。之后随着一些交叉科学的发展,尤其是生物信息学和 自然语言处理学科的发展,产生了序列数据标注模型,用该方法进行术语获取的研究 目前还不是很深入,一般都是只使用经典模型来预测和分析新的数据。至于使用 r e r a n k i n g 来研究领域术语获取的相关工作目前还没有。本文将详细阐述和分析比较后 三种方法分类、序列数据标注,和r e r a n k i n g 方法在术语获取中的实验效果。 本文将阐述的这三种方法与早期人工方法和基于规则( 模板) 的方法相比,有以 下优点: 1 、这三种方法都是基于统计学习理论的统计学习模型,可以方便地融合术语的各 3 兰州大学硕士学位论文 种特征,从而提高获取的准确率等评价指标。 2 、这三种方法主要是通过机器对训练集的自动学习,不再依赖于领域专家,虽然 需要有一定专业知识的人员进行术语标注工作,但是与早期的方法相比已经很 大程度上节省了人力劳动。 基于统计学习模型的方法是目前解决术语获取问题较为有效的一种方法,本文就 是采用了统计学习的理论分别探讨了基于分类的、基于序列数据标注的和基于 r e r a n k i n g 方法的获取模型,并分别将领域术语自动获取任务转换成分类问题、序列数 据标注问题和重排序问题,最后重点讨论了领域术语的特征表示,特征选择,以及算 法比较和选择。当然,基于统计学习模型的术语获取方法尚处于发展阶段,还有很多 问题有待于进一步的深入研究,具体分析详见第三章至第五章的问题分析章节。 1 3 论文的主要工作 总体上,论文的主要研究工作为: ( 1 ) 创新点 本文将r e r a n k i n g 的思想方法引入到领域术语自动获取的研究中,与序列标注模型 相结合形成一个串行的处理流程,即在目前解决该问题最好的模型c r f 模型的基 础上i 生成 r 矗b 蚶个候选标记序列,再通过排序支持向量机对这个候选标记序列 进行重排序,将最好的候选摊序到最前面,从而获取领域术语。 ( 2 ) 若干关键技术 本文以统计机器学习理论为指导,结合领域文本和领域术语的特点,分别采用了 基手分类方法、基于序列数据标注方法和基于r e r a n k i n g 方法进行领域术语自动获取的 研究,包括了如下的关键技术;提出了基于统计学习理论的领域术语获取的工作机理 和框架流程、提出了基于上述三种方法的不同特征表示策略,分析比较了上述三种方 法进行领域术语获取的优劣和问题分析。 1 4 论文内容的组织 本论文共分为七章: 第一章主要阐述本论文的选题背景及其意义,总结现有术语获取研究现状,指出 了目前获取方法存在的问题,进而引出本文的研究重点。最后给出论文各章节的组织 结构。 第二章论述了本论文中领域术语自动获取研究的原理。本章结合了非结构化文本 和领域术语获取的特点和需求,给出了术语获取的工作机理。具体内容包括:知识表 示对领域术语及其获取的定义和约束、领域术语获取问题转化,和特征表示与选择的 原则和基本方法。 第三章、第四章和第五章分别是用基于分类、基于序列数据标注和基于重排序的 自动获取方法研究:并结合领域术语获取模型,重点研究了特征表示、特征选择和算 法选择和比较。 第六章主要阐述在标准数据集上的领域术语自动获取方法的实验验证。将主要分 析比较本文所采用的三种方法的实验结果并进行总结。 第七章为结论和展望。本章对论文工作进行总结,并对后续工作进行了展望。 4 2 领域术语自动获取的原理 2 领域术语自动获取的原理 2 1 领域术语自动获取的理论背景 2 1 1 领域术语定义和标注规范 在上一章的研究背景中,简要介绍了领域术语的定义,下面本文将详细的讨论领 域术语的内涵及其外延。 本文借鉴了术语学引论对于术语的定义,认为领域术语是用来专门指称某一 专业知识活动领域一般( 具体或者抽象) 理论概念的词汇单位,通常由一个词或者多 个词汇组成。由于本文实验的数据集是建立在英文科技文献的基础上,所以术语定义 中的词汇也就是英文文档中的单词( w o r d ) ,那么英文文档中的术语通常也是由一个或者 多个w o r d 组成的。领域术语的具体实例,在我们阅读科技文献、学习专业课程时随处 可见,比如路由器就是计算机网络领域中的领域术语,d n a 就是生命科学领域的领域 术语等。 与领域术语相对的是常领域术语,它的表达同样借助于词汇,但都是人们普遍认 可的词汇,不具有很强的专业性。根据常领域术语和领域术语之间的异同,我们总绪 了领域术语判定的原则和标注规范如下: 在一篇科技文献中,如果满足以下两种情况之一就可以判断该词汇为领域术语: n ) 该词汇在领域语料中出现,但是不被人们普遍认知,判断为领域术语; ( 2 ) 该词汇在领域语料中出现,虽然被人们普遍认知,但是赋予了另外的涵义用来 表达该领域的某个特殊概念,那么也将其判断为领域术语。 根据第一章的讨论,本文是要借助有监督的统计学习理论进行领域术语的自动获 取,对于有监督的方法需要人工标注术语,所以就有必要确定一个标注准则方便标注 人员进行术语的标注。虽然上文说明了领域术语出现的两种情况,但是依然不够明确, 不足以让标注人员明确判定某个词汇是否为领域术语,所以有必要仔细考察领域术语 的特点并将其归类。通过仔细考察领域术语的特点,发现通常某个术语具有下述的特 点之一: ( 1 ) 这个领域术语是随着该专业领域的产生而出现的。比如“路由器”的出现就是 随着计算机网络领域的出现而出现的。 佗) 这个领域术语虽然是其他专业领域的术语或者常领域的词汇,但是被该领域所 引用并表达了该领域中的某个特有的概念,是与其他领域相区别的。比如“病毒”, 本来是常领域中的词汇但在计算机领域中却赋予了新的含义,用来表示病毒软件。 ( 3 ) 这个领域术语虽然出现在该领域和与之相交的领域中,但是表达了相同的含 义。比如“介质访问控制”出现在两个相交的领域( 通信领域和计算机网络领域) 但是 表达的含义相同。 在术语标注人员进行标注工作时,只要某个词汇属于上述三种情况之一,即可判 定为该领域的术语。 5 兰州大学硕士学位论文 2 1 2 信息抽取概述 关于信息抽取的概念有多种描述方式,1 9 9 7 年p r o t e u s 工程的创建者g r i s h m a n 将 信息抽取定义为“信息抽取涉及到为从文本中选择出的信息创建一个结构化的表示形 式( 比如:数据库) ”。互联网上著名的维基百科1 ( w i k i p e d i a ) 则将信息抽取描述为: “信息抽取是一种类型的信息检索,它的目标是自动从非结构化机器可读的文档中抽 取结构化或者半结构化的信息。”我们在此结合领域术语获取的任务需求,借鉴 w i k i p e d i a 中的定义和微软亚洲研究院在2 0 0 5 年信息抽取技术暑假研讨班对信息抽取 的定义:“信息抽取是抽取和链接基于用户详细说明的相关信息的过程”,认为信息抽 取“是从非结构化机器可读的文档中自动抽取用户指定的或者详细说明的相关信 息的过程。”其中信息抽取的对象只要是非结构化机器可读的文档即可,不限制于文本 可以是任何形式的文档比如网页等;信息抽取需要用户指定抽取的内容类型。 信息抽取的研究从上个世纪6 0 年代就已经展开了,其中以美国纽约大学开展的 l i n g u i s t i cs t r i n g 项引1 1 】和耶鲁大学r o g e rs e h a n k 有关故事理解的研究为代表【1 2 1 。随后 开始的消息理解系列会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,m u c ) 2 极大的促进了 信息抽取研究,虽然目前已经停办,但是对信息抽取领域的研究与发展产生了一定的 影响。此后自动内容抽取( a u t o m a t i c c o n t e n t e x t r a c t i o n ,a c e ) 3 评测会议成为继m u c 之后推动信息抽取技术进一步发展的主要动力。当然还有一些大学的研究项目也在支 持着信息抽取领域的发展,比如日本东京大学的g e n i a 项目4 就是一个从生物医学领域 中进行信息抽取的平台,其中提供了一些已经标注好的语料,可以用有监督的机器学 习方法进行命名实体识别、术语抽取等研究。在本文的实验中,我们将采用其中的 “g e n i av e r s i o n3 0 2c o r p u s ”识别和抽取分子生物学领域的科技术语。除了上面对文 本信息抽取研究的介绍,网页信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ) 也是当前流行的 研究领域。 另外,信息抽取的方法主要有两种典型类型;基于规则的方法和基于统计学习的 方潦而后者无论从理论上还是实际使用中,都比前者更有优势和发展前景。本文在 第一章中已经对这两种类型的方法作过论述,这里就不再详述了。同时,c - h i e u 等人在 m u c - 4 s y s t e m s 上做过比较实验,验证了基于统计学习的方法,性能可与此前最好的、 基于规则的系统相抗衡。 目前很多统计学习模型在信息抽取领域中取到了成功的应用,本文将采用其中的 三种典型类型进行领域术语的自动获取: 第一类是分类模型,是在已标注的训练数据集上训练分类模型,估计模型参数, 用于预测新样本的类型。本文将采用其中的支持向量机模型和朴素贝叶斯进行术语获 取研究。 第二类是序列数据标注模型,该模型是针对序列数据的标注问题而提出来的统计 学习模型,其研究对象是序列性的数据,目前相关的研究较少。本文将采用其中的最 大熵马尔可夫模型和条件随机场模型进行术语获取研究。 第三类是排序学习模型,该模型旨在为目标对象按照某种规律确定一个顺序,它 在信息检索领域中有着非常广泛的应用,近年来该方法引起机器学习研究者的极大兴 趣。本文将要采用的r a n k i n gs v m 与以前基于数据点的排序算法不同,它是在有序对 蕊溅鍪 。 2 领域术语自动获取的原理 空间中构建排序模型。 2 1 3 领域术语获取问题的转化 在本章的第一小节中定义了领域术语的相关概念,在信息抽取概述中本文调研了 信息抽取的发展历史,国际上促进信息抽取的有代表性的会议,分析了信息抽取及其 相关领域使用的典型统计学习模型,为本文的研究提供了相关的理论支持。然而,领 域术语的自动抽取是否就是信息抽取问题,能否实现这样的转化,还需要进一步的研 究,这里本文给出进一步的论述。 本文结合目前主流的一些关于信息抽取的定义,将信息抽取定义为“信息抽取是 从非结构化机器可读的文档中自动抽取用户指定的或者详细说明的相关信息的过程。” 也就是说,信息抽取过程的输入是非结构化的文档:输出是用户指定的相关信息,是 可以从输入信息中提取出来的;而抽取过程正是在这样确定了输入输出目标豹情况下 抽取指定的信息。 对于领域术语自动获取工作,我们可以将它的输入、输出及其处理过程与信息抽 取进行对比: ( 1 ) 在领域术语自动获取的研究中,输入数据是非结构化的文档,在本文中使用的 是非结构化的文本信息。 ( 2 ) 在领域术语自动获取的研究中,输出数据是领域非结构化文本中即输入数据咿 的领域术语,并将其每行一个术语的形式存放到文本中或者存放到数据库的固定字段 中,也可以认为得到的是结构化的数据。 ( 3 ) 领域术语的自动获取过程,在我们的任务中可以进一步的具体化为:是从非结 构化的文本中抽取我们指定的领域术语的过程,并将其以每行一个术语的形式存放到 文本中。 综上,根据上面我们对领域术语自动获取过程的阐述,可以发现领域术语的自动 获取属于信息抽取的范畴。由此,我们就可以使用并借鉴统计学习理论和信息抽取镰 相关研究,提出我们对于领域术语自动获取的框架结构和模型。 2 2 任务描述 根据前一节的讨论,已将领域术语的自动获取问题转化成了特定类型信息( 领域 术语) 的信息抽取任务。下面文本将阐述领域术语自动获取的任务定义和描述,见下 图2 - 1 。任务的输入是非结构化文本通常是某领域内的科技文献,针对其中的每一句话 抽取其中的领域术语,并以每行一个术语的形式存储到新的文本中。 7 兰州大学硕士学位论文 一唑一# 三婴噔4 一旦唑- 图2 - 1 领域术语自动获取任务描述 领域术语自动获取,也就是领域术语自动识别( a u t o m a t i ct e r mr e c o g n i t i o n , a t r ) 可以形式化的定义为: ( 1 ) t x t 一 s e n , ,s e n 。) ,表示任务的输入是句子集合t x t 9 它由k 个句子构成; 每一个句子是输入的基本单元,也就是说在每个句子中寻找或识别术语;特征表示也 只是在本句内不涉及多个句子的情况; ( 2 ) t e r m s 一 z9o 0 0 9 疋) ,表示术语集合t e r m s 由s 个术语构成,即文本内的所有术 语; 那么a t r 就可以表示为:a t r 一 扬t ,t e r m s ,妒 ,其中用妒表示术语获取过程; 也就是说a t r 是一个从新文本中识别并抽取术语的任务。 本文所研究的领域术语自动获取,具有如下的特点: ( 1 ) 本文所提到的抽取方法不限语言,不限领域。比如我们在中文的生物医学领域 中自动抽取领域术语的方法,可以应用于计算机网络等其他领域和语言,当然在中文 的术语抽取中需要增加一个中文分词的过程,将中文句子中的词语、固定搭配等词汇 分割开来;就这一点来说英文文本的处理就省去了这一过程。本文是在生物医学领域 的英文科技文本中抽取该领域中的科技术语。 ( 2 ) 本文的领域术语自动获取采用了基于统计学习的方法。正如在本文的引言中所 阐述的,虽然基于规则的方法具有可读性强、形象直观、不需要太多理论基础等特点, 但是其编写代价大、规则主观性强、可扩展和推广性能差的缺点限制了它的应用和发 展:所以人们逐渐开始采用基于统计学习的方式进行领域术语自动获取的研究。本文 正是采用基于统计学习的方式对此进行研究。 2 3 领域术语自动获取的框架结构和工作机理 根据领域术语自动获取的任务描述和形式化说明,可以将该任务分为训练过程 t r a i n i n g 和预测过程a 谢f c 砌雌两个部分,其工作机理如图2 - 2 所剥1 3 1 。 8 2 领域术语自动获取的原理 l - - l 一一 图2 - 2 领域术语自动获取的工作机理 其中训练过程完成模型训练的功能( 以序列数据标注为例) ,其输入为经过标注的 训练数据,经过文本预处理( 比如中文分词、词性标记等) 得到指定格式( 例如训练 数据集和测试集由三列组成并由空格隔开;每一个单词都放在单独的行内并且每一个 句子之后还有一个空行;第一列指示的是当前词,第二列是该词的词性,并且第三列 是该词的l o b 标记。) 的文本文件,再进行数据标注( 即得到指定格式中第三列所指示 的l o b 标记内容) 生成已标注数据集。在特征表示阶段,将已标注数据集中的每个句 子中的术语生成相应的特征向量( 序列数据标注方法是对整个句子的某个候选生成一 个特征向量) ,并注明类标记,这样就得到了带有类标记的特征向量集。最后选择统计 学习模型,并用前一过程生成的特征向量集训练学习模型,估计模型的参数,并生成 模型文件( 其实就是模型权值) 。这一部分是领域术语自动获取的核心部分。 对于领域术语自动获取的预测过程的功能是对新的未标注的非结构化文本,利用 训练得出的模型,进行领域术语的抽取。这部分的输入是未标注的文本,经过与训练 过程相似的操作( 预处理、特征向量生成) 得到的是无类标记的特征向量集,最后用 训练过程中生成模型的预测下,得到每个特征向量的类标记,也就获取了新的未标注 的非结构化文本中的w o r d ( 或说词语) 是否为领域术语( 在序列标注模型中得到的是 该词是否在一个术语中) 。从图2 2 中可以看到,该模型的训练过程和预测过程结构类 似,不同点就在于训练过程输入的是经过标注的文本,而预测部分是未经过标注的文 9 :-:-:-:-:_-_j 兰州大学硕士学位论文 本,而处理过程的目的就是为了预测出该文本内的所有术语。 下面以一个具体的例子考察一下上面提到的基本处理流程如图2 - 3 所示,并简要 说明其中的研究点。国中的输入是原始的文本文件,比如生物学中关于d n a 的科技文 献,是未经任何处理和标注的原始文档。经过预处理的过程,首先将其转换成了每行 一句的文本,并以此为基础通过人工标注数据集得到训练集和测试集,如图左中显示 的文本样式,结果依然保存在文本文件中。 u - 2 学札e e x p f e s s l o n n d 酶k a p 辨b a c t i v a t i o n o f t h e c d 2 8 i 晒c e ”咧 u p r i n m q t l y m p h o c y t e s w es h o w t h a t c d 2 8 葵 t h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论