




已阅读5页,还剩108页未读, 继续免费阅读
(计算机软件与理论专业论文)多词表达抽取及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多词表达抽取及其应用 摘要 多词表达是自然语言处理中的难点,它是一种由若干词汇组成的语 义单元,但其句法与语义属性并不能显式地由其构成词汇给出。经典的 自然语言处理系统通常假设每个词汇为一个语义单元,这并没有包括多 词表达在里面,多词表达跨越词汇边界,因而有其特殊的解读方法。识 别和应用多词表达是研究者在这个领域的主要关注点,同时也被认为是 进一步研究的瓶颈。近年来多词表达被单独提出来作为一个专门的主题 来研究。 本文的工作分为多词表达的抽取与应用两方面。首先针对单语与双 语的特点提出了一套适合处理松散结构类型多词表达的抽取方法,该方 法是受生物信息学中基因比对算法的启发,提出的抽取模型结合了自然 语言自身特性以及机器学习方法。在多词表达的应用上,把多词表达作 为词义消歧的一种知识资源,利用资源与算法的互相作用来提高词义消 歧效果;另一个应用是术语抽取作为概念图自动标引的重要基础工作, 把术语识别和关系自动构建运用到概念图自动标引任务。本文的创新性 工作有以下几点: 一、为了有效抽取单语多词表达,在生物信息学的启发下提出了一 种基于多序列比对的识别算法。利用文本序列与生物基因序列的相似性 改进了多序列比对算法,使得其适合文本处理,同时算法中结合错误驱 动规则,对于不连续结构的多词表达的抽取比传统的方法有很大的性能 改善,改善之一是保障不同类型多词表达的召回率,其二,它运用动态 规划的方法阻止候选多词表达组合爆炸,采用的技术主要是在模式抽取 上用全局策略代替局部子模式抽取,降低了子模式的冗余性。在实验中 也证实,它对松散结构有较好的性能。 二、提出一种多策略的方法来抽取双语多词表达。在单语抽取结果 的基础上,统计和规则的方法以及双语对照运用到抽取系统中以提高效 果。抽取过程有两个阶段,在第一阶段大量的单语候选多词表达从语料 库中被抽取出来,多序列比对的方法对结构松散的多词表达效果较佳。 第二阶段中,错误驱动规则以及模板从语料库r f l 抽出,为了获得质量较 上海交通大学博士学位论文 高的训练实例,训练实例的选取采用人工辅以主动学习的方法,这些训 练出来的规则用来过滤候选多词表达。双语对照方法也被本系统采纳, 还有部分双语句法对照模式从双语短语词典中获取。另外还设计了一系 列的实验选取合适的参数用以提高系统的性能。实验结果显示混合的方 法比单一的方法取得较好的性能。 三、把多词表达作为词义消歧的一种知识资源,提出一种新的词义 消歧方法,叫做多引擎协同自举( m c b ) 。这种方法不但结合了不同 类型的语料库包括双语语料库,而且还结合了不同类型的上下文词汇特 征( 包括多词表达) 。初始特征以及迭代过程中特征的来源都是多渠道 的,因而称为多引擎方法。m c b 方法运用双语自举作为它的核心算法 来完成特征的增量获取,并且在学习器中运用期望最大化算法( e m ) 来训练参数。双语间的特征翻译采用语义相关估计矩阵来提高特征在双 语问翻译的质量。比起有指导的特征选取方法,这些通过无指导的机器 学习方法学习得来的特征同样能够保证初始特征的高精确率。实验证 明m c b 方法是有效果的。另外一些因素包括特征空间和起始种子的数目 也是实验关注的因素。 四、把重要的一类多词表达抽取技术一术语抽取一运用到了图书摘 要的概念图标引任务中,提出一种基于概念图的半自动标引方法。概念 图标引是一种深度语义标引,它把离散的关键字通过语义关系连接成一 个完整的语义整体。先手工标引一定量的概念图,总结出其中的标引规 律,然后在手工标引的经验之上,探索概念图自动化标引,特定领域中 的术语抽取与概念问关系构建是自动化标引的基础工作,实验取得了一 定的进展。由于概念图的自动化标引是一项综合了自然语言处理多项核 心技术的工作,后续的研究工作还很艰巨。 关键词:多词表达,多序列比对,词义消歧,概念图,机器学习 一i i m u l t i w o r de x p r e s s i o n s :e x t r a c t i o na n da p p l i c a t i o n s a b s t r a c t t h en l pc o m m u n i t yh a si n c r e a s i n g l yb e c o m ea w a r eo ft h ep r o b l e m st h a tm u l t i w o r d e x p r e s s i o n s ( m w e s ) p o s e m w e sa r ee x p r e s s i o n sw i t hs p e c i a lm e a n i n g s ,w h i c hc a n n o tb e o b t a i n e df r o mt h e i rc o m p o n e n tw o r d s at y p i c a ln a t u r a ll a n g u a g es y s t e mt r e a t se a c hw o r d a sal e x i c a lu n i t ,b u tt h i st r e a t m e n td o e sn o th o l di nc a s eo fm w e sf o rt h e yh a v ei d i o s y n - c r a t i ci n t e r p r e t a t i o n st h a tc r o s sw o r db o u n d a r i e s t h u s ,i d e n t i f i c a t i o na n da p p l i c a t i o n so f m w e sh a v eb e e nam a j o rc o n c c i t if o rs c h o l a r sw o r k i n gi nt h i sa r e aa n dt h e s e 御,t h e r e f o r e , c o n s i d e r e dap a i ni nt h en e c k 1 1 1 i sd i s s e r t a t i o nf o c u s e so nt h em w ee x t r a c t i o na n di t sa p p l i c a t i o n s a i m i n ga tt h e f e a t u r e so fm o n o l i n g u a la n db i l i n g u a lm w e s ,t h ea u t h o rp r o p o s e sas e to f a p p r o a c h e st oe x t r a c tf l e x i b l em w e s t h e ya r ei n s p i r e db yg e n es e q u e n c ea l i g n m e n ti nb i o i n f o r m a t i c s t h e s e m o d e l sc o m b i n et h ec h a r a c t e r i s t i c so f n a t u r a ll a n g u a g ea n ds o m em a c h i n el e a r n i n gm e t h o d s a sa l la p p l i c a t i o n ,m w e sa l eu s e da sk n o w l e d g er e s o u r c e st oi m p r o v et h ee f f i c i e n c yo f w o r d s e n s ed i s a m b i g u a t i o nb yt h ei n t e r a c t i o nb e t w e e nr e s o u r c e sa n da l g o r i t h m s a n o t h e ra p p l i c a t i o ni st h ea u t o m a t i cc o n c e p t u a lg r a p h i ci n d e x i n gw h i c hu s e st h et e r me x t r a c t i o nt e c h n i q u e a si t sb a s i cg r o u n d w o r k t h ec r e a t i v ew o r ki n c l u d e sf o l l o w i n ga s p e c t s : i t h ea u t h o rp r o p o s e st h em u l t i p l es e q u e n c ea l i g n m e n t ( m s a ) f o rt h em w e s e ) 【一 t r a c t i o no nt h em o t i v a t i o no fg e n er e c o g n i t i o nb e c a u s et e x t u a ls e q u e n c ei ss i m i l a rt og e n e s e q u e n c ei np a t t e r na n a l y s i s t h i sm s at e c h n i q u ei sc o m b i n e dw i t he r r o r - d r i v e nr u l e s ,w i t h t h ei m p r o v e de f f i c i e n c yb e y o n dt h et r a d i t i o n a lm e t h o d s f i r s t l y , i tp r o v i d e sag u a r a n t e ef o r t h em w er e c a l l s e c o n d l y ,i tu s e st h ed y n a m i cp r o g r a m m i n gm e t h o dt op r e v e n tc a n d i d a t e s f r o mc o m b i n a t i o n a le x p l o s i o n ,a n dp r o v i d e sag l o b a ls o l u t i o nt op a t t e r ne x t r a c t i o ni n s t e a do f s u b p a t t e r nr e d u n d a n c y c o n s e q u e n t l y , i th a sa c c u r a t em e a s u r e sf o rf l e x i b l ep a t t e m s t h e s e a d v a n t a g e sa r ea l s ov e r i f i e db yt h ee x p e r i m e n t 2 t h ea u t h o ri m p l e m e n t sah y b r i dm o d e lf o rb i l i n g u a lm u l t i w o r de x p r e s s i o ne x t r a c t i o n b o t hs t a t i s t i ca n dr u l e - b a s e dm e t h o d sa l ee m p l o y e di n t ot h es y s t e m t h e r ea r et w o p h a s e si nt h ee x t r a c t i o np r o c e s s i nt h ef i r s tp h a s e ,l o t so fc a n d i d a t e sa l ee x t r a c t e df r o mt h e c o r p u sb ys t a t i s t i cm e t h o d s t h ea l g o r i t h mo fm u l t i p l es e q u e n c ea l i g n m e n ti ss e n s i t i v et ot h e f l e x i b l em u l t i w o r d i nt h es e c o n dp h a s e ,e r r o r - d r i v e nr u l e sa n dp a t t e r n sa r ee x t r a c t e df r o m 上海交通大学博士学位论文 t h ec o r p u s f o ra c q u i r i n gh i g hq u a l i f i e di n s t a n c e s ,t h em a n u a lw o r kw i t ha c t i v el e a r n i n gi s a l s op e r f o r m e di ns a m p l es e l e c t i o n t h e s et r a i n e dr u l e sa r eu s e dt of i l t e rt h ec a n d i d a t e s a i s o b i l i n g u a lc o m p a r i s o n sa r eu s e di nap a r a l l e lc o r p u s p a r t so fb i l i n g u a ls y n t a c t i cp a t t e r n sa r e o b t a i n e df r o mt h eb i l i n g u a lp h r a s ed i c t i o n a r y s o m er e l a t e de x p e r i m e n t sa r ed e s i g n e df o r a c h i e v i n gt h eb e s tp e r f o r m a n c eb e c a u s et h e r ea r el o t so fp a r a m e t e r si nt h i ss y s t e m 。e x p e d m e n t a lr e s u l t ss h o w e dt h eo u ra p p r o a c hg a i n sg o o dp e r f o r m a n c e 3 t 1 l ea u t h o ra d o p t san e ww o r ds e n s ed i s a m b i g u a t i o nm e t h o d ,c a l l e dm u l t i e n g i n e c o l l a b o r a t i v eb o o t s t r a p p i n g ( m c b ) a n dt h ec o l l o c a t i o nw h i c hi sak i n do fs p e c i a lm w e s i sv i e w e da si t sk n o w l e d g er e s o u r c e t h i sm o d e lc o m b i n e sd i f f e r e n tt y p e so fc o r p o r aa n d a l s ou s e st w ol a n g u a g e sf o rb o o t s t r a p p i n g m c bu s e st h eb i l i n g u a lb o o t s t r a p p i n ga si t sc o r e a l g o r i t h mt h a tl e a d st oi n c r e m e n t a lk n o w l e d g ea c q u i s i t i o n 1 1 1 ee m m o d e li sa p p l i e dt ot r a i n p a r a m e t e r si nab a s el e a r n e r t h ef e a t u r et r a n s l a t i o nm o d e li si m p r o v e db ys e m a n t i cc o r o r e l a t i o ne s t i m a t i o n i na d d i t i o n ,t h ea u t h o ru s e sm u l t i - e n g i n es e l e c t i o nt op r o d u c eq u a li f i e d s t a r t i n gs e e d sf r o mp a r a l l e lc o r p o r aa n dm o n o l i n g u a lc o r p o r a t h o s es e e d st h a ta r eg e n e r a t e d t h r o u g hu n s u p e r v i s e dm a c h i n el e a m i n ga p p r o a c h e sc a l la l s oe n s u r eb o o t s t r a p p i n ge f f e c t i v e n e s si nc o n t r a s tw i t hm a n u a l l ys e l e c t e ds e e d si ns p i t eo f t h e i rd i f f e r e n ts e l e c t i o nm e c h a n i s m s e x p e r i m e n t a lr e s u l t sp r o v et h ee f f e c t i v e n e s so fm c b s o m ef a c t o r s ,i n c l u d i n gf e a t u r es p a c e a n ds t a r t i n gs e e dn u m b e r , a r ec o n c e m e di no u re x p e r i m e n t sb e c a u s et h ee ma l g o r i t h mi s s e n s i t i v et os t a r t i n gv a l u e s l i m i t a t i o no fr e s o u r c e si sa l s oac o n c e m 4 t h ea u t h o ri n t r o d u c e sc o n c e p t u a lg r a p h i c s ( c g ) b a s e di n d e x i n gf o rb o o ks u m m a r i e s t h et e r mr e c o g n i t i o nt e c h n o l o g yi su s e dd u r i n gi n d e x i n g c g - b a s e di n d e x i n gi sa k i n do fd e e ps e m a n t i ci n d e x i n g i ti n t e g r a t e sa l lt h ei s o l a t e dk e y w o r d si n t oaw h o l em e a n i n g u n i t a tf i r s t i n d e x e st h ec gb ym a n u a lw o r ka n dg a i n se x p e r i e n c ei nt h i st a s k t h en e x t s t e p s e a r c h e sf o rt h er i g h ts o l u t i o nt ot h ea u t o m a t i ci n d e x i n g t h et e r mr e c o g n i t i o na n da n t o m a t i cr e l a t i o ne x t r a c t i o na r et h ef o u n d a t i o nf o r t h ec g - b a s e di n d e x i n g e x p e r i m e n t sm a k e s o m ep r o g r e s s b e c a u s ec g - b a s e di n d e x i n gt a s ki n t e g r a t e sm a n yc o r el a n g u a g et e c h n o l o g i e s t h ef u r t h e rr e s e a r c hi ss t i l ln e e d e d k e yw o r d s :m u l t i w o r de x p r e s s i o n ,m u l t i p l es e q u e n c ea l i g n m e n t ,w o r ds e n s ed i s a m - b i g u a t i o n ,c o n c e p t i o ng r a p h i c ,m a c h i n el e a r n i n g i v 上海交通大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何他个人或集体 已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在 文中以明确方式标明。本文完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 上海交通大学学位论文版权使用授权书 本学位论文作者完全了解上海交通大学有关保留、使用学位论文的规定,同意 学校保留势向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 ( 保密的论文在解密后应遵守此规定) 学位论文作者签名:墓幽 日期:弦妒“月粤同 指导教师签 f la i l :乏本磋月缓目 l , 第一章绪论 1 1 多词表达介绍 多词表达( m u l t i w o r de x p r e s s i o n ) 是一种整个单元的句法或语义属性不能直接 从其构成成分得出的语言单位。这种定义覆盖了大量相关的但是不同的语言现象, 例如动词短语( a d du p ) ,名词性复合词( t e l e p h o n e b o x ) ,约定俗成的短语( s a l t a n dp e p p e r ) ,还有其它一些类型。这些语言单位在只常语言中频繁使用,通常用来 表达精确的想法或者概念,而这些概念又不能拆成单个词汇来表达。它们有自己的 语法或语义特性但是结构上又有大量的松散和变化的表达形式,这些构成部件之间 有着较为复杂的关联。例如,一些多词表达意义上相对固定而不允许内部有变体, 像“b ya n dl a r g e 和“a dh o e 一,但是有一些则较为松散,可以内部有不同程度的 松散或者允许插入等变化。例如:“t o u c han e r v e ( t o u c h f i n dar a wn e r v e ) 一以及 “s p i l lt h eb e a n s ( s p i l l s p l i tt h e s e v e r a l s o m eo f a l lt h eb e a n s ) 。 多词表达是语言的主要部分之一。在英语中,研究者估计了在一个演讲者 的话语中,多词表达的数量级与单个词语的数量级相当【8 】。这个结论来自于大 部分在线词汇资源,这些资源中几乎一半的词条是多词表达。例如,w o r d n e t 1 7 中 7 1 ,4 1 的词条是多词表达。 多词表达对语言学和计算技术两方面的工作提出挑战,这些挑战来自于它们不 同特性引发的需要计算技术或者语言学的知识来有效处理的问题 2 】。实际上,多词 表达对语言学以及自然语言处理的重要性早已受到重视。例如在语言学这一块,它 们经常被用来验证语法理论中属性的正确性( 例如句法理论是否包含转换生成操 作 9 】) 。而在自然语言处理的应用中,诸如机器翻译,多词表达的识别非常必要, 它的作用在于对系统翻译的时候使得从源语言中保持原意产生合适的翻译从而避免 目标语言中不自然或者不达意的句子产生。 尽管在语言学界对于诸如习语等多词表达的兴趣只益增加,但是在自然语言处 理的需要和传统语言学的描述上仍然有一到鸿沟。大部分现有的应用都倾向于忽略 多词表达的意义解读而仅仅只是列举出它们。研究者仅仅把多词表达看成是不变得 字符串编码,除了一些最简单的固定组合如a dh o e 等,并不能充分描述这些多词表达 的意义,成功的应用需要能够在考虑到它们可能的变形的基础上识别多词表达,并 且采用更有意义的方式解释和运用它们。 1 1 1 多词表达的特性 多词表达包括各种固定表达和习语,不同研究者对于这个术语的定义略有不 同。一些研究者给出的比较通用的定义是“在一些语言学分析中充当一个单元的词 汇序列” 5 】,另外还要或多或少地满足一些特性: 上海交通大学博士学位论文 。弱化的句法和语义透明度 。弱化或缺乏合成性 或多或少的固化情形 。可能违反一些别的通用的句法 。高度词汇化( 依赖于实际因素) 高度的习惯性表达 研究者认为多词表达包含固定或者半固定的短语、复合词,以及习惯用语,动 词短语,词组等【5 】。而另外观点认为多词表达指语义成分和非语义成分的组合【l 】, 并且包含句法上常规和习惯表达的短语,这包含了习惯用语,专有名词,复合词, 词汇和语法组合,以及习语,开期和数字的表达,频率因素也会被考虑到多词表 达的定义中来,当词汇序列的共现频率远大于偶然因素的时候也可以称为多词表 达【1 0 】。另外一些研究者认为多词表达为跨越词汇边界的特性解释 1 1 】,这个定义 的焦点是在区分多词表达作为一个完整的单元和每个词汇的标准意义这两者之间的 不同点上,在多词表达中包括固定或半固定的表达、习惯用语、复合名词、专有名 词、动词叫、品词组合、习语,和轻动词。 1 1 2 多词表达的分类 多词表达这个术语用来指各种不同种类的现象,现在很难归结出一个对于整体 固有的特性集合。研究者给出了分类法和术语,也给出各种类型的多词表达的概 述【l l 】,将多词表达按照结合的紧密程度作了分类。 1 1 2 1 习语 指语法语义上可以复合生成,但是已经约定俗成,一般不会出现变体。例如: 多词表达“s t r o n gt e a ”它保持了原来两个词汇的各自独立的意义并且合成,但是 其它的候选的形式“p o w e r f u lt e a 修和“p o t e n tt e a 一,相比在实际中很少或几乎不出 现。还有一些是在词序上约定成俗的,比如“f i s ha n dc h i p s ”,它要比“c h i p sa n d f i s h 出现的频率高很多。 1 1 2 2 词汇化的短语 词汇化短语指句法或者语义上有某种特质的短语( j u m po nt h eb a n d w a g o n ) ,或 者包含不能独立出现的词汇( a dh o e ) 。这些单元根据词汇在句法上结合的灵活度分 为三种:松散,半固定或固定表达。 1 1 2 3 句法松散的表达 这种多词表达表现出大范围的形态和句法变体。它们包括可以拆分的习惯用语 和动补结构。习惯用语的特点是语义不透明和缺乏复合的构词能力和句法变化( k i c k t h eb u c k e t ) ,它们实际上是多词表达中比较特殊的一类,许多十分灵活( s p i l lt h e 一2 一 第一章绪论 b e a n s ) ,而且句法和修饰词上可以有不同类型的变体,比如被动语态( b es p i l l e di n t h el a t e s te d i t i o no f t h er e p o r t ) ,这种句法上的变体具有很大的不确定性,但是这些 变体看起来与语义上的可分解性相关,如果考虑它们的成分词语的非常规意义, 许多习语看起来可以合成的【9 】。运用复合过程,可语义分解的习语就能够从它的 部件词汇意义中产生。一个例子就是“s p i l lt h eb e a n s ”,如果“s p i l l 解释为揭发 ( r e v e a l ) ,而“b e a n s 为秘密( s e c r e t ) ,这个习语会被解释为揭发秘密。但另一 方面,诸如“k i c kt h eb u c k e t 一的习语( “死了 ) ,就不能利用这种方法来分解。 动词+ 小品词结构( v p c ) 是由一个动词再加上一个或者多个小品词构成( e a t u p ,m a k e u p ,c o m e u p w i t h 等) 【3 】。这些小品词可以直接跟到动词后面,也可以中 间加上一个n p ( d a n c et h en i g h ta w a y ) 。有些v p c 要求小品词必须邻接动词( c o m e u pw i t ha ni d e av s * c o m ew i t ha ni d e au p ) ,而其他可以接受两种形式( c l e a nu pt h e p l a c ev s c l e a nt h ep l a c eu p ) 。另外,它们还允许一些副词出现在动词和小品词之问 ( h a n dr i g h ti n ) 。v p c 经常以多种不同的结构出现,范围从不及物动词的v p c ( s h u t u p ) 到可以有句子作为补语的v p c ( f i n do u tt h a th ew e n tt 0t h eo f f i c e ) ,它们的语义 也可从不透明的情况( c o c k u p “r u i n ”) 到倾向于复合结构的情况( c a r r y u p ) ,而 且还有一些可以附带一些变形( c l e a r v a c u u m c l e a n p o l i s hu p ) 。 ” 1 1 2 4 半固定表达 一些多词表达在成分词语的词序及其复合上较为固定,但是仍然允许一定程度 上的词汇变体,例如在冠词的选择上还有一些可能的形态变形。对于那些想简单通 过列举的方法来包含所有可能的多词表达的变体,这些已经足够是一个问题,因为 这种列举法必须包含进所有可能的变形。这一类多词表达包括复合名词和不可分解 的习语。 除了形态变体以外,复合名词是在句法上较为不灵活的多词表达。因而一个复 合词像“c o f f e em a c h i n e ”可以有单复数上的变体( c o f f e em a c h i n e s ) ,但是它内部 不能插入修饰成分( * c o f f e ep o w e r f u lm a c h i n e ) 。对于有一些复合词,中心词是最 左边的元素,可以发生变化( a t t o m e y ( s ) g e n e r a l ) ,而另外一些则是最右边的元素 ( c o f f e em a c h i n e ( s ) ) 。 非复合性的习语在语义上是不透明的,而且在词序上是比较固定的,它们的意 义不能直接从构成成分直接推断而来。例如,习语“k i c kt h eb u c k e t ”意思是死去, 不能用被动语态( * t h eb u c k e tw a sk i c k e db yh i m ) ,话题性质的表述( * t h a tb u c k e t , h ek i c k e d ) ,或者内部有修饰成分( ek i c k e dm a n yb u c k e t s ) ,但是它可以允许动 词k i c k 有各种形态上的变化:“k i c k k i c k s k i c k e dt h eb u c k e t ”。其它一些习语像“w e t o n e s e l f ”也允许有一些灵活的形式( w e th e r s e l f h i m s e l f ) 。 一3 一 上海交通大学博士学位论文 1 1 2 5 固定表达 固定表达用来描述完全没有词汇变化的表达像“a dh o e ,“i na d d i t i o n ”,“a s w e l la s 一,这些多词表达不允许有语法变形以及复合。因而,这些表达也就不允许 形态变化和中间插入一些修饰语( i n a d d i t i o n * i ns o m ea d d i t i o n i * i na d d i t i o n s ) 。 1 1 3 汉语中的多词表达 多词表达实际上是一个外来词汇,主要是针对英语中的一类典型语言现象而提 出,研究目的是为了更透彻地了解英语中词汇的本质,区分究竟什么是一个词,在 什么情况下必须断言两个特定的词是独立的单项,而在什么条件下又把两个或更多 的形式、功能或意义上都密切相连的单元看成一个整体。汉语也一直有类似的困 惑,目前自然语言处理的前期要进行词的切分,这个过程实际上与多词表达的识别 密不可分。因为汉语中词的界限本身就很模糊,词作为一个单位不明晰,这是许 多研究汉语学者的共识【li s ,从事自然语言处理的学者对于自动分词也进行了总 结【“6 】,分词的难点在于依赖于更高层次上的意义的理解。 现在汉语中也提出多词表达的观点,称之为“意群”【1 4 6 ,例如。中华民族是 伟大的民族 这句话的分词是:“中华,民族是伟大的民族”。而许多人实际说这 句话的节奏却是:“中华民族是伟大的民族”或“中华民族是伟大的民族。在 句子中“中华民族”是一个意思相对完整( 即局部完整) 的“意思群”( 以下简称 “意群”) ,“伟大的”也是一个意群,“伟大的民族 是一个较大的意群。如果 把词比作建造语句的零件,那么,意群就是零件及由它们组成的构件( 或称部件) 之总和。意群的提出也是为了解决汉语机器理解上的难点,这种方法涉及到了语义 层面,词语是语义的一种变量,随上下文变化而变化,因此即使能够完成词语的切 分,词语意义变量的取值,也只能通过语境中意群之间的相互作用来确定,这与汉 语是表意文字的特点相符合。 从事自然语言处理的研究者把多词表达引入机器翻译用途【lll 】,机器翻译用途 中多词表达应该具有下面的属性: 一、组成多词表达的各个词应该频繁共现,从统计学的角度看,多词表达应该是以 高于期望值的方式共现的多个词的组合。 二、多词表达不是任意词的任意组合,从语言学角度看应具有合理的内部句法结 构,或者其组成必须属于合理的范畴。 各种语言中有一类重要的多词表达是术语,关于汉语术语的基础理论,冯志伟 先生提出了二种不同的结构来进行汉语术语的描述1 11 3 ,l1 4 ,这二种结构是:词组 类型结构( p t - 结构) 、句法功能结构( s f 结构) 和逻辑语义结构( l s 结构) 。其中 词组类型结构由两个词组类型标记构成,例如:n p + v p ( 微型计算机+ 联机监控) 。 一4 一 第一章绪论 句法功能结构可以这样描述,把术语用二叉树来表示的话,树形图中某一层级的两 个相邻树枝结点上的句法功能信息就是句法功能结构。逻辑语义结构主要是指以逻 辑谓词为中心,各个主目与逻辑谓词之间的关系。例如,施事者、受事者、工具、 目的、范围、结果、方位等。这三种结构是研究汉语术语字面含义的基础。因为词 组型术语占术语系统的大多数,对于词组类型结构,冯先生给出了如下详细的形式 化描述,这对自动术语提取等处理工作有很大的参考意义。 词类标记+ 词类标记 p t - 结构由两个词类标记构成。例如:针n ( 绝对+ 误差) ,v + n ( 触发+ 电 路) ,n + v ( 系统+ 测试) ,v _ w ( 抽点+ 转储) ,n + n v ( 信息+ 处理) 其 中,a 表形容词,n 表示名词,v 表示动词,n v 表示名词动词的兼类词( 如 “处理既可以做名词使用,又可以做动词使用,是n v 兼类词) 。 词组类型标记+ 词类标记 p t - 结构由一个词组类型标记和一个词类标记构成,词组类型标记在前,词类 标记在后。例如:v p + n ( 直接插入斗子程序) ,n p + v n ( 事务数据+ 处理) 其中,v p 表示动词词组,n p 表示名词词组。 o 词类标记+ 词组类型标记 p t - 结构由一个词类标记和一个词组类型标记构成,词类标记在前,词组类型 标记在后。例如,v + n p ( 监控+ 穿孔设备) ,v + v p ( 归并+ 排顺序) 。 o 词组类型标记+ 词组类型标记 p t - 结构由两个词组类型标记构成。例如:n p + v p ( 微型计算机+ 联机监控) 。 1 1 4 多词表达的研究热点 鉴于多词表达在研究上的重要地位,计算语言学顶级会议a c l 年会从2 0 0 3 年开 始,它几乎每年都要为多词表达主题而专门设立w o r k s h o p 以供全世界研究者交流。 期间有相当多的研究工作在大会上交流,研究者讨论多词表达在语言学以及认知学 上的属性分析,包括多词表达的定义以及特性,这些研究工作比较倾向于语言学方 面,主要集中在多词表达各种类型的分类等问题,同时很多工作更具体到某些特别 类型的多词表达分析,如动词片语的分析方面,不同语言不同类型的多词表达会用 不同的方法来处理。一些研究工作是倾向于关于多词表达计算方面的问题,针对多 词表达的研究工作主要是在资源、算法和系统的设计上或者在一些应用的范畴。 同时研究者用各种方法来识别和抽取多词表达,整体分析并获取形形色色的多 词表达类型。识别多词表达并且抽取这些语言单位和特定种类的词语搭配,例如 名名复合结构,固定短语结构和动词小品词短语等等都是当前研究的热点。在这 里,多词表达的灵活性是一个主要需要考虑的因素。这些多词表达的元素不但可 一5 一 上海交通大学博士学位论文 以邻接出现,而且可以由于被动语态、词汇插入、词序变化等因素而相隔一定的 距离。例如:动词小品词结构“l o o k u p 炒,在“l o o k 和“u p ”之间可以被任意长 的名词短语相隔开,比如在“t h e y w i l lh a v eal o o kt h ew o r d st h a tt h e yc a n n o ts p e l lu p i nt h ed i c t i o n a r y 一一句中,这两个词相隔了6 个词出现。作者所在的研究小组也有幸 在a c l 0 6 的主会议上交流在多词表达抽取方面的研究成果,研究成果在后面的章节 中具体介绍。 关于多词表达应用方面也有大量工作,研究兴趣广泛分布在信息检索,机器翻 译,口语理解,词典编撰,问答系统,词义消歧,以及自动摘要等相关应用领域, 因为多词表达与这些应用息息相关。 1 2 多词表达的抽取技术 作为多词表达重要研究内容,其抽取技术多年来一直是研究的热点,大量的新 的方法尝试用在抽取任务上。一些方法仅仅抽取连续的多词表达,并且依赖于语言 信息,例如,词性标注,句法分析以及语言词典等知识。为了提高获取效果,别的 一些的语言依赖方法,例如混合统计的浅层句法信息也用来识别句法规则,然后选 择最有可能的候选词汇序列。一般语言依赖模型的求解步骤: 1 统计技术计算词汇元模型的相关性,然后应用频率或者相关阈值来抽取候选 的多词表达。 2 利用形态句法信息对候选多词表达的剪枝过程。 3 语言不相关技术的纯统计方法来过滤候选多词表达。 统计方法检索自由文本,一般会抽取两种形式的多词表达,连续或者不连续的 多词表达。一些相关性分析方法;如s c p 对称条件概率模型,m e 互期望模型等一 些方法会结合运用塑 l o c a l m a x 算法。这两个相关方法可以有效处理以前的方法带来 的局限性,例如仅仅用频率和关联度阈值信息从各种词汇组合中选择多词表达。 l o c a l m a x s 算法的工作原理是:每一个礼一g r a m 的其构成词汇对单元整体有 一个黏着度,不同的礼一g r a m 有不同的黏着度。这个算法基于两种假设从所有 的n g r a m 中选出多词表达。一是越是结合紧密地词汇组合就会有更高的分 值。二是多词表达是局部相关的词汇组合。直观讲就是s c d r e ( h 一1 】一g r a m ) s c o r e ( n + 1 】一g r a m ) 1 2 1 主要抽取模型 多词表达的抽取任务可以形式化为这样的,给定一个单词序列w = 叫l t u 2 ,或者一个词性标注序列= 1 2 t 。,它们通过不同的视角来挖掘 不同类型的潜在信息,从而有效抽取多词表达。我们分析一下当前抽取模型。 一6 一 第一章绪论 1 2 1 1 位置相关的n 元模型 位置相关的n 元模型( p n m 模型) 的提出是受到词汇学现象的启发 1 6 - 大部分 词汇只与它周围词汇有意义上的相关,而这个最大窗口数目不超过五个。这些词汇 序列可能是连续的也可能是不连续的,研究者假定这个上下文窗口总共包含有1 1 个 词汇。一个文本单元的紧密性能够被度量出来,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年河北秦皇岛卢龙县公安局招聘警务辅助人员13人模拟试卷附答案详解(完整版)
- 2025年度郑州警察学院招聘人才(第二批)15名模拟试卷完整答案详解
- 2025福建福州市仓山区司法局一名编外人员情况模拟试卷完整答案详解
- 2025年合肥复兴控股集团第一批人员招聘27人考前自测高频考点模拟试题完整答案详解
- 2025闵行七宝镇村(合作社)、镇属公司公开招聘20人考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025贵州传媒职业学院第十三届贵州人才博览会引才考前自测高频考点模拟试题及完整答案详解
- 2025河北唐山市曹妃甸区唐海中医医院招聘考前自测高频考点模拟试题及答案详解(典优)
- 2025贵州安顺市参加“第十三届贵州人才博览会”引才271人考前自测高频考点模拟试题完整参考答案详解
- 2025年济宁市兖州区事业单位公开招聘工作人员(教育类)(9人)考前自测高频考点模拟试题及参考答案详解1套
- 2025湖南怀化学院高层次人才招聘100人考前自测高频考点模拟试题附答案详解(典型题)
- 税务稽查跟踪管理办法
- 2025校园师生矛盾纠纷排查化解工作机制方案
- 学校教室卫生检查标准及执行细则
- 招投标业务知识培训
- 2025至2030中国纳米银行业调研分析及发展趋势分析与未来投资战略咨询研究报告
- 校园基孔肯雅热防控措施课件
- 冰冻切片技术原理与应用
- 2025年新疆警察笔试题及答案
- 肿瘤质控中心工作汇报
- 剖析自发性肠系膜上动脉夹层血管重塑因素与精准诊疗策略
- GB/T 8165-2025不锈钢复合钢板和钢带
评论
0/150
提交评论