![(电路与系统专业论文)特定领域文本的语段分析和单词的语义聚类研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed51.gif)
![(电路与系统专业论文)特定领域文本的语段分析和单词的语义聚类研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed52.gif)
![(电路与系统专业论文)特定领域文本的语段分析和单词的语义聚类研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed53.gif)
![(电路与系统专业论文)特定领域文本的语段分析和单词的语义聚类研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed54.gif)
![(电路与系统专业论文)特定领域文本的语段分析和单词的语义聚类研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed55.gif)
已阅读5页,还剩54页未读, 继续免费阅读
(电路与系统专业论文)特定领域文本的语段分析和单词的语义聚类研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
特定领域文本的语段分析和单词的语义分类研究 摘要 、y 随着语法分析和对话系统研究的逐步深入,自然语古处理系统实州化面临的又一 爪1 要问题足特定领域语义语法的提取。 j 的聚类足提取语法模板的前提。为t 达到我们希望的聚类效果,需要对特定 坝j 或的殳小进行刨f 的语段分析和单词的语义分类。 晰段分析避免x u j 了完仝而深入的分析,大夫减少了分析中的歧义,得到比较稳 地n j 卅r 标注和语段结构。单词的语义分类根据使_ l 的领域特点,从上下丈的信息中 9t f l j 4 m 单词之问的同义关系,将单词归类。通过调整语段的中心词和语义类在句了聚 炎- ,的权币,给 u 了聚类以约束,将得到改善的聚类效果0 丫 小迁以语段分析和函义分类这两项技术为主线,i - d t 统i l 理沦为依据,以l j 浯指令 q 、的f j j 聚炎y , s h ;j t d 背景,对特,定领域的丈水分析进行了研究邓木义的组织结构如 篇章通过,典例介绍旬了的语段分析和单词的语义分类在特定域语义模板提取中 门作川,说明了研究的动t ) l s n j :4 j t 背景。 旃一章简耍i 、j 论有关的研究1 :作介绍在p o s 标注、不完全分析和单词的语义分 炎力1 m 的研究成果,并提出本文在这三个问题上采j _ j 的主要方法。 讹二章进一步讨论p o s 标注和句了语段分析的理论基础,提出_ l j m a r k o v 模型进 “h 埚j q 、洼,川分段的h m m 进行语段分折,给出标注和分段的实验结果并考察对 u j 聚炎1 0 效果。 吼旧章i 、j 论单词语义分类的统计理论基础,提出h 聚类的方法进行单词的分类。 j 血j ,丈,愉选择作为分类依据的上f 义信息和聚类中的初始化和迭代方法,并州分类的 ,- ,粜进步改善句r 聚类的效果。 、 讹f l 荦总结仝艾,提出今后的t 作苇点。矿 ? 父键字:j 聚类p o s 标注语段分析单词语义分类 , t h es t u d yo n c h u n k p a r s i n go ft e x t s a n d s e m a n t i c c l a s s i f i c a t i o no fw o r d s f o ra s p e c i f i cd o m a i n a bs t r a c t w i t ht h er e s e a r c ho n s y n t a c t i cp a r s i n ga n d t h ea p p l i c a t i o no fn a t u r a ll a n g u a g ep r o c e s s i n g d o m a i n d i a l o gs y s t e m si np l a c e ,t h em a i np r o b l e mi n i ss e m a n t i cg r a m m a r e x t r a c t i o nf o ras p e c i f i c u “。p r e m l s 。t o re x t r a c t i n gg r a m m a r t e m p l a t e si ss e n t e n c e sg r o u p i n g i no r d e rt oa c h i e v e 圳1 。f o - yg r o u p i n gr e s u l t s ,w em u s ti m p l e m e n tc h u n kp a r s i n go ft e x t s a n ds e m a n t i c c l a s s i f i c a t i o no f w o r d sf o ras p e c i f i cd o m a i n ( 1 1 “kp a r s m ga v o i d sc o m p l e t ea n d i n - d e p t ha n a l y s i so fs e n t e n c e s ,s oi tg r e a t l yr e d u c e s “n a l y s l sa m b i g u i t ya n dp r o d u c e sr o b u s tp o s t a g g i n ga n dc h u n ks t r u c t u r e s w o r d ss e m a n t i c 6 l a s s l h c a t i o nb a s e si t s f o u n d a t i o no n w o r d s s p e c i a lu s a g ei n ad o m a i n ,a n di n d u c e s 8 yj n y m o u sr e l a t i o n s h i pa m o n gw o r d s w ec a ng i v er e s t r i c t i o n st o s e n t e n c e sg r o u p i n gb v :“i j u s t i n gt h ew e i g h t so f c h u n kh e a d sa n ds e m a n t i cc l a s s e st og e ti m p r o v e d g r o u p i n g r e s u l t s 1 1 1t h i sp a p e rw e p r e s e n tas t u d yo nt e x ta n a l y s i sf o ras p e c i f i cd o m a i no u rd i s c u s s i o nl s 。“。e d ( 1 1c h u n k p a r s i n ga n ds e m a n t i cc l a s s i f i c a t i o nt e e h n i q u e st h i sf o c u si sd e v e l o p e di n il 1c o n t e x to f s p o k e nc o m m a n d sg r o u p i n gt h et h e s i si ss t r u c t u r e da sf o i l o w s : i n c h a p t e r 1 ,a ne x a m p l ei s p r e s e n t e dt oe x p l a i nt h ee f f e c t so fc h u n kp a r s i n ga n d 8 e m a n t l ec l a s s i f i c a t i o n o ns e n t e n c e s g r o u p i n g w e s h o wo u r r e s e a r c hm o t i v a t i o na n d b a c k g r o u n da sw e l l i nc h a p t e r2 ,w eb r i e f l yd i s c u s st h er e l a t e dw o r k so np o s t a g g i n g ,p a r t i a lp a r s i n ga n d s e m a n t i cc l a s s i f i c a t i o na n d p r o p o s e o u rs o l u t i o n s i nc h a p t e r3 ,w ed i s c u s st h et h e o r yf o u n d a t i o n sf o rp o s t a g g i n ga n dp a r t i a lp a r s i n ga m a t k o vm o d e la n da s e g m e n t a lh m ma r ep r o p o s e df o rt h e mr e s p e c t i v e l yw ep r e s e n t c x p m l i n a e n t r e s u l t sa n di l l u s t r a t et h e i re f f e c t so ns e n t e n c e s g r o u p i n g ii 1 c h a p t e l 4 b a s e do no u rs t u d yo nt h es t a t i s t i c a lf o u n d a t i o n sf o rs e m a n t i cc l a s s i f i c a t i o n , ( 一a d o p tc l u s t e r i n gm e t h o d se x p e i m e n t sa r ei m p l e m e n t e df o r s e l e c t i n gs u i t a b l ec o n t e x t i n l b lm a t i o na sw e l la si n i t i a t i o na n di t e r a t i o n f o r m u l as e n t e n c e s g r o u p i n g a r ef u r t h e r i l n p t o v e db yu s i n gc l a s s i f i c a t i o nr e s u l t s i i ;二,。二:。磊龇壶矗涵蔷。黥。 1 1 c h a p t e r5 c o n c l u s i o n sa n dt u t u r ew o r ka r eg i v e n k e 3 、0 1 d s :s e n t e n c e sg r o u p i n gp a r t - o f _ s p e e c ht a g g i n g c h u n k p a r s i n g s e m a n t i ce l a s s i f i c a t i o no f w o r d s i i l l 。;。罐d 融i 溅矗l 函添,j , , 第一章绪论 f 1 然晤i j j :坐( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称n l p ) 足最近2 0 年中一项蓬勃发 f 0 j 术n 虽然仃不少特殊的问题还没有觯决,限定f 某些领域的实川系统已经取得 j 令人数舞的成功。但是由十这些系统的领域特殊性比较强,在改变心川方向时就会 。牛难。 塬闪之足,虽然自然语南的语法( s y n t a x ) 足相对稳定的,荇个心州领域的语义 ( s e m a n t i c s ) l l 多多少少宵差异,骨各自的描述对象、概念和对象之间的特殊关系,获 得这些语义信息足理解自然语古的前提。过去很长一段时间内,研究者们必须通过手 l m i 1 1 、维某个领域的语古姚则才能丌发和转换所谓的基十知识( k n o w l e d g e ,b a s e d l 的 n i 。p 系统。现在,我们希卑能够刖一种人t 辅助的自动方法获取特定领域的语义知 虬总,r 吾义语法模板,方使系统的丌发和、v 心。一般来说,语义模板提取的系统流 h 自i 、,其中虚线以上的部分足本文研究的甫点: t r a i n i n g 丁怔翠 0 f i gi j t h ef l o wc h a r to f as e m a n t i ct e m p l a t e se x t r a c t i o ns y s t e m 图1 1 语义模板提取的系统流程图 以个j 衄_ l j 实例束进一步说明这个问题。在语膏识别的研究中,有一项研究专门 刈疑个领域的指令进行识别。封j 果能够从识别的结果中提取这一领域的语南特征,包 m 。州m h 义和句式特征,就a j 以总结出特殊的语南模板。当肯新的指令输入时,町 “ t 矗正、_ ,盛。碡i “j。如锄鼢莲幽若辅畦谊稚硝遵札。+ 军 以睁钟机根据模板自动提取其中的囱州信息,其岘讣算机指令的【j 语化。下面是关 1 程安排( c a l e n d ”) 的一些特殊指令, | )c u r r e n ts c h e d u l e t o d ay sc a l e n d a r a i ,p 0 l n t m e n tf o rn e x tt h u r s d a y 8 0 8 ss c h e d u l et o m o r r o w l ? t ) l i k et 0s e em ya p p o n t m e n t s 8 r | n gu pa n a p p 0 i n t m e n tc a r d l :) s p l a ym ys c h e d u l ef o r1 0 d a y v | e wd e c e m 8 e rt h l r t l e t h q m | a y a l a 8 l e a t t e o l f l o c kt o d a y a m ib u s ya t t w o a m | f r e ef o rl u n ( ? h | ) ( ) | h a v ea n y f r e et l m et o d a y c r e a t e a n a p p o i n t m e n t f o rw e d n e s d a y a t n i n e p m s e tu p a n a p p o i n t m e n t a b o u t s p e e c h c o r p u s c r e a t en e w a p p o i n t m e n t n e wa p p o i n t m e n tw i t h 1 9 av es h u l t zt o d aya to n e 、( h e d u l eam e e h n gw l 丁hm i k e ( r a n d a l l 第一绀 u 了足关十口程查看( c a l e n d a rv i e w ) 的,第二组足关于口程查询( c a l e n d ” ( e 1 y ) i q j , j ,第= 纰足关十口程创建( c a l e n d a rc r e a t i o n ) 的。根据这些分组的句了口j 以写 nlf 义7 己关语法( c o n t e x t f r e eg r a m m a r ,简称c f g ) + 。 | ) “1 【 i e n t i u r v i e w = o p t o p q o p t = o p t o p t 尊、| 1 9 ) l v m c = ? h o wm e 、# d a t a t i m ep r e p 2a t = l e tm es e e , t i m - m e = d i s p l a y f l ;i 2 c a l e n d a r = t a s kl i s t s = a p p o i n t m e n t 2j i ( j :| m q u 唧 = f o p q o p q f r e e t i m e j n d o p t o p t j f r e e t i m e l n d o p t = i 、# ,1 j ( e t i m e q = d oih a v e o p q i f r e e o p t t i m e j 一、c a l e l a l a l c i c a g e = b u s y 2n o t o p t ) f l e e o p t o p t o p t o p t o p t o p t o p t o p t o p t 一d a l a t i n l t ( a l e m l a r ( 1 r e a l e 2 o p t o p t l o f t ( ,。e a t c s c h e d u l e ”、 | 。p 1 1 e l y = f i , r # s i d ! i e c + ,p r q ) 2a b o u t = 1w a n tt o = 1 n e e d t o = w i t h = 南r ”。h 中足c f g 语法的名称,= 后面是语法的内容。 # 中足某个槽( s l o t ) 的z 称,= 后面足这个槽中口j 能填充的内容。 o p t j 表示后面的槽是口j j 龟的,没有标志 f | ( 州 默认足必须的。 ,j j i ic f g 语法后,我们就u j 以将其中某个槽( s l o t ) 中的内容与某一个动作( a c t i o n ) 联 ; ,堪水,t - l “i 在c a l e n d a r 的数掘库中搜索并显示与 中的 对 j 妙n 。奠 i t ,。艾现指令的l j 语化。在输入新的句rh , i ,也a j 以川这些语法对句了进行分 折,甜硎i 某个槽的信,固,填写到数据库中,方便以后的查询和修改。 花。与c f g 之前,何一个很苇要的步骤就是将输入的上j 了象上面那样分好组,这就 j t f - jj 的聚类( s e n t e n c e sg r o u p i n g ) 。一般来说,句了聚类主要根据编辑距离( e d i t 1 ) s t a n c e ) ,编辑操作主耍有插入、删除和替换。计算出一个句了经过多少步编辑操作 川u :i j :| | i ”个刨了后,我们口j - 以h = 下面的公式训算它们之间的编辑距离: 吐q|dls!nnc?:numbersofedito p e r a t i o n s t o t a ll e n g t ho ft w os e n t e n c e s 然j l i 根据事先确定的门限,两两比较句r 的距离,将编辑距离在门限以上的句了 0 i 入。由十这种方法不涉及刨了和单词的语义知识,仅仅依赖它并不能完全得到 找们希蠼的聚类结果会产生聚类过度或聚类不充分的问题。下面_ l j 些例了来说 。 i 。;矗; 矗i 赫2 溆 ,j d i v d a ya p p o i n t m e n t s a f t e rw e d n e s d a y c r e a t ea na p p o i n t m e n t f o rw e d n e s d a y m o r n i n g m a k ea na p p o i n t m e n t f o rw e d n e s d a yq # e r n o o n c a n c e la na p p o i n t m e n t j o rw e d n e s d a yh r e r w o o n 2 )c r e a t eah i g h l yi m p o r t a n ta p p o i n t m e n t f o rw e d n e s d a y ,dl i k et os c h e d u l et h er e c u r r i n gt a s k sf o rw e d n e s d a y 1w a n tt os e tu pb u s i n e s sc a l e n d a rf o rw e d n e s d a y 第一小是聚类过度的例了。这四个句了的编辑距离很小,被聚在一个组中,但实 1 、卜t :t fj 属十不同的语义范畴,j 虹该分丌。第二组是聚类不充分的例了。句了的编辑 离比较夫,被分在不同的组里,但。史际l :都属十c a l e n d a rv i e w 的c f g ,心该聚在 一,世。 为了解决上述的两个问题,我们需要对句r 进行预处理,以保证比较好的聚类效 粜,为j 减少由十名词和动词的修饰成分带柬的编辑距离,口j 以将句了在短语一层分 九* 段( 【、h u n k ) ,如第二组的句了日j 划分为 ( i 。c a t ef “h i g h l yi m p o r t a n ta p p o i n t m e n t n p j f o rw e d n e s d a y p p j 1 11 dl i k et os c h e d u l e ? y p | t h er e c u r r i n gt a s k s n p f o rw e d n e s d a y f p p l f 1w a n tt os e tu p v p b u s i n e s sc a l e n d a r ? n p lo j rw e d n e s d a y p p 】 填巾, 7 n p l0 b rw e d n e s d a y f p p j h j dl i k et o i v p j t h er e c u r r i n g ( c a l e n d a r n p f o rw e d n e s d a y 腰巧 hw a n tt o i v p b u s i n e s s ( c a l e n d a r n p j f o rw e d n e s d a y 强p j 经过这两步处理后,我们合理地调整了句了的距离,改善了句了聚类的结果。 以上j t l 一爻例说明了句了的语段分析和单词的语义分类对十句了聚类及模板提取所 ,5 _ j v , j k 助作川。这足我们研究的动机。事实上,这两个问题都足n l p 研究中的热点 1 - i l 难点,囱若广阔的研究背景和广泛的使j u 前景。我们将研究限定在一个特殊的领 域,亿i j 低难度的同h 、1 提高了编果的。史川性,并且采州的。史验方法和得出的结论不受 4 a j 蕴溘a 氲 翻。藏。 j = _ j 他j t j 领域的限制,口j 以方便地心j 4 j 列其余类型的义本。f 面的几个章节将进一步讨 沦例宄i 门背景和具体的1 史验方法,并给出。丈验的结果及分析。 5 。# 。盘珏k 盘k j 。誊。 第二章研究背景 z i j 4 :荜中将讨沦与语段分析有关的p o s 标注、不究仝分析以及语义分类的研究背 2 1 p o s 标注( p a r t o f - s p e e c ht a g g i n g ) p o s 标注足语段分析的第一步,通常就是指对单词的词性标注。在n l p 系统中, p o s 标注经常足分析的基础,在后续的语法分析、语义消歧等步骤中都要州到标注的 粜。十,】、注的首耍| i 提是一个合适的标注符弓集。日| j i ,在n l p 领域中被普遍接受且 j 泛他川的标注集肯8 9 个,其中比较审要的是b r o w n 大学川十b r o w n 语料库 ( b r o w nc o r p u s ) 的符号集( b r o w nc o r p u st a g s e t ) g r 8 1 、l a n c a s t e r 大学州十l a n c a s t e r - ( ) s i n b e r g e n 语料库( l a n c a s t e r 。o s l o b e r g e nc o r p u s ,即l o b ) 的符弓集【j e 8 6 和 p e n n s y l v a n i a 大学 于p e n n 树库( p e n n ,t r e e b a n k ) 的符弓集 s a n 9 0 】。由十p e n n t r e e b a n k u 益得到广泛使川,其对应的符号集何成为标准的趋势。我们在附录1 中列 i j i 红 1l jh ;中的词性符弓。 ,i j 以川多种方法进行句了的p o s 标注: t j 先,口j 以使川机读字典( m a c h i n e r e a d a b l ed i c t i o n a r y ) 。字典中包含单词所有口j 能 l jp o s 标注,通过直接查找就口j 以得到单词对f 、v 的词性。这种方法的速度很快, i 一个明显的问题就是歧义问题( a m b i g u i t y ) 。一个单词往往宵多个词性,在特定 n ji :f 丈中,j 衄该选择哪一个比较合适呢? 仪仅依赖字典是无法消除歧义的。 j l 次,口j 以人丁总结某个领域特定的字典。这种字典比通用的字典单词量少,能 够体现单词在该领域的圳法,大大减少歧义现象。但歧义问题并没有完全消失, l mn 人1 一总结字典的t 作爪力很人,在心川领域变化时,迹要苇复这个枯燥的过 “。 i j 最通川的方法足州概率的方法,根据单词的上下丈标注词性。在此之前,需 - 攫圳练的语料建立词性标注的上下义模型。大部分的p o s 标注系统采h 4 这种方法 【c h u 8 8 b r i 9 2 k u p 9 2 s c h g s p n 9 3 。主要采_ l j 的技术囱m a r k o v 模型,h m m 和 f 。引一转换( t r a n s t b r m a t i o n b a s e d ) 学习的方法。 2 1 1m a r k o v 模型 j k 们n 0p o s 标注就采州这种方法。详细的推导将在下一章给出。一般柬说, m a r k o v 模型的训练需耍大量的经过标注的浯利。标注语料足一项费时费力的下作,对 j :j t 的坝域,耍获得大量的标注语料就更加制难,冈此限制了这种方法的j 峨_ l 。我 i 的其骗i 采川一种半自动的方法进行改进。先州手t 标注部分语料,进行模型的训 练川i ) i l 练后的模型标注剩余的一部分语荆,并川手t 纠正其中的错误,再新训练模 小,t 1 7 短标注、纠正和训练的过程,口j 以比较方便地扶得大量语荆。当语料达到一定 旧坡醚、1 ,模型的训l 练也就同时完成。实际上,在 d b 8 6 和 b r l 9 2 】中都采_ l l = | 了类似的 6 “、m 越纛。h 曲。 2 1 2h m m 模型 h m m 方法j 。j 以川没有经过标注的语利训练系统的模型。之所以称为“h i d d e n m a lk o v m o d e l s ”,址由十“与标注过的浯荆不同,此时i 训练义木中的词性符弓足不u j 址| j l j ” k u p 9 2 。h m m 的训练代价很大,通常川b a u m w e l c h 算法 b a u 7 2 ( 又称为 f o a w a r d - b a c k w a r d 筇法) 来提高训练的效率。 k u p 9 2 使川h m m 提高了标注的准确 心,玎他川 ;种疗法提高系统的稳健度,比, t t j 酬等价类来减少模型中的参数,使川 【卟殳川 j u 缀信息对在训练集中没囱出现的单词( u n k n o w nw o r d s ) 的词性进行预测, 7 j 1 7 :0 。在使j hb r o w n 语料库的。典验中,他报告了接近9 6 的标注准确度。英困 1 一a n c a s t e r 大学的( :l a w s 系统f g l s s i g l 9 7 也足用h m m 方法实现的,准确度达到 ) 6 9 7 ,j 在线标注d e m o 的u r l 为 h l t p :w w w c o m pl a n c sa cu k l c o m p u t i n g l r e s e a r c h u c r e l c l a w s 2 1 3 基于转换( t r a n s f o r m a t i o n b a s e d ) 的方法 j j 一转换的算法何两个关键的组成:变换姚| l ! | j 和学习算泫。变换舭则包括两个部 分:变 诞发生的环境和对j h 的变换规则。学习算法选择最优的变换规则及其使川的顺 n 这利z 算法先对语料进行粗略的标注,比如将每个单词都标成它在字典中出现频率 h ? “的i , i j 性然后通过与准确标注的语料库进行对比,总结在何种环境下使川哪个规 删;吖怀汴计氓降到最低就川这条规则对语利中的所有对j 衄这种环境的标注进行修 i h 返” :1 l p 的替代必然引进另外的错误,u j 能将原来正确的标注改成错误的。继续 j 名个对l 匕、总结和改正的过程,保证每条规则的引进使语料中的错误尽口j 能地降低, h “i ,池结变换舭则集以及规则的使川顺序。这样总结出来的规则不受使_ l f 领域和词 一r 婚j 必的限制,并且口j 以被推广到n l p 研究的其余领域。在e r i cb r i l l 将该方法州十 i d 悱 ,j ;沌后【b r i 9 2 b r i 9 4 ,它又被州十语法分析 b r i 9 3 a 和介词短语从属消歧 f i 1 9 3 b 1 。 j 正自其余的一些方法,比如 b f 9 2 】的基十决策树( d e c l s i o nt r e e ) 的方法等。在 c c 9 3 ,_ = | | i ( r 9 3 巾指出,绝大部分p o s 系统的准确率都超过9 5 。 2 2 不完全分析( p a r t i a lp a r s i n g ) 4 i 充个分析址扶得语段一个币耍途径。n l p 中的分析足指识别出上j 了中的成分, 如心滑、分句和修饰成分等,以使十信息的提取。晤法分析足理搿犁文本的前提。为了 止脱屯懿l f i j 稳健的语法分析,最训的方法是h j 尽口j 能全面的语法规则来分析句了,从 f 一旧l j n 0 儿种分析结果中选择一个晶符合语义的。系统丌发的过程就是不断添加新规则 州州原术f 门语法脱则进行修改的繁琐过程。但一方面,语寿现象千变万化,很难找到 个,i :4 寮的讲法集能够覆盖所仃的语古胤0 1 l j 。m a g e n n a n m a 9 9 4 指出至少需要十,十的 7 。t 五盆矗i * 自女。女:,、 州m j 才能外发出具囱 艮高稳健度的基于规则的分析系统。微软研究院的n l p w i n 系统 ,圳l j j 卜j l r 的时间才完成,总结了十几万条规则,并且还在不断修改中:另方 | f l ,i i i j 使不断地往语法集中添加新规则,规则之间的包含和抵触关系也会使语法分析 汁1 j :歧y i l i 大量增加而) 己法进行。一种折中的方法就是只识别出句了中最基木的短语 ,- w j 。返种分析通常只产生一个结果。虽然它的结果不如全面分析精确,但我们a j 以 从t j 得剑许多肯_ l j 的信息。这种方法通常被称为不完仝分析,短语分析( p h r a s a l p a r s i n g ) ,半分析( s e m i 。p a r s i n g ) ,或浅层分析( s h a l l o wp a r s i n g ) 。 最苫名的两个不完全分析的方法是h i n d l e 的f 1 d d l t c h ( h d 8 3j 和a b n e y 的语段分析 ( p a r s i n gb yc h u n k s ) 【a b n 9 1 】。 f i d d i t c h 系统关注的足句了的最主要成分,如句了的结束标志、主语和表语等。无 浊“舢正旧i 生的单词或短语被跳过,继续分析剩余的部分。这大大提高了分析的速度和 刈j 呲义州j i 错谈的容忍程度。h i n d l e 认为这些主要成分足以提供对史章的正确理 斛。 ( 、k 9 1 】利h j 这种方法来分析句了的主语一动词一宾语的关系,并计述说,虽然。史 聆,1 i 粜仃比较多的错误,但提供了自然语古使州中的许多姚律,特别是使_ l j 主语一动 i i j _ 一兵i 吕的搭配倾向性。 a b n e y 使川的足一个称为f i n i t e - s t a t ec a s c a d e s 的系统结构。这是一个有层次的分 析乐统,根据一系列自邛r 的转换规则对句了进行由低层到高层的分析。 4 i j e 个分析足一项很付刖的n l p 技术。比蚶帚复使圳不完全分析口j 以得到更精确 ,二祭的讲法分析、为信息榆索( i n f o r m a t i o nr e t r i e v a l ) 提供术语和复合词拙取以及为信息 j 灶呶( 1 n l 、0 1 m a t i o ne x t r a c t i o n ) 中提供关键语境分析,等等。 2 3 语义分类( s e m a n t i cc l a s s i f i c a t i o n ) i 占义分类足将晤料库中的单词按照在某一个领域的心途进行归类的过程。比直, 花( a l e n d a r 域中,动词口j 能的语义类为s h c e d u l e ,d e l e t e ,v i e w 等等,名词口j 能 的m 义类为c a l e n d a r ,t i m e ,l o c a t i o n 等等。 t 、f l 洲的讲义分类类口j 以角牟决介词的从属,动词的宾语等这些语法分析上的歧义。 f 7 r “j 删究肯的结果 p s 9 3 】【r e s 9 3 a l 9 2 】中得到_ 许多自_ l j 的语义类。一个不受领域 限制的单洲分类系统口j 以帮助对义本的理解,并且口j 以方便地在各种领域的文本中使 川,提高了n l p 系统的转换性。 i 7 t 义分类通常囱两种方法:从己分类的字典( t a x o n o m i e s ) q 6 得到单词的分类,或 州彤先计的方法从语料中直接提取。 2 3 1 使用分类字典的方法 j 咀他川字典中的分类来区分语义类,比如1 一些电r 字典和专门领域的术语字 业。返j _ ! 宁典通常由手丁产生的,需要耗费大量的劳力。 w o r d n e t 足最成功的英文分类字典 m r 9 0 j ,其中的分类信息已经被广泛十处理 然沿j 丈本。i r e s 9 3 只使州w o r d n e t 中的同义( s y n o n y m y ) 和统领( h y p o n y m y ) 关系 8 。女二赢鑫蠡逝。 就钳划比较恰当的语义分类。他还_ l j 词类的信息解决介词的从属等语法分析上的歧义 川题。【b m 9 4 】的。史验也证明词的分类信息f j 助于觯决数据的稀疏问题。 似足这些分类字典不能为特定领域的单词提供足够的分类依据,而且字典本身 的此义现缘也很严币,w o r d n e t 中甲均每个单词仃4 7 6 个义项。对十某个领域向寿, 必坝从这些复杂的分类中选择适合十本领域的词义。最,m 币的问题足大量的手t 劳动 n :j 需。婴他得这些字典很难从一个领域移植到其他领域,特别是一些技术领域囱专川的 _ l f 分类字贝无法覆盖,还足必须从训练集中赢接捉取。 2 3 2 统计的分类方法 统足n 1 。p 研究的苇要手段,也足语义分类的何效方法。它的优点足通_ l j 型强, 小、乏他川t 坝域的限制,不需要大量的人i + f 预,l , 以从语利中直接提取领域的专川词 f _ :缺j j i 足需要大量的语料,结果不如川分类字典精确。 紫炎( ( l u s t e r i n g ) 算法足语义分类的常h j 统训方法。它将某个集合的兀素按照其特 , 1 13 且i r 分炎。容易与聚类混淆的个算法足分类( c l a s s i f i c a t i o n ) 。盘果事先已经知道元 采的炎) j 1 j ,研究的f 1 的足归纳这些类别的特征,以便将新的元素归入适当的类中,这 j | ;! j 术就称为分类。分类是宵指导的学习过程( s u p e r v i s e dl e a r n i n g ) ,冈为已知的类别 俯,! 、将j 日导分类的过程。另外一种情况足已经有原始的数据,但不知道将会得到的类 坡h 币类j 唑,必须从数据中直接学习,这项技术就称为聚类,又u 【| 做自动数据分类。 这址个兀指导的学习过程( u n s u p e r v l s e dl e a r n i n g ) ,没有现成的分类信息提供分类结 粜的预测。严格地说,我们的语义分类并不是一个分类过程,m 是_ 【 聚类的方法实现 分炎。 聚炎鹎法川以人致分为两类: 分削的疗法( p a r t i t i o n i n gm e t h o d s ) 将紧类对缘分割成j 工不包含的集合,每个集合中至少包含一个元素,每个元素只 j ,r 。个儇介。 从次的方法( h i e r a r c h i c a lm e t h o d s ) j f 类似树状的分类结构。所肯的兀素在树根处属十一个大集合,然后沿树枝逐 m ”,最j 。j 树根处就是一个个t f l 独的几素。按照树的生长方向不同,口j 以分为“聚 q 二的,( a g g l o m e r a t i v e ) “分裂的”( d i v i s i v e ) 聚类。如果聚类从单个元素丌始,逐渐合 i :儿求,这种,j 浊就称为“聚集”聚类。如果聚类从树根丌始,逐渐将元素集合分 裂分列最后单个的叶了元素,这就是“分裂”聚类。 化小彩情况下,某些元素不只属j 二一个类,而足以某种概率分布属于不同的类。 仃j i4 = 【| l w m 下,聚类结果的输出口j 能足这样的“客体x 以7 8 的口j 能性属于类a ,以 i 8 f 1 j | :簪属十类c ,以4 的概率属于类d ”。这种聚类称为软聚类( s o f tc l u s t e r s ) 。 j i2 ,果聚类瞬法将每个词归入唯一的一个类,这种聚类就称为馁聚类( h 8 r d 9 勰测。躐,。一:氨晶。囊涵交醢越& i 蕊堍二。;。 乃j 进行聚类,j 必须发现元素之间囱区别性的特征值。对于英文的单词分类,特 7 r 1 f l t ) ;v ;i 能够体现单词之间语义区别。n l p 研究者们采用了许多方法柬体现语南的特 札f tj t j 合理的方法进行聚类。 b d 9 2 和 m c m 9 4 都使_ l 互信息( m u t u a li n f o r m a t i o n ) 来比较单词之间的相似度, 川奠偻算法。吹现局部最优的分类。互信息利_ l j 随机变量的分布柬衡量它们之间的关联 j _ j t ,”;f 1 更新下: m ( x ,】,) = p ( x ,y ) l o g 如粱互信息的值足比较大的正数,表示酶个变量共同出现的频率很高,为负数, 走小它们之问j 没仃很强的关联。 b d 9 2 和 m c m 9 4 都使h 贪婪算法,使词类之间的甲 j 0 f 一一息最大。虽然他们实现的都只是局部最优,结采已经很令人鼓舞了。下面足他 们i1 爻验得硎的一些词类。 f i g 2 1s o m er e s u l t so f b r o w n sa n dm c m a h o n se x p e r i m e n t s 图2 1b r o w n 和m c m a h o n 的靓分艾验结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化学人教版选修5第三章 烃的含氧衍生物第四节 有机合成教学设计1
- 2024-2025学年高中语文 第4单元 12 飞向太空的航程说课稿 新人教版必修1
- 中医药技术培训考试题及答案
- 中医考试题及答案解析
- 2024年泉州2024年道路旅客运输从业资格证模拟试题
- 商务考察用车无偿租给企业使用合同范本
- 酒店式公寓店面产权转让与酒店式管理服务合同
- 人工智能商业数据分析资源授权与智能决策协议
- 个人旅游贷款合同展期与旅游服务保障协议
- 2025企业员工合同终止证明
- 《遗传学》课程标准
- 蛋白质分离纯化及鉴定
- 2024年化粪池清理合同协议书范本
- 实用美术基础中职全套教学课件
- 债权债务法律知识讲座
- 南京财经大学《812西方经济学(宏观经济学、微观经济学)》历年考研真题及详解
- 基于教育培训行业的客户关系营销研究
- 肉制品工艺学-香肠类制品-课件
- 超全QC管理流程图
- 2广告实务课程标准
- 001 比较思想政治教育(第二版) 第一章
评论
0/150
提交评论