(计算机系统结构专业论文)基于条件随机场的汉语短语识别研究.pdf_第1页
(计算机系统结构专业论文)基于条件随机场的汉语短语识别研究.pdf_第2页
(计算机系统结构专业论文)基于条件随机场的汉语短语识别研究.pdf_第3页
(计算机系统结构专业论文)基于条件随机场的汉语短语识别研究.pdf_第4页
(计算机系统结构专业论文)基于条件随机场的汉语短语识别研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机系统结构专业论文)基于条件随机场的汉语短语识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

at h e s i si nc o m p u t e ra r c h i t e c t u r e r e s e a r c ho fc h i n e s ep h r a s ei d e n t i f i c a t i o n b a s e do nc o n d i t i o n a lr a n d o mf i e l d s b yg u oy o n g s h e n g s u p e r v i s o r a s s o c i a t ep r o f e s s o rz h a n gl i n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 i 1 l h 心t x 0 f 1 i f 独创性声明 本人声明 所呈交的学位论文是在导师的指导下完成的 论文中取得 的研究成果除加以标注和致谢的地方外 不包含其他人己经发表或撰写过 的研究成果 也不包括本人为获得其他学位而使用过的材料 与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示 谢意 学位论文作者签名 认生 e l 觏 狮豸净台a 彩日 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留 使用学位论 文的规定 即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘 允许论文被查阅和借阅 本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索 交流 作者和导师同意网上交流的时间为作者获得学位后 半年一一年口一年半口两年口 导师签名 豕仍1 签字日裁名 苦 讶晓枷否 p 绷 悭日 1 永谚 勿阴 垒9 名 鹳树 者 多 作 文期沦日位字 学签 t 1 毯0蜃 国 j k 1 东北大学硕士学位论文摘要 基于条件随机场的汉语短语识别研究 摘要 随着机器翻译技术的不断发展 对完全句法分析质量的要求也越来越高 由于完 全句法分析 f u l lp a r s i n g 要确定句子所包含的全部句法信息 并确定句子中各成分 之间的关系 这是一项十分困难的任务 到目前为之 无论是句法分析器的正确率 还是其运行速度和鲁棒性等各方面 都还难以达到令人满意的程度 这种状况严重地 制约了以完全句法分析为基础的自然语言处理相关研究的发展和应用系统的开发 为 了降低问题的复杂度 同时获得一定的句法结构信息 短语识别应运而生 本文借鉴了英语c h u n k 的定义 根据汉语自身的语言学特点以及u p e n n c h i n e s e t r e e b a n k5 1 标注本身的特点 将汉语短语定义为十种基本短语结构 在该定 义的指导下 从u p e n nc h i n e s e t r e e b a n k5 1 中抽取语料 论文论述了条件随机场的基 本原理 并通过与其他传统的标注模型进行了理论和实验方面的比较 阐述了条件随 机场在标注任务中的性能优越性 在此基础上提出了基于条件随机场 c i u s 的汉语短 语识别方法 并搭建汉语短语识别实验系统 对测试语料进行短语识别 实验结果表明 相对于m a r k o v 和h m m s 模型来说 本文提出的短语定义和识别 算法具有较高的识别性能 大规模的语料有助于汉语短语识别性能的提高 另外 在 u p e n nc h i n e s e t r e e b a n k5 1 上 二阶的c r f s 识别结果并不比一阶的c r f s 好很多 这 是由于二阶c r f s 在使用更多的上下文特征时 数据稀疏造成的 本文提出的短语识 别方法在一定程度上使完全句法分析的任务得到了简化 同时也有利于完全句法分析 在大规模真实文本处理系统中迅速得到运用 关键词 短语识别 句法分析 机器翻译 条件随机场 i i 毫 j 1 h 东北大学硕士学位论文 r e s e a r c ho fc h i n e s ep h r a s ei d e n t i f i c a t i o n b a s e do nc o n d i t i o n a lr a n d o mf i e l d s a b s t r a c t w i t ht h ed e v e l o p m e n to ft e c h n o l o g yo fm a c h i n et r a n s l a t i o n t h er e q u i r e m e n t so faf u l l p a r s i n gi sb e c o m i n gm o r ea n dm o r ed e m a n d i n g p a r s i n gi sab a s i ct e c h n i q u ei nn a t u r a l l a n g u a g ep r o c e s s i n g h o w e v e r af u l lp a r s e ri su s u a l l yc o s t l ya n ds l o w r e c e n t l y p h r a s e i d e n t i f i c a t i o nh a sb e e na p p l i e dt ov a r i o u si n f o r m a t i o np r o c e s s i n gs y s t e m s c o m p a r e dt ot h e p e r f o r m a n c eo ff u l lp a r s e r s ap h r a s ei d e n t i f i e ri sm u c hf a s t e ra n dt h er e s u l ti sm o r eu s e f u l f o rv a r i o u sa p p l i c a t i o n s s u c ha si n f o r m a t i o nr e t r i e v a la n de x t r a c t i o n q u e s t i o na n s w e r i n g a n da u t o m a t i cd o c u m e n ts u m m a r i z a t i o n b a s e do nt h ed e f i n i t i o no fe n g l i s hc h u n kg i v e nb ya b n e ya n dt h el i n g u i s t i cc h a r a c t e r s o fc h i n e s ei t s e l fa n dt h ef e a t u r eo fu p e n nc h i n e s e t r e e b a n k5 1l a b e l i n g t h ea u t h o rd e f i n e s c h i n e s ec h u n ka sas i n g l es e m a n t i ca n dn o n r e c u r s i v ec o r eo fa ni n t r a c l a u s a lc o n s t i t u e n t w i t ht h er e s t r i c t i o nt h a tn oc h u n k sa r ei n c l u d e di na n o t h e rc h u n k u n d e rt h ec o n d u c to ft h e d e f i n i t i o n t h ep a p e rg e t st h et r a i n i n gd a t aa n dt e s t i n gd a t af r o mp e n nc h i n e s et r e e b a n k5 1 i nt h et h e s i so r i g i n a lp r i n c i p l eo fc o n d i t i o n a lr a n d o mf i e l d sw a sp r e s e n t e d c o m p a r e d 析t l l o t h e rt r a n d i t i o n a ls t a t i s t i c a ll a n g u a g em o d e li nt h e o r ya n dp r a c t i c e c o n d i t i o n a lr a n d o m f i e l d si ss u i t a b l e f o rs e q u e n t i a ll a b e l i n gt a s kw i t he x c e l l e n tp e r f o r m a n c e t h i sp a p e r d e s i g n e da n di m p l e m e n t e das y s t e mo fp h r a s ei d e n t i f i c a t i o na n dt h ep h r a s e si nt e s tc o r p u s w e r ei d e n t i f i e d f r o mas e r i e so fe x p e r i m e n tr e s u l t s t h ep e r f o r m a n c ei m p r o v e sv e r yq u i c k l yw h e nt h e s i z eo ft h et r a i n i n gd a t ag r a d u a l l yr e a c h e st w i c eo ft h a to ft e s t i n gd a t a h o w e v e r t h er a n g e o fa d v a n c e m e n to fp e r f o r m a n c eb e c o m e sl e s sw h i l et h et r e n di ss t i l lu p w a r d s s ow ec a n m a k et h ec o n c l u s i o nt h a t l a r g e rs c a l eo fc o r p u sc o n t r i b u t e s t ot h ep e r f o r m a n c eo f r e c o g n i t i o no fc h i n e s ep h r a s e s b e s i d e s w ec a ns e et h ep e r f o r m a n c eo nt h es e c o n d o r d e r c i 江si s n tm o r eb e t t e rt h a nt h a to nt h ef i r s t o r d e rc r f s t h er e a s o ni st h a tt h e r ei sm o r e c o n t e x tf e a t u r e sa r eu s e di nt h es e c o n d o r d e rc r fw h i l et h ep r o b l e mo fd a t as p a r s e n e s si s s e r i o u s i nt h ep a p e r w ep r o p o s ean o v e lm e t h o d o l o g yf o rc h i n e s ep h r a s e si d e n t i f i c a t i o n w h i c hs i m p l i f i e st h ea s s i g n m e n to ff u l lp a r s i n g a n di sf a v o r a b l ef o rt h eq u i c k a p p l i c a t i o no f i i i 东北大学硕士学位论文 a b s t r a c t f u l lp a r s i n gi nt h el a r g e s c a l er e a ld o c u m e n tp r o c e s s i n gs y s t e m k e yw o r d s p h r a s ei d e n t i f i c a t i o n s y n t a c t i cp a r s i n g c o n d i t i o n a lr a n d o mf i e l d s m a c h i n e t r a n s l a t i o n i v 一 ili i 镊 掣 出 甜 东北大学硕士学位论文目录 目录 独创性声明 一i 摘要 i i a b s tta c t i i i 第一章绪论 1 1 1 研究背景及现状 1 1 1 1 理性主义的研究方法 一3 1 1 2 经验主义的研究方法 5 1 2 本文研究工作及意义 6 1 3 论文结构 8 第二章相关知识 1 1 2 1 机器学习 1 1 2 2 机器学习的分类 j 1 2 2 3 条件随机场 c r f s 1 3 2 3 1 无向图模型 1 4 2 3 2 条件随机场的图结构 1 5 2 3 3 势函数 1 6 2 3 4 条件随机场 1 7 2 3 5 最大熵 18 2 3 6 极大似然参数估计 1 8 2 3 7c r f s 概率计算 1 9 2 3 8 动态规划 1 9 2 4 机器学习在科学中的前景 2 0 2 5 机器学习在自然语言处理中的应用 2 1 2 6 本章小结 2 4 第三章汉语短语定义 2 7 3 1c h u n k 的提出 2 8 一v 一 东北大学硕士学位论文目录 3 2 汉语短语的定义 31 3 2 1 基本动词短语 v p 3 2 3 2 2 基本限定词短语 d p 3 3 3 2 3 基本形容词短语 a d j p 3 4 3 2 4 基本数量短语 q p 3 4 3 2 5 基本片段短语 f r a g 3 5 3 2 6 基本名词短语 n p 3 5 3 2 7 基本介词短语 p p 3 6 3 2 8 由词性标记l c 形成的基本短语 l c p 一3 6 3 2 9 基本副词短语 a d v p 3 6 3 2 1 0 基本分类词短语 c l p 3 7 3 3 本章小结 3 7 第四章基于c r f s 的汉语短语识别 3 9 4 1 介绍 3 9 4 2 汉语短语识别 一3 9 4 2 1 汉语短语及标记 4 0 4 2 2 独立假设 i n d e p e n d e n ta s s u m p t i o n 4 1 4 2 3 标记偏差 l a b e lb i a s 4 2 4 3 条件随机场 c r f s 4 2 4 4 实验 4 5 4 4 1 系列标注任务系统 4 5 4 4 2 实验设置 4 5 4 4 3 评测标准 4 7 4 4 4 实验结果及数据分析 4 7 4 5 本章小结 5 4 第五章结论 5 7 参考文献 5 9 致谢 6 3 一v i l 蚺 参 r 1 一 东北大学硕士学位论文第一章绪论 第一章绪论 1 1 研究背景及现状 长期以来 科技资料的翻译就是科研机构 大学 情报部门以及大型企业的重要 工作之一 随着国际交往的增多 计算机技术和互联网络的飞速发展 资料翻译也显 得越来越重要 特别是对于一些大型的引进项目 其外文资料往往数以吨计 这些资 料若仅靠人工翻译 难度可想而知 还不适应规模化生产 因此 机器翻译很快成为 自然语言处理中较为重要的研究领域 机器翻译 m a c h i n et r a n s l a t i o n m t 是自然语言处理 n a t u r a ll a n g u a g ep r o c e s s i n g n l p 的最早的一个研究分支 它是利用计算机把一种自然语言转变成另一种自然语 言的过程 用以完成这一过程的软件叫做机器翻译系统 从计算机刚刚诞生之日起 人们就曾经尝试用它来进行一些语言现象的处理工作 自然语言处理的研究 最初就 是从机器翻译开始的 随着信息时代的到来 信息爆炸 成为信息处理领域的瓶颈问 题 不同语种之间大量的信息交流更加大了问题的严重性 不同语言之间的翻译工作 越来越迫切 并且工作量也越来越大 如何利用计算机高效率的信息处理能力突破不 同语种之间的语言障碍 成为全人类共同面临的问题 机器翻译便是解决这个问题的 有力手段之一 这也是机器翻译长期处于自然语言处理研究中心地位的主要原因 自然语言句法分析 n a t u r a ll a n g u a g ep a r s i n g 一直是计算语言学 c o m p u t a t i o n a l l i n g u i s t i c s 领域一个基础性的研究课题 其高质量的分析技术毫无疑问地会使机器翻 译等大部分自然语言处理系统从中受益 从科学的观点来看 计算机的自然语言分析 过程是对人类语言理解过程的模拟 即根据一定的语言知识 通常是一个由规则 树 或图组成的形式文法系统 将输入句子的一维线性结构赋予某种二维平面结构解释 从人工智能研究的角度来讲 这是一个基于推理的问题求解过程 分析方法则对应了 其推理控制策略 机器翻译到底是应先理解了源语言再生成目标语言 还是只需尽量多地把源语言 的信息传递到目标语中 自然语言理解 越来越多地被 自然语言处理 所代替 说 明人们已逐渐放弃了对完全理解的追求 随着语料库语言学和机器学习的发展 通过机器学习从语料库中自动或半自动获 取语言规则和翻译规则成为知识获取的新途径 语料库语言学力图从大规模真实文本 一 一 东北大学硕士学位论文第一章绪论 中获取语言知识 以求得对于自然语言规律的更为客观的 准确的认识 它突破了 k b m t k n o w l e d g eb a s e dm a c h i l i et r a n s l a t i o n k b m t 中知识获取的瓶颈 e b m t e x a m p l eb a s e dm a c h i n et r a n s l a t i o n e b m t 一个重要的特征在于其取消了 k b m t 中语言学规则的中心地位 强调使用实例数据和类比推理驱动翻译过程 基于 实例的机器翻译系统通过计算机的有效参与 利用语料库统计方法 以及翻译记忆库 和术语库技术 避免了人工翻译中重复劳动和术语不一致现象 有效地提高翻译效率 和翻译质量 在具体翻译过程中 人机分工协作 由人完成创造性的工作 而机器随 时协助人翻译处理 自动提供已有的翻译记录和术语 同时 机器不断学习人的翻译 作为以后翻译的基础 节省了大量人工翻译中用于术语和短语查询的时间和相同句子 的重复翻译时间 e b m t 中匹配的实例可以是双语段落对 句对 子旬对 甚至是更小的片段对 粒度越大 歧义越小 但完全匹配的可能性也越小 粒度越小 完全匹配的可能性越 大 但歧义也越大 传统的以单词为最小处理单位的面向大众用户的机器翻译在翻译质量遭受批评的 同时 以句子为处理单位的面向专业翻译领域的翻译记忆却取得了极大的成功 加大 机器翻译中的翻译单元粒度成为人们思考的新方向 针对完全句法分析 f u l lp a r s i n g 在分析大规模真实文本中遇到的困难 许多研 究人员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题 以逐步 降低完整句法分析的难度 提高分析效率 在这方面 二个很成功的例子是将词性标 注 p a r t o g s p e e c ht a g g i n g 从句法分析中分离出来 通过利用局部语境信息进行基 于规则或基于统计的学习 为进一步进行句法分析打下了很好的基础 短语识别 p h r a s ei d e n t i f i c a t i o n 也叫浅层句法分析 s h a l l o wp a r s i n g 或部分句 法分析 p a r t i a lp a r s i n g 是一种新的语言句法分析处理策略 它与完全句法分析是相 对的 完全句法分析要求通过一系列分析过程 最终得到句子的完整句法树 浅层句 法分析的结果并不是一棵完整的句法树 但各个语块是完整句法树的一个子图 s u b g r a p h 只要加上语块之间的依附关系 a t t a c h m e n t 就可以构成完整的句法树 所以浅层句法分析将句法分析分解为两个子任务 1 1 语块的识别和分析 2 语 块之间的依附关系分析 浅层句法分析的主要任务是语块的识别和分析 这样就使句 法分析的任务在某种程度上得到简化 同时也利于句法分析技术在大规模真实文本处 理系统中迅速得到利用 2 东北大学硕士学位论文第一章绪论 短语识别的结果得到一种语段 粒度介于句对和词对之间 作为匹配顺利应用于 e b m t 中可以起到消歧的作用 短语识别不求对源语言的完全分析和深层理解 而是 尽可能把源语言的意义传递到目标语言中去 2 j 大约在1 9 6 0 年至1 9 8 5 年 语言学 心理学 人工智能和自然语言处理中的大部 分研究完全被一种理性主义方法所支配 3 这种理性主义方法是由一种信仰决定的 人们相信在人类头脑中重要的知识不是由感官得到的 而是提前固定在头脑中 由遗 传决定的 在人工智能领域中 理性主义者试图建立一个只能系统 他们希望在这个 智能系统中通过手工编码大量的先验知识和推理机制 得以复制人类大脑中的语言能 力 在语言学中 由于乔姆斯基的内在语言官能 i n n a t el a n g u a g ef a c u l t y 理论 4 被广 泛接受 理性主义方法从6 0 年代到8 0 年代中期主宰了计算语言学 语言学和心理学 的研究 在计算语言学中 理性主义的观点表现为通过人工编汇初始的语言知识和推 理系统来创建自然语言处理系统 经验主义方法同样假设大脑中存在某些认识的能力 该方法和理性主义方法的区 别不是绝对的 而只是在某种程度上有所区别 理性主义方法假设大脑中存在某种原 始的结构 经验主义方法更倾向于相信人类大脑中有一种结构 这种结构能从感官输 入的信息中组织和产生语言 因此不经过学习生成某些语言是可能的 但是经验主义 方法的突破在于 它认为人类的智能不是开始于细化的规则集 也不是开始于针对各 种各样语言结构和其他感知领域的程序集 它认为人的知识只是通过感官输入 经过 一些简单的联想 a s s o c i a t i o n 与通用化 g e n e r a l i z a t i o n 的操作而得到的 人并不是 生来就有一套有关语言的原则和处理方法 经验主义方法从二十世纪2 0 年代到5 0 年 代主宰了语言学 心理学和计算语言学的研究 并在8 0 年代中期后重新得到了重视 表现在计算语言学中 许多研究试图从大量的语言数据中获取语言知识 3 1 1 1 理性主义的研究方法 机器翻译中的理性主义方法主要是指传统的机器翻译中基于知识的机器翻译 也 称为基于规则的机器翻译 r u l eb a s e dm a c h i n et r a n s l a t i o n i 也m t k b m t 的翻译过程 可分为源语分析和目标语生成两个步骤 源语分析是所有k b m t 系统的基础 是遵循一定的语言学知识 寻求源语文本的 表示形式与其对应内容之间所存在的映射关系的过程 源语分析的深度不同 是造成 k b m t 系统之间存在差异的主要因素 源语分析涉及多个不同层次 分析过程按照复 3 东北大学硕士学位论文 第一章绪论 杂度递增顺序可划分为形态分析 句法分析 语义分析 语用分析垆j 目标语生成被看作源语分析的逆过程 主要完成文本规划和表层实现两项任务 文本规划确定欲实现的目标语文本的有关内容 修辞方式等信息 包括内容界定 6 文本构造 7 1 词汇选择 句法选择 8 1 共指现象处理 成分调序 7 1 等子任务 表层实现 根据目标语语法 将由词汇组成的句法表达式映射为表层字符串 k b m t 从总体模式上可以分为三类 9 直接翻译法 中间语言法以及转换法 直 接翻译法从源语言的表层句子出发 将单词或固定词组直接置换成目标语言的对应成 分 中间语言法把源语言经过分析转换成一种对所有语言都适合的一种句法 语义表 示 从这种表示可以生成任何一种目标语言 在设计多种语言互译的机器翻译系统时 这种方法在理论上是非常经济的 转换方法采用两种内部表达并按三个阶段进行翻译 第一个阶段把源语言转换成源语言的内部表达 第二阶段把源语言的内部表达转换成 目标语言的内部表达 第三阶段再根据目标语言的内部表达生成目标语言 从本质上讲 k b m t 系统的不同之处主要是各个系统对翻译所需要的分析深度有 不同的意见 直接翻译法认为不需要深层次的源语言分析 在源语言句法结构未知的 前提下就可以翻译 转换法认为 要进行翻译 源语言的句法结构就应该提前得到 而中间语言法则认为需要更为彻底的源语言分析 实际上 即使采用同一种总体模式 的不同实际系统 对分析深度的处理也是有所不同的 7 词汇化的机器翻译 1 e x i c a l i s tm a c h i n et r a n s l a t i o n l m t 1 0 l 是9 0 年代后出现的一 种重要的机器翻译方法 也可纳入理性主义方法的范畴 在l m t 系统中 转换操作 不是定义在树型结构上 而是定义为词汇包 1 e x i c a lb a g s 间的映像 l m t 翻译系统 首先对输入的源语言语句进行句法分析 这种分析完全是基于单语知识的 与目标语 言无关 分析系统中的文法系统根据词汇主义原则构建 分析器的输出结果是一棵标 注了词汇间句法语义关系的依存树 分析树中每个中心词与其依存子结点定义为一个 词汇包 转换就定义为源语词汇包向目标语中相应词汇包的映射 转换模块负责搜索 可以覆盖输入句子分析树的双语词汇 并将匹配结果中的源语词汇包替换为这些双语 词汇中目标语的词汇包 生成模块根据转换模块给出的目标语依存树 输出满足目标 语语法限制的翻译结果 理性主义方法面临的最大的问题就是其需要的海量的计算语言学资源 如大规模 的词汇 句法 语义 语用资源 从目前语言知识工程的进展来看 为一个通用的 高质量的机器翻译系统手工构建这些资源在可以预见的将来仍然是不现实的 这就是 4 东北大学硕士学位论文 第一章绪论 理性主义方法的知识获取瓶颈 l u 一 1 1 2 经验主义的研究方法 由于理性主义方法面临困境与挑战 一些研究者开始寻求另外一种解决问题的途 径 即从数量日益增长的机器可读文本出发 使用经验主义的方法构造自动翻译过程 所需的语言知识 与理性主义方法提倡的尽量应用深层 d e e pl e v e l 语言学知识的主 张相反 经验主义机器翻译系统中这些资源通常是相对浅层的模板化表示 有的甚至 就是表层的词汇统计信息 经验主义的机器翻译方法始于1 9 8 4 年日本东京大学的长尾真教授 n a g a o 提出 的基于类比的机器翻译方法 t r a n s l a t i o nb ya n a l o g y 在这篇著名的论文中 长尾真主 张 语言学数据是比语言学理论更可靠的知识源 因此也可以为机器翻译系统奠定更 坚实的基础 他建议使用无标注的实例数据库和一个等价词对的集合作为系统的知识 源 动词例外 需要使用格框架表达 翻译引擎主要负责计算输入句子和候选实例中 词汇间语义的相似性 很多研究者对长尾真的方法进行了扩展 这些工作主要包括 基于实例的机器翻 译 l l 基于模板的机器翻译 t e m p l a t eb a s e dm a c h i n et r a n s l a t i o n 1 2 基于记忆的机器 翻译 m e m o r yb a s e dm a c h i n et r a n s l a t i o n m b t 13 1 转换驱动的机器翻译 t r a n s f e r d r i v e nm a c h i d et r a n s l a t i o n t d m t 1 4 j 以及基于案例的机器翻译 c a s eb a s e d m a c h i n et r a n s l a t i o n c b m t 1 5 等 所有的这些方法现在可以统称为e b m t 方法 a r n o l d 如下概括了e b m t 的特点 1 6 这种方法的基本思想就是收集对齐的双语语料 b i l i n g u a lc o r p u s 使用某种最佳匹配算法 在语料空间中搜索和输入短语最为接近 的实例 并由此构造可以实现词汇对应翻译的转换模板 e b m t 一个重要特征在于 1 其取消了k b m t k n o w l e d g eb a s e dm a c h i n et r a n s l a t i o n 中语言学规则的中心地位 强 调使用实例数据和类比推理 a n a l o g yr e a s o n i n g 驱动翻译过程 从而为解决机器翻译 卜 的资源瓶颈问题提供了另外一种解决方案 毕竟 与创建规则相比 收集实例的工作 要容易得多 另外一种经验主义方法是统计机器翻译 s t a t i s t i c a lm a c h i n et r a n s l a t i o n s m t 1 7 s m t 使用统计模型来刻划语言翻译的过程 并且自动地从平行双语语料库 中训练出模型的参数 这种自动学习的功能把人从繁重的设计过程中解放出来 以 h a n s a r d s 英法双语语料为基础 i b m 的b r o w n 等人实现了第一个s m t 系统模型 c a n d i e 这种翻译方法是将翻译系统看作是一个噪音信道 如果要从法语翻译到英语 一5 一 东北大学硕士学位论文第一章绪论 英语就是这个信道的源端的发送信息 法语则是信道末端的接收信息 机器翻译的任 务变成了根据接收信息而解码得出发送信息 令p ie 表示以e 为输入通过信道获 得厂的概率 则翻译器的任务是 在给定了法语语句f 的情况下 在目标空间e 中搜 索相应的英语语句e 使得后验概率只 pi 最大 这个最大值点每就是f 的翻译 机 器翻译的过程如公式1 1 所示 巨 a x g m a x p r ei 力 a r g m a x p r ie p r e 1 1 ee 为此 一个机器翻译系统必须建立统计模型 用于刻画p e 和p f le 刻画p e 的模型称为语言模型 刻画p fe 的模型称为翻译模型 这两个模型都需要估计大量 的参数 尽管这种统计机器翻译模型解决了知识的获取问题 但其模型巨大的参数空间以 及由此而需要的数据资源和计算资源都是十分可观的 b r o w n 等人的初步实验结果表 明 基于这种 纯粹 统计的方法仅能得到不到4 0 的准确率 而附加了基本词法信 息后 其准确率提高到了6 0 这似乎预示着将s m t 与k b m t 相结合才是未来研究 中真正的出路 1 2 本文研究工作及意义 使用机器学习方法来解决自然语言处理中的问题是当前研究的主流 国内外在面 向自然语言处理的机器学习方面也做了很多有益的工作 本文的工作也是在这方面作 了一些努力和尝试 所有的工作紧紧围绕基于条件随机场的汉语短语识别展开 构成 了一个完整的体系 在众多的机器学习方法中 本文主要研究了生成学习框架中具有 代表性的条件随机场 c o n d i t i o n a lr a n d o mf i e l d s 机器学习方法 借鉴了英语c h u n k 的定义 根据汉语自身的语言学特点 作者给出了汉语短语的定义 介绍了生成学习 框架中具有代表性的学习方法 在此基础上提出了基于条件随机场的汉语短语识别方 法 具体地说 本文的创新成果包括如下几个方面 1 给出了汉语短语的定义 并具体描述了如何从树库中抽取短语 考虑到汉语 和英语是两种不同的语系 本文认为中文短语具有单一的语义核心 并且互相不嵌套 的特点 即 句子中的每一个词语只能属于一个短语类型 并且每一种短语类型中都 不含有其他类型的短语 本文使用u p e r m 中文树库作为语料 考虑到汉语和英语是两 一6 一 东北大学硕士学位论文第一章绪论 种不同的语系 为了表示整个短语结构 本文定义了下面1 0 种汉语短语类型 基本动 词短语v p 基本定冠词短语d p 基本形容词短语a d j p 基本量词短语q p 基本片 段短语f r a g 基本名词短语n p 基本介词短语p p 由 l c 形成的基本短语l c p 基本副词短语a d v p 基本分类词短语c l p 其中某些短语与u p e n n 中文树库中的短 语结构相同 而另外一些短语与u p e n n 中文树库中的短语结构却不尽相同 本文具体 描述了如何从树库中抽取出1 0 种类型的短语 2 提出了基于条件随机场 c 盯s 的汉语短语识别方法 c r f s 是一种判别学 习 d i s c r i m i n a t i v el e a r n i n g 方法 是有向图模型的一种形式 在给定一个特定的观测 序列下 在整个标记序列的联合概率上定义了一个单一的线性对数分布 通过单个状 态将增大的或减小的概率和传递到它们的后继状态 使得这个单一的分布不需要对每 个状态进行归一化 整个状态序列可以一起描述 从而克服了h m m s 和m e m m s 的 标记偏差 1 a b e lb i a s 问题 而标记偏差的问题在汉语短语识别中是个严重的问题 因此 作者提出了基于c r f s 的汉语短语识别方法 本文的研究意义 短语识别是一种新的语言句法分析处理策略 它与完全句法分 析是相对的 完全句法分析要求通过一系列分析过程 最终得到句子的完整句法树 短语识别的结果并不是一棵完整的句法树 但各个语块是完整句法树的一个子图 s u b g r a p h 只要加上语块之间的依附关系 a t t a c h m e n t 就可以构成完整的句法树 例如 在一个句子经过分词和词性标注之后变为下面的形式 n i l 外商 n i l 投资 n i l 企业 p 在 w 改善 n r 中国 n i l 出口 n n 商品 n n 结 构 1 c 中 w 发挥 a s 了 0 j 显著 n n 作用 p u 经过短语识别我们将其标识为下面的形式 n p n n 外商 n i l 投资 r u l 企业 p p p 在 v p w 改善 n p 缸中国 n p 1 1 1 1 出口 n n 商品 n n 结构 l c p 1 c 中 v p w 发挥 a s 了 a d j p0 j 显著 n p n i l 作用 o p u 图1 1 显示了一个句子在短语识别前后各词块的标注情况和句子结构 以上的分析使得完全句法分析只需要对单独的语块进行分析 应用语言学和其它 各种知识找到各语块之间的依附关系就可构建一颗完整的句法树 从而降低完全句法 分析的难度 提高完全句法分析的准确率 短语识别在机器翻译中的意义主要表现在以下几个方面 1 8 1 剪枝效果 降低了完全句法分析的压力 句法树生成过程中 因为短语的 7 东北大学硕士学位论文第一章绪论 应用增大了分析粒度 使得句法树结点减少 分析压力降低 准确率增加 2 消歧效果 提高了翻译质量 短语在词性标注 句法分析 对译词选择 目标语生成等各方面都起到消歧作用 尤其对译词选择的准确率大大增加 3 起到了大量增加个性规则的作用 节省了大量人力 物力和精力 短语获 取后的校对工作相对工作量较少 对人员要求较低 4 绕过了目前善不完善的语义分析体系 在短语匹配阶段即完成了部分分析 阶段的任务 n n 外商 n n 投资 n n 企业 p 在 v v n n 商品 n n 结构 1 c 中 v v 发挥 n n 外商 n n 投资 n n 企业 1 3 论文结构 厂 一一一一 短语识别标注 l 一 一 j e p 在 f 美圣 l 举n 国n 1 cl v v 发i1 j jl 1 1 l l 1 中 1l 挥 a s t i 显著 i 作用 1 图1 1 经过短语识别后的句子结构 f i g 1 1s t r u c t u r eo fs e n t e n c ea f t e rp h r a s ei d e n t i f i c a t i o n 论文共分为七章 后续章节内容如下 第二章相关知识 本章节对机器学习的本质 机器学习方法的分类进行了描述 并主要介绍了生成 学习中的条件随机场 展望了机器学习在科学中的前景 最后介绍了面向自然语言处 理的机器学习 既国内外在面向自然语言处理的机器学习方面所做的工作 第三章汉语短语识别 本章节介绍了c h u n k 的提出 结合汉语的语言学特点 定义了1 0 种汉语短语 基 本动词短语 基本限定词短语 基本形容词短语 基本数量词短语 基本片段短语 基本名词短语 基本介词短语 有词性标记l c 形成的短语 基本分词短语和基本分 一8 一 妙 东北大学硕士学位论文第一章绪论 类词短语 并对每一种类型的短语都给出了相应的例子 第四章基于c r f s 的汉语短语识别 本章节介绍了c r f s 相关的参数估计和该短语识别系统框架 根据前第三章汉语 短语的定义 从u p e n n 树库中抽取了训练集和测试集 搭建了汉语短语识别相关实验 系统 用不同训练集训练了一系列的c f r s 模型并对测试集进行短语识别 对实验设 置和评测标准进行了说明 并给出了实验数据和评测结果 对实验结果进行了深入的 分析 第五章结论 对全文工作进行了总结 介绍了本文所取得的成果 并给出了下一步研究的方向 东北大学硕士学位论文 第一章绪论 1 0 东北大学硕士学位论文 第二章相关知识 第二章相关知识 自从计算机问世以来 人们就想知道它们能不能自我学习 如果我们理解了计算 机学习的内在机制 即怎样使它们根据经验来自动提高 那么影响将是空前的 对计 算机学习的成功理解将开辟出多个全新的应用领域 并使其计算能力和可定制性上升 到新的层次 同时 透彻理解机器学习的信息处理算法 也会有利于更好地理解人类 的学习能力 自然语言的深层处理 至今还没有成功的先例 在上世纪的八十年代 特别是九 十年代 统计方法在自然语言处理上的应用的兴起 受到计算语言学界的重视 最近 的五到十年又有一个非常明显的变化 计算语言学从手工构造文法和知识库转向用统 计学习方法自动或半自动处理 几十种重要的经验的和统计的方法 应用到自动处理 自然语言 并冠以基于语料库的统计或概率的方法 这是我们自然语言学界的一个重 大进步 2 1 机器学习 机器学习 一般被定义为一个系统自我改进的过程 但仅仅从这个定义来理解 和实现机器学习是困难的 从最初的基于神经元模型以及函数逼近的方法研究 到以 符号演算为基础的规则学习和决策树学习的产生 和之后的认知心理学中归纳 解释 类比等概念的引入 至最新的计算学习理论和统计学习的兴起 当然还包括基于马尔 可夫过程的增强学习 机器学习一直都在相关学科的实践应用中起着主导作用 但关 于机器学习问题的实质究竟是什么尚无定论 1 9 不同的机器学习方法也各有优缺点 只在其适用的领域内才有良好的效果 机器学习是人工智能的一个分支 它是一个交叉学科 与它相关的学科有概率论 与统计学 计算复杂度理论 控制论 信息论 哲学 心理学和神经生物学 机器学 习主要研究有学习能力的计算机算法 学习能力指在完成一项任务时的自我完善 即 通过对过去完成这项任务的经验的学习来增进今后完成该项任务的性能 这种性能的 增进可以体现为从无到有 或从弱到强 从无到有通常体现在从数据中得到信息 得到复杂 点的信息的过程叫建模 这 是一个归纳的过程 即从部分到整体 从特殊到一般 从个别到普遍的推理 从数据 东北大学硕士学位论文 第二章相关知识 中得到信息的过程又被称为数据挖掘 人们对于小规模且规律明显的数据有非常快的 归纳能力 而对大规模数据 或小规模的复杂数据则无能为力 这种得到的信息既可 以是对状态或真相的描述 显然也可以对未来进行预测 从弱到强是对模型的改进 即通过新得到的数据对模型参数进行修改 一般来说 数据量越大 分布得越均匀 越具有代表性 得到的信息就越准确 举一个词性标注的例子 一篇没有任何词性标记的原始文章 如果是中文 需要 先分词 通过词之间的关系统计出这篇文章中的词汇有多少个词类 如名词 动词等 当然用这种方法标注的词类准确率可能不高 有可能把不同词性的词汇归为二类 而 且到底归为一类的词是哪个词类还不知道 但是 毕竟我们从词汇中得到了信息 这 就是从无到有 那么再使用若干篇已经进行了词性标注的文章作为指导 再对上述方 法生成的文章中的词类进行修改 这样可以提高标注的准确率 这是一个从弱到强的 例子 2 2 机器学习的分类 依据不同的标准 可以对机器学习方法进行不同的分类 每一种分类的侧重点不 同 因此 这些分类的名称经常出现在科技文献中 反映着学习方法某一方面的性质 在此 我们将机器学习的方法分为生成学习 g e n e r a t i v el e a r n i n g 和判别学习 d i s c r i m i n a t i v el e a r n i n g 两类 生成学习方法指机器学习到一个联合概率p x y 的模型 这里x 是输入数据 y 是标记序列 通过使用贝叶斯规则计算p yi x 来进行预测 从而选择出最有可能的序 列y 生成学习在关于模式识别 人工智能和感知器的方法中具有重要地位 通过对给 定问题的结构和先验知识提出了一个深具意义的框架 有时候科学能够描述现象 如 牛顿力学 给出一个完美的模型 而操纵着更复杂系统的数学关系经常是部分确定的 通过描述或估计当前变量的概率密度 机器学习和统计学为刻划非确定性的模型提供 了一种有效的方法 在这种生成密度中 生成学习方法能够使用经验观测值和数据强 调部分先验知识 并细化部分确定的模型 因而 给定一个变量为而 x r 的系统 通 过p x r 中的所有显著变量的联合概率分布就能够确定这个系统 这种模型被称 为生成模型 因为给定概率分布 我们能够生成关于系统各种设置的实例 进而 给 定一个完全的生成模型 以联合密度作为条件来进行推断和预测是很直观的方法 一12 一 呐 l p 东北大学硕士学位论文第二章相关知识 在许多领域 更复杂 更具有挑战的任务使得问题错综复杂 以至于很难手工构 建完美的模型 理论和定量的方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论