(机械电子工程专业论文)特定场合下的英汉机译系统研究.pdf_第1页
(机械电子工程专业论文)特定场合下的英汉机译系统研究.pdf_第2页
(机械电子工程专业论文)特定场合下的英汉机译系统研究.pdf_第3页
(机械电子工程专业论文)特定场合下的英汉机译系统研究.pdf_第4页
(机械电子工程专业论文)特定场合下的英汉机译系统研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(机械电子工程专业论文)特定场合下的英汉机译系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

茎鋈望三盔兰堡主兰垡丝兰 摘要 随着机器翻译技术的兴起,人们的关注由传统的文本翻译转移到了直接 的语音翻译,开始尝试特定语音翻译的应用,并结合当今通讯技术的发展, 开发适用的语音翻译技术。 目前在国际上处于领先地位的翻译产品都是外国的,它们按照专业细分 市场,为不同的客户进行定制翻译,而国内机器翻译的大多数研究机构都在 追求大而全,以满足各种客户的需求,但其实造成了资源的浪费。技术应用 和实际需求相结合,满足方便性和需求度是实用性设计所应该考虑的主要方 面。 顺应当前机器翻译的发展需求,本文提出一个适用于特定场合下的语音 翻译实施方案,在特定的领域内实现英汉转换,简化翻译系统的复杂度,并 结合语音识别和语音合成技术,实现直接的语言转换。主要内容包括以下几 个方面: 1 ) 采用规则和统计相结合的方法,尝试规则与统计相结合的目标语生 成策略。试验如何结合取得更好的效果,并构造一个模块化的统计与规则相 结合的句法分析模型。 2 ) 建立带标志位的词典:词库以词条为中心组建,在词库中引入“情 景词”,为“情景词”设置情景标志。此外,将固定搭配和固定句型等相对 稳定的英语用法仿照词条的形式构成一个库。该方法可有效地避免很大一部 分的词义选择的错误。 3 ) 综合多种检索算法的思想,采用分块索引、顺序检索等相结合的方 式进行搜索,加快搜索速度,提高整体效率。 4 ) 在消除分歧方面,根据语法规则匹配组合判断多词性的单词,运用 最大匹配法判断短语组成。 5 ) 设计固定句型转换中的翻译模式,使翻译尽可能的通顺自然。 最后,论文在总结全文工作的基础上,指出了系统的不足,并为进一步 研究提供参考意见。 关键词:机器翻译语音翻译搜索算法 武汉理工大学硕士学位论文 a b s t r a c t f 0 1 l o w i n gt h er i 5 eo fm a c h i n et r a n s l a t i o n ,p e o p l ep a ya c t e n t i o nt o d i r e c t v o i c et r a n s l a t i o n 矗o mt r a d i t i o n “t r a n 3 l a t i o 珏,a n dh a v eat r yo na p p l i c a i o no f p a r t i c u l a rv o i c e dt e c h n o l o g y b yc o m b i n i n gt h ed e v e l o p m e n to fc o m m u n i c a i o n n o w a d a y s ,i m e m a t i d n a la d v 眦c e dt r a n s l a t i o np r o d u c t sb e l o n gt of o r e i g n c o u n t r i e s t h e ys u b d i v i d em a r k e t sa c c o r d i n gt os p e c i a l i t y ,a n d c u s t o m i z e t r a n s l a t i o nf o rd i f :f e r e n tc u s t o m e r s h o 、c v e r , m o s to fi n t e m a lr c s e a r c h i s t i t u t i o n s ,w h or e s e a r c ho nt h em a c h i n et f a n s l a t i o n ,g oi nf o rl a r g e8 n d c o m p 】e t ep r o d u c t s t h e yt h i n kt h a te a c hc u s t d m e rc a nb es a t i s f i e d w i t ht h e p r o d u c t ,r e s u l t i n g i n w a s t i n g r e s o u r c e s a c t u a l l y c o m b i n i n gt e c h n o l o g y 印p l i c a t i o n 耐mp r a c t i c a lr e q u i r e m e n t ,、v es h o u l dc o n s i d e ro fc o n v e n i e n c ea n d r e q u i r e m e n t a c c o r d m gt ot h ed e v e l o p m e n to fm a c h i n et r a n s l a t i o n ,t h i sp a p e rb r i g h t s f o n v a r das c h e m eo ft h ep a n i c u l a rv o i c e dt r a n s l a t i o nw h i c hi sa p p l i c a b l ei n p a r t i c u l a r o c c a s i o n i tc a nr e a l i z et h ee n g l i s h - c h i n e s ec o n v e r 8 i o ni nt h e f e s t r i c t e do c c a s i o n ,s i m p l i z et h ec o m p l e x i t yo ft r a n s l a t i o ns y s t e m ,a n dr e a l i z e d i r e c tv o i c e dc o n v e r s i o nb y :c o m b i n i n g s p e e c hr e c o g n i t i o n w i t h s p e e c h s y n t h e s i s 1 ) b a s e do nt h em e t h o dc d m b i n i n gr u l ew i ms t a t i s t i c s ,t h ep a p e ra n e m p s o n ek i n do fp r o d u c t i o ns t r a t e g y ,t e s t sh o wt od b t a i nab e t t e re f f b c t ,a n dd e s i g n sa c o n v e r s i o ns c h e m eo ft h es e n t e n c es t r u c t u r eu s i n gt h i su n i o nm e t h o d 2 ) t h ep a p e re s t a b i i s h s ad i c t i o n a r yw i t l ls o m es i g n s t h ed i c t i o n a 吼 c e m r i n gi nt h ee n t r y , i n t r o d u c e s “s c e n ew o r d ,a n ds e t 8s o m es i g n sf o ri t f u i t h e n n o r e ,t h ep e d i o c r a t ;ce n g l i s hu s a g e ,s u c ha sr e g u l a rp 1 1 r a s es t n l c t u r e , r e g u l a rs e n t e n t i a lf o r ma i l ds oo n ,c o n s t i t u t e sad i c t i o n a r yi ne n t r yf o r m t h i s m e t l l o dc a na v o i ds o m ee r r o r si nt 1 1 es e l e c t i o nf o ri i l t e r p r e t a t i o n 3 ) u n i f y i n gv a r i o u sw a y so fm er e t r i e v a la l g o r i t h m ,t h ep a p e ra d o p t st l l e s e a r c hs t r a t e g y ,、v h i c hu n i f i e db l o c k e di n d e x i n gs e a r c h ,s e q u e n t i a ls e a r c ha n ds o o n ,t oi n c r e a s ee x e c u t i o ns p e e da n dr a i s ee f f i c i e n c y i i 武汉理工大学硕士学位论文 4 ) i nt h i sr e s p e c ts m o o m i n ga w a yd i f ! | e r e n c e s ,m ep a p e re x e n st h ep r o b a b i e m a x i m u mm a t c h i n gt oa n a l y z et h ep h r a s es t r u c t u r e 5 ) t h ep 印e rd e s i g n sm ec o r r e s p o n d i n gm o d e so ft r a n s l a t i o nt om a k e t h er e s u l to ft r a n s l a t i o na sr e a d a b l ea sp o s s i b l e a t1 a s t ,t h ep a p e rs u m su pt h ec o n t e n t s ,p o i n t s0 u tt h es h o n c o m i n g so f 也e s y s t e m ,a n dt h e np r e s e n t st h eo r i e n t a t i o no fs u b s e q u e n tr e s e a r c h 、v o r k k e yw o r d s : m a c h i n et r a n s l a t i o n ,v o i c e dt r 趾s l a t i o n ,r e t r i e v a la l g o r i t h m i i i 武汉理工大学硕士学位论文 1 1 课题研究背景 第1 章绪论 随着语音技术和机器翻译技术的发展,语音翻译( s p o k e nl a n g u a g e t r a i l s l a t i o n l 已经吸引了人们的注意。语音翻译,是将语音技术与翻译技术 结合,即将机器翻译嵌入到语音识别与语音合成过程中,实现不同语言之间 的一种转换。语音翻译技术的出现将逐渐消除不同语言的沟通障碍,现己被 视为世界各国研究的熏点。虽然专家们认为,鑫由的语音翻译还将是3 0 年 到5 0 年后的事情,但在词汇量有限的特定场合下的语音翻译是可取的。因 此,世界各国的科学家们纷纷尝试特定0 1 语音翻译的应用领域和词汇,并结 合当今通讯技术的发展,开发适用的语音翻译技术,推动语音翻译技术的快 速发展,力争最终实现基于自动翻译技术的全球自由通讯。 近年,日本a t r 语音翻译通信研究所开发一种“随身翻译机”:利用头 戴式麦克风输入语音,把一个微型的与异地电脑相连接的无线端子别在腰 间。翻译的精确程度很高,可以应用于商业谈判之中。中科院自动化研究所 与松下电器一起开发了中日双向旅游语音翻译机。该机实现了简易型旅游会 话的中日双向语音翻译。该技术实现了语音翻译技术的小型化,开发了仅需 8 m 存储量即能工作的语音识别以及翻译技术。该机不但可作为旅游用语音 翻译助理及简易的语言学习助理,还能应用于移动终端和新一代移动电话【3 】 等设备上。 中科院已研制出用于出租车上的翻译机,该系统模拟一个出租车驾驶 员,讲汉语的乘客可以用汉语向其打招呼,指示所去地点,询问路程、时间、 价钱等,系统能马上回答,并翻译成英语。它可以识别并翻译2 4 0 0 万条口 语表述,即使司机带有四川、广东等地方口音,系统也能准确识别并将其翻 译。它是国际上第一个能够不经过现场训练就可以处理带有地方口音的汉语 普通话的自然口语语音翻译系统【4 1 。 目前,每年来华旅游投资的外国人超过8 0 0 0 万,2 0 0 8 年奥运会时估计 将有超过4 0 0 0 万人来京,而北京外语人才不超过5 0 万,不能满足需要。依靠 高技术突破语言障碍是很好的解决途径,由此而催生的语音翻译市场十分庞大。 武汉理工大学硕士学位论文 1 2 机器翻译发展史 机器翻译0 1 ( m a c h i n et r a l l s l a t i o n ) ,又称机译( m t ) ,是利用计算机把一 种自然语言转变成另一种自然语言的过程,而完成这一过程的软件则称之为 机器翻译系统* ,。 半个世纪以来,世界范围和我国的机译”3 发展研究0 3 都曾走过一段曲折 的道路,都有过6 0 年代中期以后约1 0 年的停滞或沉寂,不过原因不尽相同。 国外主要是受了美国一个机构于1 9 6 6 年发表的a l p a c 报告的影响,纷纷 停止了对机器翻译研究的支持。直到2 0 世纪7 0 年代中期机器翻译才开始在 世界范围内复苏并日趋走向兴旺。日本却是极少数未受世界范围的停滞影响 的国家。2 0 世纪8 0 年代初日本几乎所有的大计算机公司都进行机器翻译系 统的研究和开发,如富士通、日立等。日本在推动机器翻译研究方面的贡献 为世界所公认。我国机器翻译的研究开始于1 9 5 6 年,到今天的将近半个世 纪里也同样经历过兴起、停滞和复苏的阶段。从2 0 世纪8 0 年代以来,我国 的机器翻译同国外的机器翻译研究”1 一样都进入了新的繁荣时期。 2 0 世纪9 0 年代中期以来,在全世界范围内形成一个研究和开发机器翻 译系统的热潮“。当前,翻译产品主要有以下几类:传统的文本自动翻译产 品,网页翻译,机器辅助翻译产品,电子版的双语词典和口语自动翻译“。 1 3 机器翻译的实现方法 机器翻译的方法“”基本上可以分为两大类:即基于规则( r u l e b a s e d ) 和基于语料库( c o r p u s - b 粕e d ) 的方法。基于规则的方法是传统的方法,而基 于语料库的方法是8 0 年代以后逐渐发展起来的方法,又可以分为基于统计 ( s t a t i s t i c - b a s e d ) 和基于实例( e x a m 口l e _ b a s e d ) 的方法。 基于规则的方法可以事先不建立语料库,但它所描述的知识粒度太大, 很难将规则全面地覆盖某个领域的各种语言现象;基于统计的方法必须事先 建立一个语料库,具有很好的一致性和较高的覆盖率,但它的知识获取机制 不同于语言学研究,所以难以利用语言学成果来改进通过统计方法获得的知 识:规则和统计相结合的方法有明显的优点,完全可以尝试规则与统计相结 合的目标语生成策略,但如何结合才能取得更佳效果,并未达成一致看法。 2 武汉理工大学硕士学位论文 1 3 1 基于规则的机器翻译方法 自从c h o m s k y 提出转换生成语法以来,基于规则的方法成了机器翻译 研究的主流。传统的规则方法在规则获取方面主要依靠语言学家总结规则进 行调试,传统的规则方法往往偏重于描述粗粒度、全局化、大范围的语言学 知识,另外,传统的规则方法往往采用非此即彼的确定性原则,系统的鲁棒 性比较差。 现在,基于规则的方法更加注重从语料库中获取规则,呈现出“小规则 库、大词典”的趋势,更加重视描述细粒度、局部化、小范围的语言学知识。 在知识表示方面,为了以更小的粒度,更准确地对翻译知识进行描述,一般 要对单纯的与上下文无关的规则加以改进,一种方法是采用特征结构合一算 法,另一种是采用词汇化的方法对规则细化。此外,现在方法一般都引入各 种概率或评分函数,对提高系统的鲁棒性有明显的效果。 1 3 2 基于统计的机器翻译方法 基于统计的机器翻译方法和基于实例的机器翻译方法都是使用语料作 为翻译知识的来源。基于统计的机器翻译方法源于w e a v e r 在1 9 4 7 年提出的 把翻译看成是一种解码的过程。 统计机器翻译的数学模型是i b m 公司的b r o w n 等人提出的,其基本思 想是把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进 行解码。假设一段源语言文本s 经过某一噪音信道变成目标语言t ,即假设 目标语言t 是由一段源语言s 经过某种编码得到的,那么翻译的目标就是 将t 还原成s 。这是一个解码的过程:s 一噪音信道一t 。 在这种指导思想下,语言s 是信道意义上的输入,但在翻译意义上却是 目标语言;t 在信道意义上是输出,但在翻译意义上则是源语言。统计机器 翻译方法采用h m m ( 隐马尔可夫模型) 这一模型在词性标注方面取得了较好 的结果。它的基本公式为: s = m a x ( p ( s ) p ( r f s ) ) 其中p ( s ) 是源语言文本s 出现的概率,称为语言模型;p ( r i s ) 是源语言的文 本s 翻译成目标语言t 的概率,称为翻译模型。 这个基本方程具有非常重要的意义,但从理论上讲,该模型只考虑了词 武汉理工大学硕士学位论文 与词之间的线形关系。如果在考虑语言模型和翻译模型时,将句法结构或语 法结构考虑进去,效果可能会更好。统计方法的前提是建立一个翻译过程的 数学模型,但目前尚没有一种理想的统计模型。 1 3 3 基于实例的机器翻译方法 基于实例的机器翻译( e b m t ) 思想是日本著名机器翻译专家长尾真 ( m a k o t o n a g a o ) 于1 9 8 5 年在t r a l l s l a t i o n b y a n a l o g y 中首次提出的,其基 本思想是不通过深层的分析,仅通过已有的经验知识,通过类比原理进行翻 译。 基于实例的机器翻译方法的特点是: 1 ) 系统中知识以翻译实例和语义词典等形式存在,系统易维护,可以 利用增加实例和词汇的方式很容易地扩充系统; 2 ) 若利用较大的翻译实例库或输入与实例精确匹配时,译文质量比较 高; 3 ) 避免了基于规则的机器翻译必须进行的深层次语言学分析,这在翻 译策略上尤为吸引人; 4 ) 语种相关知识很少,只要记忆库中存在外形与输入相似的句子。即 可匹配。e b m t 对于相同或相似的文本,有非常显著的翻译效果,随着例句 库规模的增加,其作用也愈显著。 基于实例的翻译很多地方有相当大的潜力,是近年来研究的热点之一, 但是,由于语料库规模的限制,很难达到高的匹配率,面临的主要问题是实 例的自动对齐,就是将语料库中源语言文本和目标语言文本中意义相同的意 群通过算法对应起来。 从理论上讲,对齐单位越小,匹配准确率越高,但加工深度和成本会相 应增加,系统的可扩充性也会变差。然而,词汇一级的对齐技术远比句子对 齐困难,原因在于在词汇一级源语言中的词序在目标语言中不再保留,两种 语言文本在词汇一级的对应关系也比句子一级的对应关系更为复杂。另外, 诸如实例匹配的相似度、语料库的规模建设等都是基于实例的机器翻译需要 解决的问题。因此,至今为止很少有翻译系统采用单纯的基于实例的机器翻 译方法。 4 武汉理工大学硕士学位论文 1 3 4 其他机器翻译技术 近年来,人工智能“”“”研究无论在技术上,还是在应用上都取得了不少 令人瞩目的成果。人工智能机译“”在语义表示、知识表示的基础上,进行种 种推理,利用格表示式、语义网络“”“3 4 “、框架、概念依存理论、脚本等 构成知识表示系统,从而使系统逐步积累大量的语言知识。尽管如此人工智 能仍然存在一些严重问题,如知识量及组织问题,理解的深度标准问题。 人工神经网络是未来人工智能应用的新领域,它模拟人的思维过程,探 索人的认知机制,具有大规模并行处理功能,善于联想、概括、类比和推广, 具有很强的自学能力和集体运算能力,这与本质上是线性系统的现代数字计 算机截然不同。基于神经网络的自身特点,可望在机器翻译方面得到应用, 解决一些机器翻译中按传统方法解决不了的难题。 1 4 机器翻译存在的问题m 1 虽然自动翻译技术正在不断地被完善,但其灵敏度和准确率还有待迸一 步提高。目前不仅在中国,整个世界范围内自动翻译技术都没有很大的突破。 试图用机器通过有限的规则和语料提高翻译准确性,在短期内无法实现。在 语言智能化研究理论不成熟的情况下,机器翻译册软件研究在技术上碰到 关卡,使得翻译水平无法实现明显提高。机器翻译中存在的主要问题是: 1 ) 一词多义。在机器翻译过程中,有时候需要首先判断一个词的具体 词义以及在对应的语言中的生成词汇,但任何两种不同的语言之间都不会存 在词汇语义上完全的一一映射关系。 2 ) 词性的兼类。兼类在理论上指的是有些词具有两类或两类以上的句 法分布特征,这些词属于不同的类,简称兼类。所以,尽管在一个句子内部, 某个词的词性通常是确定的,但由于该词的词性与其上下文关联,在对一个 句子之中的词汇进行词性标注时,往往不能保证得到完全正确的结果。 3 ) 短语结构歧义。发生短语结构歧义的原因是名词、介词等的附着关 系不易分析清楚,导致不同的附着方法都可能会产生合理的语义。目前,我 们还不可能在机器理解自然语言的基础上进行机器翻译,而只能把机器翻译 作为一种应用技术来研究。 4 ) 译文质量难以保证。歧义辨别和语义筛选等问题制约了译文质量的 5 武汉理工大学硕士学位论文 提高。 1 。5 课题研究 1 5 1 课题研究方向 从一般意义上说,当前的机器翻译系统还不能满足人们的实际需要,机 器翻译技术还需要质的提高。机器翻译系统发展趋势“8 3 将集中在以下几个方 面:机器翻译系统专业化,翻译性能自适应性,多平台及其统一性,与语音、 图像处理等技术集成“们。 本谋题一一语音葡译中的蕊译机制,是顺应机器瓤译的发展趋势的: 首先,采用在特定的领域内实现英汉转换,简化翻译系统的复杂度。在 系统对场景的自动判断能力和处理能力有限的情况下,将翻译系统的应用领 域细化,将大大提高系统的处理性能。目前在国际上处于领先地位的翻译产 品都是外国的,如德国塔多思( t r a d o s ) ,它们按照专业细分市场为不同的 客户进行定制翻译,两国蠹机器魏译的大多数研究机构都在追求大两全,以 为能够满足各种客户的需求,其实造成了资源的浪费。技术应用要和实际需 求相结合,满足方便性和需求度是考虑的主要方面,把市场划分,对目标进 行细化是非常必要的。 其次。翻译系统与改变人机交互手段的前端处理技术语音识别和后端处 理技术语音合成结合起来,实现直接的语音转换,构建了一个实用信息处理 系统,来消除不同语言的沟通障碍,达到在特定领域内帮助不懂英语或者英 语听力比较差的人理解英语的目的。 这里提出了一个适用于特定场合下的语音翻译实施方案,其框架如图 卜l 所示。 圆领 1 5 ,2 课题研究内容 图1 - 1语音翻译系统框图 本课题主要研究包括单词库、口语库和规则库的翻译机制,其结构如图 6 武汉理工大学硕士学位论文 1 _ 2 所示 图卜2 翻译机制结构 翻译机制处理的对象主要是口语句子,所以,该方法选择若干口语句子 作为基本的句子模式,配合一定范畴内的词典库和规则库,在词、短语和句 子这3 个层面上寻找源语言和目标语言的意义等价和结构转换。这种方法的 特点是不需要对源语言句子进行复杂深层的结构分析,处理速度抉,缺点是 句子模式有限,不能分析复杂的句子,导致翻译结果可能很好,也可能很差。 因此需要在实验过程中对以下几个方面进行研究: 1 ) 采用规则和统计相结合的方法,尝试规则与统计相结合的目标语生 成策略,试验如何结合才能取得更佳效果,实现了一个模块化的统计与规则 相结合的句法分析模型。 2 ) 建立带标志位的系统词典:在词条信息里,加上一些标志位,并与 其固定搭配和固定句型联系起来。把固定搭配和固定句型等相对稳定的英语 用法仿照词条的形式构成一个库。该方法可有效地避免很大一部分的词义选 择的错误。 3 ) 采用混合搜索算法,采用分块索引、顺序索引等相结合的方式进行 搜索,加快搜索速度,提高整体效率。 4 ) 歧义消除策略,针对单词的多义判定以及句型结构的多种可能分析 的判断,引入概率的方法消除歧义。 1 5 3 课题实现流程 翻译系统的实现可采用c 、c + + 、j a 、,a 、v b 、v c 等语言编写,本翻译 机制选用能直接访问内存地址、移植性好的c 语言。c 语言是面向结构化程 序设计的语言,具有结构化的控制语句,使用方便、灵活,其生成的目标代 码质量高,程序运行效率高。采用c 语言设计的本设计流程见图卜3 : 7 武汉理工大学硕士学位论文 图卜3 翻译流程 其翻译思想按如下步骤进行: 1 ) 先对识别的句子进行整句搜索,看是否能在常用短旬库中找到匹配 句,如果有则直接输出译文,不用进行后面的判断; 2 ) 判断单词是否多词性,如果是则要联合前后的单词词性以及语法规 则库来判断,选取正确的词性及解释,见流程图l 一4 : 8 亟坚堡三盔堂堡主堂焦堡苎 图1 - 4 单词多词性的判定 图1 5 单词同词性多含义的判定 9 武汉理工大学硕士学位论文 3 ) 判断单词是否同词性多含义,如果是则要联合前后的单词的情景标 志,选择与旬中其他单词所共有的情景标志及对应的解释,见流程图卜5 ; 4 ) 判断单词是否有词组搭配,如果有则要判断句子中是否含有词组; 5 ) 根据2 、3 、4 步的判断结果来分析句型: 6 最后根据对应的句型转换规则输出对应的译文。 1 6 本章小结 本章首先描述了语音翻译的研究背景,然后介绍了机器翻译的发展史以 及常用的实现方法,并说明了机器翻译所存在的问题以及当前的发展趋势, 最后针对现有问题及发展趋势,提出了一种语音翻译系统的实现框架,并对 本课题研究的重点内容以及软件流程作了简要说明。 1 0 武汉理工大学硕士学位论文 第2 章知识库的建立 词典设计“7 1 是机器翻译研究中的关键之一,它直接影响系统的运行速度 和翻译质量。由于英语中大量存在一词多类和一词多义的现象,词典的设计 更显得尤为重要,本设计里的词典中包括词库和规则库两大类,下面对这两 个库分别介绍。 2 1 词库的建立 由于语音翻译机制处理的对象主要是口语,词库选择一定范畴内的口语 词汇及短语。另外,为更准确的转换语义,将口语中的常用固定搭配及俗语, 仿照词条的形式构成一个库,该方法可有效地避免很大一部分的词义选择的 错误。 不仅把单词作为翻译单位,而且把短语、习语也作为句子的翻译单位, 这种整体翻译对于提高准确度是大有好处的。这里建立一个以单词为中心组 织的词库,把与该单词相关的短语、习语联系起来。单词库的建立按字母表 的个数和顺序分为2 6 块,每一块再按次字母的顺序排列,以此类推,如果 有短语则指示短语的开始位置。见图2 1 。 a bc z i l +l i j , al a b l d e p a b yb a c k z e a l 、 a b i d eb yb a c k d o w n b a c ku p 图2 1 词库结构 武汉理工大学硕士学位论文 下面从单词库、短语库和常用口语库三个方面来具体介绍词库的建立。 2 1 1 单词库的建立 当前已有不少翻译产品出炉,不过效果都差强人意,这其中有机器本身 存在的问题,我们如果不能扬长避短,机器翻译就不会有大的进展。机器翻 译中存在的问题之一就是一词多义,在不同情景下的语义选取不同。但如果 我们给单词设置一些情景标志,并设定在这种情景下的语义选择,我们就可 以大大减少这种歧义。这种需要根据情景确定语义的词暂且称为“隋景词”, 在建立词库时进行标注。在每一个词条信息里包括的内容有:英文单词,词 性,中文单词,以及是否有短语结构的标志等,具体见图2 一l 示的词条结构。 图2 2 词条结构 对于单词的标志位标注,比如m u l t i k i n d 判断是否多词性的单词,如 果不是多词性的则设置为0 ,若是则按不同类型设置不同的数值;s c e n ef 1 a g 判断是否为一词性多词义的情景词,不是情景词则设景为0 ,若是则要设置 情景标志;p h r a s e a d d r e s s 判断单词是否有短语组成,没有短语组成则设置 为一l ,若有则根据此单词所在的短语开始地址设置,以便于后面的短语搜索。 具体见下面初始化的结构数组。 s t m c tw o r d s t r c h a re n g 【2 0 ; i n ts c e n e _ f l a 9 1 ; i n ts c e n e - f 1 a 9 2 ; i n tp h r a s e a d d r e s s : i n tm u l t i k i n d ; i n tq i y i ; c h a rk i n d l 5 】; c h a rc h i n l 【2 0 】; ,词条结构 英语单词,作为搜索的关键字 ,设置情景标志h o s p i t a l 。s c h o ol ,设置情景标志h o s p i t a l ,s c h o ol i ,对应短语的开始位置,。1 表示没有短语 ,多词性标志nv ,na f 竣义 词性1 对应中文l 1 2 武汉理工大学硕士学位论文 c h a rk i n d 2 【5 ;词性2 c h a rc h i n 2 【2 0 】; 对应中文2 ) w o r d s t r 【m a x 】= m a x 预先定义的单词总数 a 1 1 ”,o ,0 ,1 0 ,2 ,o ,”p r o n ”,“全部”,”a ”,曙! 部的”) , n _ a 2 l i d o c t o r ”,h o s p i t a l ,s c h o o l ,1 ,o ,l ,n ”,”医生“,“n “,”博士“ , ,h o s p i t l a l ,s c h 0 0 l 是设定的常量标志 d r e a m ”,o ,0 ,- 1 ,1 ,o ,”n ”,”梦”,l v i ,”做梦” , n _ v l f h e l p ”,o ,o ,1 5 0 ,1 ,o ,”n ”,”帮助”,”v ”,”帮助”) ,n v 1 ) ; 2 1 2 短语库的建立 短语和成语作为一个单独的记录“”。通过单词中的短语地址位 p h r a s e a d d r e s s 与单词的关联起来。如果单词没有短语结构则p h r a s e a d d r e s s 设置为1 ,若有则设置为以此单词开头的短语的开始地址。 下面是常用短语库的建立实例: s t r u c tp h r a s e s t r c h a re n g 【3 0 】; 英文短语 c h a rk i n d 1 0 】; 短语属性 c h a rc h i n l 【2 0 】; 对应中文l c h a rc h i n 2 【2 0 】; 对应中文2 p h r a s e s t r 1 0 0 0 】= ,篇幅限制只列举了几个短语 ”g oa b o u t ”,”v p ,”从事”,”闲逛” , g oa l l e a d ,”v p ”,”继续下去” , ”g oa h e a dw i t h ”,”v p ,”继续进行”) , ; 另外,还有一些常用短语,组合的单词中间可能有省略如g e t b a c k , 或者中间包含的单词个数不确定如m a k eo n e sw a y ,这样一些短语可按如下 形式建立。 s t r u c tp l l r a s “一s h e n go k 13 武汉理工大学硬士学位论文 c h a re n 9 0 2 0 ; c h a re n 9 1 2 0 ; i n tt i a o : c h a rk i n d 5 ; c h a rc h i n o 【1 0 】; c h a rc h i n l 【1 0 】; p h r a s “一s h e n g 10 0 】_ r m a k e ”,”w a y ”,o ,”vp f f ,”前进”) , c a t c h ”,”b r e a t h ”,0 ,”v p ,”屏住呼吸” , ”c a t c h “,“e y e “,o ,”v f ,”引入注意“) , ,以上直接选择解释 g e t ”,”b a c k ,0 ,”v p ,“将”,”取回” , ”c h a n g e ”,”m i n d ”,o ,”v p ”,。改变”,”主意” , n r y ”,”b e s t ”,o ,”v p ,”尽”,”最大努力” , ,以上将两个解释结合 f h a r d l y ”,”b e f o r 。”,1 ,”c o n n ”一”,”就”) , 调整解释在动词前 ) ; 2 1 3 常用口语库的建立 在口语中,我们经常性的会使用一些俗语或者习惯用语,如果对这些习 惯用语按一般规则转换语义会有出入。这里我们设计了一个常用口语库,在 输入一句话后,直接先对整句进行查找,如果在口语库中能找到匹配句子, 就直接输出对应的译文,这样提高了时间效率。 s t r u c ts h o r t s e n ( c h a re n g 5 0 】; c h a rc h i n 5 0 】; ) s h o r t s e n 1 0 0 】;( 篇幅限制只列举了几个常用口语句子 t ,1s e e ”,“我明白”) , 1 4 武汉理工太学硕士学位论文 l e tg o ”,”放开” , m yg o d ,”天哪”) , n ow a y ”,”不行”) , ; 2 2 规则库及其建立 2 2 1 词类及词语搭配规则m m 呲删 词依照其表意功能归纳整理出来的类别称为词类( p a n so fs p e e c h ) ,词 类又叫词性,英语单词根据其在句子中的功用,可以分成十个大类,见表 2 1 。 表2 1 十大词类 根据这些词类,再继续细化单词的类型,以便于后面的词性判定、短语 划分以及句型分析工作。这里,将名词( n o u n ) 划分为时间名词( n t i m e ) 、 起限定作用的名词( p o s ) 和一般名词( n o u n ) ;将代词( p r o n ) 划分为 反身代词( p s e l f ) 和一般代词( p r o n ) ;将动词( v e r b ) 划分为进行式 ( v i n g ) 、过去式( v e n ) 、原形动词( v e r b ) ;将h a v e 、h a s 、h a d 、h a v i n g 、 d o 、d i d 、d o e s 、w 儿1 、s h a l l 、w o u l d 、c a n 、c o u l d 等标注为助动词( a u x ) : 1 5 武汉理工大学硕士学位论文 a m 、i s 、a r e 、w a s 、w e r e 标注为b e 动词( b e v ) ,另外将跟b e 动词相仿 的词或词组如l o o k1 i k e 等,也标注为b e 动词( b e v ) 。以方便后面的结 构分析。 在统计规则。”。7 儿删时,注意搭配关系,比如,在名词词组中对中心词 起特指、类指以及表示数量等特定作用的限定词( d e t ) ,它包含冠词( a r t ) 、 物主限定词( 如m y 等) 、指示限定词( 如t h i s 等) 、名词属格( 如m r b r o w nr s 等) 、基数词( 如t w o 等) 、序数词( 如t h i r d 等) 以及m u c h ,s e v e r a l ,f e w , a l o to f ,还有某些w h 词等等,这些词都能对名词中心词起限定作用。常用 的词语搭配的规则见表2 2 中列出的规则。 表2 2 常用词语搭配规则 1 n p 一 n o u n n u m1 9 d e t - a r t n 啪 2 n p - d r o n 2 0 d e t a r t d e t 3 n p p r o n p s e l f 2 1 d e t 一 a n 4 n p - n u m2 2 ,d c t - n u m 5 。n p - ,n 2 3 ,a d j p a d j 6 n p - d d n2 4 a d j p a d v pa d j 7 n n o u n2 5 a d j ,a d i 8 n - n o u n n 啪 2 6 a d j 一 a d j a d j 9 d d - d e t 2 7 。a d j 一 a d j a d j a d j 1 0 d d d e ta d j p2 8 a d j - d o s 1 1 d d a d j p 2 9 a d j - p o s a d j 1 2 d d - nn 锄e 3 0 a d j 一 p o s a d j a d j 1 3 d d - d e t v i n g 3 1 a d v p ,a d v 1 4 d d d e t ,v e n 3 2 a d v p - a d v ,a d v 15 d e t d e t3 3 v p v e r b 1 6 ,d e t ,d e ta r tn u m 3 4 ,v p 一 a u x ,v e r b l7 d e t - d e t ,n 啪 3 5 v p ,b e _ vv i n g 1 8 v p 一 ,v e r bn p 再有,由于动词形式多样,这里也列出了动词的i g 形式、e d 形式和 t ob e 形式等变化形式,表2 3 。 1 6 亟堡翌三查堂堡主兰垡堕苎 一 表2 3 动词的变化形式 1 n g - v i n g 9 t o p 一 t ob ev e n 2 n g - h a v i n gb e e nv e n l o t o p t ob ev i n g 3 v i n g 一 h a v i n gb e e n 1 1 t o p t oh a v eb e e nv e n 4 v 主n g 一 h a v i n gv e n 1 2 。t o p , t oh a v ev e n 5 v i n g 一 b e i n gv e n 1 3 v p h a v ev e n 6 v e n 一 v e n 1 4 v p 一 h a sv e n 7 t o p t ov15 v p h a v eb e e nv e n 8 t o p t ob e 1 6 v p 一 h a sb e e nv e n 这里设定有一个句子,其结构为s n p v p :其中运用到的规则见表2 - 4 。 表2 4n p 和v p 的组合情况 1 n p ,n o u n n u m6 n p d d n n 2 n p 一 ,p r o n 3 3 v p , v e r b 3 n p - ,p r o n p - s e l f 3 4 v p ,a u x v e r b 4 n p - n u m3 5 v p - v e r bn p 上表2 4 中第5 ,6 条中的n ,d d 的构成结构见下表2 5 。 表2 5d d 和n n 的组合情况 7 n n - n o u n1 1 d d - a d j p 8 n n ,n o u n ,n u m 1 2 d d - ,n _ n 蛐e 9 d d - d e t 1 3 d d 一 d e t ,v i n g 上表2 5 中第l o 条中的d e t ,a d j p 的构成结构见下表2 6 。 表2 6d e t 和a d j p 的组合情况 1 5 d e t - d e t2 4 a d j p , a d v pa d j 1 6 d e t d e t ,a n ,n u m 2 5 a d j 一 ,a d j 1 7 d e t ,d e t ,n u m 2 6 a d j 旭d j ,a d j l8 d e t ,d e t a r t 2 7 a d j a d j a d j a 埘 1 9 d e t ,a r t n u m 2 8 a d j - p o s 2 0 d e t ,a r t ,d e t 2 9 a d j - ,p o s a d j 2 1 d e t a r t 3 0 a d j ,p o s ,a d j ,a d j 2 2 d e t ,n u m 3 1 a d v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论