




全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 0 1 0 年4 月沈阳航空工业学院学报A p t 2 0 1 0 第2 7 卷第2 期 J o u r n a lo fS h e n y a n gI n s t i t u t eo fA e r o n a u t i c a lE n g i n e e r i n gV 0 1 2 7N o 2 文章编号:1 0 0 7 1 3 8 5 ( 2 0 1 0 ) 0 2 0 0 5 5 0 4 基于W e b 的中英术语翻译获取方法研究 董燕举1 2 白宇1 蔡东风1 ( 1 ,沈阳航空工业学院知识工程中心。辽宁沈阳1 1 0 1 3 6 ;2 沈阳航空工业学院计算机学院,辽宁沈阳1 1 0 1 3 6 ) 摘要:从W e b 双语资源中获取术语翻译具有很大应用价值。从实用化术语翻译角度出发,设计 了一个基于W e b 的中英术语翻译系统。该系统使用G o o s h 搜索引擎,通过关键词扩展技术搜索 词汇表类型网页,从其搜索结果摘要中抽取术语翻译。实验结果表明系统取得良好性能:T O P I 的正确率达到9 0 9 。T O P 3 的正确率达到9 5 4 。 关键词:术语翻译获取;w e b 信息抽取;术语翻译;信息检索;w e b 挖掘 中图分类号:T i t 3 9 1文献标识码:A 当今科学技术发展日新月异,每个学科都拥 有大量专业术语。术语是表达一个专业领域知识 的核心词汇。术语翻译是将一种语言术语翻译为 另一种语言的等价词汇。科技文献翻译要求专业 性和准确性,术语翻译成为其核心问题和难点问 题。 术语翻译最简单的方式是直接查找各种专业 词典。但专业词典的词汇量总是有限,特别是不 能及时吸纳补充新术语,造成大量未登录术语词 汇。而当前W e b 是世界上最大的动态知识库和 信息库,其中存在大量术语词汇双语资源,如在线 双语词典、双语对照词汇表、双语对照网站等。因 此可以利用W e b 上双语资源进行术语翻译,将术 语翻译问题转变为在W e b 中获取对应目标语言 翻译的过程。其研究目标是给定一个源语言术 语,在W e b 中获取其对应的目标语言术语。例如 对一个中文术语“母线槽”,中英术语翻译过程即 是在W e b 中搜索并获取它的对应英文术语“b u s d u c t ”。基于W e b 的术语翻译获取技术研究涉及 信息检索、信息抽取、自然语言处理等多个研究领 域,在辅助机器翻译、跨语言信息检索、领域双语 词典构建等领域中都具有重要应用价值。 各种语言学习网站和专业网站存在大量专业 双语词汇表网页( 本文简称词汇表网页) ,如图1 所示。词汇表网页中的双语词汇一般属于特定专 收稿日期:2 0 1 0 一O l 一0 7 基金项目:辽宁省自然科学基金( 2 0 0 6 2 0 0 6 ) ;辽宁省高校创新团 队支持计划项目( 2 0 0 7 T 1 4 0 ) 作者简介:董燕举( 1 9 7 3 一) ,男。硕士,讲师,主要研究方向:信息 检索,E m a i l :d o n g y a n j u l 6 3 1 6 3 e o m 。 业领域,包含很多专业新术语和惯用语,因而具有 专业性、时效性、高质量等特点,是优质的专业双 语词汇资源。本文设计了一个基于W e b 的中英 术语翻译获取系统,该系统使用了基于搜索词扩 展的定位搜索技术,利用G o o g l e 搜索得到包含术 语翻译的词汇表类型网页摘要,直接从网页摘要 中获取术语翻译。该方法抽取模式设计简单,而 且不用下载每个网页,处理效率较快。所获取的术 语翻译质量较好。实验表明该系统取得了良好的 翻译正确率。另外,尽管本文论述的是中英术语 翻译获取问题,实际上该方法同样可应用于其它 语种的术语翻译获取。 图1机械专业中英词汇表网页示例 1 相关研究 基于W e b 术语翻译实质上是从W e b 的双语 资源中获取术语对应的翻译项,其研究包含两个 关键问题:( 1 ) 术语翻译获取来源定位问题,即找 万方数据 沈阿J 航空- r :业学院学报第2 7 卷 到术语翻译所在的网页;( 2 ) 如何识别并抽取该 术语相应的翻译。术语翻译获取来源主要是 W e b 中的双语网贞资源,包括各种双语对照网 站、外语学习网站、在线双语知识库等。基于 W e b 术语翻译获取方法主要有以下两种: 1 ) 基于搜索的方法。该方法一般使用搜索 引擎在W e b 中搜索源术语,然后利用目标翻译的 特征信息( 如与源术语位置关系、频率、上下文特 征、词性等) 在搜索结果网页集中抽取一组目标 语言的候选翻译项,构成候选翻译项集合。然后 根据候选翻译评价模型,从候选翻译项集中选择 最佳翻译项。 方高林的汉英翻译获取系统利用巾文术 语每个汉字的英文作为预测信息,作为源术语的 扩展搜索词,以此搜索日标网页,从中抽取候选翻 译项。然后使用了词汇分布特征,长度比率,与 中文术语的距离,关键符号与边界信息等多种特 征,对候选翻译项集进行排序。而在一个基于 W e b 的英中术语翻译系统【2 中,方高林又利用后 缀数组构造候选翻译,使用子集冗余和词缀冗余 两种方法解决噪音干扰问题,最后基于互信息方 法从候选翻译集中选择最伟翻译项。 为了更快捷地获取术语翻译,C o n r a dC h e n 1 在中英术语翻译系统中直接从G o o g l e 搜索结果 页中抽取候选翻译项。整个系统包括候选翻译获 取、候选翻译评价和候选翻泽验证兰个处理步骤, 能够完成人名、地名等命名实体类型短语的翻译。 系统制定了一些规则以识别命名实体类型的候选 翻译项,然后基于发音、词义、频率、与中文术语相 对位置等多种特征对候选翻译项进行评价,在候 选翻译集中选择最佳翻泽项。 双语混合网页( 如词汇表网页) 是一种有用 的双语资源。为了使搜索结果中包含双语混合网 页,Y i n gZ h a n g l 4 1 提出了一个利用英文线索词扩 展中文搜索词的方法。所谓英文线索词是指与该 术语相关的英文词。例如搜索“列夫托尔斯泰” 的英文翻译,可将列夫托尔斯泰的作品“战争与 和平”对应的英文“w a rp e a c e ”作为英文线索词加 入到搜索词中。该方法基于这样一个假设:出现 了术语相关的英文词的页面更可能出现该术语的 英文翻译,由此作者提出了若干英文线索词的选 择规则。 2 ) 模式匹配方法。该方法首先利用自动方 法或手工方法建立起双语匹配模板,根据匹配模 板从大量网页中批量抽取双语术语。模式匹配法 是自动构造大规模双语词典的一种有效方法。 G u i h o n gC a o 等p3 提出了一种基于中文网页建立 英中双语词典的方法。该方法定义了四种抽取模 板( 如图2 所示) 用于从大量网页中抽取英中双 语词汇。在图2 中C 1 ,C 2 ,C n 表示中文字串, 而E n 表示英文字串。 图2 四种抽取模块 括号翻译是中文网页中一种常见的双语混合 形式。例如“人工智能( A r t i f i c i a lI n t e l l i g e n c e ) ”。 括号翻译是典型的匹配模式,一般形如“中文串 ( 英文串) ”。括号内的英文串是英文术语,而中 文术语在括号左侧的中文串中。括号翻泽处理难 点在于如何确定中文术语边界。郭稷等3 提出 一种基于统计的方法解决这一问题。该方法首先 使用中文分词工具对中文串切分,然后将切分后 的中文词自右向左构造多个可能的中文词串。每 个词串与括号内的英文术语构成一个候选双语术 语对。然后基于共现频率等特征建立统计判别模 型,利用感知机来训练判别模型。最后使用训练 好的判别模型从中选择最佳双语术语对。 2系统结构 系统总体结构分为G o o g l e 搜索、候选翻译抽 取和候选翻译排序三个模块。对于一个中文术 语,系统首先调用G o o g l e 搜索引擎检索得到 G o o g l e 搜索结果页。G o o g l e 搜索结果页包含各个 相关网页的摘要信息。然后从前1 0 0 项网页摘要 中识别出词汇表网页类型摘要,利用测汇表抽取 模式从中提取出候选翻译项。所有候选翻译项组 成了该术语的候选翻译集合。最后根据G o o g l e 前1 0 0 项搜索结果中的m 现频率对所有候选翻译 万方数据 第2 期董燕举等:基于W e b 的中英术语翻译获取方法研究 项进行排序,输出前三个出现频率最高的翻译项。 系统处理流程如图3 所示。 l I 文术语 图3 系统处理流程图 3 G o o g l e 搜索 G o o g l e 搜索模块主要功能是首先对搜索词进 行扩展,之后通过程序调用G o o g l e 搜索引擎得到 搜索结果页,最后对搜索结果页解析,从巾提取前 1 0 0 项摘要信息。 3 1 基于搜索词扩展的定位搜索 如果单纯用中文术语作为搜索词,搜索引擎 一般将返回巨大数量的搜索结果,很难保证有价 值的词汇表网页一定出现在前1 0 0 项搜索结果 中。为了使搜索结果中出现更多词汇表网贞,我 们使用了搜索词扩展的方法。该方法通过附加 “专业”、“英汉”、“汉英”、“词汇”、“对照”、“英 文”等词汇表网页的特征词,使得词汇表网页在 搜索结果中排序靠前,从而实现了定位搜索的目 标。例如:直接用G o o g l e 搜索“母线槽”,搜索结 果的前1 0 0 项中,都是母线槽相关产品和厂家信 息。如果使用“专业英语词汇”作为扩展搜索词, 搜索结果中有8 1 项是词汇表网页,其中1 5 个摘 要中包含母线槽的英文翻译b u sd u c t 。图4 为一 个英中词汇表网贞摘要示例。 图4 母线槽G o o g l c 英中词汇表网页摘要示例 3 2 G o o g l e 摘要抽取模式 为了抽取G o o g l e 搜索结果页中的摘要信息, 需要对h t m l 源文件进行解析处理。G o o g l e 结果 页由若干网页摘要项组成。通过分析结果页的 h t m l 源文件,可知每个网页摘要项主要包括三个 部分:网页标题、网页正文摘要和网页的u d 地 址。根据网页摘要前后的h t m l 标签特征,我们设 计了网页摘要项和网贞摘要正文的抽取模式。由 于G o o g l e 摘要标签将不定期地改变,因此抽取模 式也将随之变化。当前系统所用的网页摘要抽取 模式如图5 所示。 图5G o o g l e 摘要抽取模式 4 候选翻译抽取 候选翻译抽取是从词汇表网页的正文摘信息 中抽取候选翻译项。我们根据词汇表网页的 G o o g l e 摘要特征,设计出针对词汇表网页摘要的 候选翻译抽取模式,如图6 所示。该模式包括 “中英”和“英中”两种类型,分别应用于中英和英 中两种双语对照形式。模式中的“I ”表示或关 系。 图6 词汇表摘要模式 为了保证所抽取候选翻译的准确性,我们制 定了三个抽取规则:( 1 ) 候选翻译只能出现于词 汇表网页摘要中;( 2 ) 词汇表网页摘要与抽取模 式相符,且中文术语必须出现其中;( 3 ) 候选翻译 只能是中文术语前或其后的英文串。通常词汇表 网贞有中英对照和英中对照两种类型。词汇表网 页的类型可以决定抽取中文术语之前还是之后的 英文串作为候选翻译项。根据词汇表网页摘要模 式,可以按从头特征串开始的前两个短语字串对 照类型( 中英或英中) 作为词汇表网页的类型。 若是中英类型,抽取中文术语前的英文串作为候 选翻译,否则抽取其后的英文串。例如:对于“母 线槽”,图3 对应的网页摘要为:“b u sd u c t 母 线槽s u b s t a t i o n 分站f l o wi n s t r u m e n t 流量计”, 头特征串和尾特征串都为“”,摘要类型为英 中类型,因此抽取中文术语“母线槽”前的英文串 “b u sd u c t ”作为一个候选翻译。 万方数据 5 8 沈阳航空工业学院学报 第2 7 卷 5 实验结果与分析 实验使用的测试数据分别随机选自化学、物 理学和计算机三个专业1 2 0 个常用术语,其中化 学3 5 个、物理学3 5 个、计算机5 0 个。搜索时使 用了“专业英语词汇”作为扩展关键词。总计有 1 1 0 个术语返回至少一个翻译项,其中1 0 5 个术 语返回了正确的翻译结果,召回率为8 7 3 。实 验所获取的部分英语翻译结果如表1 所示。 表1 抽取术语翻译示例 本实验使用人工评价术语翻译的正确性。评 价时既考虑含义正确性,也考虑了术语所属专业 领域。例如术语“模块”的一个翻译为“d i e b l o c k ”。“d i eb l o c k ”在模具工程领域有模块含 义,而计算机专业最常用的英文词是“m o d u l e ”, 因此评价“d i eb l o c k ”为错误翻译。实验正确率统 计结果如表2 所示。 表2 术语翻译获取的正确率 表2 中,翻泽正确率是指系统获取出的英文 翻译正确率。T O P l 是指按出现频率排序后的排 序最高译项。T O P 2 和T O P 3 是指排序的前两个 和前三个译项。由于同义词及拼法差异,一个术 语可能有多个等价英文翻译,因此T O P 2 或T O P 3 都可能是正确的。T O P l 一般是最常用的义项。 例如物理术语“过饱和蒸气”的前三个译项如表3 所示。 表3 “过饱和蒸气”的译项 译项 出现频率 T O P Io v e r s a t u r a t e dv a p o r1 8 T O P 2 s u p e r s a t u r a t e ds t e a m 1 5 1Q ! ! ! P ! 竖! 坐翌! ! 垒! ! 巴! 实验结果显示系统具有良好的正确率,但召 回率相对不高。主要原因是翻译抽取中使用了严 格的抽取规则。这样使得G o o g l e 摘要中可能出 现的一些术语译项,由于不能精确匹配词汇表网 页摘要抽取模式而被放弃。 6 结论与未来工作 本文描述一个基于W e b 的中英术语翻译获 取系统。该系统利用搜索词扩展技术,调用 G o o g l e 引擎在W e b 中进行定向搜索,使用模式匹 配方法在词汇表网页摘要中获取英文译项。实验 表明该系统的翻泽结果有良好的正确率,具有很 好的实用价值。未来研究工作重点是解决翻译抽 取模式的模糊匹配问题,减少摘要中噪声信息影 响,以提高系统的召回率。 参考文献: 1 G a o l i nF a n g 。H a oY u ,a n dF u m i h i t oN i s h i n o C h i n e s e E n g l i s h T e r mT r a n s l a t i o nM i n i n gB a s e do nS e m a n t i cP r e d i c t i o n A P r o - e e e d i n g so ft h eC O L I N G A C L2 0 0 6M a i nC o n f e r e n c eP o s t e rS e s s i o n s C 2 0 0 6 :1 9 9 2 0 6 2 G a o l i nF a n g ,H a oY u W e bT r a n s l a t i o nM i n i n gB e do nS u f f i x A r r a y s J 】J o u r n a lo fC h i n e s eL m g l l a g ea n dC o m p u t i n g ,2 0 0 7 , 1 7 ( I ) :1 一1 4 【3 C o n r a dC h e n ,H s i n H s iC h e n AH i l g h A c c u r a t eC h i n e s e E n g l i s hN EB a c k w a r dT r a n s l a t i o nS y s t e mC o m b i n i n gB o t hL e x i e a l I n f o r m a t i o na n dW e bS t a t i s t i c s A P n ,e e e d i n g so ft h ec 0 L I N G A C L2 0 0 6M a i nC o n f e r e n c eP o s t e rS e s s i o n s C 2 0 0 6 :8 l 一8 8 4 Y i n gZ h a n g M i n i n gT r a n s l a t i o n s o fO O VT e r m sf r o mt h eW e b t h r o u g hC r o s sl i n g u a lQ u e r yE x p a n s i o n C I n :P r o c e e d i n g so f S I G I R 0 5 2 0 0 5 5 G u i h o n gC a o ,J i a n f e n gG a o ,J i a n Y u nN i e AS y s t e mt oM i n e L a r g e S c a l eB i l i n g u a lD i c t i o n a r i e sf r o mM o n o l i n g u a lW e bP a g e s c I n :P r o c e e d i n g so fM TS u m m i tX I ,2 0 0 7 6 郭稷。吕雅娟,刘群一种有效的基于w e b 的双语翻译对获取 方法 J 中文信息学报,2 0 0 8 ,2 2 ( 6 ) :1 0 3 1 0 9 7 】尹宋生,陈建军,张桂平基于知识管理技术的翻译R o b o t 的 设计与应用 J 沈阳航窄工业学院学报,2 0 0 8 ,2 5 ( 5 ) :6 8 7 0 8 L o n gJ i a n g ,S h i q u a nY a n g ,M i n gZ h o u ,e ta 1 M i n i n gb i l i n g u a l d a t af r o mt h ew e bw i t ha d a p t i v e l yl e a r n tp a t t e r n s A 】P r o c e e d i n g s o ft h e4 7 t hA n n u a lM e e t i n go ft h eA C La n dt h e4 t hI J C N L Po ft h e A F N L P c 2 0 0 9 :8 7 0 8 7 8 ( 下转第5 4 页) 万方数据 5 4 沈阳航空工业学院学报 第2 7 卷 问题。 参考文献: 1 张琪V i s u a lF o x P r o 数据库教学中的矛盾及其对策 J 职业 技术,2 0 0 6 ( 2 2 ) :9 3 9 4 2 】徐亚军V i s u a lF o x P r o 程序设计基础 M 北京:清华大学出 版社,2 0 0 6 3 何振林。罗奕,孟丽关于V i s u a lF o x P r o 数据库教学方法的一 点探索 J 成都中医药大学学报,2 0 0 5 ,7 ( 2 ) :7 3 4 李春葆,曾慧数据库原理与应用基于V i s u a lF o x P r o M 】北京:清华大学出版社2 0 0 5 5 赵忠孝数据库原理及V i s u a lF o x P r o 应用 M 北京:高等教 育出版社,2 0 0 4 6 刘季平V F P 程序设计课教学方法浅探 J 科技创业月刊。 2 0 0 5 ( 0 5 ) :1 5 4 1 5 5 7 聂永红V i s u a lF o x p r o6 0 程序基本结构探索 J 科技资 讯,2 0 0 8 ( 3 0 ) :2 3 2 4 8 许树云V F P 应用中的数据共享与程序安全问题探讨 J 交通与计算机,2 0 0 5 ( 0 3 ) :1 2 6 1 2 9 D i s c u s s i o no fs o m eq u e s t i o n si np r o g r a md e s i g nu s i n gV F P S U NY u x i aW A N GX i a o y a n ( E n g i n e e r i n gT r a i n i n gC e n t e r ,S h e n y a n gI n s t i t u t eo fA e r o n a u t i c a lE n g i n e e r i n g ,L i a o n i n gS h e n y a n g110 13 6 ) A b s t r a c t :T h ed i f f i c u l t i e sa n dt h e i rs o l u t i o ni np r o g r a md e s i g no fV F Pw e r ed i s c u s s e di nd e t a i l si nt h i sp a p e r , w h i c hi n c l u d e sp a r a m e t e rp a s s i n g ,d e l e t i o nr e c o r d ,s y s t e mc o m p i l a t i o ne t c I nV F P ,p a r a m e t e rp a s s i n gi s c o m p r i s e do fi n t e r p r o c e d u r a lp a r a m e t e rp a s s i n ga n di n t e r - f o r m sp a r a m e t e rp a s s i n g ;T h e t a b l ei sa l r e a d y o p e n e de x c l u s i v e l yw h e nt h er e c o r d e di n f o r m a t i o ni sd e l e t e d ;m a s t e rf i l ea n de v e n tl o o ps h o u l db ep a i da t t e n t i o nt oi ns y s t e mc o m p i l i n g K e y w o r d s :p r o g r a md e s i g n ;V F P ;p a r a m e t e rp a s s i n g ;d e l e t i o nr e c o r d e d ;s y s t e mc o m p i l i n g ( 责任编辑:刘划) ( 上接第5 8 页) R e s e a r c ho nw e b - b a s e dc h i n e s e e n g l i s h t e r mt r a n s l a t i o na c q u i s i t i o n D O N GY a n j u l 2 B A IY u lC A ID o n g f e n g ( 1 K n o w l e d g eR e s e a r c hC e n t e r ,S h e n y a n gI n s t i t u t eo f A e r o n a u t i c a lE n g i n e e r i n g ,L i a o n i n gS h e n y a n g1 1 0 1 3 6 ; 2 C o m p u t e rS c h o o l ,S h
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新一代医疗器械智能化升级与租赁服务合同书
- 2025年金融机构风险控制中心人员招聘及劳动合同
- 2025年度纯电动汽车抵押借款合同范本
- 守护绿色地球
- 2025年度金融机构员工信息保密及风险管理合同范本
- 【分层训练】六年级上册英语课时练习Unit4Ihaveapenpal第六课时人教PEP-含答案
- 《嵌入式操作系统及ARM Cortex-MO》课件第一章
- 新入员工培训课件
- 新保洁员培训课件
- 建筑施工现场安全应急救援演练方案
- 北信源终端安全登录与文件保护系统用户使用手册
- 护理文书书写规范-课件
- 安全技术交底签字表格【范本模板】
- 工程质保期满验收报告模板
- 2023年版下肢动脉硬化闭塞症诊治指南
- 决奈达隆在心房颤动治疗中的应用培训课件
- DB21T 3164-2019 辽宁省绿色建筑施工图设计审查规程
- 工伤知识培训(工伤待遇篇)课件
- 外研版八年级下册英语 module 6 测试
- 交通运输安全管理整套教学课件
- 股权质押合同工商局模板参考
评论
0/150
提交评论