英汉双语平行语料库人工对齐方法说明[策划]_第1页
英汉双语平行语料库人工对齐方法说明[策划]_第2页
英汉双语平行语料库人工对齐方法说明[策划]_第3页
英汉双语平行语料库人工对齐方法说明[策划]_第4页
英汉双语平行语料库人工对齐方法说明[策划]_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、英汉双语平行语料库人工对齐方法说明2006年12刀18日1. 概述半自动英汉双语平行语料库的对齐分为两个过程:第一个过程是先将两种语言的文本分成句了,每个句了占一行。句了定义为:以句 号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等 结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何 一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完 成。第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句 子水平上对齐。这一过程要采用ultraedit软件來辅助完成。在句子水平上对齐两种语言的文本,除了

2、要注意以上对“句子”和“行”的定义以 外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽 量保持原文句子不动,调整译文以适应原文。为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记, 例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对 于过长的句子还要在适当的地方将长句截短成两个或更多的小句。2. 人工对齐的方法2.1打开文件先用ultraedit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗 口”下拉菜单屮点“水平平铺”选项,使两个打开的文木同吋显示在屏幕上。为了操作 方便,一般把原文放在上半屏,把译文放

3、在下半屏。(见图1)2.2上下移动文本为了能够对齐两种语言的文木,在操作过程中需耍不断地上下移动文本。移动文本 可以用鼠标移动窗口右边的滑块來完成。也口j以将光标放在某一行,然后用鼠标的中间 滚轮来上下移动。2.3同步移动上下两个窗口中的文本在“窗口”下拉菜单屮选“同步”选项,就可以同步移动上下两个窗口屮文本,极大地方便人工对齐的操作。帝助(h)jnl x ultraedit 32h:子夜ziye_c. txt文件広编辑©披索口)工程(d 视e(y格式(i)?;(l定f需级“血"1x1 | zve e.txt |f b:子夜zlye_c. txt丄子夜t2茅膚芸二13 4太

4、阳刚刚下了地平缠.5软风一阵一阵地吹上人面,怪痒痒的"5苏州河的浊水幻成了金绿色,轻轻地,悄悄地,向西流去.?黄浦的夕潮不知怎的已经涨上了,现乞於这苏州河两岸的各色範只都浮街高高地,枪面比码头还奇了约英半戸8施吹来外滩公园里的音乐,却只有那炒豆似的铜藪声環分明,也疑叫人兴奋.乡善両挨管薄雾笼罩了外白渡侨的高耸的钢架.电车驶过时,这钢架下横宁架梓的电车线时护煤发勺几朵弭绿郎丄0从桥上向东垫,可匕看见浦东的洋核像巨大的怪兽,蹲在暝色中,闪着千百只小眼恭似的灯火.丄2这时谯一这天堂般五月的傍晩,有三無一九三。年式的畫铁笼汽车像闪宅一般驭过了外白渡桥向西筠弯,x向西奨,叫人猛一惊的,是高高地

5、装在一所洋房顶上而巨异常庞大的宽51电管广吿,射出火一样的养光和育燼<1b:子夜zlye_e. txtsi midnight2 mao duni3 i4 the 3un had just sunk below the horizon5-merg- and a gentle breeze caressed one's face6 the muddy water of soochow creek, transforn.ed to a golden green, flowed quietly westward7 the evening tide ftom the whangpoo ha

6、d turned mpetceptibly, and now the assortment of boats al<0 fain* strains of rrusic wete bocne on the wind fro. the pack accoss the eiverz punctuated by the9 under a sunset-mottled sky, the towering framewck of garden bridge was aantled in a gathering r10 looking east, one could see the warehouse

7、s on the waterfront of pootung like huge monsters ccouc11 to the west, one saw with a shock of wonder on the roof of a building a gigantic neon sign in f.<112 it was a perfect may evening-sepa- three 1930-model citroensz flashed over the bridge, turned ,水平互列協口行 1,列 1, co|dos| 傕改:2co7-1-16 11:大小:5

8、80445插入",开绘|色文档1iler. |(duitrdit-32©«史达15:51图1:用ultraedit同时打开两种语言的文本。2.4译文句子的合并如上所述,对齐的原则是尽量保持原文不变。因此,如果译文的句子和原文不符, 就需要调整译文,使其能与原文对齐。如果原文的一句话在译文中被拆成两句话,即译文分为两行(见图2),应该将译文 屮的光标放在第二行的开始处,然后按“倒格键”(backspace),将第二行拉冋到上一行 的结尾处,使译文的两句处于同一行上。源文这时候这天堂般五月的傍晩,有三辆-九三o年式的雪铁龙汽车像闪电一般驶过 了外白渡桥,向西转弯,一直

9、沿北苏州路去了。译文it was a perfect may evening.three 1930-model citroens, flashed over the bridge, turned westward, and headed straight along the north soochow road.图2原文一句,译文两句。如果译文是英语,将第二行拉回到上一行时,要注意第一行末尾的标点符号与原來 第二行的第一个单词之间应该有一个空格。如果没有,应按一下"空格键” (spacebar) 加入一个空格。然后在两句之间加入一个“分译”标记-sepa-o分译标记后要加入一个 空格

10、(见图3)o原文这吋候这天堂般五月的傍晚,有三辆一九三o年式的雪铁龙汽千像闪电一般驶过 了外白渡桥,向西转弯,一直沿北苏州路去了。译文it was a perfect may evening. -sepa- three 1930-model citroens, flashed over the bridge, turned westward, and headed straight along the north soochow road图3.译文按照原文合并在一行上,在原拆分处加“分译”标记-sepa-o如果译文是汉语,第一行末尾的标点与第二行第一个汉字z间没有空格。如果有空 格要删除。同时

11、,也要加入“分译”标记,但是标记的前后没有空格。合并两行还可以采用另一种方法,可以先将光标放在第一行的末尾,然后按“删除 键” (delete)将第二行“拉”到上一行来。但是,也要注意空格问题和加入“分译”标 记。2.5译文句子的拆分如果原文的两句话在译文小被译作一句话(见图4),应该先确定在译文小拆分的位 置,然后将光标放在译文需要拆分的字或词之后,按“冋车键”(enter)即可将译文拆成 两行。拆分后应在第二行的开始处加上“合译”标记merg-,表示译文原来是合译成 一句话。如果译文是英语,应该在“合译”标记后面加一个空格,如果译文是汉语则可 不加空格(见图5)。原文男的是五短身材,微胖,

12、满面和气的一张白脸。女的却高得多,也是方脸,和三老爷有儿分和像,但颇白嫩光泽。译文the man was short and stoutish with a bland and pallid face, while the woman was much taller, and bore a certain resemblance to the other man with her square face, although her skin was smooth and fair.图4.原文两句,译文为一句。原文男的是五短身材,微胖,满而和气的一张口脸。女的却高得多,也是方脸,和三老爷冇儿分相

13、像,但颇白嫩光泽。译文the man was short and stoutish with a bland and pallid face,-merg- while the woman was much taller, and bore a certain resemblance to the other man with her square face, although her skin was smooth and fair.图5.译文按照原文拆成两部分,在合并处加“合译”标记-merg-。2.6混译的处理由于英汉两种语言的差异很大,而其译者采用的翻译方法也不尽相同。冇些情况下, 译者

14、不是按照原文的表达方式和顺序來行文,而是将原文中几句话的意思混在一起然后 再翻译出來,因此我们很难确定译文中准确的拆分点(见图6)。在这种情况下,为了能够准确对齐原文和译文的句子,有必要适当调整原文,直到 译文能将所有的意思都包描进去为止。同时,还要在混译的译文前面加上“混译”标记 -mix-(见图 7)。原文你马上打电话到厂里叫账房莫先牛来。耍是厂里抽得出人,就多来几个。”译文you just tell mr. mo kan-cheng to bring with him many men from the factory as he can spare.m图6.译文采用混译法,无法按照原文

15、拆分成两句。原文你马上打电话到厂里叫账房莫先牛:来。要是厂里抽得出人,就多来儿个。”译文-mix- you just tell mr. mo kan-cheng to bring with him many men from the factory as he can spare.u图7.适当将相关的原文合并到一行,使译文的意思都能包括进去。在混译的译文 前面加上混译标记-mix-.注意:混译是指译文将原文两个或多个句子的意思混合在一个句子里译出。如果译 文是将对应原文的一个句了的意思先后顺序颠倒或混合,不用加注混译标记。2.7译文的部分移动有时译文并未按照原文的顺序行文,而口如果按照2.6的

16、方法來处理,会使一行变得 相当长,给以后的检索带来困难(见图8)。原文“但是有一句名言:天才或白痴,都是诗人。我在阿萱身上就看见了诗人的闪光。至少要比处在黄金殿上的mammon要有希望得多乂多! ”范博文忽然冷冷地插进来说,同吋用半只眼睛望着林佩珊打招呼。译文"but there's a famous saying that a poet can be either a genius or an idiot," put in fanpowcn sarcastically, wi(h a knowing wink lin peishan."in ah-hsu

17、an one can catch a glimpse of the poet.anyway, he's much more hopeful than mammon sitting in his golden palace."图&译文中的put in fan与原文“范博文忽然冷冷地插进来说,”位置有差别。 如果将原文的四行合并成一行,并将译文也合并成一行,会使一行太长,给以后的 检索造成困难。在这种情况下,应该根据原文移动一部分译文的位置,使其符合原文的顺序,并在 移动的地方做上“移动”标记。移动标记由两部分构成:卜表示有内容从此处移走;+ 表示这部分是从别处(即前面的

18、卜号处)移來的。“ + ”号后面空一格,后面是移走的内 容(见图9)o原文“但是有一句名言:天才或白痴,都是诗人。 我在阿登身上就看见了诗人的闪光。至少要比坐在黄金殿上的mammon要冇希望得多又多! ” 范博文忽然冷冷地插进來说,同时川半只眼睛望着林佩珊打招呼。译文nbut (here's a famous saying that a poet can be either a genius or an idiot/1 -hin ah-hsuan one can catch a glimpse of the poet.anyway, hes much more hopeful than

19、 mammon sitting in his golden palace/*+ put in fan po-wen sarcastically, with a knowing wink at lin pei-shan.图9.译文屮的“put in fan .”移到与原文“范障文忽然冷冷地插进来说,”相应 的位置,并加了 “移动”标记。3. 其他标记除了上面第二节中使用的标记外,在对齐过程中还会使用到一些其他的标记,分别 说明如下3截短标记有时原文一句话太长,会给语料库使用者在检索时造成困难(见图10)o原文他何尝不知道武装下乡收租这法门,可是他更知道现在的农民已非昔比,如果带去的 武装少了一点

20、,那简直是不中用,多了呢,他这位地主的费用也很大,即使收了若干 租米来,总还是得不偿失:这样的经验,他已经受过一次了。图1()原文一句话太长,会给以后的检索造成困难。因此,必要吋可在原文某处将原文的一句话截短成两个或更多的部分,同吋译文也 随之发生变化。但是,要注意应在原文和译文中都加注截短标记-divi-o截短标记加在 每一个截短的句子的开始处,但是要注意句首不加注(见图11)。原文他何尝不知道武装下乡收租这法门,-divi-可是他更知道现在的农民已非昔比,如果帯去的武装少了一点,那简直是不中 用,-d1vi-多了呢,他这位地主的费用也很大,即使收了若干租米來,总还是得不偿失:-d1vi-这

21、样的经验,他己经受过一次了。译文he was, of course, well acquainted with the method of collecting rents with an armed escort,-divi- but he was also quite aware that the peasants were not like they used to be. -sepa- if you went with a mere handful of men, they were no use at all;-sepa- if you took a lot, they ate th

22、eir heads off, and even if they did manage to get you something, it was never enough to pay their wages and expenses: no, the game was not worth the candle-sepa- that was a lesson feng yun-ching had already learned once to his cost.图11.在原文适当地方将长句截断,并加注截矩标记;译文也做相应处理。注意,在图11的例子屮,在原文的第二个和第三个截短处恰好是译文采用分

23、译的地 方(译文分别以“分号”和“句号”断开)。在这种情况下,译文中保留原分译标记-sepa-o3.2未译标记有吋由于种种原因,译文会不完整,如漏译或故意不译等。为了使原文和译文能够 对齐,需要在未译的地方加一个未译标记nto如果是一个整句未译,未译标记占一行。 如果是一句话屮的某一部分未译,则未译标记放在未译处,不占一行(见图12和图13)o原文吴夫人,大概你也想得到,进一步的行动,那时事实上也不许可。译文madame wu, you must have seen that. nt图12.原文中的“进一步的行动,那时事实上也不许可”耒在译文中出现,因此使 用了未译标记nto在此例屮,未译标记不占一整行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论