(语言学及应用语言学专业论文)汉英双语网页资源中相同事件文本对的提取.pdf_第1页
(语言学及应用语言学专业论文)汉英双语网页资源中相同事件文本对的提取.pdf_第2页
(语言学及应用语言学专业论文)汉英双语网页资源中相同事件文本对的提取.pdf_第3页
(语言学及应用语言学专业论文)汉英双语网页资源中相同事件文本对的提取.pdf_第4页
(语言学及应用语言学专业论文)汉英双语网页资源中相同事件文本对的提取.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文独创性声明 本人郑熏声鞠; i 、坚持疆“求实、翎薪”熬辩学耩毒孛麸事骚究互馋。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究 成果。 3 、本论文串除弓| 文舛,掰裔实验、数据鬻有关奉| 精筠怒真实豹。 4 、本论文孛除号l 文嗣致落靛走容外,不包含其他人或其它极擒 已经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献淘已程论文中作了声明并表示 了遴塞。 赭签名:些 日 期:越式。盘 学位论文使用授权声明 零人竞余了瓣漆京烬箍大学凑关傺馨、健用学位论文鲍援定,学 校有权保留学位论文并向国家拳管部门或其指定机构送交论文的电 子敝和纸质版;有粳将学位论文用于非赢乖j 醴的的少量复制并允许论 文瀵天学授臻 吝镕被查溺;骞投将学夔论文豹蠹吝绫入有关羧摇辫速 行检索;有权将学位论文的标鼷和摘要汇编出版。保密的学位论文在 解密后适用本规定 律者签名: i 童拯一 墨 期:立业主:= 差 摘要 在平行语料库的研究和利用成为语言学的研究热点的时候,如何搜集平行语料这一 前提性工作却为研究者所忽略,本文就是在这一领域内的探索和尝试。 本文首先分析了汉英双语网页中的平行语料资源,提出通过提取相同事件文本对 ( s e t p ) 来帮助研究者大规模高效率的获取平行语料资源。在分析汉英s e t p 的特点基 础上,认为命名实体能够很好的代表文本主题,可以通过命名实体的对应度计算来提取 s e t p 。 本文基于汉英s e t p 提取中命名实体相对应的情况,深入分析了知网的义原、 概念、词汇之间的关系,提出了利用知网进行汉英词汇对应度的方法。另外充分利 用现有资源,提出了利用人名、地名表、汉字拼音表解决未登录的命名实体,主要是音 译词的词汇对应度的计算方法。 我们还精心构造了命名实体结构,用它来表示一个文本,从而将相同事件文本对的 提取工作转变为命名实体的对应度计算工作,并且设计了一套计算公式,得以更好的反 映不同命名实体在文本的不同部分的重要性的差异。 本文的这些思路和方法在我们的实验结果中得到了证实,我们构建的从汉英双语网 页中提取s e t p 的系统性能良好,实验结果令人鼓舞,最终汉英提取s e t p 正确率达9 3 。 关键词平行语料命名实体知网相似度 a b s t r a c t a si u t e r n e tb l o o m st o d a y , m o r ea n dm o r em u l t i l a n g u a g ee l e c t r i c a lt e x t sa r ea c c e s s i b l e i nt h i sc i r c u m s t a n c e ,t h es t u d y i n go fp a r a l l e lc o r p u sb e c o m eo n eo ft h el i n g u i s t i c sh o ts p o t b u th o wc a nw eg e tt h i sp a r a l l e lt e x t s ? t h i si sa l lf u n d a m e n t a lp r o b l e mo f t e ni g n o r e db ym o s t r e s e a r c h e r st h i sp a p e ri sa l le x p l o r a t i o ni nt h i sf i l e d t h ep a p e rf i r s ta n a l y z e st h ep a r a l l e lt e x t sr e s o u r c e si nb i l i n g u a lw e b s ,p o i n t i n go u tt h a t w ec a nh e l pt h er e s e a r c h e r sg e t t i n gp a r a l l e lc o r p o r am o r ee f f i c i e n c ya n da b u n d a n tb y e x t r a c t i n gt h es e t p f s a m ee v e n tt e x tp a i r ) o nt h eb a s eo fr e s e a r c h i n gt h ec h a r a c t e r i s t i co f c h i n e s e - e n g l i s hs e t p w ef o u n dt h a tt h en a m e de n t i t yc a bs u i t a b l yr e p r e s e n tt h et e x t s t h e m ea n dw ec a nu s et h es i m i l a r i t yo f n a m e de n t i t yt oe x t r a c tt h es e t r b a s e do nt h ec h a r a c t e r i s t i co f 也ee x t r a c t i o no fc h i n e s e - e n g l i s hs e t p t h i sp a p e r p r o b e si n t ot h eh o w n e ta n da n a l y z e st h er e l a t i o n s h i pa m o n g i t st a x o n o m y 、u n i ta n dw o r d o n t h ef o u n d a t i o no ft h e s ew o r k s ,w eg e tam e t h o du s i n gh o w n e tt oc a l c u l a t et h es i m i l a r i t yo f c h i n e s ea n de n g l i s hw o r d f u l l yu t i l i z i n gt h el i n g u i s t i cr e s o u r c e sw eh a v e ,w es u g g e s tu s i n g d i c t i o n a r i e so fn a m e s 、p l a c e 、p i ny i nt or e s o l v et h es i m i l a r i t yo fu n k n o w nn a m e de n t i t i e s w h i c ha r em o s t l yp i ny i n w ea l s oc o n s t r u c t q u a i n tn a m e de n d t ys t r u c t u r et or e p r e s e n tt h et e x t b yt h i sw a y , w e t u r nt h ew o r ko fe x t r a c t i n gs e t pi n t ot h ew o r ko fc a l c u l a t m gt h en a m e de n t i t y ss i m i l a r i t y w ea l s od e s i g n e das u i to ff o r m u l a ew h i c hc a l le x p r e s sn a m e de n t i t i e si nd i f f e r e n tp a r to f t h e t e x th a v ed i f f e r e n ti m p o r t a n c e o u rt h i n k i n ga n dm e t h o dh a v eb e e np r o v e db yt h et e s to u t c o m e o u rs e t p e x t r a c t i o n s y s t e mh a v eg o tae x a c t n e s sr a t i oo f9 3 k e y w o r d :p a r a b e lc o r p r a n a m e de n t i t yh o w n e t s i m i l a r i t y 2 第一章引言 本章首先介绍双语语料库尤其是汉英平行语料库的研究现状,分析当前研究中的不足之 处从而提出本文所要研究的问题和研究的思路。 1 1双语语料库的研究 1 1 1 语料库研究介绍 近年来,语料库语言学的兴起是计算语言学中的重要事件,语料库以其覆盖面广、语料 真实、信息丰富而为计算机自然语言处理提供了强有力的支持。在计算机技术的支持下,语 料库方法对语言研究的许多领域产生了越来越多的影响。各种为不同目的而建立的语料库可 以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语 言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。语料库按语料的 语言划分,可分为单语语料库和双语( 多语) 语料库。 单语语料库的创建始于2 0 世纪6 0 年代,代表为美国b r o w n 大学建立的b r o w n 语料库, 主要代表当代美国英语,规模为1 0 0 万词次。由于辞典编纂的需要,在7 0 年代s i n c l a i ra n d a t k i n s 主持了c o b u i l d 的语料库项目,使得实用性语料库的门槛在8 0 年代早期从百万提 高到了八百万( s i n c l a i r1 9 8 7 ) 。到了9 0 年代,a t k i n s 再次走在了前列,他主持的b n c ( b r i t i s h n a t i o n a lc o r p u s ) b n c 将语料库的规模提高了1 0 倍,达到了1 亿词,并且覆盖了当代英语 的许多变体。当前语料库构建研究的发展方向为:“互联网作为语料库”以期获得更大规 模,更为动态的语料:口语语料库规模的提高:语料标注层次和质量的提高。 国内语料库的建设始于7 0 年代末8 0 年代初,当时的主要目标是汉语词汇统计研究,较 早的有1 9 7 9 年武汉大学建立的汉语现代文学作品语料库,共5 2 7 万字:1 9 8 3 年北京语言学 院( 现北京语言文化大学) 建立的现代汉语词频统计语料库,共1 8 2 万字。进入9 0 年代以 后,语料库方法在自然语言信息处理领域得到了广泛应用,建立了各种类型的语料库,研究 内容涉及语料库建设中的各个问题。比较有代表性的语料库有:国家语言文字工作委员会主 持建立的现代汉语通用语料库,对2 0 0 0 万字核心语料进行了分词平词性标注加工;由北京 大学计算语言学研究所和日本富士通公司合作建立的人民日报标注语料库,原始语料取 自1 9 9 8 年全年的人民日报,共约3 5 0 0 万字,它是我国第一个大型的现代汉语标注语料 库;用于语言教学和研究的现代汉语语料库北京语言大学的汉语中介语语料库,它收集了来 自9 6 个国家和地区的7 4 0 位外国留学生的汉语作文或练习材料1 7 3 1 篇,共有4 4 2 1 8 句, 1 0 4 1 2 7 4 字;由山西大学针对汉语信息处理技术的需要专门建立的专有名词标注语料库和分 词与词性标注语料库;台湾中研院的平衡语料库,其最终目标是建立五百万词次的汉语平衡 语料库:香港城市大学建立的l i v a c 共时语料库( l i n g u i s t i cv a r i a t i o ni nc h i n e s es p e e c h 3 c o m m u n i t i e s ) ,计划收懿到2 0 0 5 年6 月,囊括新懈世纪交接点前后备五年各地牮语社睡有 代表性的重要语言数据,供汉语的各种共时比较研究使用。 鼹语语辩痒是一种特殊形式的语料库,它闯时色含有两种语言的对译语料信息,因此加 工后的双语库与单一的谮料库相比,更具肖两种语裔之间的吸配信息,它可以用于基于统计 的机嚣翻译、蒸于实铡静祝器醑洋、祝动a 译、双诲词典和术语库静建立、翻译知识的撒取、 词义排歧、跨语肓信息检索等多种应用领域,具有极高的利用价值,所以双语诱料库的研究 霸剥瘸也是当裁诗冀语言学磷究豹热点,今年豹诗舞语言学游会年会( a c l ) 静议题之一就是 “建立和利用平行语料:数据驱动的机器翻译及更多”。利用双语语料库的关键是文本对齐, 靼双语文本在篇章、旬予、词语答个垂次上戆鞋褒。只存黠务嚣,双疆语辩才商较大鹣测雳 价值,这时候的双语语料库称为敢语平行语料库。一般情况下,双语诺料库都魑经过对齐的, 都是平牙语辩撵。 1 1 2双语语料库的研究 双浯语料摩的构建娥手由加零大议会( h a n s a r d s ) 的荚法双语文传为语糕麴蒺注载添平 行语料库。当前国外的取语语料库正蓬勃兴起,莉代表性的双语平行语料库有:a c e 和 d a r p at i d e s 项匿下包括的平 亍语料库;宾辨l 大学语料库中的平行谬料库部分;主要豺对 中欧、东欧语甯的m u l t e x t - e t 平行谱料库;由歙盟议会文件为语料的e u r o p a r l 语料库, 包含1 1 种欧洲语言的平行文本:舆斯陆大学建立的o m c 语料库,主要语言为北欧语亩及 英语、德语、法语等;麓里兰大学的s t r a n d 平行语料库。这些语料库的裁模都在千万词 次的数量级。 潮肉的双语语精露研究主要怒汉语鞠茭语的平 亍语料薄、汉语和掰语的平行语科球的构 建和利用。这些研究始于由香港议会文件为语料的汉英平行语料库。阑内有代簌性的平行语 糕毒蠢:孛辩虢计算掰荚汉乎毒亍语辩瘁,麴包含有1 3 9 万瓣e 霹齐静中英文龆子;覆门大 学英汉平行语料库,约包含有1 1 8 万对已对齐的中英文句子;哈尔滨工业大学英汉平行语 辩疼,约奄含鸯1 0 万对量对务鹩孛英文筠予。歪畿建设串的有乾京大学熬汉焚平簿语精痒 和北索外国语大学的目汉和英汉平行语料艨。 ;美上是我翻平行语糕痒耱建设现状戆恕握,嚣蘩于联语鬻躲工终烹耍雹话掰个方嚣;( 1 ) 对双谱库的加工,主要是对齐,即找出双语文本之阐的各级( 段落级、句子级、短语级、词 语级等) 黠应关系。( 2 ) 扶已经黠旁鲍语辩摩孛抽数知识莠鸯霾 三 剥鬟,魏句子结梅知识、运 义消螋知识等。现阶段翻内对平行语料库的研究也盘疆集中于这两个方面取得了很多成果。 1 1 3 以缝国内平抒语料库研究的不足 执对以往豳内平行谢料痒研究的凰顿来看,以往的研究主要有两个不足: 一是平行谬料库的构建集中予收集英汉平行语料。即英谤为源语畜、汉语为目标语蛮, 而很少将汉语为源语言、荚语为弱标语言的文本作为收集对蒙,因此鞫建的谱料库都是“英 汉平彳亍语料库”丽非“汉英平行语料库”。对于汉荚词典编纂、术语提取、汉英机器翻译等 珏汉谢为出发点鹩研究工作来讲,仅仅剥翊英汉平彳亍语料显然是不合适的。 4 7 z , 是平行谮料文本的获取这一基础性工作一直为研究者所忽略,从事语科库加工和利用 的楣关研究工作的研究者( 刘小虎刘葳1 9 9 7 、王斌2 0 0 0 、林鸿飞2 0 0 0 、廖七一2 0 0 0 、秫 鸿飞2 0 0 1 、钱瓣萍楚铗军2 0 0 1 、昌学强2 0 0 3 、蓦鞭娟李囊2 0 0 3 ) 认为这是黼捷条辞两无 庸考虑,从事平行语料席构建的工作( 常崽宝詹卫东2 0 0 2 、王长胜削群2 0 0 2 ) 似乎也认 为语睾尊静获取不是一个麓踅。蔼实际上蘩鞭平行语糕文本是建设帮裁鞠平行话瓣库静静挺, 没有选一步,后续工作搬本无法展开。本文的研究就是为获取平行语料文本服务的。 1 2本文的研究内容 上文提到,现阶段潮内平行谱料库的构建集中予“英汉平行语料库”的建设,忽略了阻 l 攫语为源语言蛇“汉英警罩亍语料黪”鲍掘工建设,褥南京师戴大学承控躲十五2 1 1 重点学科 建设项目“语言信息处瑷与分领域语言研究的现代化”的予课题之一“深加工的汉英平行语 料库”就是在遮方面的努力。该子课题主要是对台计1 0 0 万调的汉语谣料和英语语料( 以新 闻报道为主耍肉容) 进行对齐和渫层次加工。在这一课题的研究过程中,我们首先碰到的问 题就是:如何大规模的获取汉英平行语料文本。 1 2 1翔何大规模静获取汉荚平行语料文本 在互联网离速发展的今天,愈来愈多的网站成为双语网站( 主要是英汉敞语) ,这提供 了一个缀丈翡平行语辩文本鹃来滚。在尝试收集的过程中,貔稍发现察际情况劳不是这么简 单。咀汉英双谮网站( 指网站构建者母语为汉语) 为佣,网站的英文版并不是简单的中文版 豹浃瓣,旁了糕蹶拜国读者豹阕读兴趣弦及容隽室转静需要,英文舨孛 l 冬蠹窖氇诲孛文敝中 没有,中文版中的内容也有可能不出现在萸文版中。英汉双语网站也肖相同盼情况。所以说 这些麓站没毒掇供绘我 | 】璐成的蒺汉对照瓣惩夏。郯我粕始键裹效率燎裂蠲这疑资源,翔隽 高效率地从这燃网页中获取平行语料文本嘱,这正是本文拟解决的问题。 1 2 ,2 栩露事终文本对鲍获取 从汉英双谮网站中。我们可以获得大擞的描述间一事件的文本对,如对于阿拉法特_ j 叛世 这一攀口 :,在嘲一个汉蒺双语网蛄中,就窬相应的汉语文本秘英语文零予以描述。这种描述 同一书件的文举对,缀有可能就悬平行文本,在人工甄选后,即可以收入汉英平行语料库。 可见相同攀件文本对的获取,麟是为了离效率地从大量的汉英文本中自动地搜集可能的 汉英平行语料,它可班大幅的降低人工疆鬃汉英平行语辑的工作量和雅壤。本文的研究内容 就在于如何从汉荚网页中获取这擞相同事件文本对,从而为大规模汉英平行语料库的建设服 务。 1 2 3 姆本文研究内容相似的研究工作现状 上文提妥,平行语瓣文车的获取这一蒸础性王捧一妻凳矫究者掰忽龉。在平行语精瘴建 设的相关论文中对语料的采集工作常常是辍描淡写地一笔带过( 柏晓静2 0 0 2 、疑建云2 0 0 0 ) , 箍 j 圭要晕l 鼹文本长度鞘文本遥誊来确定半据文零,薅我搦新知熬褒徐段磅竞藏栗氇霞斑予 这些。 5 对于汉英平行语料的获取来说,仅利用文本长度这一信息显然是不够的。文本长度与文 本所表达内容基本无关,对于长度相近的文本根据长度信息根本无法做出区分。所以说现阶 段的平行文本获取手段是非常粗糙的,没有得到研究者的重视。可以说,从网络资源中获取 平行语料文本这一工作已经严重落后于整个平行语料库语言学的研究与发展。 本文提出的以获取相同事件文本对为基础搜集汉英平行语料,是这方面研究工作的新尝 试,还没有相同的研究工作可资借鉴和比较。 1 3本文的研究意义 首先,由于平行语料库越来越被人们所重视,各类研究机构纷纷开始构建自己的平行语 料料库,如何高效率地获取大量的平行文本成为首要问题。本文提出的方法,可以大大降低 平行文本的获取成本,解决平行语料库建设的基础问题。 其次,获取的相同事件文本对也不仅仅对平行语料库的建设有意义。它也是双语信息获 取的重要来源。能够利用到信息提取方面。我们可以从大量的双语文本中提取出仅仅从单语 文本中搜集不到的信息。例如,可以考虑搜集的文本范围不限于国内网站,不限于同一网站, 这时搜集的文本不是为构建语料库服务,而是搜集反映同一事件,但又不完全一样的文本的 集合,这样的文本集对于情报搜集、提供决策依据等等含有更多的信息量更有意义。 1 4本文的内容结构 本文第一部分为绪论,第= 部分讨论提取相同事件文本对的思路,第三部分着重于解决 相同事件文本对提取中的两个关键问题,第四部分是整个相同事件文本对提取程序的系统结 构,第五部分是实验结果分析,最后是对全文的一个总结。 第二章提取相同事件文本对的思路 2 1 “相同事件文本对”术语的界定 相同事件文本对是指事件主题相同的一对文本,在本文中,主要研究的是汉语文本和英 语文本。这里所说的事件主题相同即描述的是同一事件,也就是具有相同的事件发生时间、 地点和参与者。在以后的行文中,统一将“相同事件文本对”表述为s e t p ( s a m ee v e n tt e x t p a i r ) 。 6 2 2 确定s e t p 的依据 信息提取的一项重要任务是命名实体( n a m e de n t i t y 或简称n e ) 的识别,命名实体包 括人名、地名、机构名、时间、数量短语等。因为命名实体组成了一篇文章的主要内容,所 以命名实体识别是信息检索、信息提取、q a 系统、机器翻译等很多研究领域的关键技术。 显然,识别出来的命名实体可以很好地利用于s e t p 的确定。既然一对s e t p 是描述的 同一事件,它们具有相同的时间、地点、参与者等。这些相似点在文本中的反映,就是这一 对文本含有相同的时间词,短语、人名、地名、机构名,即含有相同的命名实体。如果一篇 汉语文本和一篇英语文本含有几乎一致的命名实体,那可以确定就是s e t p ;如果部分命名 实体相同,很可能两篇文本描述的是相似事件;如果两篇文本为包含相同的命名实体,则它 们肯定是不相干文本。 在这方面我们也做了先期试验。我们考察了5 0 个2 5 对中英文新闻文本。首先识别出命 名实体,将每个文本表示为一组命名实体,然后隐去原文,把这些命名实体组交由人工判断, 要求判断出哪些命名实体组代表的文本是s e t p 。人工判断结果的正确率是1 0 0 ,这个结 果当然也是在我们的意料之内。同时我们还作了对比试验,根据文本的长度来确定s e t p , 用文本的长度代表文本,交由人工判断是否为s e t p 。判断正确率为4 ,即只有一对文本 判断正确,原因是汉英文本长度有差异,即使是平行文本长度也不一致,唯一判断正确的一 对是因为它们不是普通新闻稿,丽是全文印发的一个联合公报,长度大大超过普通的新闻稿。 这一结采也显然说明文本长度几乎无法作为获取汉英新闻平行语料的依据。 我们认为现有的主要利用文本长度来确定平行文本的方法完全是机械匹配,不存在任何 对文本的理解,只要文本长度相似,任何两个文本都有可能匹配为s e t p 。而我们的方法是 以新闻语料的特点为根据,从对文本的理解出发,根据文本所包含的命名实体的同异为根据 显然会有更好的性能表现。 因此,我们的做法是将判断两篇汉英文本是否是s e t p 的问题转换为计算两篇文本内命 名实体的相似度问题。 2 3 计算命名实体的相似度 我们是通过计算两篇文本内命名实体的相似度来判断两篇文本是否是s e t p ,现在讨论 如何计算汉英命名实体的相似度。 2 3 1 现有的命名实体的相似度计算方法 命名实体可以是词或者短语首先考虑的是一般的词汇相似度的计算方法。 在计算语言学研究领域,词汇相似度的计算是一项具有重大意义的基础性研究工作,在 词汇相似度计算的基础上,我们才能够进行句子一级乃至篇章一级的离层次的相似度分析, 7 从而为机器韶译、信息检索、信惠提取、词义群歧游提供计算的依攒。 现今的词汇相似度计算方法主要有两种。一种是基于大规模语料席的统计方法、一种是 利用语义词典来计算。 前者如李淌子( 1 9 9 9 ) 、鲁松( 2 0 0 1 ) 、d a g a ni ( 1 9 9 9 ) 。一般是利于词语的相关度来计算 籀钕浚,选择一经特征谶,逶过大筑模语辩聋诗算这些谲熬稳关性特经向量,强这鳖窝繁之 间的相似度为词汇相似度。 瓣毒懿鳓( 1 9 9 9 ) 、a g 蠢结e 。a n dr i g a u & ( 1 9 9 5 ) 、刘群李素建( 2 0 0 2 ) 。蠢毒l 蹋鞫义词 林的,通过问义词林的语义分费树来计算语义距离从而得到语义相似度。有利用语义网络 w o r d n e t 或知躺躯,通过语义网终慰搋念熬箍写来计募语义糕 篮痤。 光论是基于大规模语料库、利用同义词林还是制用w o r d n e t ,这般计算方法都只适用于 嗣一谗玄的词汇相似度诗冀,嚣对汉英词汇的相戗魔计算就舞能为力了,也不靛利用于淡英 命名实体的相似度计算。 农平行语料库的研究领域内,有命名实体的对齐,或称焱名实体对的提取这一项:l 作。 有代表性的方法是p a s c a lf u n g 掇出韵两种方法f u n g ,ea n dk wc h u r c h ( 1 9 9 4 ) ( 1 9 9 8 ) 。 种是l ( 向量( k - v e c ) 法,主要通过单词出现的位餐彤成向鬣,计算源语言单词和目标语言 荜词静商量裙钕性,拯澈褶戳侄大的源语言和岳标浴言词对。这一方法静碉显缺点是假宠原 文本岛目标文本长度之间存在着根强的线性关系,假是对于汉英这样的语言文本对来讲不台 遥。恕静第二种方法是篓子调对特翟珏配瀚d k v e c 法,遗过提取一羊孛称为“锶出现阉黼向 量”的特征数据来抽取对应的词埘,基本上依靠的是词汇的分布信息。这种方法克服了箱一 释方法戆竣点,侄是可潋蓍密,滚一方法工作的基戳是一瓣擎芎亍支零,焉我翻瓣鼙趣是获敷 平行文本,我们拥有的语料可能魁平行的也可能不燕平行的,需要对每个文本进行两两匹配。 因戴邀方法瞧零适台我稍豹嚣簧。 2 3 2 计算汉英命名实体相似度的困难 爨戆首先筏子这是鞭静不震谬言之阂谰汇褶戗痰豹诗算,我们裁蘩一郝龛奄的攫茭溪义 词典才能完成这项工作。 骥难其次趁于命名蜜体卷常楚未登最调,一股的词典苓会予鞋收录。妇人名、地名这些 命名鼗体,是雨会在普通的汉英词典中出现的。对于汉英新翔报道采说,相对成的命名实体 常常煺啬译关系,如“胡锦涛”靴“h uj i n t a o ”,后者是前者的 9 睾音,又如“布什”取l “b u s h ”, 前者憝后者的谐译。靠普通的语义相儆魔计算无异难南辕北辙。 2 3 3我们计算淑英命名实体相似虚的思路 辩予机梅名,这类命名实俸的翻译一般是意译,我嚣j 可戳遥过一都汉英语义词典来实现, 我们选取的是蘸振东先生建立的知网,知网“是一个以汉语利英语的词语所代表的概 念麓籀述对象,敷搐示概念与概念之闻鞋及概念辑其有的腐幢之阉麓荧系为基本内容的常识 知识庠。”它完全可以利用来计算汉英词瓶相似度。但是这一方面的研究比较鲜见,对知网 懿弱麓还箨整褒它靛汉鞲谲汇部分。事实上,我销麓要捂搓好汉英文零s e p t 提壤翡特点, 8 完全w 以在己肖对知网的研究成粜上改进调整,进行汉英词汇相似魔盼计算。媳体的计算过 程下义会详细介绍。 没有出现在知网中瀚其艳命名实体,镪括人寇、地名、部分机构名,我们剐认为是未 登录词,基本上是音译的关系。这部分命名实体的相似度计算分为两个阶段,首先从一个含 有a 名、遗名豹汉荚译名谲葜孛豢撬,船莱待查我豹命名实体不在这个表孛,蠲摄据汉语裔 名实体的拼音与英语命名实体进行相似度计算,具体过程也将在下文详细介绍。 2 4 本章小结 本章首先界定“相同事件文本对”这一名词,然后分析汉英新闻语料的特点,提出通过 命名实体相似废的计算寐确定s e t p ,接饕根据汉英命名实体的实际情况,确定我们如侮计 算它们的相似度。这是本文解决问题的思路。 第三章计算汉荚命名实体相似度的关键 上文提到,计算汉荧命名实体相似度的两个困难,其一遐需要部完备的汉英语义词典, 亲诗舞汲荚溺 箱 鼙度;箕二楚瓣要戆够辩寒登录调计舞穗似凄。遮跫我翻撬鞭s e t p 麓关 键所在。本章分别对这两个问题的解决方法进行详细说明。 3 1基于知网的汉英词汇相似度计算 为了计算汉英命名实体相似度,我 | j 设计了一个具有普遍意义的、适用于汉英平行语料 处理的谴汇相似度计算羝统,这个系统是以知曙为潺义体系;本小节嚣先界定我们所需妥的 是什么样的“词汇相戗艘”,然商是对知潮的简要介绍接精是对整个系统的说明,镦厢是 对这个词汇柏似度计算系统的评价。 3 1 1掰于汉荚s e 髓,摄取的词汇相似度 3 、1 1 1汉英s e t p 的特点 掇宴日宓庆0 9 9 9 ) 酸儒栋姊史、老残游记、自富箩筒等取语文本静抽样分析,在 给定的语境、语段、语篇中,属于完全对废( 语义语法功能究仝相同) 的语言成分及词组约 占五分之二至嚣势之一,萁谴五分之三至鞠分之三郄不能实瑷完全对应。不完爱霹盎戆溺语 及句予在汉英艘语转换中占绝对优势。 褒汉荚鞭阏援遵文零串,遣窍类援鲍揍况,摇汉语豢涟文本孛戆“主薅”一词;檄可麓 对应- y - c h a i r m a n ,也可能是p r e s i d e n t ,也有可能根本不出现:“胡主席”直接对应予“h uj i n t a o ”。 这耪壤况在汉英摆固事镑文本对戆提取过摆孛茏戈甥显,毽为这些文本霹终舞不羁,不是 直接翻译的关系,完全对应的词语、句子不多。 9 就词语而言,不完全对应一般产生于词的多义性和语言的模糊性以及以句法结构为中心 的语境对语义的制约性。由于这些因素,在汉英双语转换过程中必须采取变通手段来维持双 语语义的一致性。变通手段的中心思想可以理解为牺牲单独词语的语法语义的完全对应来达 到句子乃至篇章的语义对应。词语的变通手段主要有: a 1转换,包括词性转换、肯定与否定的转换、时态和语态的转换等。 表延年用垫璧的款待把他的窘态掩盖过去。 z h uy a n n i a nc o v e r e d 印h i se m b a r r a s s m e n tw i t ht h e e n t h u s i a s mo f h i sh o s p i t a l i t y 解放区的巩固i 作仍应注意, m e a n w h i l e ,t h ec o n s o l i d at i o no ft h el i b e r at e da r e a sn l u s f1 21 熊i 丛生! 出 采宾请出示入场券, v i s i t o :s8 r or s q u e s t e dt os h o wt h e i rf :c k e t s b )转移,包括否定的转移和重心的转移。 j 毛才峁万分之- 是趸感,万分之无于是牙水。 g e n i u s 捃o n e p e r c e n t i n i n s p i r a t i o na n d n i n e o , - n i n e p e r c e n t p e r s p i r a t i o n 生活可不像徽莱:一个策没烧好嚣可娃不吃, c o o k i n gi sn o tl i k ef 塘i f y o ug e tdb a dm e a l , y o ud o n ,h a v et oe a ti t c 1 还原,淡化源语的色彩。 整件事情的鑫蕉圭壁最清晰的。 t h ew h o l et h i n g 扫c l e a rf r o mt h eb e g i n n i n gt ot h ee n d d )阐释,对源语种的“障碍点”作注释。 小弟献丑。只好壅羹差釜7 。 ,伽a s h a m e dt od i s p l a ym yi n c o m p e t e n c eb e f o r ea ne x p e r tl i k ey o u r s e t f e )融合,将若干词的意思加以融合。 怜爱s y m p a t h e t i cl o v e ;魄力p o w e r f u la n dr e s u l t f u la c t i o n n引申,在双语转换中将源语的词义加以延伸。 虚掏的蘸皇有时使焉第一人称为的是使叙述更为生动, f i c t i o n sn a r r a 打v e sa r es o m e t i m e s p u ti n t o f i r s t p e r s o n f o rg r e a t e 7 v i v i d n e s s 曲替代,易词而译。 我i 无爱过大霍釜雹匹比弥们是强的。 i n e v e r l i v e d i n l u x u r y a n d s t y l e , y e t a s 口g i r l l w a sb e t t e r o f t h a n y o u h ) 增补、省略与重复。 生也好死也好。我们要忠于党。! 垂至人民,壹至袒舀。 l i v eo rd i e w es h o u l db el o y a lt oo u rp a r t y , t oo u r p e o p l ea n dt oo z m o t h e r l a n d 3 1 】2 汉英s e t p 中对应词汇的特点 由于汉英双语转换中,语言成分及词组不完全对应占优势地位,所以我们采取了系列 l o 变通手段来达成句子、篇章的谮义对应。遮一情况簸使得汉获相褥事件文本对中的对盛词汇 与平常所说的“相似”词汇有着不同的特点。 汉英词汇捅儆度计算研究豹燕一个汉语词汇翻一个英语诵、汇的一对一豹关系。在上述的 变通手段中,涉及词汇一对一关鬟的变通手段主要肖;转换中的词性转换和肯定否定的转换、 | 率、融台帮蛰拽。经j 鐾交逶形藏鹣两个封疵谲汇,莓能会密观下瑟的情况:酒樊不一致( 当 然的句法功能也不一致) 、语义相对或相反、语义包蕴。、语义交叉o 、语义仅仅相关。这些 溏提远远超出了我粕在上文提到麴“稳叛菠”豹獠念范萤。 可见用于汉英s e t p 提取的对应词汇岛我们平常所说的相似词汇并不等同。 3 。1 1 。3瘸子汲英s e t p 提敬豹词汇鞠 娃度 蹴然通常崽义上的“相似度”无法涵靛用于汉英s e t p 摄取中的对应词汇的特点,我们 提出一个概念;谲汇对庭度,用遮一概念来替代在汉荚s e t p 提取中戆词汇楣似度概念。定 义为:汉语词语在不脱离英语源文基本语义基础上的语义可对应程发。 下匿我们避过一个袭来具体阐释“对成度”的概念并同鞋寸和“相似度”、“相关度”进行 比较。 ? 汰 完仝对应不完女对应 词类不语义相对语义语义语义仪 一致或相反包菠交叉仪相关 相似度 o 霸美疫 时应度 :概念涵蓝选一可能出现的情巩。 x :概念无法涵盖适一可能出现矗寺情况 0 :依计算方法而定 我们认为诵、茳对瘦发凝念,爨努懿菠获了磁罐文本孛麓漏汇对藏情况,楚逶蠲予汉英 s e t p 提取的。在下文中。我们就用词汇相关度来替代用于汉英s e t p 提取的词汇相似度。 3 ,l 。l 。4 清汇霹痰发毒蠛囊麴谲汇稳镁度计舞方法 对于利用语义词典的方法而京,语义树更多地反映的是语义的包蕴关系,仅仅利用语义 擗瓣上下短屡次显然不麓灌是词泡对应菠豹计箕要求。应该鼙充分的挖掘现蠢语义词典毽窘 的知识,使其能够解决对应词汇的种种可能情况。 o 捂两个词的语义星上下位燕系。 o 指两个词的语义不包蕴毽有重叠的地方。 樽看幂j 用大规模语瓣库的方法。主要的豳难在予,要利用这一方法计算汉葵词汇对应度, 就必须宥一个激英平行谶料库。就语料库构建的程序丽言,文本对齐怒必须的一步,只肖拥 有大鬣的己对并文本方谈褥土平行语辩痒,丽本文的蟊酶就在于提取汉荚s e t p ,旗蔼为掏 建汉荚平行语料库服务。这是一个需求循环问题。 3 1 2 鲡弼糖奔 3 1 2 ,1概况; 知圈( 获文名称必“h o w n e t ”怒菱摄畚先生主持建立鳇嚣囱诗算戡麴形式化、可 运算的语言知识库。1 9 9 9 年首次推出 h o w n e t2 0 0 0 版( 免费下载,而且基本上可以代表 朔辫鲍垂貔,零文书提到鳇知网系统,主簧裁是摆2 0 0 0 舨) t2 0 0 2 、2 0 0 4 年又分 别推出了新的版本。知网主簧是面向信息处理安际应用的,如机器翻译、信息提取、词 语搏竣等等。 按照董扳东先生的定义,知两“是个以汉语和英语的词语所代表的概念为描述对象, 班揭承概念与概念之间以及概念所具有的褐性之间的关系为基本内容的常识知识库。” “概念”怒知两的中枢。知网认为,“概念”是对谪汇语义的一种籀述,每一个词可 以表达为几个概念,“概念”简单地说就是词语的慧义。概念是词语的内容,词语是概念的 形式。弼一个概念可靛辫不同静词语形式,包含不瀚语言静。没有意义的字,也就没有裰念。 “概念”具有趣越具体谣言的性质,即,不同的语裔可以表达相同的概念。知网是多语育的 弼疆系统( 蚤翁只并发了英语取汉语) ,袋用“词语”捧为概念描述的对象,虢是为了兼颧 多种语言。 妇两淡“记录”静方式采存建露溺语熬孵帮。一蠡记录龟括,k 疆疼骞,“= ”左边是 数据的域名,右边是数据的值。概念在知网中的表现形式就是“记录”中的d e f 项。 k o = ( 记录编号) wc = ( 汉语词条戚英语词条的汉译) ge = ( 汉语词性) ec = ( 汉语用例) we = ( 英语词条域汉语谣条蛉英译) oe = ( 英语词性) ee = ( 英语用侧) d e f = ( 赫念类别和属性) 下面是一般具体的例子。 n o 。= 0 4 18 8 0 wc = 家 gc = c l a s ec = 一家百货公司 we = ae ; ee - - d e f = n o u n u 嘲名薰,& h a s t i t u t e p t a c e l 场所 直接标注 1 5 实体一值关系 i c e j 球 c o l d 冷,# l i q u i d 滚+ s t a t e c h s n g e :态交】 焉加角色盘 1 e 事件一豫乜关系 e a r nl 璇 a g e n t ,p o s s e s s i o n ,s o u r c e 在相黄义原前檬注# 1 7 棚燕关系 z r e ei 褥【# w o o d 末,? m a t e r i a li 辩辩 1 8 表示属性为 在相接义原前橼注! 一敏感落息抟属 h u m a n l 太e n a m e l 姓名,! w i s d o m l 智慧, a b i l i t y | 能力! o c c u p a t i o n 职位。* a c t | 行动j f = e 在相篾义颞前橱注 i 9 表示檬有可能 f l o w e r g r a s s 藏革c 、$ p f a n t i n g 栽植,“o d o r i 气味,c o f o r i 颜色、p r e t t i n e s s i 荚 丑,、$ d e c o r a t ej 皴镪 知丽已经为我们构建了一个形式化的、可计算的语义网络。下面我们将利阁它,针 对词汇对应度涵盖的种种情况,解决调汇对应麟的计算问题。 3 1 3 基于翔黼的谣滋对应度计算o 3 1 3 1 义原对应度的计算 上文掇瓢过,翔瓣是潦过把谲落懿意义鹅性单元簧琢建设成个级接摆连,关 系蔑杂的义原系统,从而形成一个语义网络。每个概念归根到底都是通过义原来表永的。义 纛乏阉豹美系运算是溺语对应疫许冀魏壤本。 ( 1 ) 义原关系的提取 。摩稠露知鼹计算蠲汇相傲藏方藿。文献【6 l 提供了较好的计蔫方法。本变部分参考了他们髓方法。 1 6 在知燃孛,义辗之间熬美系是避过义原在语义挝巾的位量粒义原零身的属性括记表 示白匀,上文的表中绘出了这1 9 种关系。与词汇对应度联系起来考虑,关系如下 义原没有竞垒同义的。概念定义项相阉,对 完全辩应 译的调条相同。 词类不一致( 义原没商的词类概念) 词义相对戴相反对义关琢和反义燕系 蚕 词义包蕴上f 位关系 茎 场所一事辞美系,工具一事 牛关系,受事内密颁属 对物等一事件共蒜,施事链验者关茉主体一事件关系, 应词义交叉 誊| 辩一成品装蓉t 郝释一楚体关系,僮一属辞关系。隐 性角也一事件关蘸 潲义仅霞秘荚穗关关系、敏感属瞧关系、“缀鸯霹熊”关系 霹冕,谰汇黯痤发遗盖戆耱释壤况在这些关系孛都鸯翳反映。我们完全敬遵过躲隧 的义原关系系统解决词汇对应度问题, 这些美篆援镪都是可戳扶轾霹中提取出采豹。 首先义原组成的义原树很好的提供了上下位关系的计算依据。 其次,对义和反义关系可出知弼提供的对义、葳义表获锶。 最后,其他种类的义原关系通过义原的属性字段表现,如: p u b l i c a t i o n s j 书刊 $ c o m p i l e l 编辑,s p u b l i s h i 出版,s r e a d | 读,# t i m e l 对闽,$ d l s s e m i n a t e j 传 播,# i n f o r m a ti o n | 信息 从“p u b l i c a t i o n i 书刊”的属性字段( 用中括号括起米的部分) 中可以得出,义原“书刊” 和义琢“编辑、出版、读”是受事内容一事律的关系,和“时闻、僖息”蹩捆关关系,嚣l “传 播”是工具和枣件关系。 综台考察所育义藤静藩链字段,我稻可鞋褥到一些义蘸关系裘。 部件一熬体关系表 r 。| 房间一h o u s e i 虏屋热3 条 耪辩一袋鑫关系t r e e 辩一m a t e r i a ll 耩辞菸】i 条 受事内容领属物等一事件关系a f f a i r s 】事务一e n g a g e i 从事始5 4 条 工具一事侍关系 w i n g l 趣一f l y 飞菇媳条 隐性角色事件燕系t i m e l 时间一e v e n t l 事件菸1 3 条 敏感属性关系s h a p e 按形一f o r m l 形拭共1 2 条 “很有可能”关系i n s e c t w o r m 虫一u n d e s i r e d f 莠燕2 4 条 耀美关系p u r p o s e ! g 辨一a c t | 行渤共i l i 袈 。场辑事件荚鬟实琢土在知赠2 0 0 0 孛柬出现,擅一菇性蓑系姐在属性擅文辨孛作为属性义原掰翡下垃 结赢寰示,新l ;l 这两种若幕没骞相农扮关系豪。 1 7 ( 2 ) 义派对戍度的诗簿 我们通过上文列举的义原关系,来计算义原的对应度: 冉 s i m ( p l ,p 2 声1 a 十口 p l 和p 2 表示两个义愿,d 悬两个义强在义原树上的距离长度,$ 是一个报据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论