人工智能时代语料库短语学考察_第1页
人工智能时代语料库短语学考察_第2页
人工智能时代语料库短语学考察_第3页
人工智能时代语料库短语学考察_第4页
人工智能时代语料库短语学考察_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人工智能时代语料库短语学考察宋丽珏华东政法大学外语学院摘要:语料库短语学是以单语或双语中短语意义单位为基元,基于语料库研究范式进 行语言学的相关研究。在人工智能吋代,语料库也从机读文本小规模集合发展为 语言资源类的大数据集合,语料库短语学的观察对象更为丰富,挖掘更有深度。 从语料库短语学的时代走向、逻辑走向及实践走向来看,语料库短语学更符合时 代要求,研究范式已经突破语言学本身,较为广泛地与信息科学理论相结合。关键词:人工智能;语料库;短语学;自然语言处理;作者简介:宋丽珏(1982),女,讲师,文学博士,从事语料库语言学及翻译 研究。收稿日期:2017-08-04基金:上海市社会科学规划项目

2、“语料库驱动下的汉英法律单位研究” (2016jg009-eyy221)received: 2017-08-04单词一直是语言学理论中最普遍的意义单位。但随着信息技术的不断发展,意义 承载单位的边界不断扩展,语言学家sinclair在20世纪60年代就提岀文本中 承载意义最重要的单位是词语搭配,而非单词。经过近五十年的发展演变,短语 学被确立为语言学的一个专门学科领域,并被应用于语言习得、教学、自然语言 处理等领域山。尤其在人工智能技术(如自然语言处理、机器翻译)的辅助下, 短语学发展已经引起了语言学、翻译学、信息科学等交叉学科的共同关注,其重 要性逐渐凸显。但学界对短语学的研究单位一直存在争

3、议,这使得其发展速度、 深度和广度受限。基于此,厘清短语学的概念内涵和外延是开展进一步研究的基 础。一、短语学发展的时代转向1.传统语言学理论中的短语学 本文所指短语学是基于词项共现频率,以计算机技术和定量分析为重要支撑的 语料库(驱动)短语学,其主要研究对象分为以下两种类型:其一,具有固定或 半固定形式的多词结构,如strong tea, a fel 1 ing of, want to等等;其二,语 法化短语(非语法关系),其特定词项常以特定语法结构出现(如动词hem般 用于被动态)。这里述需注意非连续式多词结构即词项成分之间存在一定距离 (也称为n-gram)的情况。在不同的语言学派中,短

4、语学的地位也存在很大差异。例如,生成语言学派对短 语学关注不多,直至20世纪末,短语学才被重视起来。根据geries的观点,短 语学颠覆了转换生成学派以词为基元的分析生成机制,把单位扩大到模块化组 织,这与自然语言处理中“算式语法及词法"(algorithmic grammar and a lexicon)的核心概念非常相近。而这种研究的发展对认知语言学尤其是构式 语法以及语料库语言学的影响更大。同时,认知语言学构式语法对短语的认识更 接近经典短语学。umgacker就曾指出,多词结构是母语使用者天然的、勿需集 屮注意力就能使用的语言单位。这样的符号单位(多词结构)也是型式与意义的

5、组合,符号单位越稳固地进入语言使用者的语言系统,越被更广泛地使用,反 之亦然。换句话说,母语者是机械地整体调动多词结构,而非分析生成;而短语 学的发展则真正与语料库语言学的发展休戚相关。毫无疑问,语料库是观察短语 共现率和复现率的最佳载体。2.多词单位的语料库分析 目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、 语法标注、句法语义分析,记忆具有上述功能的语料库在语言教学、定量分析、 词汇研究、词语搭配研究、词典编撰、语法研究、语言文化研究、法律语言研究、 作品风格分析、自然语言理解和机器翻译等领域中的应用。语料库语言学是自然 语言计算机处理的一个重要内容3605。由于

6、强调的重心不同,不同的学者倾向 用不同表达式来指称多词结构(短语),如lewis选用"lexical chunks"(词 汇组块),nattinger 选用"lexical phrases” (词汇短语),cowie 选用 uready-made complex units” (预制复合单位),pawley 和 syndey 则选用 "lexical ized sentence stems”(词汇化句干),除此之外还有"chunk”(语 块)、"semi-fixed patterns”(半固定式短语)、"speech fon

7、nuleitc”(言 语程式)等等。语料库语言学中的短语单位研究一般采用语料库驱动的研究方法,采用概念界 定一建库一工作方法确认一多词结构提取一从语言学层面分析(语法层面、语义 层面、语用层面)一功能聚类(概念功能、谋篇功能、人际功能)。随着自然语 言处理技术的不断成熟,语料库驱动的短语单位研究已经突破了单纯的语言研 究领域。在cnki中以语料库及短语学作为关键词检索,调整阈值为6后进行共 现分析,结论如图1所示:机器翻译自然i处理词语料库语.词块图中的圆圈大小代表语料数量。从中不难看出,语料库短语学研究目前活跃的领 域已经扩展至自然语言处理、机器翻译及中文信息处理范畴,这既是对经典短语 学的

8、延伸,也是对语料库语言研究的发展。语料库短语研究还对优化自然语言处 理领域中双语对齐算法的鲁棒性和稳定性提供了数据支持。以往传统双语文本对 齐是采用“分析一分析一匹配”的方法,先对某种语言文本的句子进行句法分 析或多层句法分析,并利用启发式过程对两种语言的每一对句子、短语进行对齐 从而得到短语对齐的双语系统。利用语料库方法进行对齐、机器翻译训练,则采 用共现频率的统计信息来进行短语对齐,也就是通过短语在整个库屮的共现情 况来发掘对应信息。短语翻译对的研究不但是机器翻译课题中的一个重要环节,也是自然语言处理 中亟待解决的问题。多年来,研究者一育致力于在句子对齐和词汇对齐的基础上 进行双语语料库的

9、短语对齐加工,其目的也就是为了获取翻译短语对。但是,现 行的短语对齐方法在处理像汉一英这样具有异构语法体系的语言时,会遇到很 多问题。例如:np 1 this problem vp 1 doesn1 t have np ar 1 i i,.-np1 这个 问题v?1vp回答 起来ap不1图2短语对齐实例下载原图在图2的汉一英双语句对中,中括号标出的是两个句子的短语型句法分析结构, 细实线表示的是其中的词汇对应关系。使用一般的“分析一分析一匹配”的对齐 策略,可以得到短语翻译对np1 this problem <=>np1这个问题。但是ap不 容易这个短语就很难在英语句子中找到与之对

10、应的英语译文,其原因是汉语单 词“不”与英语句子vp1屮的doesn' t相对齐,而“容易”与英语句子屮np 中的easy相对齐。很明显,在英语句子中很难找到ap不容易的准确对应译文。 在“分析一分析一匹配”策略中,整个对齐过程受单语句法分析精度、词对齐结 果及双语语法体系不一致性的制约,因而效果较差。在当前nlp领域(包括机器翻译)对于短语对齐效果普遍认可的方式当属基于 译文等价树的汉一英短语对齐,其主要工作流程如下:首先,对源语言句子进行词性标注,对目标语句子进行词性标注;其次,使用词对齐工具对双语句对进行 词对齐;使用句法分析器对源语言句子进行句法分析;以源语言句法树、目标语句

11、子和词对齐结果为基础建立译文等价树;从译文等价树中抽取短语翻译对。整个 过程如文后图3所示。短语对齐的机器翻译系统训练在译文准确性上明显高于词对应的机器翻译训练, 且在基于译文等价树的抽取方法去获取短语翻译对时,其效果要好于“分析一 分析一兀配”策略。其原因在于,在“分析一分析一匹配”策略中,整个对齐过 程要受到目标语句法分析精度和双语语法体不一致性的制约,所获取短语对的 质量较低;在基于译文等价树的方法屮,对齐结果不受目标语句法分析精度和双 语语法体系不一致性的制约,因而效果较好,实验证明可以达到80. 97%o这也 是短语学应用于nlp实践领域的重要意义所在。语料库短语学汲取了大量nlp

12、领域的原理和运算以拓展其理论疆界并开发更符合短语学的操作方式,在这样 的背景下,伴随着语料库语言学研究的不断成熟,对比短语学应运而生,这也 是对比语言学与短语学在新的学术语境和技术环境下发展延伸的必然结果。二、短语学的逻辑走向1. 对比短语学的要旨和方法对比短语学以探索跨语言对应意义单位(corresponding units of meaning)为 要旨,是基于双语语料库的真实语言使用证据进行跨语言意义单位的对应研究。 意义单位即“词项” (lexical item),其研究范式打破了以单个词为核心的基 本结构,是由语用(交际目的)决定的多词单位。对比短语学是语料库语言学由 单语语料库(m

13、onolingual corpora)研究向双语和多语语料库(multilingual corpora)研究发展催牛岀的研究方向,是传统对比语言学与短语学在新的学术 语境下发展的必然结果。对比短语学旨在发现和描述对应或对等的跨语言意义单 位,通过观察、比对双语词语的组合行为异同,尤其是比对词语的形式、意义和 功能特征异同,确立跨语言交际中使用的多词意义单位。它与翻译研究、对比语 言研究、计算机辅助翻译研究和语言教学研究关系密切,可望为这些领域提供有 价值的理论借鉴与方法参照。其主要的学术理念与方法都根植于sinclair提出 的意义单位理论与语料库驱动的方法论思想。对比短语学研究所使用的语料库

14、涉及两类:其一是可比语料库(comparable corpora),其二是平行语料库(parallel corpora)。用丁对比研究时,可比 语料库与平行语料库优势互补,两者缺一不可。可比语料库的优势在于其真实的 语言特征,但双语文木间未建立起连接,缺乏直接、可观察的形式对应,研究者 需要借助其他手段(如双语词典或个人经验)确定合适和可行的被比对象。而平 行语料库的译语文本和原语文本已经建立连接,双语形式的对应直观易见,便 于确定被比对象并进行量化信息处理。因此在研究时应将两种语料库结合使用。 语言交际过程中的共选是对比语言学的重要理论支撑,扩展意义单位是其主要 的工作模型。"共选

15、” (co-selection)是sinclair根据单语语料库研究提出 的,是指形式与形式、形式与意义、形式与功能之间的内在关系。扩展意义单位 是语料库驱动的短语学的工作模型。根据sinclair的观点,扩展意义单位共有 5个构成成分:节点词、语义韵、搭配、语义趋向和类联接。其中,类联接是节 点词语法关系的抽象,而语义趋向是对搭配词语义特征的抽象,在分析比较研 究对象及其英文对应语时应考虑到这两个因素。在一般翻译单位对应研究屮,主要利用altenberg (1999)提出的相互对应率计 算词语的互译概率,探讨其对应关系。具体方法包括:(1)语言a译为语言b 过程中词汇x产生的翻译对等y极其概

16、率;(2)考虑y在语言b译为语言a过程 中产牛的翻译对等x及其概率;(3)利用相互对应率公示计算x与y的对应程度, 考察并确定对应关系。为了说明工作方法的操作性,本文采用一个自建的(汉英)政治文本平行语料 库(political texts parallel corpus,以下简称 ptpc),其中包括 20092016年政府工作报告全文,以及20092017年中国政府白皮书 (总库容207万形符)。与此同时,还采用一个在线可比语料库,库容4亿形符 的美国当代国家语料库(corpus of contemporary american english,以下简 称coca),该语料库也被认定为全球

17、最大的英文可比语料库。按照以上工作步 骤,本文将分析几个高频多词单位的汉英双语对应情况,包括“社会主义现代 化建设”“忧患意识”“全面深化改革” o2. 多词单位的双语对应率研究上述三个多词单位是具有典型社会主义话语体系特征的语词,在ptpc中检索亦 属于高频出现的多词单位。其中“社会主义现代化建设” (20次)、忧患意识 (16次)、“全面深化改革”(15次)。值得注意的是,三个单位具有不同的组 成结构:“社会主义现代化建设”属于术语结构,即固化表达;“忧患意识”是 偏正结构的短语,属于常见单位;“全面深化改革”属于一般祈使结构单位。在 机器分词时就极易出现错误,比如“社会主义现代化建设”的

18、分词效果可以有 如下两种:(1)社会主义/现代化/建设;(2)社会主义/现代化建设。这些都会 给机器学习和机器翻译带来歧义。因此就需要从人工角度进行算法和平行训练数 据,也就是基于平行语料库进行精确的对应单位确认。主要考察汉译英翻译复现 对等情况、英译汉翻译复现对等情况、英汉汉英相互对应率。以上述三个多词结构为例,首先,需要考察的是汉译英过程中产牛的复现翻译 对等,“社会主义现代化建设”在ptpc中出现了 20次,全部翻译为sociallist modernization,类符数为1;复现翻译对等共使用20次,是为形符数,占全部 翻译对等形符数的100% (20/20)。由此可以认定“社会主义

19、现代化建设”与 sociallist modernization在结构层级上呈现短语对短语的结构对等,词语层 级上呈现一对一的简单对应关系,数据轮廓及其对应关系解释,“社会主义现 代化建设”类型的术语固化结构在汉译英过程中亦译为短语的倾向性极强。“忧 患意识”则不同,在ptpc中出现了 16次,10次被译为be mindful of potential perils and crises/dangers/adversity (62.5%) , 4 次被译为 awareness of potential dangers/latent problems (25%) , 2 次被译为 awarene

20、ss of potential dangers (12.5%),类符数为3。根据数据轮廓和对应关系可以看出, 在译文中 be mindful of+ (potential dangers/latent problems/adversity/crises)是与“忧患意识”具有较强对应度的结构,其中 be mindful of是固定部分,也恰对应“忧患意识”这个偏正结构中的核心词“意识” o而“忧患”则并未固定,具有多个对应表达形式。"全面深化改革”在ptpc中出现了 15次,7次被译为comprehensively deepen reform and opening up (46.7%

21、) ;5 次被译为 bu订d a moderately prosperous socicty in all rcspccts and deepening reform and opening up (33.3%) , 2 次被译为 intensify reform in all respects (13. 3%) , 1 次译为 deepen reform across the board (6%),类符数为4。根据数据轮廓来看以及对应关系看,“全 面深化改革”的英文对应单位均为短语结构,但最高频率对应型式仍未超过 50%,因此需要进一步考察其英译汉过程屮产生的复现翻译对等,如下文表1所 示:

22、表1多词单位英汉汉英对应数据表下载原表汉译英翻译对等数据(ptpc汉语原文英译文comprehensively deepen re: opening up全面深化改革build a moderately prospero ty in all respects and deep< fomi and opening upintensify reform in all tespedeepen refonn across the b(为了进一步测量和评估双语多次单位的对应程度,需要引入相互对应率概念及 算法来处理出数据。计算公式如下:(a+b, )* 100moas+bsmc即为相互对应率,a,

23、和bt分别代表词语单位a和词语单位b在译文文木中出 现的频数,入和比分别代表a和b在原文文本中出现的频数。根据该公式,可以 计算出“全面深化改革”与各个译文对应单位的相互对应率。相互对应率越高越 有可能是跨语言的对应单位。如下文表2所示:表2相互对应率数据下载原表对应单位comprehensively de and opening up build a moderateh“全面深化改革”与j society in all respec ening refomi and opintensify reform in e deepen reform acros由上可见,"全面深化改革”与

24、comprehensively deepen reform and opening up相互对应率为91%,呈现强对应,最弱的对应型式是deepen reform across the boardo可以发现与"全面/eidv深化/v改革/n”对应的 comprchcnsivcly/eidv dccpcn/v reform and opening up/rm 在结构上完全对应, 这也缘于中国特色社会主义话语体系中的半固化表达多采用归化翻译对应型式。 值得注意的是,这样固化程度高的语言表达为机器学习和机器翻译的训练提供 了有力保障,但若探讨对应型式的准确性,则需要从关键词搭配及扩展意义单

25、 位两个方面进行考察。3. 多词单位的最佳翻译对应单位考察为了进一步说明确认对应单位的步骤,本文选取政治文本屮经常出现的具有人 际功能的偏正结构短语“认真落实”为例进行说明。根据ptpc检索,“认真落 实”后所跟随的搭配词为政策、措施及各类正式文件,乂由于政治文本中多无主 分句的特点,“认真落实”左边-般无搭配词,以下表3为随机抽取的检索行:表3 “认真落实”随机检索行下载原表认真落实和完善支持小型微型企业和个体1 认真落实对农产品批发市场、集贸市场、社£ 认真落实西部大开发新十年的政策措施。( 认真落实中央支持少数民族和民族地区发月 认真落实国务院关于鼓励引导民间投资新:按照前文提

26、到的初似对等单位的确认步骤,可以得到频数大于2的5个初似对等单位,如下文表4所示:认 真 落 实conscientiously implement fully implement diligently implement implement in earnest caity out in earnest在机器进行自动匹配时,很容易依频数比例将conscientiously implement标记 为最佳翻译对应单位。为了确定该表达是否可靠,需要利用可比语料库进行验 证。在coca中对conscientiously implement进行检索,观察其搭配和类连接, 发现其频数为0,表明母语表达者

27、中无人使用。而频数第二高的初似对应单位 fully implement检索显示有98条结果。同时,以implement为关键词的副词 搭配检索中得到,常见搭配按照频数大小依次为fully (98)、effectively (97) 、 successfully (80) 、 actually (46) 、 quickly (31) 、 immediately (20) 、 properly (13) 、 carefully (10) 、 consistently (9) 、 efficiently (9)、fai thful ly (9)。在提取随机行后进行比较,发现fully impleme

28、nt通 常用于vn类联接屮,左侧都出现了主语成分,均为fully implement的施事主 语。值得注意的是,fully implement与“认真落实”搭配词语义近似程度高, 11 agreement, law, initiative, specifications 均表示正式的规定、政策、 措施或法律文件,与“认真落实”的语义趋向高度相似。根据标准的语料库语言 学检验步骤,对比关键词的搭配、类连接、语义趋势可以确定fully implement 是“认真落实”的最佳对应单位。三、短语学的实践走向1.自然语言处理(nlp)自然语言处理一直被认为是人工智能的重要分支,旨在建立一种理解、生成语

29、言 的自动系统。当前的nlp研究提倡建立语料库,使用机器学习的方法,让计算机 自动地从浩如烟海的语料库中获取准确的语言知识回12。这也是nlp的热点之 一,只要具备精度高的大规模训练语料库,即使研究者不懂相关语言,仍可以 使用自动分析软件得出正确的分析结果。这与短语学发展所依赖的语料库基础不 谋而合。同吋,般认为nlp主要分为两个组成部分:自然语言理解(nlu)及自 然语言生成(nlg)。从结构上讲,nlu主要解决的是词法歧义、句法歧义、语 义歧义以及回指歧义,这与人类语言理解的方式相吻合。而随着短语学的不断发 展,语言学家发现多词单位(也称作“语块”等)是整体储存在母语者大脑中 的语言结构,

30、在使用时会被整体调用。这种具有短语倾向的语言学研究也影响到 自然语言处理,即自然语言中充满歧义,解决这个问题不仅与概率和结构有关, 还与短语特性有关。正如wray所说:“语块是一串预制的连贯或不连贯的词或其 他意义单位,它整体存储在记忆中,使用时直接提取,其形式可以原封不动或 是稍作改变。”凹词法歧义性一直是nlp处理的一个难点,从短语学角度分析 单词都不具备独立含义,而只有在考察其搭配、类联接选择、语义趋向和语义韵 之后才可以确定其含义和使用情况。也就是说,理解语义的最普遍单位实际上并 非是单词而是多词,而词法消歧又会影响到句法消歧和语义消歧。因此,多词单 位的准确理解就直接影响自然语言处理

31、的效果和准确性,这主要体现在nlp中 词义消歧方法中的自立方法(stand-alone approach)上。与语料库短语学联系紧密之处在于,这种方法不需要制定规则,而是词类标注 来工作,最大限度地降低提供的信息量,从而做到“自立” (skin d-alone)。 这是一种对系统进行训练使其具备自行消歧功能的方法。进行词义消歧的称为目 标词(target word),与之形成上下文关系的语言学特征包括搭配特征和共现 特征。其训练流程体现为以多词为中心代替以单词为中心对其上下文进行编码。 例如:“我们要准确判断形势,保持清醒头脑,增强忧患意识,做好应对风险的 准备。”这里取“忧患意识”左右两个词

32、及词性标记为特征向量,搭配特征标注 如下:增强,vvb,忧患意识,nn1,做好vvb这样的标注需要与共现特征结合起来,特征的值即出现在中心短语周围的次数。 如果使用垂直领域语料库训练效果更好,如木文提到的pt-pc结合bcc。通过随 机检索行的观察,在政治语体中与“忧患意识”同吋岀现的9共现(多)词是: 强烈的、(没)有、危机意识、责任意识、强化、加强、居安思危、民族、国民。 我们以这9个词为窗口,在上述例子“保持清醒头脑,增强忧患意识,做 好应对风险的准备”中,这9个共现词的特征向量为(增强出现1次,其余为0 次):0, 0, 1, 0, 0, 0, 0, 0根据这样的向量,完全可以确定“忧

33、患意识”的具体含义及其岀现的具体语境。2.机器翻译语料库短语学影响的另一个实践领域就是狭义的机器翻译训练。机器翻译系统训 练有很多种方式,随着计算机技术不断成熟和语料库语言学的不断发展,基于 语料库的训练方法已经得到广泛应用。基于语料库的机器翻译训练下分两种方式: 基于统计的机器翻译和基于实例的机器翻译。值得注意的是两者的区别,在基于统计的机器翻译方法中,知识的表示仅是统 计数据,而不是语料库木身;翻译知识的获取是在翻译之前完成,在翻译的过程 中一般不再使用语料库。在基于实例的机器翻译方法中,双语语料库本身就是翻 译知识的一种表现形式(不一定是唯一的),翻译知识的获取在翻译之前没有 全部完成,

34、在翻译过程中述要查询并利用语料库3649。同时也存在基于语料库 的方法和基于规则的方法同时采用的机器翻译系统训练方法。无论何种方式,只 要是基于语料库的机器翻译训练势必与语言模型训练数据的规模和精确度相关, 也就是说训练的语料库规模越犬机器翻译的精度越高。日本机器翻译专家长尾真 (nagao makoto)曾指出,人类并不通过做深层的语言学分析來进行翻译,人类 的翻译过程是首先把输入的句子正确地分解为一些短语碎片,接着把这些短语 碎片翻译成其他语言的短语碎片,最后再把这些短语碎片构成完整的句子,每 个短语碎片的翻译是通过类比的原则来实现的,也就是“通过类比来进行翻 译” (translation by analogy)。这是基于实例的机器翻译训练的原理,也恰 恰是对短语学原理的进一步印证和实践。基于实例的机器翻译过程一般可分为三个阶段:匹配(matching)、对齐 (a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论