




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
英语语料库检索工具的设计理念及其深层化 语料库语言学是在现代语言学中最具有影响力的分支之一,横跨了语言学、计算机科学、认知语言学和应用语言学诸学科,提供了一种新的研究范式。它使语言学家站在了对大规模真实文本的自动化分析的基础上,从而有可能揭示出自然语言的更多规律和复杂性。辛克莱教授认为,“未来的十年中,自动、未标注文本的选择将处于主导地位。道路已经畅通,人们可以使用成套软件,以实时方式,迅速又高效地做大部分工作。对于那些可预见的并经常需要某些注释的项目,在整个语料库中使用工具或许是值得的;可将注释结果储存在数据流中,需要时则与连续文本合并一体。分析采用自动手段时,预先与实时间就不存在原则上的差异差异仅在于策略。对提供一般资源而言,由于要求规模与灵活性,自动+未标注文本+实时之模式很可能会普遍流行”(杨惠中, 2002: 300)。 1 语料库检索工具的概念与功能 按照历史发展的次序,语料库工具可以分为三类: 检索工具(Concordancer); 自动词性标注工具(Tagger); 自动语法标注工具(Parser)。其中,语料库检索工具的历史最悠久、应用范围最广泛、使用频率最高、品种最丰富。语料检索工具的基本功能包括词表(Wordlist)生成、语篇统计、“带语境的关键词”(KWIC)索引、排序、搭配词统计、词语形式统计、主题词提取、词丛统计、联想词统计及重组以及词图统计(杨惠中,2002:167)。其中,“KWIC”和“Wordlist”是语料库检索工具的最基本功能。 2 主流检索工具的功能概述与评析 目前,我国语料库研究者能够从互联网获取的通用性英语语料检索工具已经达10余种,大部分运行于Windows或者DOS环境中,也有少量工具只能运行于Mac或者UNIX平台。笔者对其中最具有代表性的10个检索工具进行了下列评测: (1) MicroConcord: DOS界面,不能鼠标操作; 可以设置检索条件为“大小写敏感”; 可以同时检索多个“关键词”; 可以检索“词”、“词组”、“字符串”; 检索结果只能以纯文本文件(*.txt)的格式保存到磁盘供进一步分析研究; 可以使用通配符“*”; 不能生成词频表(Wordlist); 对检索结果可以通过手工标注进行半自动的排序; 可以对法语、西班牙语、德语等带有重音符号的文本进行检索; 可以实现“关键词的消隐(Zapping)”,以利于快速形成相应的语言测试题;(11)可以按照关键词两侧某个位置上的搭配词对输出结果进行排序;B12 可以半自动地删除检索结果中的某些输出项。 (2) Concapp 3.0: Windows界面,鼠标操作; 支持英语、简体中文、繁体中文、日文的语料; 支持对前缀、后缀的检索; 支持单词、词组和任意字符串的检索; 支持大容量的语料文件; 可以对语料中的词形按照字母进行顺序排序或者按照词频进行排序,并且可以将结果以文本文件的形式输出; 可以对语料进行查找、替换、粘贴、剪切等操作; 可以设置检索结果的“跨距”; 可以对关键词左侧、右侧、或者两侧的“相关词”进行检索; 支持对单个或者多个语料文件的检索;(11)可以把检索的结果以网页格式输出;B12 可以打印检索的结果。 (3) Wordsmith Tools: DOS界面,鼠标操作; 含有多个面向语料库研究的实用工具; 其检索功能由“Concord”子程序来执行; “演示版”的语料检索功能受到极其严重的限制,检索结果最多只能显示25条,更多的输出项则重复显示第25条检索结果; 语料检索的过程中有进度条显示百分比; 可以实现“关键词的消隐”; 可以对搭配词进行一些基础性统计; 可以对由关键词构成的“词丛”进行一些基础性统计; 在进行语料检索时,可以设置为“大小写敏感”; 可以把“关键词”设置为“整词匹配”(即,把关键词作为一个完整单词来处理);B11 总体而言,其语料检索功能相当丰富,最独特而强大的功能在于:对不同语料库或者语料子库之间的一系列关键词进行“词频对比研究”,从而揭示一些跨语域的词频变化规律。 (4) Concordance: Windows界面,鼠标操作; 检索结果可以保存为*.concordance(专用格式)、*.txt(纯文本格式)、或者*.htm(网页格式); 对语料检索之后形成的词表可以有多达11种排序方式:词频升序排序、词频降序排序、词长升序排序、词长降序排序、出现次序排序、以单词方式升序排列、以单词方式降序排列、以字符串方式升序排列、以字符串方式降序排列、以词尾为序排列、以字符尾为序排列; 可以使用“规范化表达式(Regular Expressions)”,例如:将检索条件设置为“the A-Za-z+ of A-Za-z+”,就可以检索出the Carriage of Trees、the Country of Lilliput、the Demands of Nature、the Help of Ladders、the Hogsheads of Wine、the Laws of Hospitality、the Promise of Honour等;也可以使用通配符(*、+、?等); 自动生成词长的直方统计图。 (5) MonoConc:分为MonoConc Pro和MonoConc 1.5两个版本。前者是供语言学研究的高级版本,后者是适合于课堂教学的普通版本。 支持各种语言; 可以使用通配符或者规范化表达式进行单词或者词组的“KWIC”; 可以手工删除不需要的检索输出行; 可以处理无限容量的语料库,也可以实时修改语料库的内容; 能够根据1至3个词跨距以内的某个位置对关键词的搭配词进行排序; 自动统计某个关键词的各个搭配词的频率。(6) Paraconc:是针对平行语料库而设计的。 Windows界面,鼠标操作; 可以使用通配符“*”实现单词或者词组的“KWIC”; 可以处理无限容量的平行语料; 支持各种语言的平行语料库; 可以打印或者保存检索结果为纯文本文件。 (7) Corpus Wizard: Windows界面,鼠标操作; 可以进行“KWIC”检索和“KWOC”检索。“KWIC”就是把关键词左右两侧一定数量的共现词作为语境,有利于研究搭配词;而“KWOC(Key Word Out Of Context)”就是把关键词所在的段落作为“语境”, 有利于在更大范围内的语境分析; 可以对关键词左右两侧跨距5个词以内的搭配词进行词频排序; 可以计算平均词长。 (8) TextSTAT: Windows界面,鼠标操作; 按词频高低顺序对所有的词形进行频数和频率排序(可以选择“对大写字母敏感”); 按字母先后顺序对所有的词形进行频数和频率排序(可以选择“对大写字母敏感”); 按字母逆序对所有的词形进行频数和频率排序(可以选择“大写字母敏感”); 按关键词出现的先后顺序进行“带语境的关键词搜索(KWIC)”(用户可以指定关键词左右两侧的共现词数量); 按关键词右侧搭配词的字母顺序进行“带语境的关键词搜索(KWIC)”(用户可以指定关键词左右两侧的共现词数量); 按关键词左侧搭配词的字母顺序进行“带语境的关键词搜索(KWIC)”(用户可以指定关键词左右两侧的共现词数量); 可以对网页格式(HTML)的文本进行检索; 可以将检索结果以Microsoft Word和Microsoft Excel的格式输出并保存。 (9) Concordancer for Windows 2.0: Windows界面,鼠标操作; 可以形成按照词频高低、按照字母顺序、或者按照词尾字母顺序的词表; 可以使用通配符“*”进行检索,也可以由用户设置“Lemmas表”; 可以自动生成关键词的搭配词频率表; 可以自动删除检索输出项中的重复句子; 可以将检索结果输出为纯文本文件(*.txt)。 (10) TACT(Text Analysis Computing Tools):包括16个相对独立的执行程序,具有全文检索、语境中的关键词检索(KWIC)、词表生成与词频统计、搭配词自动提取、语料比较等强大功能。但是,需要把语料库文件做成TACT可处理的库文件,并进行标注处理,如对语料的分类、作者以及其他信息插入控制码,并在TACT上另外做成一个标注文件。TACT允许对各种变量进行控制索引,并能提供某一索引词或特征在各个变量中的分布,因此可以满足不同的研究需要。TACT可以处理的最大语料容量为1兆字节(杨惠中,2002:193)。 鉴于此,笔者对当今语料检索工具的进一步归纳如下: (1) 商业化方面:商业软件有Monoconc、WordSmith Tools、Corpus Wizard、Microconcord、Conc、Concorder、OCP and Micro-OCP、Concordance;免费软件有Conc 1.7、Free Text Browser、TACT、TextSTAT、Concordancer for Windows。 (2) 操作平台方面: 基于Windows平台的检索工具已经成为主流,基于DOS平台的检索工具也不少;此外,也有基于Macintosh、Unix、Linux三种平台的少量检索工具。 (3) 功能限制方面:能否检索超大规模的语料,能否检索多语种的语料,能否检索对输出结果进行多种排序。 (4) 版本更新方面:“Lexa”到达第7版、“Concordancer for Windows”到达第2版,“Concapp”到达第3版、Corpus Wizard到达1.09版、WordSmith Tools到达第4版、Monoconc到达第1.2版、Concordance到达第3.0版、TextSTAT到达第1.51版。 (5) 附属功能方面:文本合并、格式转换、语料编辑等。 (6) 面向教学方面:面向语言教学的语料检索工具为数不多,仅有“MicroConcord”和“Monoconc”。 (7) 输出格式方面: *.txt, *.xls, *.htm是最便利和最通用的三种保存格式。纯文本格式的检索结果是最基本的,有利于其他软件的进一步处理;“*.xls”电子表格格式的检索结果可以利用“Microsoft Excel”进行各种复杂程度的数值计算与统计;“*.htm”格式的检索结果可以通过“Internet Explorer”浏览器查看,关键词与其他语境词以不同的颜色显示,有利于研究者和学习者的观察。 (8) 平行语料方面:面向平行语料库的检索工具仍然很少。 (9) 通配符与正则表达方面:绝大多数检索工具都不具有丰富的规范表达式,因此很难实现比较复杂的语料检索。(10) 开发方国籍方面: 英国有MicroConcord、WordSmith Tools、Longman MiniConcordancer、Oxford Concordancer Program(OCP) and Micro-OCP、Free Text Browser、Concordance 美国有Conc、Paraconc、Monoconc德国有LEXA、TextSTAT日本有Corpus Wizard 加拿大有Concorder捷克和德国有Concordancer for Windows中国香港有Concapp 总之,从语料检索工具品种与质量来看,英国已经成为该领域最强大的国家,美国和德国则紧随其后。 3 英语语料库检索工具的集成化、语法化与语义化 3.1 集成化是英语语料检索工具从“浅层工具”走向“深层工具”的最直接途径 当前,自动英语词类赋码技术已经基本成熟,许多系统的准确率已达到和超过了96%97%,这样的精确度已经基本达到了实际研究和应用的需要(杨惠中,2002:151)。在采取了基于概率等的各种句法分析技术之后,自动句法赋码技术的准确率也已经达到了80%左右。 然而,当代的英语语料检索工具、词性自动赋码工具、句法自动赋码工具之间在功能上却是各自独立的。语料检索工具对于非赋码型语料,仅仅进行基于词形的检索;词性自动分析工具和句法自动赋码工具的直接功能,也只是对大规模的真实语料进行基于分析的赋码。在语言研究者和外语教学者进行语料检索时,能够运用的检索工具却只有两类:面向非赋码型语料的、不能进行句法检索和语义检索的语料检索工具;可以进行语法检索和语义检索的、面向赋码型语料库的语料检索工具。 毋庸置疑,创建大规模的赋码型英语语料库需要投入大量资金、人力与时间;创建大容量的非赋码型英语语料库却可以大幅度地节省上述三种资源。据此,我们可以看出:现代的英语语料检索工具必须从功能单一的“检索型浅层工具”逐渐发展成为功能集成化的“分析型深层工具”,才能满足对大规模真实语料进行计算机自动处理的需求。诚然,这不仅是一种充分利用现有大型语料库资源的行之有效的途径,而且能够非常有效地解决在语料库语言学研究人员在各个具体领域建设专用语料库时所遇到的巨大的资金、人力、资源的困难。 4.2 语法化是英语语料检索工具实现“深层检索”的最重要条件 语法化就是对语料库内的语篇进行不同层次的语法分析。语法分析一般分为两个层面,即词性附码(tagging)和句法分析(parsing)。词性附码是对库内语篇中的每一个单词按其在句子中的语法功能加注词性编码。句法分析是指对经过词性附码的语料库根据某种特定的语法描述进行语法分析(杨自俭,2002: 557-560)。 现代的英语语料检索工具几乎都是基于词形的浅层检索。但是,从广义的浅层检索来看,英语语料检索工具的浅层检索功能仍然可以大幅度地扩充。例如,检索出一定语料范围或者某个语料库中所有短句(8个词或8个词以下),并且统计出短句在整体文本中的比例。显然,对于文体分析与文体对比而言,诸如此类的语料检索以及统计是非常重要的。然而,几乎所有的英语语料检索工具都没有提供这样的检索功能。 从“检索型浅层工具”向“分析型深层工具”的发展是现代英语语料库检索工具(包括其他语种语料库检索工具)的必然趋势。浅层检索是指,直接对语料进行的“带语境的关键词”检索,或者使用通配符和规范化表达式所进行的检索;深层检索是指,伴随着一定的语法分析和语义分析的语料检索。两者之间的根本区别在于:是否进行了语法分析、语义分析、乃至语篇分析。 4.3 语义化是英语语料检索工具研究与开发中的最艰巨课题 语义层次的语料检索是一个值得研究的问题。从语料库中检索信息不能局限于单词和语法模式的匹配,应该能借助同义词,近义词,词的分类和相关推理等知识,在更深的语义这一级上进行信息检索。例如,要给“机动车辆”这个概念产生上下文索引表,则“小轿车”、“吉普车”、“公共汽车”、“卡车”、“面包车”、“摩托车”等都应该计算在内。自动生成相关的词语匹配模式和确定查询范围对于提高语料库语义信息检索智能度很有作用,需要深入研究探讨(张小衡,石定栩,1998:29-36)。 然而,语义自动标注比词性自动标注更难。所谓语义自动标注就是计算机利用逻辑运算和推理机制,对出现在一定上下文中的词语的义项进行正确的判别和标注。这是世界语言学界的一大难题,因为一词多义是一种最常见的语言现象。 语义分析主要任务是产生语言文本的词汇语义单元和它们之间的依赖关系。语义分析的语言学基础是语义学理论。目前,语义分析技术不如语法分析技术成熟,还有很多问题没有解决(刘颖, 2002: 130)。 清华大学的黄昌宁教授带领他的研究生童翔,从90年开始进行汉语真实文本的自动语义标注的研究,取得了突破性的进展,经检验,自动标注的正确率达93.8%。这一成果引起了世界计算语言学界的关注(候敏,1999: 162)。 尽管汉语语料语义自动标注问题在我国已经得到很好解决,但是英语语料的自动语义标注却有很长的路要走。 4 我国发展自主知识产权的英语语料库检索工具的复杂性、必要性 90年代,面向外语教学的语料库随着计算机网络而迅猛发展,世界各国纷纷建成各种通用和专用语料库。我国语料库建设起步于80年代中期,以上海交通大学建成的科技英语语料库为标志。 目前,还没有一个大家认可的现代汉语语料库或“国家标准现代汉语语料库”,也没有带标语料库,带词形、词法搭配、句法和语义的语料库等等。先进国家不仅国家建立标准库,大学也建库。可我们整个国家都没有,这与我们这样一个泱泱大国不太相称。没有语料库,则基于语料库的信息研究就变成了一句空话。如果再进一步考虑,关于短语结构标注的汉语语料库、汉语的语段库(chunk base)、现代汉语树仓库(tree bank)以及双语语料库等等,更是没有着落。我们应该急起直追,为自然语言理解的研究打好必要的基础(陆汝钤, 2001: 149-171)。 英语语料库方面,上海交通大学建立了400万词的“科技英语语料库”、香港科技大学和广东外语外贸大学联合建立了100万词的“计算机英语语料库”(桂诗春,宁春岩,1997: 139)、上海交通大学和广东外语外贸大学联合建立的100万词的“中国学习者英语语料库(CLEC)”、中国科学院计算机研究所的“英汉句子对齐语料库”(含有180,000 对已对齐的中英文句子)。然而,相比国外语料库建设,我国语料库建设主要面临五个问题: 资金短缺; 工具匮乏; 容量偏小; 共享不够; 人才断层。 总之,我国发展自主知识产权的英语语料检索工具不仅是必要的,也是充满着机遇和挑战的事业。 参考文献 1 桂诗春,宁春岩.语言学方法论M.北京:外语教学与研究出版社,1997. 2 候 敏.计算语言学与汉语自动分析M.北京:北京广播学院出版社,1999. 3 刘 颖.计算语言学M.北京:清华大学出版社,2002. 4 陆汝钤.世纪之交的知识工程与知识科学C.北京:清华大学出版社,2001. 5 杨惠中.语料库语言学导论M.上海:上海外语教育出版社,2002. 6 杨自俭.语言多学科研究与应用C.南宁:广西教育出版社,2002. 7 张小衡,石定栩.面向语料库处理的CDBMS和CSQLJ.当代语言学,1998,(1). The Conceptions of Concordancers for English Corpora and Some Deeper Ideas LI Liang (Faculty of English Language and Culture, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510420, China) Abstract: Corpus linguistics has significantly influenced modern linguistics while the number of English concordancers in the world is already nearly 20. However, the functions of most English-corpora conc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 包车费合同范本
- 富宁商标转让合同范本
- 新入职员工通识培训考试题附答案
- 入学教育心得体会范文12篇
- 执法司法面试题目及答案
- 生态主题公园:2025年沉浸式体验设计与环境融合报告
- 历届托福考试试题及答案
- 2025年山西中小学教师招聘考试模拟试题及答案
- 2025年山西教师资格证考试真题(附答案)
- CN222961424U 一种微生物采样装置 (济南市食品药品检验检测中心(济南市药品不良反应和医疗器械不良事件监测中心))
- 2025年新委托施工简单协议书
- 2025年残联招聘笔试大纲解读与备考指南
- 2025年宜都市总工会公开招聘乡镇工会协理员3人考试参考题库附答案解析
- 2025年社区工作者招聘考试(公共基础知识)试题及答案
- 教研组长经验交流会上教学副校长讲话:抓关键见实效干出值当的组长工作
- 一年级开学第一课(一周常规训练)【课件】
- 2025年云南高考化学真题试卷完全解读(含试卷分析与备考策略)
- 2025-2026学年高一语文开学第一课
- 2025年官方兽医牧运通考试题库附参考答案详解(考试直接用)
- 2025年广西中考英语试卷+答案解析
- 设备维修过程管理课件
评论
0/150
提交评论