语料库在外语教学研究中的_第1页
语料库在外语教学研究中的_第2页
语料库在外语教学研究中的_第3页
语料库在外语教学研究中的_第4页
语料库在外语教学研究中的_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 语料库在外语教学研究中的语料库在外语教学研究中的 应用及方法应用及方法 潘潘璠璠 计算机辅助语言教学研究所计算机辅助语言教学研究所 华华 中中 科科 技技 大大 学学 外外 国国 语语 学学 院院 2008年年4月月 2 Outline: 1.语料库和建库原则 2.语料库检索方式 3.运用语料库进行外语研究:方法和 实例 4.语料库资源介绍 3 1.语料库和建库原则 语料(corpus),又称为素材,是自然 发生的语言材料(包括书面语和口语) 的集合。 可以用来作为描述一种语言的出发点 或用于证实有关一种语言的假设的手 段(Crystal,1991)。 语料语言学(corpus lingu

2、istics)是 以语篇(text)语料为基础对语言进行 研究的一门学科,是计算语言学的一 个分支。 4 语料库 对语料的处理由较为简单的机器可读形式发展到 人工或自动词性附码(tagging)和句法分析 (parsing)的注释(annotated)形式。 利用语料对语言进行研究的成果已被用于辞典编 纂和语言教学等实际工作中,例如1980年由 Sinclair主持的Cobuild计划。这是Collins出版 公司与Birmingham大学的合作计划。他们搜集了 大量的现代英语口语和书面语素材,逐一分析每 个单词的词汇、语法、语义、语体和语用特点。 根据这些资料,陆续出版了一系列COBUILD

3、词典和 语法等工具书。这些书中的例句取自真实的语言 素材,词典中词的释义排列顺序由语料库中得出 的统计结果来决定,更加客观地反映了英语的使 用情况。此外,词的释义方法更利于英语学习和 教学。因此,受到语言学界和语言教师及学生的 欢迎。 5 语料库建库原则 语料库的主要用途之一是发现语言的主要的和典语料库的主要用途之一是发现语言的主要的和典 型的用法。型的用法。 一般用途语料库的语料随机地取自各种来源,在一般用途语料库的语料随机地取自各种来源,在 语域方面尽量避免偏向,例如语域方面尽量避免偏向,例如BrownBrown语料库在语域语料库在语域 上分为上分为1515个类别(新闻报导、社论、新闻评论

4、、个类别(新闻报导、社论、新闻评论、 宗教、技能和爱好、学术和科技、各类小说和幽宗教、技能和爱好、学术和科技、各类小说和幽 默等等)。默等等)。 语料采集方式最根本的目的在于尽可能保证所采语料采集方式最根本的目的在于尽可能保证所采 集的语料具有代表性,保证所收录的语料最大程集的语料具有代表性,保证所收录的语料最大程 度地涵盖具体语言在诸如语体、语域、地域变体、度地涵盖具体语言在诸如语体、语域、地域变体、 作品年代、作者性别、题材类型等多方面的比例作品年代、作者性别、题材类型等多方面的比例 合理性,进而保证建成后的语料库能囊括具体言合理性,进而保证建成后的语料库能囊括具体言 语行为的普遍规律性。

5、语行为的普遍规律性。 6 语料库建库原则 表1.“英语用法调查”语料库 (I)原始书写语料(100篇) (A)印刷品(46)(B)非印刷品(36) 人文科学6 想象性5 连续书写品 自然科学7 资讯性6 教学6 一般新闻 4 亲密 6 报刊社交书信平等4 专门报导 4 疏远 4 文书4平等 4 非社交书信1 法律3疏远 4 论说文5 日记4 散文小说7 (C)口语(18) 资讯性 4 剧本4 谈话 想象性2 正式演说(经转写) 3 故事2 广播新闻3 7 语料库建库原则 ()原始口说材料(100)篇 有准备的演说(未转写)6 亲密 24 演说 10 不公开 自发言语体育4 疏远 10 评论亲密

6、 20 其他4 交谈可公开 疏远6 亲密 10 电话 疏远6 8 2.语料库检索方式 较为典型的检索工具是较为典型的检索工具是19961996年牛津大学出版社推年牛津大学出版社推 出的出的Mike ScottMike Scott所编制的所编制的WordsmithWordsmith软件包。这软件包。这 套软件不仅提供了套软件不仅提供了词语检索词语检索( (ConcordancingConcordancing) )并共并共 现上下文现上下文的常用功能,还可统计计算出索引单位的常用功能,还可统计计算出索引单位 搭配行为的搭配行为的T T(或(或Z Z)值、信息相关值(即)值、信息相关值(即MIMI:

7、 mutual informationmutual information)和)和x x平方值,并予以列表平方值,并予以列表 显示。它还能快速识别某种文体中经常出现的多显示。它还能快速识别某种文体中经常出现的多 词集合,且提供在整个语料库中对英语教师和英词集合,且提供在整个语料库中对英语教师和英 语学习者具有价值的语言特征。就连传统的关键语学习者具有价值的语言特征。就连传统的关键 词(词(keywordkeyword)功能在)功能在WordsmithWordsmith软件包中也已赋软件包中也已赋 予新用途,如可列选出在特定文本或文体类型中予新用途,如可列选出在特定文本或文体类型中 出现频率特别

8、高的词,以帮助研究者得出某种语出现频率特别高的词,以帮助研究者得出某种语 域或文体的显著词汇特征。域或文体的显著词汇特征。 9 3.3.运用语料库进行外语研究:方法和实例运用语料库进行外语研究:方法和实例 3.1 3.1 分析词语的方法分析词语的方法 3.1.1 3.1.1 不同语域词频差异的调查不同语域词频差异的调查 3.1.2 3.1.2 根据根据搭配调查语义差异搭配调查语义差异 3.1.3 3.1.3 根据搭配调查语义韵差异根据搭配调查语义韵差异 3.2 3.2 学习者中介语的调查学习者中介语的调查 3.2.1 3.2.1 学习者与本族语者之间的对比学习者与本族语者之间的对比 3.2.2

9、 3.2.2 不同母语背景学习者之间的对比不同母语背景学习者之间的对比 3.2.3 3.2.3 不同层次学习者之间的对比不同层次学习者之间的对比 10 3.1 分析词语的方法分析词语的方法 3.1.1 不同语域词频差异的调查 undell就曾利用的口语部分调 查发现:began在书面语中出现的次数几乎 是started的两倍,而在口语中出现的频率 要比started低得多。 11 certain, sure, definite在社会科学和小说中的 频率分布图 不同语域词频差异的调查 12 certain, sure, definite不同语域频率分布差异 在社会科学类文本中,用的最多是在社会科

10、学类文本中,用的最多是certaincertain(1 1 百万词中百万词中359359次),其次是次),其次是definitedefinite(114114次),次), suresure最不常见(最不常见(7474次);而在小说类型的文本次);而在小说类型的文本 中,中,suresure比比certaincertain要常见得多(要常见得多(353353次对次对179179 次),而次),而definitedefinite就极为少见(仅就极为少见(仅1111词次)。词次)。 这说明在表达比较严谨的文本中,更倾向于使这说明在表达比较严谨的文本中,更倾向于使 用用certaincertain和和

11、definitedefinite,而在表达相对自由的,而在表达相对自由的 小说中,较为口语化的小说中,较为口语化的suresure用得更多。不同语用得更多。不同语 域同义词的取舍有一定的指导意义,形成一定域同义词的取舍有一定的指导意义,形成一定 的优先原则。如在社会科学类的文本中,可优的优先原则。如在社会科学类的文本中,可优 先考虑先考虑certaincertain,其次为,其次为definitedefinite;而在小说;而在小说 中,则中,则suresure将是首选,其次才为将是首选,其次才为certaincertain。 13 3.1.2 3.1.2 根据根据搭配调查语义差异搭配调查语义

12、差异: take a job 和和take on a job 1)to pay off, she cannot now take a job paying less than pounds 12,000 a year. 2) iver. He is now leaving totakea job in Brussels as a European commissioner. 3) a kitchen assistant beforetakinga job as a pizza delivery driver 18 months a 4)x years. Three years ago Itoo

13、ka part-time job and have received my tax allow. 5)eir boy to be a lawyer. Hetooka job with the Ministry of the Interior but sp 6)se neuroses. At 16, Mooretook a summer job working on the chassis line at GM 7)er moving to New York, shetooka modeling job and, while doing an ad for Oli 8)block any mov

14、e for him to takeanother job in football.” Little would see a r 14 3.1.2 3.1.2 根据根据搭配调查语义差异搭配调查语义差异: take a job 和和take on a job 观察take a job索引例句的搭配,尤其是 右搭配,发现与它共现的词有: (1)工作类别:as a European commissioner, as a pizza delivery, with the Ministry of the Interior, modeling,in football (2)工作时间:part-time,su

15、mmer (3)工作报酬:paying 由此可以看出,take a job多指“干什么 样的具体工作”,与之相关的有“工作付 多少报酬,工作是全职或兼职”等,核心 意思是“就业”。 15 3.1.2 3.1.2 根据根据搭配调查语义差异搭配调查语义差异: take a job 和和take on a job 同样观察take on a job的索引例句可以看到与 其共现的词语有: (1)工作内容(并非职业):scrapping excess capacity, compiling the electoral register, defending, grain preparation (2)工

16、作压力:stressful job-loads,demanding, stress-loaded (3)无报酬:unpaid 可见,take on a job多表示“把责任赋予某项 工作,不管有无报酬”,其它未在此列出的搭配 词,还有诸如role(s), responsibility/ies, task(s), work, commitment(s), burden(s), challenge(s)等, 它们都显示出take on a job的核心在于“责任”。 16 3.1.3 3.1.3 根据搭配调查语义韵差异:根据搭配调查语义韵差异:cause和lead to cause多与表示疾病多与

17、表示疾病、伤害、不佳情绪、问题、伤害、不佳情绪、问题、 困难等含义的词语一起出现,几乎全含有否定和困难等含义的词语一起出现,几乎全含有否定和 消极的意味,这说明消极的意味,这说明causecause导致的基本都是坏的结导致的基本都是坏的结 果,语义韵特征上倾向于否定和消极果,语义韵特征上倾向于否定和消极。 rash, greater injury, complaint, irritation, severe embarrassment, shortages, initial problems, fluid retention, styling problems, difficulty, fat

18、al problems, all sorts of havoc, anxiety, slowdown in deficiency disease, more violence, later harm, poor weather, a host of problems, terrible damage, heart attack, tension, cancer damage, trouble, sorrow, confusion, lack. 17 3.1.3 3.1.3 根据搭配调查语义韵差异:根据搭配调查语义韵差异:cause和lead to 而对而对lead to lead to 搭配的

19、观察,则没有发现明显的倾搭配的观察,则没有发现明显的倾 向性:向性: 其客体既可是肯定的,如其客体既可是肯定的,如“notable improvement, great successes,permanent opportunities, new developments, professional qualification, improved human health, happiness, formation, specification”等等; 也可是否定的,如也可是否定的,如“loss of life, more problems,unfair advantage and confl

20、ict, immediate withdrawal, drug taking and crime, anxiety attacks, serious problems, water loss and damage, scarring, holes, prosecution increased risk”等等。 就整体分布而言,就整体分布而言, 两者几乎平分秋色。从这一点来看,两者几乎平分秋色。从这一点来看, lead tolead to不存在不存在语义韵语义韵的显著差别,既可引起好的结果,的显著差别,既可引起好的结果, 也可导致坏的结果。也可导致坏的结果。 18 语义韵差异的拓展研究语义韵差异

21、的拓展研究: : A.A.义韵冲突义韵冲突反讽的出现反讽的出现 义韵冲突不仅是非诚意性的信号,也可能义韵冲突不仅是非诚意性的信号,也可能 是反讽出现的标志。因为任一反讽性言语是反讽出现的标志。因为任一反讽性言语 行为的实施过程都存在着非诚意性,非诚行为的实施过程都存在着非诚意性,非诚 意性因而成为判断话语是否具有反讽性的意性因而成为判断话语是否具有反讽性的 主要标尺,所以在一定条件下,义韵冲突主要标尺,所以在一定条件下,义韵冲突- - -非诚意性非诚意性-反讽成立。说话人(作者)反讽成立。说话人(作者) 有时为了实现反讽,会故意违反正常的语有时为了实现反讽,会故意违反正常的语 义韵律,有意打破

22、人们的期待模式,使听义韵律,有意打破人们的期待模式,使听 者(读者)因为惊异于话语语义结构的不者(读者)因为惊异于话语语义结构的不 一致,而推测出说话人的反讽意图。一致,而推测出说话人的反讽意图。 19 A A 义韵冲突义韵冲突反讽的出现反讽的出现 语用学认为,话语具有什么样的言外之力,是否 具有反讽性,须借助语境和言外之力指示手段才 能判断(涂靖,2000:52)。言外之力指示手段之 一就是话语的语义结构中的冲突,即话语中含有 明显违反选择性限制的用词,如例1中的thank 和refuse to help,例2中的congratulate和 stupid。 1I thank you for

23、your refusing to help me. 我感谢你拒绝帮助我。 2I congratulate you on your stupid speech at the meeting. 我祝贺你在会上作出的愚蠢发言。 20 B B 词典编撰词典编撰 语义韵律作为词语语义的一部分,对学习者而言是很语义韵律作为词语语义的一部分,对学习者而言是很 重要的信息,能帮助他们在合适的语境中正确地使用重要的信息,能帮助他们在合适的语境中正确地使用 该词。但学习者赖以获取信息的词典是否提供了这方该词。但学习者赖以获取信息的词典是否提供了这方 面的信息呢?词典中对面的信息呢?词典中对riferife的解释的

24、解释: : Websters1979Websters1979年版年版: :1. prevalent; frequently or commonly occurring; current.2. abundant; plentiful.3. filled; abounding; followed by with. 在牛津现代高级双解词典在牛津现代高级双解词典19881988年版中,年版中,riferife中文释义中文释义 为为 流行的;普遍的流行的;普遍的 ,英文释义为,英文释义为widespread; widespread; commoncommon,此外没有任何附加说明。两部词典的释义,此外没

25、有任何附加说明。两部词典的释义 都没有反映出都没有反映出riferife内含的贬义,使学习者极易误认为内含的贬义,使学习者极易误认为 riferife等同于释义中的等同于释义中的abundantabundant,plentifulplentiful, widespreadwidespread,commoncommon等词,可适用于同样的语言环境。等词,可适用于同样的语言环境。 21 B B 词典编撰词典编撰 利用语料库编撰的Collins COBUILD English Language Dictionary 1987年版才清楚地描述了rife的语义韵律特征: 1.If you say tha

26、t something bad or unpleasant is rife, you mean that it occurs very frequently.2.If a place is rife with something bad or pleasant, it contains a lot of it. 所附的例句更清楚地说明了这一特征: 1.Bribery and corruption in the government service were rife. 2.Graduate unemployment is rife. 同样用语料库编撰的朗文当代英语词典1995年版也以类似 的形

27、式描述了rife的语义韵律特征。 语义韵律在词典编撰 中应该受到越来越多的重视。虽然目前对语义韵律的分析 调查还没有系统化和规范化,相当数量的词语(如provide, impressive,peddle,dealings等)的语义韵律特征在有的 词典中并未进行描述,从而降低了词典对于学习者的指导 作用。 22 3.2 3.2 学习者中介语的调查学习者中介语的调查 中介语对比分析的方法(Contrastive Interlanguage Analysis,Granger 1998) 3.2.1 3.2.1 学习者与本族语者之间的对比学习者与本族语者之间的对比 参照语料库为:英语本族语语料库 对比

28、语料库为:学习者语料库 23 3.2.1 3.2.1 学习者与本族语者之间的对比学习者与本族语者之间的对比 研究实例:非英语专业研究生写作中连接词用法的语料库 调查 研究试图回答以下问题: 在一批最常用的连接词的使用频率和选择倾向方面,国内 非英语专业研究生是否和本族语使用者存在着显著差异? 在使用某个连接词表达语义关系方面,国内非英语专业研 究生是否和本族语使用者存在着显著差异? 本研究分以下步骤:首先,调查20个连接词在两个语料库 中的出现频率,并按频率高低进行排序和比较,以回答第 一个问题。它们分别是:and, because, but, for example, for instanc

29、e, furthermore, however, in addition, in fact,in other words, indeed, nevertheless, not onlybut also, on the other hand, so, then, therefore, though, thus, while。然后,选择位 于句首的And,对其语义关系在两个语料库中的分布差异 进行调查分析,以回答第二个问题。 24 前20位连接词排序和出现频率(每10万词次出现频率) 学习者前20位 频率(%) 本族语前20位 出现频率(%) 1 and 817.5 and 2439.0 2 so

30、 492.5 but 345.0 3 but 188.0 so 197.5 4 because 61.0 then109.6 5 however 30.0 because101.8 6 then29.5 however 69.4 7 while18.5 while 60.9 8 not only, but also 18.0 though 44.0 25 And语义关系的分布比较语义关系的分布比较: 本族语比例学习者比例 增补增补 217%12.0% 因果因果 279%1019.6% 转折转折 3311%611.8% 比较比较 186%12.0% 层进层进 279%1223.5% 引题引题 6

31、020%59.8% 26 And语义关系的分布比较语义关系的分布比较: 增补、因果、转折、比较、层进、引题、原因、说明、增补、因果、转折、比较、层进、引题、原因、说明、 列举、总结列举、总结 0 5 10 15 20 25 abcdefghI Native Learner 27 若需更多细节,可查阅以下文章:若需更多细节,可查阅以下文章: 1.非英语专业研究生写作中连接词用法的语料库调查 现代外语2004年第2期 2.语义韵律的语料库调查及应用研究 当代语言学2003年第2期 3.语料库语言学与外语教学思想的转变 外语学刊2000年第4期 4.语料库规模增长原因探查 外语学刊2004年第3期

32、5.学习者语料库与外语教学和研究 北京第二外国语学院学报2006年第4期 6.语料库研究与外语教材编写 武警指挥学院学报2005年第5期 7.基于语料库的词语差异性特征调查 山东外语教学2000年第4期 8.语料库语言学的最新动态和未来发展趋势 山东外语教学1998年第4期 28 常用语料库网址常用语料库网址 中国学习者英语语料库中国学习者英语语料库 CLEC介绍介绍 在线检在线检 索索 WordSmith Tool 下载下载 在线检索英国国家语料库在线检索英国国家语料库 BNC 英汉平行语料库英汉平行语料库 The Babel English- Chinese Parallel Corpus

33、 台湾中央研究院台湾中央研究院 现代汉语平衡语料库现代汉语平衡语料库 俄国国家语料库俄国国家语料库(俄语)(俄语) Collins Sampler of the Bank of English British National Corpus American National Corpus 29 常用语料库资源链接汇集 2/sweccl/Corpus http:/ 1. BNC-World Simple Search http:/thetis.bl.uk/lookup.html But no more than 50 hits will be displa

34、yed, with a fixed amount of context. 2. Brown, LOB, BNC sampler Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: http:/.hk/concordance/WWWConcappE.htm English: http:/www.lextutor

35、.ca/concordancers/concord_e.html Parallel: http:/.hk/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler http:/www.collins.co.uk/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 30 常用语料库资

36、源链接汇集 4. New BNC interface - VIEW: / 5. Samples (about 2 million words) from the British National Corpus: both written and spoken The Brown Corpus and many others - native, learner. Go to http:/www.lextutor.ca/concordancers/concord_e.html 6. CLEC online concordancing http:/ CLEC收集了

37、包括中学生、大学英语4级和6级、专业英语 低年级和高年级在内的5种学生的语料一百多万词,并对 言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see http:/ nt1.htm 31 语料库书籍推荐: Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Granger, S. et al. (ed

38、s.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies基于语料库的语言对比和翻译 研究. Amsterdam: Rodopi. (外研社引进) Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进) Hunston, Susan. 2002

39、. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 32 语料库书籍推荐: Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University

40、 Press. (外教社引进) Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. (外 教社引进) Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进) Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education语料库与译者培养. Manchester: St. Jerome Publishing. (外研社引进) 33 语料库书籍推荐: 蔡金

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论