




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,语料库在外语教学研究中的应用及方法潘璠计算机辅助语言教学研究所华 中 科 技 大 学 外 国 语 学 院2008年4月,2,Outline:1.语料库和建库原则2.语料库检索方式3.运用语料库进行外语研究:方法和实例4.语料库资源介绍,3,1.语料库和建库原则,语料(corpus),又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。 可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段(Crystal,1991)。 语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学的一个分支。,4,语料库,对语料的
2、处理由较为简单的机器可读形式发展到人工或自动词性附码(tagging)和句法分析(parsing)的注释(annotated)形式。 利用语料对语言进行研究的成果已被用于辞典编纂和语言教学等实际工作中,例如1980年由Sinclair主持的Cobuild计划。这是Collins出版公司与Birmingham大学的合作计划。他们搜集了大量的现代英语口语和书面语素材,逐一分析每个单词的词汇、语法、语义、语体和语用特点。根据这些资料,陆续出版了一系列COBUILD词典和语法等工具书。这些书中的例句取自真实的语言素材,词典中词的释义排列顺序由语料库中得出的统计结果来决定,更加客观地反映了英语的使用情况
3、。此外,词的释义方法更利于英语学习和教学。因此,受到语言学界和语言教师及学生的欢迎。,5,语料库建库原则,语料库的主要用途之一是发现语言的主要的和典型的用法。 一般用途语料库的语料随机地取自各种来源,在语域方面尽量避免偏向,例如Brown语料库在语域上分为15个类别(新闻报导、社论、新闻评论、宗教、技能和爱好、学术和科技、各类小说和幽默等等)。 语料采集方式最根本的目的在于尽可能保证所采集的语料具有代表性,保证所收录的语料最大程度地涵盖具体语言在诸如语体、语域、地域变体、作品年代、作者性别、题材类型等多方面的比例合理性,进而保证建成后的语料库能囊括具体言语行为的普遍规律性。,6,语料库建库原则
4、,表1.“英语用法调查”语料库 (I)原始书写语料(100篇) (A)印刷品(46)(B)非印刷品(36) 人文科学6 想象性5 连续书写品 自然科学7 资讯性6 教学6 一般新闻 4 亲密 6 报刊社交书信平等4 专门报导 4 疏远 4 文书4平等 4 非社交书信1 法律3疏远 4 论说文5 日记4 散文小说7 (C)口语(18) 资讯性 4 剧本4 谈话 想象性2 正式演说(经转写) 3 故事2 广播新闻3,7,语料库建库原则,()原始口说材料(100)篇 有准备的演说(未转写)6 亲密 24 演说 10 不公开 自发言语体育4 疏远 10 评论亲密 20 其他4 交谈可公开 疏远6 亲密
5、 10 电话 疏远6,8,2.语料库检索方式,较为典型的检索工具是1996年牛津大学出版社推出的Mike Scott所编制的Wordsmith软件包。这套软件不仅提供了词语检索(Concordancing)并共现上下文的常用功能,还可统计计算出索引单位搭配行为的T(或Z)值、信息相关值(即MI:mutual information)和x平方值,并予以列表显示。它还能快速识别某种文体中经常出现的多词集合,且提供在整个语料库中对英语教师和英语学习者具有价值的语言特征。就连传统的关键词(keyword)功能在Wordsmith软件包中也已赋予新用途,如可列选出在特定文本或文体类型中出现频率特别高的词
6、,以帮助研究者得出某种语域或文体的显著词汇特征。,9,3.运用语料库进行外语研究:方法和实例 3.1 分析词语的方法 3.1.1 不同语域词频差异的调查 3.1.2 根据搭配调查语义差异 3.1.3 根据搭配调查语义韵差异 3.2 学习者中介语的调查 3.2.1 学习者与本族语者之间的对比 3.2.2 不同母语背景学习者之间的对比 3.2.3 不同层次学习者之间的对比,10,3.1 分析词语的方法,3.1.1 不同语域词频差异的调查 undell就曾利用的口语部分调查发现:began在书面语中出现的次数几乎是started的两倍,而在口语中出现的频率要比started低得多。,11,certa
7、in, sure, definite在社会科学和小说中的 频率分布图,不同语域词频差异的调查,12,certain, sure, definite不同语域频率分布差异,在社会科学类文本中,用的最多是certain(1百万词中359次),其次是definite(114次),sure最不常见(74次);而在小说类型的文本中,sure比certain要常见得多(353次对179次),而definite就极为少见(仅11词次)。这说明在表达比较严谨的文本中,更倾向于使用certain和definite,而在表达相对自由的小说中,较为口语化的sure用得更多。不同语域同义词的取舍有一定的指导意义,形成一
8、定的优先原则。如在社会科学类的文本中,可优先考虑certain,其次为definite;而在小说中,则sure将是首选,其次才为certain。,13,3.1.2 根据搭配调查语义差异: take a job 和take on a job,14,3.1.2 根据搭配调查语义差异: take a job 和take on a job,观察take a job索引例句的搭配,尤其是右搭配,发现与它共现的词有: (1)工作类别:as a European commissioner,as a pizza delivery, with the Ministry of the Interior, mode
9、ling,in football (2)工作时间:part-time,summer (3)工作报酬:paying 由此可以看出,take a job多指“干什么样的具体工作”,与之相关的有“工作付多少报酬,工作是全职或兼职”等,核心意思是“就业”。,15,3.1.2 根据搭配调查语义差异: take a job 和take on a job,同样观察take on a job的索引例句可以看到与其共现的词语有: (1)工作内容(并非职业):scrapping excess capacity, compiling the electoral register, defending, grain
10、preparation (2)工作压力:stressful job-loads,demanding,stress-loaded (3)无报酬:unpaid 可见,take on a job多表示“把责任赋予某项工作,不管有无报酬”,其它未在此列出的搭配词,还有诸如role(s), responsibility/ies, task(s), work, commitment(s), burden(s), challenge(s)等,它们都显示出take on a job的核心在于“责任”。,16,3.1.3 根据搭配调查语义韵差异:cause和lead to,cause多与表示疾病、伤害、不佳情绪
11、、问题、困难等含义的词语一起出现,几乎全含有否定和消极的意味,这说明cause导致的基本都是坏的结果,语义韵特征上倾向于否定和消极。 rash, greater injury, complaint, irritation, severe embarrassment, shortages, initial problems, fluid retention, styling problems, difficulty, fatal problems, all sorts of havoc, anxiety, slowdown in deficiency disease, more violence
12、, later harm, poor weather, a host of problems, terrible damage, heart attack, tension, cancer damage, trouble, sorrow, confusion, lack.,17,3.1.3 根据搭配调查语义韵差异:cause和lead to,而对lead to 搭配的观察,则没有发现明显的倾向性: 其客体既可是肯定的,如“notable improvement, great successes,permanent opportunities, new developments, profess
13、ional qualification, improved human health, happiness,formation, specification”等; 也可是否定的,如“loss of life, more problems,unfair advantage and conflict, immediate withdrawal, drug taking and crime, anxiety attacks, serious problems, water loss and damage, scarring, holes, prosecution increased risk”等。
14、就整体分布而言, 两者几乎平分秋色。从这一点来看,lead to不存在语义韵的显著差别,既可引起好的结果,也可导致坏的结果。,18,语义韵差异的拓展研究:,A.义韵冲突反讽的出现 义韵冲突不仅是非诚意性的信号,也可能是反讽出现的标志。因为任一反讽性言语行为的实施过程都存在着非诚意性,非诚意性因而成为判断话语是否具有反讽性的主要标尺,所以在一定条件下,义韵冲突-非诚意性-反讽成立。说话人(作者)有时为了实现反讽,会故意违反正常的语义韵律,有意打破人们的期待模式,使听者(读者)因为惊异于话语语义结构的不一致,而推测出说话人的反讽意图。,19,A 义韵冲突反讽的出现,语用学认为,话语具有什么样的言外
15、之力,是否具有反讽性,须借助语境和言外之力指示手段才能判断(涂靖,2000:52)。言外之力指示手段之一就是话语的语义结构中的冲突,即话语中含有明显违反选择性限制的用词,如例1中的thank 和refuse to help,例2中的congratulate和stupid。 1I thank you for your refusing to help me. 我感谢你拒绝帮助我。 2I congratulate you on your stupid speech at the meeting. 我祝贺你在会上作出的愚蠢发言。,20,B 词典编撰,语义韵律作为词语语义的一部分,对学习者而言是很重要
16、的信息,能帮助他们在合适的语境中正确地使用该词。但学习者赖以获取信息的词典是否提供了这方面的信息呢?词典中对rife的解释: Websters1979年版:1. prevalent; frequently or commonly occurring; current.2. abundant; plentiful.3. filled; abounding; followed by with. 在牛津现代高级双解词典1988年版中,rife中文释义为流行的;普遍的,英文释义为widespread; common,此外没有任何附加说明。两部词典的释义都没有反映出rife内含的贬义,使学习者极易误认为
17、rife等同于释义中的abundant,plentiful,widespread,common等词,可适用于同样的语言环境。,21,B 词典编撰,利用语料库编撰的Collins COBUILD English Language Dictionary 1987年版才清楚地描述了rife的语义韵律特征:1.If you say that something bad or unpleasant is rife, you mean that it occurs very frequently.2.If a place is rife with something bad or pleasant, it
18、 contains a lot of it.所附的例句更清楚地说明了这一特征: 1.Bribery and corruption in the government service were rife. 2.Graduate unemployment is rife. 同样用语料库编撰的朗文当代英语词典1995年版也以类似的形式描述了rife的语义韵律特征。 语义韵律在词典编撰中应该受到越来越多的重视。虽然目前对语义韵律的分析调查还没有系统化和规范化,相当数量的词语(如provide, impressive,peddle,dealings等)的语义韵律特征在有的词典中并未进行描述,从而降低了词
19、典对于学习者的指导作用。,22,3.2 学习者中介语的调查,中介语对比分析的方法(Contrastive Interlanguage Analysis,Granger 1998) 3.2.1 学习者与本族语者之间的对比 参照语料库为:英语本族语语料库 对比语料库为:学习者语料库,23,3.2.1 学习者与本族语者之间的对比,研究实例:非英语专业研究生写作中连接词用法的语料库调查 研究试图回答以下问题: 在一批最常用的连接词的使用频率和选择倾向方面,国内非英语专业研究生是否和本族语使用者存在着显著差异? 在使用某个连接词表达语义关系方面,国内非英语专业研究生是否和本族语使用者存在着显著差异? 本
20、研究分以下步骤:首先,调查20个连接词在两个语料库中的出现频率,并按频率高低进行排序和比较,以回答第一个问题。它们分别是:and, because, but, for example, for instance, furthermore, however, in addition, in fact,in other words, indeed, nevertheless, not onlybut also, on the other hand, so, then, therefore, though, thus, while。然后,选择位于句首的And,对其语义关系在两个语料库中的分布差异进行
21、调查分析,以回答第二个问题。,24,前20位连接词排序和出现频率(每10万词次出现频率),25,And语义关系的分布比较:,26,And语义关系的分布比较:增补、因果、转折、比较、层进、引题、原因、说明、列举、总结,27,若需更多细节,可查阅以下文章:,1.非英语专业研究生写作中连接词用法的语料库调查 现代外语2004年第2期 2.语义韵律的语料库调查及应用研究 当代语言学2003年第2期 3.语料库语言学与外语教学思想的转变 外语学刊2000年第4期 4.语料库规模增长原因探查 外语学刊2004年第3期 5.学习者语料库与外语教学和研究 北京第二外国语学院学报2006年第4期 6.语料库研究
22、与外语教材编写 武警指挥学院学报2005年第5期 7.基于语料库的词语差异性特征调查 山东外语教学2000年第4期 8.语料库语言学的最新动态和未来发展趋势 山东外语教学1998年第4期,28,常用语料库网址,中国学习者英语语料库 CLEC介绍 在线检索 WordSmith Tool 下载 在线检索英国国家语料库 BNC 英汉平行语料库 The Babel English-Chinese Parallel Corpus 台湾中央研究院 现代汉语平衡语料库 俄国国家语料库(俄语) Collins Sampler of the Bank of English British National Co
23、rpus American National Corpus,29,常用语料库资源链接汇集,2/sweccl/Corpus 1. BNC-World Simple Search http:/thetis.bl.uk/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler Here are a few links for searching corpora online, includin
24、g monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: .hk/concordance/WWWConcappE.htm English: http:/www.lextutor.ca/concordancers/concord_e.html Parallel: .hk/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler http:/www
25、.collins.co.uk/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.,30,常用语料库资源链接汇集,4. New BNC interface - VIEW: / 5. Samples (about 2 million words) from the British National Corpus: both writte
26、n and spoken The Brown Corpus and many others - native, learner. Go to http:/www.lextutor.ca/concordancers/concord_e.html 6. CLEC online concordancing CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see ,31,语料库书籍推荐
27、:,Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Granger, S. et al. (eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies基于语料库的语言对比和翻译研究. Amsterdam: Rodopi. (外研社引进) Gries, Stefan Thomas. 2004. M
28、ultifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进) Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进),32,语料库书籍推荐:,Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进) Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. (外教社引进) Thomas, Jenny & Mick Short.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国(甲基)丙烯酸异冰片酯数据监测报告
- 2025至2030年中国高压高温高速溢流染色机市场分析及竞争策略研究报告
- 2025至2030年中国锯条辊压机市场分析及竞争策略研究报告
- 2025至2030年中国邻溴苯乙腈市场分析及竞争策略研究报告
- 2025至2030年中国衬线市场分析及竞争策略研究报告
- 2025至2030年中国聚苯颗粒用砂浆市场分析及竞争策略研究报告
- 2025至2030年中国立式外加压叶滤机市场分析及竞争策略研究报告
- 2025至2030年中国电网谐波监测记录装置市场分析及竞争策略研究报告
- 2025至2030年中国熔盐电加热炉市场分析及竞争策略研究报告
- 2025至2030年中国棱形轴承市场分析及竞争策略研究报告
- 2025泉州市洛江区事业单位考试历年真题
- 高温施工人员防暑指南
- 上海市重点建设项目社会稳定风险评估报告编制指南2025
- 2025央国企AI+数智化转型研究报告
- 数字化情报资源管理-洞察阐释
- 电气自动化 霓虹灯广告屏的PLC控制设计
- 穿透式管理模式在建设项目中的应用与探索
- 车库门维修合同范本
- 2025年度事业单位公开招聘考试《综合应用能力(E类)公共卫生管理》试卷真题及解析
- 2025年四川省高考物理试卷真题(含答案)
- 三市耐多药肺结核病患者管理状况剖析与优化策略探究
评论
0/150
提交评论