语料库幻灯片_第1页
语料库幻灯片_第2页
语料库幻灯片_第3页
语料库幻灯片_第4页
语料库幻灯片_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库与语料库应用语言学1........................................................................definitions2.........................................................................charcateristics3.........................................................................historicaldevelopment4..........................................................................Classification5..........................................................................developmenttendency6...........................................................................coupus-basedteaching7...........................................................................corpus-basedtranslation8..........................................................................someimportantfigures1.1corpusAcollectionofnaturally

occuringlanguagedata,chosentocharacterizeastateofvarietyoflanguage.

Sinclair1991

指一个由大量语言实际使用的信息所组成的,专供语言研究,分析和描述的语言资料库。在随机采样的基础上收集人们实际使用的具有代表性的真实语言样本而创建起来的,是语言研究和教学的重要基础,是编写字典,语法书和教材的重要源泉。

刘满堂

1definitions1.2Corpuslinguistic

CLuseslargecollectionsofbothspokenandwrittennaturaltextsthatarestoredoncomputer。什么是应用语言学入门

以真实的语料数据为研究对象(语料库),对大量语言事实进行系统分析,所研究的语言行为而非语言能力,即通过考察语言的实际运用来寻找语言使用规律。

刘满堂

2.1分析自然语篇中语言运用的实际模式

语言的最终目的是成功交流,脱离了语境的语言研究,只关注语言的固定形式是没有意义的。2.2使用庞大的,根据原则收集起来的自然语篇结合,即语料库为分析的基础2.3广泛运用电脑进行分析,结合相关软件使用自动技术为大量的数据化统计提供了手段,为定量研究提供了保证

Wordsmith,Tact,Mircoconcordance2charcateristics2.4人工分析仍是必要的

语料库所提供的频率信息知只是一个大体上的宏观把握量,对这些信息还需要结合具体的研究任务进行有针对性地分析和判断

质,从而得出结论。有量的统计分析和有质的研究分析

2.5定量与定性相结合的方法研究相结合量化的说明对所评价的现象做出解释,提供了准确的宏观层面的特征,质的评价则可以反映事物的另一个方面,则补充性的提供了微观层面的特征。要想反映事物的全面情况,就应该把数量和质量结合起来评价。数量和质量是一个事物的两个方面,既没有离开数量的质量,也没有离开质量的数量。

3.1Foreign

起源动机:

17C的时候,由于受到经验主义(empricism)经验主义通常指相信对现代科学方法,认为理论应建立于对于事物的观察,而不是直觉或迷信。意即通过实验研究而后进行理论推导优于单纯的逻辑推理的影响,语言学的研究开始重视观察自然发生的语料,开始大料的收集外部语言数据,在客观分析语言的基础上进行相关研究。3historicaldevelopment1)20C60S以前

手工语料库阶段(前电子,前计算机化,传统语料库)收集全真文本进行语言分析主要用于一些传统的领域

词典编纂,语法目的:

1928牛津英语字典OxfordEnglishDictionary1961韦伯斯特新国际字典Webster‘sNewInternationalDictionary教学为目的:1959英语用法调查TheSurveyofEEnglishUsageSEC英国伦敦大学方言调查英美两国都做过我国的汉语方言学的第一部著作《You轩使者绝代语释别国方言》杨雄历经27年处于人工检索的初级阶段,制作周期长,检索效率低弊端计算机化语料库,现代语料库2)20C60S——80S60S初受到乔姆斯基的转换生成语法的影响,研究方法转为内省法第一代电子语料库BrownCorpus196-1964(FrancaisandKucera)布朗大学当代美国英语标准语料库LOB语料库TheLancaster-Oslo/BergenCorpus英国的兰卡斯特大学和挪威的奥斯陆大学1970-1978LLC语料库London-lundCorpusofSpokenEnglish瑞典的隆德大学口语语料库1975

兰开斯特/IBM英语口语语料库Lancaster/IBMspokenEnglishcorpus弊端所含语料基本上为书面语料,口语语料库数量较少不能做共时比较3)20C80S——90S计算机的快速发展,研究者认识到内省法的不足第二代电子语料库

COBUILD语料库CollinsBIirminghamUniversityInternationalLanguageDatabase柯林斯伯明翰大学国际语言资料库1980-1984英国国家语料库BritishNationalCorpus1991-1995国际英语语料库InternationalCorpusofEnglish英国伦敦大学Greenbaum和美国的威斯康星-密尔沃基大学Meyer相对优势采用了更加先进的电脑技术,检索的速度和效率进一步提高,在研究目的上,二代以通用语料库为主应用范围也更加广阔4)20C90S第三代电子语库特点1语料:从单语到多语2数量:从百万级到千万级再到亿级和万亿级3加工:从词法级到句法级再到语义和语用级4文本:从抽样到全文特大型语料库动态监控语料库:可以实时记录语言变化,监控某种语言的发展过程例如国际互联网上,英国的COBUILD语料库每周向电子邮件用户发送WordWatch词语监控的邮件,报告社会用语的动态变化情况3.2domestic70s末80s初兴起1982黄人杰和杨惠中科技英语语料库(JDEST)语料库1989中国石油大学广州石油英语语料库700篇英国英语和美国英语的书面文本1992

北京语言文化大学当代北京口语语料库收录了80年代北京人的口语录音1993香港科技大学计算机科学英语语料库取材于90年代早期所使用的166种计算机英语课本

1995

北京语言文化大学现代汉语语法研究语料库1996

广州外国语学院中国学生交际英语语料库2003

桂诗春杨惠中中国英语学习者语料库第一部公开发布的学习者语料库中文语言资源联盟ChineseLinguisticDataConsortiumChineseLDC吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。方兴未艾

4Classification1)用途:通用语料库generalcorpus专用语料库specializedcorpus2)介质:文字语料库声音语料库3)语体:书面语料库口语语料库4)时间:共时语料库历时语料库5)状态:静态语料库动态语料库6)语种:单语语料库双语语料库多语语料库平行语料库parallelcorpus非平行语料库母语语料库外语学习者语料库learnercorpus7)处理程度:生语语库raw/untaggedcorpus熟语语库(标注语料库)tagged/annotatedcorpus5.1容量将进一步增大计算机技术的不断发展,其储存容量也越来越大5.2分析软件以及应用软件的开发和推广5.3专用语料库的进一步发展,一些通用语料库无法深入分析某一专业领域的现象5.4跨学科性进一步增强,与其他领域相结合1)多模态语料库:收集数字化的语言和交流相关的材料,材料使用多种模态,预料不在限制于口笔文本,而包括视频,图片等媒体形式2)多纬度语料库:能使研究者从多个不同的角度去研究和语料库标注,例如语言中的地域和历史变化,通过跨学科研究,会产生新的研究方法和新的研究领域5developmenttendency3)网络语料库:现代的一些网络领域,例如,电子邮件,博客...产生了一些网络语言5.5自身学科地位的发展

TogniniBonelli2001认为语料库只是一种应用前的方法论,并不只是真正意义上的科学领域,只不过为语言学的研究提供了一种方法论基础。corpus-based基于语料库的研究即把语料库看成是一个工具,用来证实,解释某个以前就存在的语言学理论。corpus-driven语料库驱动从原始语料出发,通过研究语料本身,发现探究新的语言理论,建立新的概念和范畴体系。

这些表明,语料库语言学正在超越一种单纯的语言研究方法,具有自己的研究对象并且形成新的理论

6.1充分利用当前已有的语料库6.2教师6.3学生6.4国家加大投入力度,支持发展;将语料库列入到本科教育中6.5自身实力的培养和提高(可以与他人建库享库,运用多模态语料库教学,提高课堂趣味性因材施教由被动转为主动,注重自身实践操作,充分利用网络相关资源6coupus-basedteaching7.1经验总结译者往往分析不透彻,不深,理论体系也不健传统的翻译学研究归纳思辨法从实践中归纳翻译思辨,原则,规律(抽象总结)重凝练重规约轻了描述和解释总体评价宏观上把握缺乏连贯性的体系特点模糊:抽象的定性概括,缺乏量的支持注重个人的翻译实践与经验,很难通过与他人进行对比,验证,假设,上升为理论7corpus-basedtranslation7.2王克非、黄立波(2007)指出,语料库翻译研究“在研究方法上以语言学和翻译理论为指导,以概率和统计为手段,以双语真实语料为对象,对翻译进行历时或共时的研究”。1)corpuslinguistic+traditionaltranslation提供翻译理论基础优势naturalorauthenticdata自然真实的语料数据empricalresearch实证研究statistical+theoricalanalysis定量与定性2)当前,用于翻译学研究的语料库有平行语料库,翻译语料库,可比语料库和口译语料库等。现已建成的比较成熟的译学研究语料库有翻译英语语料库、Babel汉英平行语料库、北外双语对应语料库、中国法律法规汉英平行语料库、全国公示语翻译语料库、莎士比亚戏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论