常用在线语料库使用简介分析解析PPT课件_第1页
常用在线语料库使用简介分析解析PPT课件_第2页
常用在线语料库使用简介分析解析PPT课件_第3页
常用在线语料库使用简介分析解析PPT课件_第4页
常用在线语料库使用简介分析解析PPT课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-,1,常用在线语料库应用简介,以BNC、COCA和SketchEngine为例,-,2,One-wordIntroduction,英国国家语料库(BritishNationalCorpus/BNC):库容1亿词的现代英式英语样本集合,文本来源广泛,其中书面语占90%,口语占10%。美国当代英语语料库(CorpusofContemporaryAmericanEnglish/COCA):库容为4.5亿词的大型平衡语料库,含有多个字库,具有多种检索功能,可免费在线使用。SketchEngine:在线语料库管理及检索工具,可有效总结词汇的语法及搭配行为。,-,3,BNC,1.BNC官网主界面(图1-1),简单搜索区,基本信息及功能介绍区,进入简单搜索功能介绍,图1-1,-,4,2.BNC在线检索功能介绍2.1BNCsimplesearch提供简单的检索功能,适用于快速检查词汇的频数、拼写等。可检索:aword,punctuationmark,ordelimitedstringe.g.jam,?,Mrs.;aword-and-POSpair,e.g.CAN=NN1;aphrase,e.g.notonyourlife;apattern,e.g.colou?r;anSGMLquery,e.g.bread_butter,BNC,-,5,2.1BNCsimplesearch可通过点击图2.1-1中的链接了解检索语言和词性标注代码,BNC,检索语言说明,词性标注代码,图2.1-1,-,6,2.1BNCsimplesearch随机生成50条结果,不以索引形式排列。例如检索“feature=VVB”,检索结果如图2.1-2,BNC,频数,出处,图2.1-2,-,7,2.2其他可下载的BNC产品BNCXMLedition:BNC全库BNCBaby:BNC子库,包含小说、新闻、科技、口语四类文本各100万词BNCsampler:BNC子库,包含书面语、口语两类文本各100万词注:以上语料库采用XML格式,需使用XAIRA软件检索,BNC,-,8,BNC,3.其他BNC检索界面(如图3-1),图3-1,-,9,COCA,4.COCA简介由美国杨伯翰大学(BrighamYoungUniversity)的MarkDavies教授开发,是大型语料库资源平台/的一部分。如图4-1,图4-1,-,10,COCA,4.COCA简介COCA语料库规模大,涵盖美国1990-2012年间口语(spoken)、小说(fiction)、流行杂志(popmagzine)、报纸(newspaper)和学术期刊(academic)五大类型的文本使用界面友好,检索速度快时效性强,不断更新功能,-,11,COCA,5.COCA界面简介三大功能区:显示及查询条件界定区,包括:显示方式区,字串查询区,语料库分类区,查询结果排列方式区。查询结果数据显示区例句显示区,-,12,COCA,5.COCA界面简介(图5-1)/coca/,图5-1,显示方式区,-,13,COCA,5.COCA界面简介(图5-1),图5-1,字串查询区,-,14,COCA,5.COCA界面简介(图5-1),图5-1,语料库分类区,-,15,COCA,5.COCA界面简介(图5-1),图5-1,查询结果排列方式区,-,16,COCA,5.COCA界面简介(图5-1),图5-1,查询结果数据显示区,-,17,COCA,5.COCA界面简介(图5-1),图5-1,例句显示区/帮助信息显示区,-,18,COCA,5.1显示方式区(DISPALY)(图5.1-1)LIST列表显示CHART图表显示,可以显示在各语料库类型中的使用频率和各时间段内的使用情况。KWICKeywordincontext,例句以词语索引的形式呈现COMPARE单词比较显示,比较两个不同词或短语的搭配情况。,图5.1-1,-,19,5.2字串查询区(图5.2-1)WORDS:输入字符串COLLOCATES:搭配词限定POSLIST:搭配词词性限定,COCA,图5.2-1,-,20,5.3语料库分类区此区共包括42个子语料库,可以对查询的字符串限定语料类型(Genre)和时段(Year),并可明确限定某一个子语料库,或某一年某个字词的使用情况。(图5.3-1),COCA,图5.3-1,-,21,5.3语料库分类区42个子语料库(图5.3-2),COCA,图5.3-2,-,22,5.3语料库分类区42个子语料库(图5.3-3),COCA,图5.3-3,-,23,5.4查询结果排列方式区Sortby:检索结果的排列方式,可按频率、关联度、或字母顺序排列,一般默认按频率排列(图5.4-1)Minimum:检索结果的最低限定值,可按频数或MI值进行限定,默认最低频数为10(图5.4-2),COCA,图5.4-1,图5.4-2,-,24,COCA,5.5查询结果数据显示区以列表形式呈现结果(图5.5-1),图5.5-1,-,25,COCA,5.5查询结果数据显示区以图表形式呈现结果(图5.5-2),图5.5-2,-,26,5.6例句显示区默认例句显示方式(图5.6-1),COCA,图5.6-1,-,27,5.6例句显示区KWIC显示方式(图5.6-2)颜色代表不同词性,COCA,图5.6-2,-,28,6.主要搜索功能介绍6.1搜索words、phrases、lemmas、wildcards和其他更加复杂的字词6.1.1检索某一词形输入“feature”(图6.1.1-1),COCA,图6.1.1-1,-,29,6.1.1检索某一词形在搜索结果区可得到“feature”的频数(图6.1.1-2)点击该词,可在例句显示区看到含有“feature”的词条(图6.1.1-3),COCA,图6.1.1-2,图6.1.1-3,-,30,6.1.1检索某一词形在显示方式区选择KWIC并再次点击search,可得含有“feature”的词语索引(图6.1.1-4),COCA,图6.1.1-4,-,31,COCA,6.1.2检索某一词性的单词输入“feature.v*”,可得到“feature”做动词时的使用情况(图6.1.2-1)“.”表示feature不与其后的字符串组成短语“v*”代表所有形式的动词点击POSLIST后的问号,可了解具体词性代码,图6.1.2-1,-,32,6.1.3检索短语输入“whiten*”(图6.1.3-1)可得所有white修饰的名词短语(图6.1.3-2),COCA,图6.1.3-1,图6.1.3-2,-,33,6.1.4检索lemma输入“suggest”(图6.1.4-1)可得suggest所有词形的使用情况(图6.1.4-2),COCA,图6.1.4-1,图6.1.4-2,-,34,6.1.5使用通配符检索“*”代表任意数量的字符“?”代表一个任意字符输入un*ly和r?n*,结果如图6.1.5-1,6.1.5-2,COCA,图6.1.5-1,-,35,COCA,6.1.5使用通配符检索,图6.1.5-2,-,36,6.2检索搭配词如需检索prevail前的名词,可在WORD(S)里输入“prevail”,COLLOCATES里输入n*,右边跨距设为0,如图6.2-1,COCA,图6.2-1,-,37,6.2检索搭配词prevail左侧高频搭配名词如下(图6.2-2)由高频搭配词可知,prevail常与表示“条件,环境”,或者“制度,观点”的词搭配,COCA,图6.2-2,-,38,6.2检索搭配词点击conditions可进一步观察prevail的语境(图6.2-3)通过观察例句,我们发现与prevail共现的conditions常有消极意义的词修饰,例如harsh,precarious,daunting,severe,colderanddrier,dangerous等点击其中一条例句,可查extendedcontext:RelativelypeacefulconditionsexistedwhenthesurveywasconductedinApril1999.Verydifferentconditionsprevailthreeandahalfyearslater.Ifsimilarfindingsareobservedunderthesedissimilarconditions,confidenceintheiraccuracyandgeneralizabilitywillincrease.,COCA,-,39,6.2检索搭配词,图6.2-3,COCA,-,40,6.3对比某词项搭配词在两个子库中的频数对比suggest前出现的名词在Academic和Fiction子库中的频数在Section1中选择Academic,在Section2中选择Fiction如图6.3-1,结果如图6.3-2,COCA,图6.3-1,-,41,6.3对比某词项在两个子库中的频数两子库中suggest的搭配词显著不同,频数也相差很多,COCA,图6.3-2,-,42,6.4进行语义趋向比较对比generate和create语义趋向在显示方式区选择COMPARE,WORD(S)后输入generate和create,COLLOCATES后输入n*,如图6.4-1,结果如图6.4-2,COCA,图6.4-1,-,43,6.4进行语义趋向比较SCORE的值越高,越趋向与该检索词搭配通过初步观察搭配词可知,generate侧重于使内在固有的性能释放和呈现,create侧重于挖掘出原来不存在的东西,COCA,图6.4-2,-,44,6.5搜索近义词搜索indicate的近义词WORD(S)后输入=indicate.v*,如图6.5-1结果如图6.5-2,COCA,图6.5-1,图6.5-2,-,45,7.新增功能7.1WordsandPhrases(图7.1-1)/,COCA,图7.1-1,-,46,7.新增功能7.1WordsandPhrases7.1.1FrequencyList(图7.1.1-1)输入任意词,可获得该词在COCA词表中的排位、频率、搭配词、词语索引、近义词等信息。如图7.1.1-2,COCA,图7.1.1-1,-,47,7.新增功能7.1WordsandPhrases7.1.1FrequencyList,COCA,图7.1.1-2,频数,近义词,词语索引,释义,各字库频数,-,48,7.新增功能7.1WordsandPhrases7.1.2Analyzetexts(图7.1-2)输入任意文本,可获得该文本中的高频学术词汇或短语。,COCA,图7.1-2,-,49,7.新增功能7.1WordsandPhrases7.1.2Analyzetexts(图7.1-2),COCA,图7.1-2,图7.1-2,-,50,7.新增功能7.2AcademicVocabularyLists/可免费下载学术词汇词表,COCA,-,51,SketchEngine,8.SketchEngine简介http:/www.sketchengine.co.uk/付费软件,但可注册30天免费使用帐号,如图8-1,图8-1,-,52,SketchEngine,8.SketchEngine简介在线语料库管理软件,预设200多个语料库,并可加载个人语料库,如图8-2,图8-2,-,53,SketchEngine,8.SketchEngine简介主要功能WordSketch:呈现所检索词项在语法结构下所搭配的高频词汇Thesaurus:提供同义或近义词Sketch-Diff:呈现近义词之间的搭配差异,-,54,SketchEngine,9.SketchEngine主要功能介绍9.1WordSketch选择所需的语料库后,点击左侧功能区的WordSketch,即可进入检索页面,如图9.1-1,图9.1-1,-,55,SketchEngine,9.1WordSketch以“generate”一词为例,部分检索结果如图9.1-2,图9.1-2,-,56,SketchEngine,9.1WordSketch“subject”一栏显示与generate搭配的典型主语,“unaryrels”一栏显示generate与主语搭配词的典型句法关系未带下划线的数值代表generate与搭配词的搭配强度带有下划线的数字代表频数,点击即可查看词语索引,如图9.1-4,图9.1-3,-,57,SketchEngine,9.1WordSketch点击节点词可观察更多语境,图9.1-4,-,58,SketchEngine,9.1WordSketch“object”一栏显示与generate搭配的典型宾语“pp_by-p”一栏显示该语法结构下的典型搭配词“modifier”一栏显示generate的高频修饰词,图9.1-5,-,59,SketchEngine,9.2Thesaurus点击页面左侧的Thesaurus,即可进入查询近义或同义词的页面,如图9.2-1部分结果如9.2-2点击词条,即可进行两词间比较,图9.2-1,图9.2-2,-,60,SketchEngine,9.3Sketch-Diff点击左侧功能区的Sketch-Diff,即可进入该功能页面(图9.3-1)Lemma后输入generate,Secondlemma后输入create点击ShowDiff,对比结果见图9.3-2,图9.3-1,-,61,SketchEngine,9.3Sketch-Diff红色区的词趋向与create搭配,绿色区的词趋向与generate搭配,灰色区的词与create和generate的搭配强度相当(图9.3-2),图9.3-2,-,62,SketchEngine,9.3Sketch-D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论