




已阅读5页,还剩122页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,语料库在外语教学研究中的应用研修班,8.1-8.3,2,8.1上午,一、基本概念真正的研究要用语料库来验证结果TsText(readable)Type类符Token形符(语料库容量)Csconcordance索引collocation(词汇层面的搭配)colligation(类联接)context,(一)梁茂成,3,二、为什么要研究语料库语言学1)使语言学研究更具科学性2)可验证,不是玩具3)大数据,更具说服力4)enablesyoutolookatalotoflanguageatonce,4,(二)李文中,Brown-Raw语料库范例Span跨距(KWIC,一般左5右5)检索排序(sort),以necessarily为例,观察得出结论:经常与not连用。Whyconcordancing?上下看强形式搭配,左右看综合分析用法。基本概念type(独特词形),token,KW/SW/Nodewordspan(一个span可视作一个minitext)collocates(观察从collocationcolligationsemanticmeaning)cotext,context,co-occurrence(同现),recurrence(复现),8.1上午,5,Wordsclusteraspeopledo,e.g.Search:noattempt用法Regex:bnobsbattempts?(ed/ing)b观察collocationandco-occurrence作业:hair:单数与复数的隐喻bodymetaphor,6,(三)许家金,PowerConc设计原则mostpowerfulleasteffortdoingmorewithless,8.1上午,7,基本操作,N-gramlist:n词词表Hits:相当于Token概念Items:相当于Type概念Size:包括单词、符号、数字Filtermode:过滤掉不需要的:datamin10,即过滤掉频率:IS+|CS+表示介词+连词exclude表排除不勾选表示选中“Savedistribution”保存分布信息,即按文本单独保存。,8,(一)李文中,1.标注信息的添加与使用e.g.用PowerConc检索dataleanerseccl问题:男生与女生在口语中使用情态动词有无差异Step1打开Sub-corpuscreator,导入seccel(只能导入单个文件夹),显示文本文件,勾选casesensitive(区分大小写),filecontains“T1=”,获得男生/女生文本,保存生成子库。Step2用PowerConc对两个子库进行比较。,8.1下午,9,2趋势small&specificcontrastivestudies3建库准备建库原则,文本收集,文本分类,文本处理,标记(外部信息),标注(annotatingnotes,语言学标注)e.g.1990Male,10,(二)许家金语料库采集与整理,1.基本要素Textformat:.txtFilename:short&alphanumeric(字母数字组合,不超过8词,不用汉字,不出现空格)encodingANSI:英语,汉语三种格式:UTF8:平行语料库Unicode:其他语言versionsofcorpora:RAW,POS,withmetadata,8.1下午,11,2.批量文件名修改insertSuperbBatchRenamerreplacee.g.replace:空格1不填,空格2填ST$,出现从1开始排序的新文件名。3.文本清理,元信息标记、语言学标记,12,(三)梁茂成语料库的标注,标注与干净文本原则标注的常见类型词性标注手工标注,8.1下午,13,标注与干净文本原则,标注(annotation):Theprocessofapplyingadditionalinformationtocorpusdata.标记(mark-up)与标注Sinclair和他的cleantextpolicy(Sinclair认为语料库语言学应摒弃旧理论一切重来)语料库语言学界对标注的态度(大部分研究者认为应该标注),世界最大的语料库BankofEnglish可以进行词类检索。,14,标注的主题1.人工标注(Brown语料库)2.机器标注(准确率97-98%)标注的客体1.语音与音调的标注2.词性标注(part-of-speechtagging)3.句法标注(parsing,斯坦福大学做的较好)4.语义标注(semantictagging)5.错误标注(errortagging学习者语言,人工)6.停顿标注等。,15,标注的常见类型,标注必须基于科学、合理的分类体系1.与研究目的相关2.分类的穷尽性3.各子类不应该相互重叠4.关于“其他”类(应该是最小类),16,标注的常见类型,标注集/赋码集(tagset)是标注中所使用的代码集,是对分类体系的操作化。Tagset:Acollectionoftags(orcoldes)inataggingscheme.Caution:Atagsetusuallyadherestoaparticulardecriptive,17,词性标注,常见的词性标注工具(POS-tagger)ANSI符号,_,/1)BrillTagger,最早的词性标注,基于规则的2)ClAWS,130多个代码,准确,但付费,Lancaster大学开发。3)TreeTagger,30多个代码,准确率高,免费,能对多语言进行标注。,18,word_Pos1)自动标注TreeTaggerword-Pos_Lemma(原形)2)手工标注:BFSUQualitativeCoder,8.2上午,(一)梁茂成手工标注,19,BFSUQualitativeCoder1.11)根据codelist,修改制定需要的mycodelist2)打开BFSUQualitativeColder3)打开需标注的.txt文档,导入mycodelist,进行手工标注4)BFSU中可做统计(点statistics,跳出网页)5)保存为.txt文档后,用powerconc检索分析,如:检索freehand,语料库的手工标注,20,(二)李文中主题词分析,分析文本时注意备份,把需分析的语料放入新建的文件夹中。练习:使用语料:04Academic/4Genres_RAW/Four_Genres/01_General_corpora/Data,8.2上午,21,1.创建2个对比文件夹,用PowerGREP转换格式,并把text放入这2个文件夹,Step1:新建文件夹1:observeText新建文件夹2:referenceCorpusStep2:安装PowerGREPStep3:设置PowerGREP(preferencegeneral,勾选1、2空格),22,Step4:格式转换(UTF-8转换成ANSI):1)找到04Academic,单击右键,出现searchwithPowerGREP(若有子文件,选第searchsubfolders)2)Actiontypecollectdata,并勾选Dotmatchesnewlines3)search:输入(A.*?z),需在英语状态下输入。collect:输入$1($指向括号,1代表第一个括号),23,4)Targetfilecreation选择saveonefileforeachsearchedfileTargetfilelocation选择刚才新建文件夹referencecorpusTargetfiletextencoding选择Windows936,即ANSIBackfilenamingstyle选择nobackups5)点击collect6)回到新建文件夹referencecorpus查看,已有ANSI文档生成。Step5主题词表生成1)从referencecorpus中拷贝Text10到observeText文件夹中。到此为止,人为做成两个用于练习的对比语料库。2)生成主题词表,24,2)生成主题词表,打开PowerConc,导入referencecorpus进行N-gram统计,结果save到PowerConc根目录下,命名为academicOnewordlist.打开academicOnewordlist,删除前4行,保存。再打开PowerConc,导入observetext,N-gram,count,出结果后,点击keyness,出现loadRef.wordlist,导入academicOnewordlist,count自设主题词临界值,如前20词,按照byvalue进行比较。,25,理据,我们对真实世界的理解表达为知识知识表现为不同的语义场语义场表现为各种词语场各种词语场实现为各个词群(单词或短语)特定话题触发独特词群具有特定话题的文本包含独特词群,该词群一般不在其它话题中出现,26,因此,某个特定话题的文本包含的独特词群具有异常高频参照语料库代表了某一类型语言运用的常态对比两个词表,可以提取那些超常高频的词群,27,比什么:条件控制,控制相似变量突出差异焦点,28,描述,观察文本具有明确主题的完整文本或一致主题的文本集参照语料库具有足够的代表性足够大同质语料,主题词表观察文本参照语料库,29,(三)许家金,语料库三大功能1.concordance索引2.N-gram词表3.主题词表,8.2上午,30,AspectsofLTmethodology,语言观语言学习观教学实施方案,31,两大教学法之一:听说法,语言观:结构主义(音标、词汇等构成的)语言学习观:行为主义(行为主义)教学实施方案:句型操练,32,两大教学法之二:交际法,语言观:功能主义语言学习观:交际与互动教学实施方案:任务教学、小组活动,33,Whatandhow,教什么怎么教,34,词汇中心教学法,TheLexicalApproach许家金,2009,词汇中心教学法的交际观:理论溯源与反思,中国外语教育(4):38-45.,35,基本观点,词汇中心教学法坚持以词项(lexis)单词短语结构为基本单位的语言观;重视频率在大缸设计及教学中的作用;词汇中心教学法本质上采取的是交际法,它强调将词项置于真实语言素材中,并贯穿于真实任务中加以学习。同时提倡学生自主的发现式学习。,36,基本观点,然而,由于过分依赖频率信息,语言观和语言教学完全基于词项,将词汇中心教学法嫁接于任务型教学且缺乏创新,归纳式的自主。,37,实例演示,新闻英语教学设计以新闻英语常用动词教学设计为例powerConcwithChinaDailyPoliticalnew2011得出结论:reportingverbs:saidtoldadded,38,39,40,41,检索make,2-gram词表,42,make+adj,43,教学实施要点,真实语言材料,真实语境频率优先原则(材料的编排与选择)归纳式、发现式学习常用词语、常用结构、常用义项(先学先教),44,答疑,参照语料库是观察语料库的5倍为宜。Treetagger依据是传统语法,不需保存,自动保存。语义的褒贬,只能手工标注不要用于诗歌的分析,诗歌追求个性,语料库强调频率。词性合并:将100多词性合成为8种左右,通过n-gram词性,排序分析。具体做法:PowerConcPosCategeriesloadlistload“PowerConc/Sys/ClawsTaggerPos-reduction”DataType选择PoscategoryCount(N-gramlist),45,(一)梁茂成,正则表达式1)Treetagger对crobRaw进行标注2)安装EditPadPro对1)中的pos文件进行检索练习,具体做法:*打开1个文本*searchshowsearchpanel*右下角勾选regularexpression(如区分大小写,勾选casesensitive)*练习:w所有字母,除空格和标点S+_DTsS+_NNS检索”定冠词+名词复数“,检索可由”常量+变量“组成3)用PowerGREP检索刚刚标注过的文本results选项:matcheswithoutcontext,peruniquematch,showtotalsgroupedmatches检索结果拷贝到EditPadPro进行编辑,删除无用信息。做法如下:,8.2下午,46,EditPadPro对检索结果行编辑,用search&replace删除无用信息D.*?rn+替换成d+t.*?tD.*?Corpusmatchin.*?(d+)ss(Academic.*?)替换成$2t$1,return,newline,制表符tab,47,例1:检索“冠词+(adv.)adj.+n”,48,例2:检索所有动词的完成时,Regex:S+_VHS?sS+sVBDHVN检索生成结果,可通过search&replace,用正则表达式清理数字等,拷贝到Excel制成表格。,49,(二)许家金类联接,KeyPoints*Colligation:From“c”to“g”*BFSUPowerConc*Casestudies,50,Colligation:From“cto“g”,Bothcollocationandcolligationtellabouttheco-occurrenceorco-selection.*collocationL5L4L3decisionL1makeR1decisionR3R4R5*colligationL5L4L3NN1L1VV0R1NN1R3R4R5,51,Colligation:From“cto“g”,*英语进行体的对比研究*情态序列研究(语料:02_Learner_corpora),52,练习:检索itisadjthat句型,It_S+sS+_VBS*sS+_JS+sthat_S+PowerConc可以简化正则表达式,方法如下:loadcorpus勾选Lemmatize,表示包含所有动词的原形勾选Poscategoriseloadlist(检索工具02BFSUPowerConc/sys/Claws7Tagset_POS_reduction.txt)(我的理解:可以根据Claws7Tagset_POS_reduction.txt改写成自己想要的reduction.txt)这样,就可以用reduced的正则表达式e.g.S+_VM可用*VM代替(*代表一个单词,与VM间有空格)itsadjthat句型可以表示为itbe#adjthat,53,(三)李文中,语料库用于X教学?X=翻译,听力,阅读,写作,口语-data-drivenlearningorlearning-drivendata语料库用于文学?-descriptivevsinterpretativeTechnophobiaortechnomaniac,54,objectives,Toidentifypatternsofunusuallyhighco-occurrence-co-occurrence:node+collocatesDifferentco-occurences-culturallyormentallyco-occurences:cow-milk,morning-tea-frequencyofco-occurrence-rangeofco-occurence,55,Questionstoponder,WhatresearchhypothesesorquestionshaveIformulated?WhatobservationscouldImakeinanattempttotestmyhypothesesoranswermyresearchquestions?DoIknowwhatIamlookingfor?,56,OnlyknowpartofwhatIamsearching,-intra-wordfocus:bw+s|zationb-inter-wordfocus:(w+)s$1(重复前面的词)如veryverygood,57,作业,正则表达式检索1)所有V:S+_VS+所有N:S+_NS+过去分词:S+_VwN2)被动语态:longpassivesshortpassives哪些动词趋向于long,哪些趋向于short.3)虚拟条件句,58,(一)梁茂成rec.9,建库论证,结合学科,涉及学科本质问题,采样标准,转写或文本采集,规模,各部分的比重,文本清洁,标注集确定,标注,语料库,入库,软件建设与开发,软件,语料库应用,外语教学,外语研究,8.3上午,59,工具,PowerConc:词汇分析,主题词分析,检索,类联结,通用工具TreeTagger:自动标注BFSUQualitativeCoder手工标注EditpadPro练习正则表达式,建议替换记事本PowerGREP文本整理和清洁,批量替换。例1:“一个空格”替换“一个/多个空格/tap键”,不能选dotmatchesnewline,把s+,t+替换成s例2:码词混合显示的实现:用PG的替换功能,60,(二)许家金,语料库驱动(corpus-driven)从无到有Corpusdriven,trustthetext,trustthetextonly基于语料库(corpus-based)对已有的认知加以验证,61,案例1,验证Chinglishnarrowdown,fromvaguetoconcretefindresearchgap选题中国学习者英语口头叙事中的话语评价研究用语料库的方法做二语习得研究,62,Eightconceptualdomains,Jarvis&Pavlenko(2008)summarises8conceptualdomainsforcross-linguisticinfluence.i.e.运动概念Motion物体表征Object情感模式Emotion人称范畴Personhood性别范畴Gender数的范畴Number时体范畴Time空间模式Space,63,Data,PearStories(ChinaPearsCorpus)-800subjects,corpussizeca.1mwords/characters60textsby30AppliedLinguisticsmajorgraduatesnarratives-30SPEnglish,30SPChinese30nativeEnglishspeakersspokennarragtives采用的不是常规意义的语料库,只是一种语料库方法,64,Pearstoryfilm:,30个中国学生,30个英美学生讲述同一个图片故事中介语综合对比,65,BFSU手工标注软件使用补充,手工标注中的自动标注Autocode设置codelist,autocode后检查修正。,66,(三)李文中,Putitalltogether,67,研究案例2:,研究问题:专业英语学生口语和笔语中对各个词类的使用是否存在差异?如果存在差异,其差异特征有哪些?,68,工作流程,1.准备文本建立文件夹,拷贝文件,重命名文件2.赋码打开treetagger,赋码3.生成词表PowerConc,赋码表4.统计检验打开LL.xls(已存log-likelihood统计表格,能自动计算)对比语料库(同质平行比较(size可以一样大)-各自特点,观察与参照(5倍)比较-主题词)Log-likelihood(对数似然值)3.84sig.P0.05,存在显著性差异5.解释结果6.讨论,69,具体操作,1)准备语料:把语料放入两个文件夹spokendata,writtendata2)赋码:用treetagger赋码3)改文件名Powerconc无法打开.pos文件,所以要用PowerGREP批量改文件名。选择文件夹右键“searchwithPowerGREP”searchtype“renamefiles”search”(S+.txt).pos”replacement“$1”rename凡是正则表达式中有的符号,需要在之前加(escape),使得后的符号不具备正则表达式的符号含义。,70,4)转码:1)actiontype:collect2)勾选dotmatchesnewlines3)search(A.*?z)4)collect$15)encodefilenamingstyle:936,71,5)生成词码表进行“主题词”对比(written&spoken两个词码表)PowerConcDatatype:POScount保存1)written语料库词码生成保存,删去前4行2)spoken语料库生成词码,keyness,count,保存两个语料库的对比词码表a。3)用Excel打开词码表a4)把word,freq1,freq2三栏拷贝到LL.xls进行计算,观察log-likelihood和sig.结果5)用PowerConc检索显著性差异的词码,进行讨论分析。,72,(四)梁茂成rec.11,词与多词单位多词单位提取方法案例分析:学习者书面语中的词块分析,73,作业回顾,被动语态1)EditPadProS+_VBS?s(S+_RS+s)*S+_VSNs2)拷贝到PowerGrep检索If非真实条件句bif_S+s(|S+_w+s)would_S+,74,词与词块,词在传统语言学中的地位意义单位和短语学的兴起,75,案例分析,76,案例分析,77,案例分析,78,案例分析:学习者书面语中的词块分析,高分作文(30)的词块提取出来低分作文(90)中用了多少高分作文中的词块即用30篇作为尺子来衡量90篇Hits相当于形符Item相当于类符Result拷贝到Excel,重新拷贝粘贴到excel新文档,“选择性粘贴转置”,获得竖列数据。,79,PowerConc加载90篇Concordance:batchsearch搜出索引行右下角Stats.出现下面结果,保存为result.txt.,80,Editpadpro打开result.txt,把不需要的部分删除,保存。拷贝到Excel。,81,excel文档拷贝粘贴到excel新文档,“选择性粘贴转置”,获得竖列数据。,82,从120篇作文中(excel文档)按照分数高低取后90篇作文,拷贝到刚才的的excel文档,确保一一对应,然后用SPSS做分数与词串使用频率的相关性分析。,83,分数与频率的相关性分析,84,(一)许家金,光盘内容提示图书和文献资料可利用的网络资源老师联系方式iResearch咨询交流平台,8.3下午,85,资源,语料库:库+一套工具1)Generalcorpora一般在100万以上2)Crown_CLOB与Torch可以对比研究:时间相近,采集样本方式一致,都包含15个领域。3)视频,subtitles可以下载,多语种(62
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 聚氨酯锤纹漆项目可行性研究报告
- 防洪知识培训大纲课件
- 防汛知识培训考核目的
- 防汛救援知识培训材料课件
- 智慧城管信息化综合解决方案
- 环境科技行业环保装备行业市场格局分析
- 机械制造行业智能制造技术应用思考
- 万寿菊种植合同5篇
- 联通合约机,合同3篇
- (宝典指南)水泥砂石资料购销合同3篇
- 酒店薪酬管理制度细则
- JJG643-2024标准表法流量标准装置
- 《年产量50万吨煤制乙二醇合成工段工艺设计》6400字(论文)
- 成都建材使用一网通系统-建材代理商操作手册
- 幼小衔接音乐课件
- 路基路面压实度评定自动计算表-标准-
- 积滞病中医护理方案
- 《免疫细胞疗法》课件
- 《遥感技术及其在环境监测中的应用》课件
- 博物馆与社区合作模式-深度研究
- 猕猴桃工业流程
评论
0/150
提交评论