胡壮麟 第十章 语言学教程ppt课件.ppt_第1页
胡壮麟 第十章 语言学教程ppt课件.ppt_第2页
胡壮麟 第十章 语言学教程ppt课件.ppt_第3页
胡壮麟 第十章 语言学教程ppt课件.ppt_第4页
胡壮麟 第十章 语言学教程ppt课件.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ChapterTenLanguageandtheComputer CorpusLinguistics语料库语言学 Definition定义Criticismsandtherevivalofcorpuslinguistics语料库语言学受到的批判及其复兴Concordance共现索引Textencodingandannotation语篇编码和注解Therolesofcorpusdata语料库数据的作用 CorpusLinguistics Corpus pluralcorpora acollectionoflinguisticdata eithercompiledaswrittentextsorasatranscriptionofrecordedspeech Themainpurposeofacorpusistoverifyahypothesisaboutlanguage forexample todeterminehowtheusageofaparticularsound word orsyntacticconstructionvaries 语料 corpus 复数形式corpora 一个语言数据的存储 可以是被编辑为书面文本 也可以是被作为录音言语的誊本 语料的主要目的是鉴定一个语言的假说 例如 确定一个特定的语音 单词 或句法结构的使用如何变化 3 1CorpusLinguistics Corpuslinguisticsdealswiththeprinciplesandpracticeofusingcorporainlanguagestudy Acomputercorpusisalargebodyofmachine readabletexts 语料库语言学 论述语言研究中使用语料的原理和实践 一个计算机语料库是机器可读文本的重要躯干 语料 CORPUS 13世纪 来自拉丁语的corpus一词 意思是 body 躯干 身体 复数形式通常是corpora 1 一个文本的集合 尤其指完整的和自身需求的文本集合 如 Anglo Saxon诗句的语料 2 复数形式也可写成corpuses 在语言学和词典编纂学上 指文本 语句或其它样本的集会 通常作为一个电子数据库储存 一般说来 计算机语料库可以储存上百万的流行词汇 其特征能通过标记的方式 为词和其它构成的作标记 并加以确认和分类 和使用共现关系程序来分析 语料库语言学 研究任何这样的语料中的数据 Criticismsandtherevivalofcorpuslinguistics Chomskychangedthedirectionoflinguisticsawayfromempiricismtorationalism 1 thecorpuscouldneverbeausefultoolforthelinguist asthelinguistmustseektomodellanguagecompetenceratherthanperformance 2 theonlywaytoaccountforagrammarofalanguageisydescriptionofitsrules ratherthanbyenumerationofitssentences Itisthesyntacticrulesthatarefinite 3 Eveniflanguageisafiniteconstruct corpusmethodologyisnotthebestmethodtostudylanguage a HeshinesTonybooks b HegivesTonybooks c HelendsTonybooks d HeowesTonybooks Howcanungrammaticalutterancesbedistinguishedfromonesthathaven toccurred Ifthecorpusdoesnotcontainsentence a howdoweconcludethatitisungrammaticalwhiletherestofthesentencesaregrammatical Therearealsoproblemsofpracticalitywithcorpuslinguistics Howcanoneimaginesearchingthroughan11 million wordcorpususingnothingmorethanone seyes Despitethecriticisms corpuslinguisticscontinuestodevelop especiallyafterthecomputerslowlystartstobecomethemainstayofcorpuslinguistics Concordance 计算机有能力搜索一个特定的词 词汇的顺序 甚至一个文本里的某一个词类 计算机也能检索一个词所有的实例 它还能计算一个词出现的次数 从而收集到有关这个词的频率的信息 然后以某种方式对数据进行分类 poorinTaleofTwoCities Book1 gives 包含词类的隐含部分的信息 第三人称单数现在时动词 在正常阅读里 我们仅能通过求助于预先存在的英语语法知识来检索它 然而 在一个已经注解过的语料里 形式 gives 可能以 gives VVZ 的形式出现 代码 VVZ 表示它是一个词汇中动词 VV 的第三人称单数现在时 Z 形式 诸如这样的注解 使检索和分析包含在语料里的语言的信息变得更快 更容易 Textencodingandannotation Leech 1993 描写了适用于文本语料的注解的7条准则 1 为了恢复到自然的语料 从有注解的语料里删去注解是可能的 2 从文本里单独摘录注解是可能的 3 注解方案应该以终端用户可利用的指导方针为基础 4 应该弄清楚 注解是如何并且由谁来完成 5 终端用户应该知道语料注解不是没有错误的 而只是一种潜在的有用的工具 6 注解方案应尽可能地立足于普遍接受的和中性的理论原则 7 任何注解方案都无优先权被视为是标准的注解 Therolesofcorpusdata SpeechresearchLexicalstudiesSemanticsSociolinguisticsPsycholinguistics Speechresearch言语研究 Aspokencorpusprovidesabroadsampleofspeech extendingoverawideselectionofvariablessuchasspeakergender speakerage speechclass genre etc Thisallowsgeneralizationstobemadeaboutspokenlanguageasthecorpusisaswideandasrepresentativeaspossible Italsoprovidesforvariationwithagivenspokenlanguagetobestudied Italsoprovidesasampleofnaturalisticspeechratherthanspeechelicitedunderartificialconditions Lexicalstudies词汇研究 Alinguistwhohasaccesstoacorpuscancallupalltheexamplesofawordorphrasefrommanymillionsofwordsoftextsinafewseconds Dictionariescanbeproducedandrevisedmuchmorequicklythanbefore thusprovidingup to dateinformationaboutlanguage Also definitionscanbemorecompleteandprecisesincealargenumberofnaturalexamplesareexamined Semantics语义学 Corpuslinguisticscontributestosemanticsbyhelpingtoestablishanapproachwhichisobjective becausesemanticdistinctionsareassociatedintextswithcharacteristicobservablecontexts syntactic morphologicalandprosodic andbyconsideringheenvironmentofthelinguisticentitiesanempiricalobjectiveindicatorforaparticularsemanticdistinctioncanbearrived Anotherroleofcorporainsemanticshasbeeninestablishingmorefirmlythenotionsoffuzzycategoriesandgradience Inlookingempiricallyatnaturallanguageincorpora clear cutboundariesdonotexist insteadtherearegradientsofmembershipwhichareconnectedwithfrequencyofinclusion Sociolinguistics社会语言学 Althoughsociolinguisticsisanempiricalfieldofresearchitisnotoftenrigorouslysampled Sometimesthedataarealsoelicitedratherthannaturalisticdata Acorpuscanprovidearepresentativesampleofnaturalisticdatawhichcanbequantified Psycholinguistics心理语言学 Inthefieldofpsycholinguistics sampledcorporacanprovidepsycholinguisticswithmoreconcreteandreliableinformationaboutfrequency includingthefrequenciesofdifferentsensesandpartsofspeechofambiguouswords Next corporadatacanbeusedtoexaminetheoccurrenceofspeecherrorsinnaturalconversation Athirdroleforcorporaliedintheanalysisoflanguagepathologies whereanaccuratepictureofabnormaldatamustbeconstructedbeforeitispossibletohypothesizeandtestwhatmaybewrongwiththehumanlanguageprocessingsystem ComputerMediatedCommunication计算机介入的信息交流 MailandNews邮件和新闻PowerPointBlog博客Chatroom谈话室EmoticonsorSmileys表情符号和笑眯眯 ComputerMediatedCommunication 计算机介入的信息交流的特点 突出语言在计算机网络环境中的语言使用的关系 并通过使用语篇分析的方法来谈论这个焦点 以语篇为基础的CMC形式 电子邮件 讨论组 实时聊天 虚拟现实的角色扮演游戏等 MailandNews 信件邮箱和网上旅行是人们进入互联网的两种主要浏览方式 网上旅行是信息检索信件邮箱是邮件或者新闻的获取和发送 PowerPoint 是在电子投影仪上演示幻灯片 用户编制的幻灯片是书面语篇 录像 图像 音箱动画的集合 三种形式 1 作为工具的制作软件 编写幻灯片上的要点和创建相配视听材料的软件 2 作为语篇的演示文稿 指被广泛地用来在幻灯片上围绕一定主题制作各种形式的材料 3 作为语篇类型的演示方式 指一种重复的活动或表示意义的形式 Blog 具有各种链接点和帖子的网络杂志 按逆年代顺序编排 最新的帖子出现在网页的上端 DanGilmore 特点 1 基本单位 帖子2 逆年代顺序3 累赠 开放性4 内容简短5 what snew6 链接7 私人 非正式8 共同具有的声音 Chatroom 简单说是一个在互联网上一群人的讲话是一个网址 用户们可以在这个网址里进行实时的信息传递 是人们使用计算机键盘上所能找到的字母组成的字符串 EmoticonsorSmileys afkawayfromkeyboardbblbebacklaterbbiabbebackinabitbrbberightbackbtwbythewaycyaseeyagmtagreatmindsthinkalike j kjustkiddingirlinreallifelollaughingoutloudnickinternetnicknamerotflrollingonthefloorlaughingttfntatafornowttyltalktoy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论