常用语料库软件的应用_第1页
常用语料库软件的应用_第2页
常用语料库软件的应用_第3页
常用语料库软件的应用_第4页
常用语料库软件的应用_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语料库的编制和应用,2014.7.14,CONTENTS,语料库的基本特征词样本:理论和抽样操作词文本的基本处理:主要的处理方式和实现方式双语对齐:方式和方法词检索:基本检索和高级检索(普通、正则和term list )双语log-likelihood; 因子分析; 相关性; keyness微教育语料库的制作和使用翻译教室教育用双语语言资料的制作和应用,语料库的基本特征-1,计算机可读: txt,xml,html,doc,pdf一致性: his moto 艾滋病毒携带者; hisnmother Annotation:我们/r关于我们Header:的文本的元信息,文本的作者、文体、 诸如出版时间

2、之类的网易消息灵通1.3上一篇1929 b 23052的相对完整的资料文档数据大板块,语料库的基本特征-2,语料库可以看作是结构合理的资料文档集合。 它们通常以数据库的形式存在(如文件夹)。 这是语料库建构工作中最重要的部分,也是最费时间的部分。 一旦建立了语料库数据库,就可以从语料库中提取信息,称为检索。 检索效果的高低是能否将检索手段活用于一盏茶,但最终取决于语料库本身能提供多大的可能性。 处理检索结果需要技术,关系到处理的质量和效率。 词汇抽样:理论和抽样操作是具有代表性且合理的词汇文本的集合,但是任意收集的文本数据库,也不是越大越好,是“finite-sizedbodyofmachin

3、e-readable text”的语料库一般来说,因为有研究的必要,所以应该尽量取得资料的平衡,考虑从中提取一部分,而不是全部。 提取多少,如何提取,这个问题可以说是诸说纷纭。 Brown/LOB :分层抽样,大小一致性分层抽样,文学小说占35%,散文占8%,戏剧占2%。 2 ndgenerationcorpora : thecorpusdiitalianscrittobnc :大小不同(max:4.0,000 words ) 2.5 %/7.5 % (lit./INF.) enpc 3360 %/6.0 % (非列印/列印) number of texts/samples :100 orig

4、 .100translat.period:1975995样本字数和数据样本计算,数据文本的基本处理:主要处理方法-1,数据最常用的存储方法是游戏以这种方式存储数据的空间非常小,并且大多数搜索软件都在通讯端口。 这样保存资料只是检索的操作,更重要的是,保存的文本内容的规范、形式尽可能一致,文字没有乱码,不需要的空间和软返回、硬返回等文本的噪音。 为了实现这个,资料需要以部分为单位进行处理。 可以使用Microsoft Word处理文本。词汇文件的基本处理:主要处理方式-2、Word置换、Macro其他词汇公文处理工具的使用(Editplus )、词汇文件的基本处理:主要处理方式-3、规范词汇文件

5、的生成:无噪音、符合预期的加工规范(标记为一盏茶)。 Header | POS存储格式(txt|xml )鼎力相助软件的使用:通常包括带有文本去噪计程仪程序的headadder,txt标记。实际上,去噪是若干替代性操作、词汇文本的基本处理: $line=s/sn/n/g; 匹配角度行=s/(.) n/$1/g; 匹配角度放置线=s/rn/#/g; # matchingandreplacingall $ line=s/*/g; # matchingandreplacingall $ line=s/s * $/g; 匹配角度行=s/s 0,/s/g; 匹配标准配置线=s/sn/n/g; 匹配角度放

6、置线=s/Zn/# # #/g; # matchingandreplacingall $ line=s/g; # replacementorehwhitespaceswithjustone $ line=s/s (# 2,)/$1/g; #matching and replacing all,词汇文本的基本处理:主要处理方式-5,添加数据库元数据后的词汇形态,词汇文本的基本处理:主要处理方式-6,双语词汇的排列:方式和方法-1,排列是原文和译文的对应。 翻译资料的主要特点是排队。 对齐的语言水平:段调整列句对齐段对齐中的句子对齐方式不同,关系到语料库制作的目的。 例如,如果只是辅助翻译,可以采

7、用对齐句。 在翻译研究中使用之前,必须考虑在段落级语言中使用信息。 排队软件很多,有CAT系列软件、Paraconc、专用软件。双语资料对齐:方式与方法-2、初步应对:源语言、营销对象语言本段对齐、word校对完毕。 这个步骤是最重要的。 Paraconc可以考虑追加s标签。 排队:软件排队。 aligner、paraconc等Trados、dejavu、bi文本2 tmx。 前两个提供段落对齐和句子对齐后三个软件通常只提供句子对齐。形态素编号、Annotation标记。 标记分类:自动标记、手动标记词性-语法标记、功能标记_ /。 人工标注主要是指语义标注、翻译工具标注和功能标注,如为了满足

8、特定研究目的而进行的谈话轮、间接、直接语言行为。 从某种意义上说,人工标记关系到更深的语言水平,标记在研究自然中更有意义。 自动标注主要包括词性标注和句法标注,可以用软件实现。 的双曲馀弦值。 WordSmith用的词汇文本一般必须是unicode。 许多软件(如Antconc )都通讯端口utf-8编码,这种编码在多种语言中是通用的,并且最难出现乱码。 实现方法:在“txt文本”、“另存为”和“编码”对话计程仪中选择utf-8。 存储方式的资料数据文件在不同的检索过程中是共通的,希望即使是excel等既有的管理过程也能够进行数据信息的计算、分析、管理。 很明显,为了实现这些功能,单纯存储为t

9、xt文本并不能满足上述要求。 在此情况下,需要相对完整的数据存储方案的xml。 “可扩展标记语言”(Extensible Markup Language )可用于标记电子文献并使标记的文档具有结构标记语言。 因为标签数据可以用标签定义数据的类型,所以标签可以根据自各儿的需要用自各儿定义,只要符合语法即可。 Xml生成、词汇检索:基本检索和高级检索-1、检索和语言使用的范畴、特征的曲折变化: move、moves、moving、moved派生: move、movement词类: move(v.)、wove(n.); 人称: I、me、we、us子句,组合能力产: a lot of、a part

10、of、a cup of、a piece of构造能力产: give me a book; sendhisfatamessagevpnp; V NP NP语言中使用的特征是,检索不是token的可能性很高,决定大多数情况下是检索type,还是需要词类的线索。 词汇检索:基本检索和高级检索-2,检索语言数的主要单词检索软件: Wordsmith、Monoconc、Antconc双语检索: Paraconc、CAT,独自设计的检索软件(连续的词汇检索)基本检索以Antconc为例进行检索基本的检索包括token检索和wild card检索,检索前需要熟悉资料的存储方法。 高级检索Antconc中的单

11、词高级检索:正则表达式检索,使用正则表达式的term list检索。双语检索:基本检索和高级检索,Paraconc中的双语高级检索:正则表达式检索是满足某种研究需要的正则表达式检索:语料库检索平台omegaT检索,词汇检索的总结,正则表达式的检索功能可以使用合十礼通配符,但也可以使用合十礼通配符实际检索后发现,在词汇层面上,对外汉语的日式榻榻米词和词缀重复的精确检索只能使用正则表达式,即使使用合十礼通配符也能勉强检索,但在无法精确检索的句子层面上,正则表达式使正确的句子长度检索和严格的句子内部结构检索成为可能。 正则表达式的使用看起来很麻烦,但是肯要是在元字符的意思上花点时间习惯的话,很容易使

12、用。 那也有助于提高检索的精准性和效率,提高语言研究的质量。 词汇数据的后续处理1、词汇检索的目的是发现问题,而语料库检索中发现的问题主要表现在频度、频度上。 语料库的这一优点必须发挥在一盏茶,被称为语料库语言研究。 频率、频率的典型表现是数字,处理数字问题关系到研究结论的可靠性,需要使用一些处理方法,常用的处理方法有:频率比较:特定的词、词丛、词类代码串; 使用WS或Antconc中的keyness工具,进行词汇表、词汇簇表的共现强度计算: Z-score频度的显着性计算: log-likelihood计算通常,词汇比较的结果是分类处理、词汇数据的后续处理-2重复词项计算facotoranalysis correlationanalysis(SPSS )、并行语料库辅助翻译应用,基本思维方法:现有翻译作为参考,制作为当前翻译提供参考的术语,实现术语的统一。 CAT的主体部分是TM和Term Database CAT软件: Trados、Deja vu、雅信、(免费) OmegaT Trados业务中使用最广泛的Dj vu易于使用的Omega T免

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论