言语读书会20160529林宸升_第1页
言语读书会20160529林宸升_第2页
言语读书会20160529林宸升_第3页
言语读书会20160529林宸升_第4页
言语读书会20160529林宸升_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语言研究所语言研究所 林宸林宸昇昇语料库语料库基本概念基本概念常用语料库及线上资源简常用语料库及线上资源简介介各类各类常用常用线上资源线上资源的使用的使用方法及技巧方法及技巧语料库的研究应用领域语料库的研究应用领域自建语料库自建语料库主要问题:分词错误;标记错误四类语料库名称:北语动态流通语料库(DCC)所属机构:北京语言大学国家语言资源监测与研究中心网址:http:/类型:现代汉语书面语(报刊)名称:人民日报切分/标注语料库所属机构:北京大学计算语言学研究所网址:http:/ 以下分为语料库使用技巧、资源库使用技巧和搜索引擎使用技巧三部分,各举一例说明,其他的语料库、资源库和搜索引擎的使用方

2、法及技巧可查阅相关帮助页面或使用说明页面。Picture 以以CCLCCL语料库为例语料库为例根据CCL语料库的使用说明(http:/:8080/ccl_corpus/CCLCorpus_Readme.html,),可用下列特殊符号构成查询表达式,得到更精确的查询结果。空格用于同时查询两个关键字,如:把 被,把 被 让;普通查询Picture 以以CCLCCL语料库为例语料库为例|用于查询两个关键字中的任意一个,如:把|被,把|被|让;$用于让两个关键字依次出现,且间隔字数小于或等于指定字数,如:与其$10不如,被$10把$3给$2了;普通查询Picture 以以CCLCCL语料库为例语料库为

3、例#用于让两个关键字在同一句中同现,且间隔字数小于或等于指定字数,如:能力#3大;+用于让两个关键字依次出现,间隔字数等于指定字数,如:吃+3亏,我+10你+3他+2了,我$10你+3他$2了($与+混合搜索);普通查询Picture 以以CCLCCL语料库为例语料库为例-用于在前一关键字之后的某个指定字数范围内,不出现后一关键字,如:把-4不;用于在前一关键字之前的某个指定字数范围内,不出现后一关键字,如:给4把;!用于将以!后的关键字作为主要关键字,并以该关键字为中心对齐搜索结果,如:被$10!给;普通查询以以CCLCCL语料库为例语料库为例:和author,name,type,patte

4、rn 等关键字合用,分别实现查询某一作者、某一作品名、某一语体、某种构词模式(如AABB、AB不AB)的目的,如:author:老舍 pattern:A来A去,type:外国文学普通查询以以CCLCCL语料库为例语料库为例除了以上符号外,还可使用英文括号(),作用是改变查询先后顺序,如“(把|被)$10!给”是指查询结果中先出现“把”或“被”两个关键字中的一个,然后再出现关键字“给”,且与前一关键字(“把”或“被”)中间的间隔小于等于10个字,同时以“给”为中心对齐搜索结果。普通查询以以CCLCCL语料库为例语料库为例CCL语料库中还提供了“模式查询”,用于检索特定的模式。比如“爱V 不 V”

5、、“有 X V X”等构式。此时,为了与文本中的字母进行区分,要求匹配的变量字符用括号括起来。比如查找构式“爱V 不 V”,其对应的查询表达式为“爱(V)不(V)”。模式查询以以CCLCCL语料库为例语料库为例V的长度也可以指定,比如:查询表达式为“爱(V,=3)不(V)”,表示要求V的长度为3;查询表达式为“爱(V,5)不(V)”,表示要求V的长度不超过5;查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度介于2-5之间。模式查询*经过试验,发现此时只允许=X,X,X-X的表达形式,不允许=X和=X的表达形式以中国知网为例以中国知网为例中国知网的“专业检索表达式语法”页面(http:

6、/ ,表示精确匹配,如:AU(作者)=袁隆平;%,表示查询检索词或其一部分,如:TI%杂交水稻;专业检索表达式语法以中国知网为例以中国知网为例BETWEEN (数字1,数字2)为年度阶段查询,如:YE(发表年份) BETWEEN (2000,2013)。除此之外,知网搜索还包括SEN、NEAR、PREV、AFT、PRG、$等搜索符号。专业检索表达式语法以以GoogleGoogle为例为例常用的检索符号:+或&或空格或AND,搜索结果同时包含两个检索词,如语言学+索绪尔-或NOT ,搜索结果只包含前一检索词而不包含后一检索词,如语言学 -索绪尔|或OR,搜索结果包含两个检索词中的至少一个,如:语

7、言学|索绪尔;搜索符号以以GoogleGoogle为例为例“” ,精确搜索检索词,如:”索绪尔语言学”;(),在使用多种符号时用以调整搜索条件的优先级,如:(语言学 符号学)|索绪尔;*,通配符,表示一个任意字符(包括汉字),如:*绪尔语言学。搜索符号以以GoogleGoogle为例为例命令命令是指由一个指定的命令项加上英文冒号所构成的指令,用来检索含有特定内容限制的网络数据,和CCL语料库中的author:、name:等搜索表达式类似。常用的检索命令包括以下几种:1. site:命令,用来在某一网址下搜素某检索词,如:索绪尔 site:,此检索命令可用来查找电子书;搜索命令以以GoogleG

8、oogle为例为例filetype:命令,用来搜索属于某种文件类型的文件,如:索绪尔 filetype:ppt;related:命令,用来搜索与指定页面相关的其他网页,如:related:;intitle:命令,用来搜索网页标题中包含某检索词的页面,如:intitle:索绪尔;inurl:命令,用来搜索网址中包含某检索词的页面,如:inurl:.gov。搜索命令某个词的词频统计某个词的词频统计多个词的词频比较多个词的词频比较词语在不同语体(语域)词语在不同语体(语域)中出现的倾向性分析中出现的倾向性分析词语间的倾向性搭配(同词语间的倾向性搭配(同现)情况及比较分析现)情况及比较分析离合词的离合

9、程度研究离合词的离合程度研究各种句型的出现频率及典各种句型的出现频率及典型特征分析型特征分析某词语出现频率某词语出现频率的历时变的历时变化研究化研究某词语或结构的语源考察某词语或结构的语源考察语法化不同发展阶段考察语法化不同发展阶段考察对外汉语中确定表述的合对外汉语中确定表述的合理性理性程度程度以及偏误分析以及偏误分析确定目的或主题确定目的或主题搜索或录入相关资源数据搜索或录入相关资源数据进行必要的处理进行必要的处理,制成生,制成生语料库语料库对生语料库中的文字作加对生语料库中的文字作加标处理标处理进行人工校正进行人工校正自建语料库是指按照某一特定目的或论题,寻找相关的原自建语料库是指按照某一

10、特定目的或论题,寻找相关的原始语料资源,输入电脑的文档中,并进行必要处理后,建始语料资源,输入电脑的文档中,并进行必要处理后,建成的专题性质的语料库,有时还要进行加标操作。成的专题性质的语料库,有时还要进行加标操作。 由于汉英双语语料库和多语平行翻译语料库的欠缺,在进行跨语言比较(如语言类型学、对比语言学)研究时,常需要借助英语语料库的相关资源获取英语的相关语料资源。这里简单介绍两个较为著名的英语语料库。名称:BNC(英国国家语料库,British National Corpus)简介:是牛津英语词典、朗文当代英语词典等词典所依据的主要语料库资源之一,也是英语语料库中最为出名和收词量最大的在线语料库之一。由牛津出版社、朗文出版公司、钱伯斯-哈罗普出版公司、牛津大学计算机服务中心、兰开斯特大学英语计算机中心以及大英图书馆等机构联合研制,于1994年上线。其来源广泛,涵盖20世纪后期至今的当代英式英语,资源达1亿词,包括口语(10%)和书面语(90%),包括了4124篇英语文本材料,在加标上则采用了三级加标方式。网址:/bn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论