




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CC口承担由此产生的一切后果。1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中
2、文文本未经分词处理。1.5 检索系统以汉字为基本单位。1.6 主要功能特色: 支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); 支持对标点符号的查询(比如查询”可以检索语料库中所有疑问句); 支持在“结果集”中继续检索; 用户可定制查询结果的显示方式(如左右长度,排序等); 用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。2.1特殊符号查询表达式中可以使用的特殊符号包括8个:|$#+-!:这些符号分为四组:Operator1:|Operator2:$#+-Operaotr3:!Delimiter:符号的含义如下
3、:(一)Operatori:Operatori是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) |相当于逻辑中的“或”关系。(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number(3) #表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number(4) +表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间
4、相隔字数刚好等于Number(5)-表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。(6)表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,号右边的“简单项”不出现。(三)Operator3:Operator3是一元操作符。(7)!表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。注意:Operator2后面的Number是必须的,不能省略。Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。(四)Delimiter:西文冒号:是分隔符(8)
5、:跟在path,author,nametype,pattern等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5)注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。2.2基本项指不包含特殊符号和空格的连续字符串2.3简单项简单项可以由以下三种形式的序列组成(1) 基本项(2) 基本项1Operatori基本项2Operatori.(3)(基本项1Operatori基本项2Operatori.)注意:在实际表达式中,Operatori前后不能有空格2.4 复杂项复杂项可以由以下三种形式的序列组成(D
6、简单项(2) 简单项iOperator2Number简单项2(3) 简单项iOperator2NumberOperator3简单项2其中第二种形式,等价于Operator3简单项iOperator2Number简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。注意:Number为0和正整数。Operator2,Operator3前后均不能有空格2.5 过滤项过滤项可以包含以下表达式:(1) author:简单项(2) name简单项(3) path:简单项(4) type:简单项(5) pattern:简单项("author:简单项”的含义是指“author:
7、"后面跟的表达式是上面2.3”简单项”所定义的字符串,其余类推)注意:通过指定过滤项中author(作者),name(篇名),path(文件路径),type(文章类型),用户可以缩小查询语料的范围。其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB这样的重叠形式,“AB不AB'这样的反复问形式,等等。比如:想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;想查询唐代语料,在查询表达式中输入“path:08唐”即可(唐代语料均放在包含“08唐”目录下)。想查询唐代语料中“给”的使用情况,可以在查询表达式中输入“path:唐给"。(“
8、path:唐”跟关键字“给”之间需有空格隔开)想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍pattern:A来A去”即可。各过滤项的具体取值,用户可以在“高级搜索”页面中查到(参见上文1.2).下面是古代汉语语料一级目录列表:01周02春秋03战国04西汉05东汉06六朝07隋08唐09五代10北宋11南宋12元13明14清15民国笔记辞书大藏道藏二十五史蒙学读物全宋词全唐诗全元曲十三经注疏诸子百家2.6 子旬子句可以是以下两类表达式:(1) 复杂项(2) 过滤项2.7 查询表达式查询表达式可以是以下形式的序列:(1)子旬(2) 子旬1子旬2.(子旬和子
9、句之间需要以空格隔开,表示逻辑“AND关系)三关于查询结果1每次查询,网页上最多列出5000条结果(分页列出,每页50条)。2用户可以将查询所得结果保存到自己本地计算机的磁盘上。在查询结果显示网页上,用户可以根据需要指定下载结果的条数(缺省为500条),点击“下载”按钮,查询结果即以txt文件形式保存到本地磁盘上。每句之后在【】内注明了该句的出处、作者、路径等信息。(如果条数较多,文件会比较大,下载速度缓慢,请耐心等待,不要重复提交下载请求)。3查询结果以“旬”为单位输出显示,用户可以指定查询结果的显示长度(左右n个字范围)。小提示:如果想显示查询关键字所在的整句,可以通过指定足够大的显示长度
10、(比如1000)来实现。当用户指定的显示长度超过句长时,以句长为限显示结果。4关于查询结果的“标亮”和“定位”显示标亮词:在句子中以红颜色标出的词,可以有多个;中心词:是一个特殊的标亮词,显示查询结果的每个句子时,以“中心词”为网页中心位置对齐。小提示:(1) 查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。这里“标亮词”是指跟“标亮词”匹配的句子片断。(2) 默认的中心词是第一个“标亮词”,即在用户没有用Operator2指定“中心词”的情况下,系统自动把第一个“标亮词”当作“中心词”。如果用户用Operator2指定了“中心词”,那么该词为用户指定的“中心词
11、”。5关于查询结果的“排序”用户可以指定按照“中心词”左边字符串排序,或按照“中心词”右边字符串排序。排序方式为字符内码(G幽)降序。四在结果中查找对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功能,逐次逼近检索目标。比如:您想查找“宁可,也”的例句,同时不希望“也”后面出现“不”这样的否定词。您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。五举例查询式例子1:计算机硬件意思是:查出所有包含“计算机硬件”的句子。查询式例子2:把
12、被意思是:查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一句范围内。查询式例子3:把|被意思是:查出含有“把”或“被”的句子,两个关键字只需有一个在旬中出现,就作为查询结果输出。查询式例子4:把-4不意思是:查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。注意:-号属于opertaor2,其后必须有数字,且不能有空格。查询式例子5:给4把意思是:查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。注意:号属于operator2,其后必须有数字,且不能有空格。查询式例子6:与其$10不如意思是:查出同时含有“与其”和“不如”的句子
13、,并且“与其”在先,“不如”在后出现,间隔10字以内。查询式例子7:能力#3大意思是:查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的问隔在3个字之内,二者的先后次序不受限制。查询式例子8:吃+3亏意思是:查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。查询式例子9:被$10!给意思是:查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。显示查询结果时,以“给”为“中心词”,即“给”居中对齐。查询式例子10:(把|被)$10给意思是:查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。查询式例子11:(把|被)$10!给意思是:查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。或者,查出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教学工作计划制定程序详解
- 学期内教研项目计划表格
- 城市财政管理重点基础知识点
- 2025-2030中国R-142B行业市场发展趋势与前景展望战略研究报告
- 2025临沂市沂南县界湖街道社区工作者考试真题
- 2025丽水市松阳县樟溪乡社区工作者考试真题
- 湖南省张家界市2025年九年级下学期中考一模历史试卷及答案
- 2025至2031年中国手持收费机行业投资前景及策略咨询研究报告
- 2025年荆门货运从业资格证试题及答案
- (二模)宜春市2025年高三模拟考试历史试卷(含答案)
- 嗜酸性肉芽肿性血管炎新视野
- 中国法律史-第二次平时作业-国开-参考资料
- 人工智能智慧树知到期末考试答案章节答案2024年复旦大学
- 2023-2024全国初中物理竞赛试题-杠杆(解析版)
- QC/T 629-2021 汽车遮阳板-PDF解密
- 火电厂汽包水位运行故障诊断系统研究的开题报告
- 上海中小学创新试验室建设指引
- 蜜雪冰城财务分析
- 2024年山西交通控股集团有限公司招聘笔试参考题库附带答案详解
- 人教版培智生活数学一年级下册比长短(一)课件
- 民事起诉状(交通事故赔偿)
评论
0/150
提交评论