语料库术语表_第1页
语料库术语表_第2页
语料库术语表_第3页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Absolute freque ncy绝对频数Alig nmen t (of parallel texts)(平行或对应)语料的对齐Alpha nu meric字母数字类的Anno tate标注(动词)Anno tati on标注(名词)Anno tati on schemeT *、,、.、亠 7-,标注万案ANSI/America nNatio nalSta ndards美国国家标准学会In stituteASCII/America nSta ndardCode for美国信息交换标准码In formati on Excha ngeAssociate (of keywords)(主题词的)联

2、想词AWL/Academic word list学术词表Bala need corpus平衡语料库Base list底表、基础词表Bigram二元组、二元序列、二元结构Bi-hapax两次词Bili ngual corpus双语语料库CA/Con trastive An alysis对比分析Case-se nsitive大小写敏感、区分大小写2Chi-square ( x ) test卡方检验Chunk词块CIA/C on trastive In terla nguage An alysis中介语对比分析CLAWS/Co nstitue ntLikelihoodAutomaticCLAW词性赋

3、码系统Word-taggi ng SystemClean text policy干净文本原则Cluster词簇、词丛Colligati on类联接、类连接、类联结Collocate n ./v.搭配词;搭配Collocability搭配强度、搭配力Collocati on搭配、词语搭配Collocati onal stre ngth搭配强度Collocati onal framework/frame搭配框架Comparable corpora类比语料库、可比语料库Con cGram同现词列、框合结构Con corda nee (li ne)索引(行)Con corda nee plot(索引)

4、词图Con corda ncer索引工具Con corda ncing索引生成、索引分析Co ntext语境、上下文Con text word语境词Con ti ngency table连列表、联列表、列连表、列联表Co-occurre nce/Co-occurri ng共现Corpora语料库(复数)Corpus Lin guistics语料库语言学Corpus语料库Corpus-based基于语料库的Corpus-drive n语料库驱动的Corpus-i nformed语料库指导的、参考了语料库的Co-select/Co-selectio n/Co-selective ness共选(机制

5、)Co-text共文DDL/Data Driven Lear ning数据驱动学习Diachr onic corpus历时语料库Discourse话语、语篇Discourse prosody话语韵律Docume ntati on备检文件、文检报告EAGLES/Expert Advisory Groups on LanguageEAGLES本规格Engin eeri ng Stan dardsEmpirical Lin guistics实证语言学Empiricism经验主义En codi ng字符编码Error-taggi ng错误标注、错误赋码Exte nded un it of meanin

6、g扩展意义单位File-based search/c on corda ncing批量检索Formulaic seque nee程式化序列Frequency频数、频率Gen eral (purpose) corpus通用语料库Granu larity颗粒度Hapax legome non/hapax一次词Header/Text head文本头、头标、头文件HMM/Hidden Markov Model隐马尔科夫模型Idiom Prin ciple习语原则In dex/I ndex ing(建)索引In-1 ine anno tati on文内标注、行内标注Key keyword关键主题词Key

7、ness主题性、关键性Keyword主题词KWIC/Key Word in Con text语境中的关键词、语境共现(方式)Lear ner corpus学习者语料库Lemma词目、原形词、词元Lemma list词形还原对应表Lemmata词目、原形词、词元(复数)Lemmatizati on词形还原、词元化Lemmatizer词形还原(词元化)工具Lexical bun dle词束Lexical den sity词汇密度Lexical item词项、词语项目Lexical prim ing词汇触发理论Lexical rich ness词汇丰富度Lexico-grammar/Lexical

8、grammar词汇语法Lexis词语、词项LL/Log likelihood (ratio)对数似然比、对数似然率Lon gitudi nal/Developme ntal corpus跟踪语料库、发展语料库、历时语料库Mach in e-readable机读的Markup标记、置标MDA/Multi-dime nsio nal approach多维度分析法Metadata元信息Meta-metadata元元信息MF/MD (Multi-feature/Multi-dime nsio nal) approach多特征/多维度分析法Mi ni-text微型文本Misuse误用Mon itor c

9、orpus(动态)监察语料库Mono li ngual corpus单语语料库Multil in gual corpus多语语料库Multimodal corpus多模态语料库MWU/Multiword un it多词单位MWE/Multiword expressio n多词单位Ml/Mutual information互信息、互现信息N-gramN元组、N元序列、N元结构、N元词、多词 序列NLP/Natural Lan guage Process ing自然语言处理Node节点(词)Normalizati on标准化Normalized freque ncy标准化频率、标称频率、归一频率O

10、bserved corpus观察语料库On tology知识本体、本体Ope n Choice Prin ciple开放选择原则Overuse超用、过多使用、使用过度、过度使用Paradigmatic纵聚合(关系)的Parallel corpus平行语料库、对应语料库Parole lin guistics言语语言学Parsed corpus句法标注的语料库Parser句法分析器Parsi ng句法分析Pattern/patterni ng型式Pattern grammar型式语法Pedagogic corpus教学语料库Phraseology短语、短语学POSgram赋码序列、码串POS ta

11、ggi ng/Part-of-Speech taggi ng词性赋码、词性标注、词性附码POS tagger词性赋码器、词性赋码工具Prefab预制语块Probabilistic(基于)概率的、概率性的、盖然的Probability概率Rati on alism理性主义Raw text/Raw corpus生文本(语料)Refere nee corpus参照语料库Regex/RE/RegExp/Regular Expressi ons正则表达式Register variati on语域变异Relative freque ncy相对频率Represe ntative/Represe ntativ

12、e ness代表性(的)Rule-based基于规则的Sample n. / v.样本;取样、采样、抽样Sampli ng取样、采样、抽样Search term检索项Search word检索词Segme ntati on切分、分词Sema ntic prefere nee语义倾向Sema ntic prosody语义韵SGML/Sta ndardGe neralizedMarkup标准通用标记语言LanguageSkipgram跨词序列、跨词结构Spa n跨距Special purpose corpus专用语料库、专门用途语料库、专题语料库Specialized corpus专用语料库Sta

13、n dardized TTR/Sta ndardized type-toke n标准化类符/形符比、标准化类/形比、标准ratio化型次比Stan d-off anno tati on分离式标注Stop list停用词表、过滤词表Stop word停用词、过滤词Syn chro nic corpus共时语料库Syn tagmatic横组合(关系)的Tag标记、码、标注码Tagger赋码器、赋码工具、标注工具Tagg ing赋码、标注、附码Tag seque nee赋码序列、码串Tagset赋码集、码集Text文本TEI/Text En codi ng In itiative文本编码计划The Lexical Approach词汇中心教学法The Lexical Syllabus词汇大纲Toke n形符、词次Token definition形符界定、单词界定Toke ni zati on分词Toke ni zer分词工具Tran scripti on转写Tran slatio nal corpus翻译语料库Treeba nk树库Trigram三元组、三元序列、三元结构T-scoreT值Type类符、词型TTR/Type-toke n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论