北大标注集.docx_第1页
北大标注集.docx_第2页
北大标注集.docx_第3页
北大标注集.docx_第4页
北大标注集.docx_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北大标注集: 代码名称帮助记忆的诠释Ag形语素形容词性语素。形容词代码为a,语素代码前面置以A。a形容词取英语形容词adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词代码a和名词代码n并在一起。b区别词取汉字“别”的声母。c连词取英语连词conjunction的第1个字母。Dg副语素副词性语素。副词代码为d,语素代码前面置以D。d副词取adverb的第2个字母,因其第1个字母已用于形容词。e叹词取英语叹词exclamation的第1个字母。f方位词取汉字“方”的声母。g语素绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。h前接成分取英语head的第1个字母。i成语取英语成语idiom的第1个字母。j简称略语取汉字“简”的声母。k后接成分l习用语习用语尚未成为成语,有点“临时性”,取“临”的声母。m数词取英语numeral的第3个字母,n,u已有他用。Ng名语素名词性语素。名词代码为n,语素代码前面置以N。n名词取英语名词noun的第1个字母。nr人名名词代码n和“人(ren)”的声母并在一起。ns地名名词代码n和处所词代码s并在一起。nt机构团体“团”的声母为t,名词代码n和t并在一起。nz其他专名“专”的声母的第1个字母为z,名词代码n和z并在一起。o拟声词取英语拟声词onomatopoeia的第1个字母。p介词取英语介词prepositional的第1个字母。q量词取英语quantity的第1个字母。r代词取英语代词pronoun的第2个字母,因p已用于介词。s处所词取英语space的第1个字母。Tg时语素时间词性语素。时间词代码为t,在语素的代码g前面置以T。t时间词取英语time的第1个字母。u助词取英语助词auxiliary的第2个字母,因a已用于形容词。Vg动语素动词性语素。动词代码为v。在语素的代码g前面置以V。v动词取英语动词verb的第一个字母。vd副动词直接作状语的动词。动词和副词的代码并在一起。vn名动词指具有名词功能的动词。动词和名词的代码并在一起。w标点符号x非语素字非语素字只是一个符号,字母x通常用于代表未知数、符号。y语气词取汉字“语”的声母。z状态词取汉字“状”的声母的前一个字母。/zhoubl668/article/details/6942251计算所标注集(V5.0):0.说明计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:1.北大人民日报语料库词性标记集;2.北大2002新版词性标记集(草稿);3.清华大学汉语树库词性标记集;4.教育部语用所词性标记集(国家推荐标准草案2002版);5.美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;由于计算所的汉语词法分析器主要采用北大人民日报语料库进行参数训练,因此本词性标记集主要以北大人民日报语料库的词性标记集为蓝本,并参考了北大汉语语法信息词典中给出的汉语词的语法信息。本标记集在制定过程中主要考虑了以下几方面的因素:1.有助于提高汉语词法分析器的切分和标注正确率;2.有助于提高汉语句法分析器的正确率;3.有助于汉英机器翻译系统进行翻译;4.易于从北大人民日报语料库词性标记集进行转换;5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词年”(如“1995年”)合并成一个时间词,而表示年头的“数词年”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。1.名词(1个一类,7个二类,5个三类)名词分为以下子类:n名词nr人名nr1汉语姓氏nr2汉语名字nrj日语人名nrf音译人名ns地名nsf音译地名nt机构团体名nz其它专名nl名词性惯用语ng名词性语素2.时间词(1个一类,1个二类)t时间词tg时间词性语素3.处所词(1个一类)s处所词4.方位词(1个一类)f方位词5.动词(1个一类,9个二类)v动词vd副动词vn名动词vshi动词“是”vyou动词“有”vf趋向动词vx形式动词vi不及物动词(内动词)vl动词性惯用语vg动词性语素6.形容词(1个一类,4个二类)a形容词ad副形词an名形词ag形容词性语素al形容词性惯用语7.区别词(1个一类,2个二类)b区别词bl区别词性惯用语8.状态词(1个一类)z状态词9.代词(1个一类,4个二类,6个三类)r代词rr人称代词rz指示代词rzt时间指示代词rzs处所指示代词rzv谓词性指示代词ry疑问代词ryt时间疑问代词rys处所疑问代词ryv谓词性疑问代词rg代词性语素10.数词(1个一类,1个二类)m数词mq数量词11.量词(1个一类,2个二类)q量词qv动量词qt时量词12.副词(1个一类)d副词13.介词(1个一类,2个二类)p介词pba介词“把”pbei介词“被”14.连词(1个一类,1个二类)c连词cc并列连词15.助词(1个一类,15个二类)u助词uzhe着ule了喽uguo过ude1的底ude2地ude3得usuo所udeng等等等云云uyy一样一般似的般udh的话uls来讲来说而言说来uzhi之ulian连(“连小学生都会”)16.叹词(1个一类)e叹词17.语气词(1个一类)y语气词(deleteyg)18.拟声词(1个一类)o拟声词19.前缀(1个一类)h前缀20.后缀(1个一类)k后缀21.字符串(1个一类,2个二类)x字符串xx非语素字xu网址URL22.标点符号(1个一类,16个二类)w标点符号wkz左括号,全角:(【半角:(wyz左引号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论