信息处理用现代汉语词类标记规范-编制说明_第1页
信息处理用现代汉语词类标记规范-编制说明_第2页
信息处理用现代汉语词类标记规范-编制说明_第3页
信息处理用现代汉语词类标记规范-编制说明_第4页
信息处理用现代汉语词类标记规范-编制说明_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《信息处理用现代汉语词类标记规范》(修订稿)

编制说明

一、工作简况,包括任务来源、制定背景、起草过程等

(一)任务来源与修订背景

词类是词的语法分类,主要是根据语法功能划分出来的类。词类标注是给词

语标记类别、实现各如其类的过程,也是中文信息处理与语言资源建设、辞书编

撰、语言教学、数字出版等工作中的一个基础性任务。上世纪九十年代,我国在

语料库建设及标注加工方面取得了不少研究成果,但由于各个系统的标注集和标

记代码不统一,给信息交换和数据共享带来了困难,迫切需要面向语言文字信息

处理研制通用的规范标准,引导汉语语料库和信息处理系统词类标记的规范化,

促进语言资源建设与应用。《信息处理用现代汉语词类标记规范》(以下简称“词

类标记规范”)应运而生,其研制目的是面向信息处理领域提供一套统一的现代

汉语词类标记代码体系,供中文信息处理与语言资源建设参照使用,也可供辞书

编撰、汉语教学等领域参考。

这一规范由教育部、国家语委组织立项,教育部语言文字应用研究所承担。

规范研制完成后,经国家国家标准化管理部门审定,于2006年9月以推荐性国家

标准的形式发布,标准号为GB/T20532-2006,自2007年3月开始实施。

词类标记规范的研制与发布顺应了语言资源建设和信息处理研究迅速发展

的潮流,成为汉语语料库标注的重要参考标准,受到学术界、产业界的欢迎。但

近年来,随着现代汉语词类研究的深入,大规模语言资源建设的发展及中文信息

处理技术的飞速进步,原规范也需要与时俱进,适当加以修订,以适应相关领域

的实际需要。

2017年10月,由北京师范大学以及教育部语言文字应用研究所联合组成的课

题团队承担了国家语委十三五科研规划重点项目“《信息处理用现代汉语词类规

范》(ZDI135-42)修订”。至2020年9月,课题组完成了《信息处理用现代汉语

词类标记规范》(修订稿)。2024年5月14日,国家标准化管理委员会下达“《信

息处理用现代汉语词类标记规范》国家标准修订”计划,计划号为20232736-T-360。

1

词类标记规范提出了信息处理中现代汉语的词类体系、词类分类及标记代码,

在促进中文信息处理系统的规范化,促进语言资源的信息交换与共享方面起到了

重要推动作用,但由于自然语言处理技术发展、汉词词类问题研究深化以及实践

需要等原因,仍存在一些需要完善之处,例如:

(1)原规范标记体系的系统自洽性有待提升。原规范面向信息处理、语言

资源建设,规定了词类标记以及其他切分单位标记两套标记体系,二者需要更好

地融合,以增强规范系统的内在一致性。

(2)原规范研制工作对词类标注中最为复杂的词类兼类、词类活用问题基

本没有讨论和界定,这样处理虽然暂时避免了争议,但应用于语料库建设时,使

用者需要再次制定相应的规范,因此,修订工作应进一步明确对兼类等问题的处

理意见。

(3)汉语词类问题研究的新进展为规范修订提供了有利条件。原规范对不

同的词类体系兼容不足,比如规定方位词、时间词属于名词,是名词下的小类而

不是自成一类,修订工作应吸收最新的研究成果,以更好地适应语言实际应用中

的需求。

(4)原规范缺少配套的操作细则及示范性语料库,一定程度上限制了语言

信息处理技术或产品开发中对规范标准的高效应用,影响了规范的有效推广。

原规范自实施以来,国内外的汉语语言资源建设等工作虽不同程度上参考了

国标,但自行制定的标注规范各具特色,不同规范之间存在较大差异,资源共享

与整合问题尤为突出,并引发了某些新的信息孤岛甚至数据混乱现象。随着理论

研究的深入,中文信息处理技术的迅速发展,以及国家对语言安全和语言文字规

范标准建设的日益重视,词类标记规范修订已成为必要之举。修订工作应吸纳最

新的研究成果,提升其适用性,以更好地支持中文信息处理与语言资源建设、词

典编撰、语言教学等相关领域的创新应用,进而增强规范的生命力。

(二)修订过程

课题组通过广泛的文献调研、多次组织专家咨询,开展了较为深入的专题研

究,提出了“《信息处理用现代汉语词类标记规范》修订方案”,在修订方案确

定的重点研究内容基础上,开展了多种形式、多个轮次专家意见咨询以及专题讨

论会,积极采纳专家意见,逐个分析处理,初步建设示范性语料库,并在此过程

中调整和修订相关内容,反复征求专家意见建议,形成了《信息处理用现代汉语

2

词类标记规范》(修订稿),进一步,本着积极和审慎的原则,完成了示范性语

料库建设。

(1)专题研究

课题组广泛调研了汉语语法研究、词典编纂、语言信息处理领域在词类划分

、词性标注及其规范问题上的新进展;调研了常用汉语语料库、语言信息处理系

统中对词类划分和标记所作的规定,包括国家语委现代汉语语料库、北京大学汉

语语料库及语言知识库、中国科学院计算技术研究所汉语词法分析系统等代表性

资源;调研了最新版《现代汉语词典》《现代汉语规范词典》等语文工具书中的

词语分类及词类标记。课题组以规范颁布实施以来的新成果、新发展为重点,衔

接《信息处理用点汉语分词规范》《汉语拼音正词法基本规则》等相关规范,比

较全面地把握语文工具书、语言文字规范标准以及语言信息处理、语料库、语言

知识库等系统采用的词类体系和标记差异。同时,对港澳台地区和国外知名汉语

语料库词类划分和标注方案也进行对比分析,以提高规范修订的适用性。

课题组分七个专题小组开展研究,组织项目工作会议26次。开展的专题研究

主要包括:

1)汉语词类划分标准问题及前沿研究

2)理论语言学汉语词类研究的新进展

3)语言信息处理视角下的词类知识研究

4)兼类、活用问题研究及标记设置

5)缩略语、习用语专题研究及标记设置

6)名词粒度及语料库标注专题研究

7)常用语料库及语言信息处理系统词类标记集比较研究

在专题研究基础上,课题组系统梳理规范修订的重点难点问题,确定规范具

体修订内容及方向,论证了词类划分调整及标记代码修订的理据。

(2)专家咨询研讨

课题组先后共召开了5次专家研讨会,就规范修订的宏观框架和微观细类两

方面的问题与专家交流,咨询专家意见。

根据规范修订工作的特点,主要以语言学家、词典学家、中文信息处理领域

专家、语言教学领域专家为咨询对象,通过线下研讨会、线上会议、电子邮件等

多种方式,先后向教育部语言文字应用研究所、北京大学中文系、北京大学计算

3

语言学研究所、北京师范大学人工智能学院、北京师范大学文学院、北京语言大

学语言资源高精尖创新中心、中国社会科学院语言所、武汉大学文学院、中央民

族大学、语文出版社、北京教育学院以及加州大学洛杉矶分校东亚语言文化系等

单位的专家进行咨询,并组织研讨。

(3)词类标记规范(修订稿)专家意见统计与处理

课题组就“《信息处理用现代汉语词类标记规范》修订征求意见稿”面向全

国语言学和语言信息处理专家广泛征集意见,共征询了19位专家的意见,送出征

求意见稿19份,收回19份。回收率100%。其中共有16位专家对征求意见稿中的

20个条目进行投票,赞同票占全部投票总数的87.19%。

专家反馈意见主要总结为:(1)坚持原规范的词类划分基本框架体系;(2

)沿用原规范词类标记代码规定;(3)认可修订稿在原规范词类划分及标记体

系基础上所作的系列谨慎微调;(4)认可“《信息处理用现代汉语词类标记规

范》修订征求意见稿”词类标记的组合原则及组合方式,同意修订稿为提升词类

划分及标记代码系统的自洽性以及内部一致性所作的处理。

对专家所提出的各类意见、建议,课题组高度重视、专门讨论,充分吸收。

(4)标注实验与示范性语料库建设

第一阶段,课题组基于原规范,利用北京师范大学中文信息处理研究所自建

的教材库语料、国家语委平衡语料库语料进行标注实验,系统汇总、梳理原规范

在可操作性等方面的主要问题,为专题研究提供基础数据。

第二阶段,在规范修订方案及初步的修订稿确立以后,组织中国语言文学专

业学生近20人,就修订的重点内容,开展示范性语料库初步建设工作,获得数据

26000余条。发现并汇总标注中的难点问题,包括习用语、缩略语、语素字、词

语兼类标注等,为示范性语料库标注规范研制打好基础。

第三阶段,从国家语委现代汉语通用平衡语料库中精选语料,综合平衡散文

、叙事文、新闻、政论文、公文等各类语体,规模达100万字,遵照《信息处理

用现代汉语词类规范》(修订稿),组织语言学及应用语言学专业研究生10人,

对100万字语料进行精标注,基本完成示范性语料库建设。

(5)研制完成词类标记规范(修订稿)

4

在对专家意见进行汇总、分析、讨论、吸收基础上,课题组经过近十轮修改

,撰写了专家意见汇总处理情况、专题研究报告等相关材料,研制完成《信息处

理用现代汉语词类标记规范》(修订稿)。

(6)词类标记规范修订后期审核研讨会

2024年5月,国家标准化管理委员会发布了“《信息处理用现代汉语词类标

记规范》国家标准修订”计划。针对《信息处理用现代汉语词类标记规范》(修

订稿)的进一步审核与优化,课题组邀请来自北京语言大学、教育部语言文字应

用研究所、中央民族大学、人民教育出版社和北京师范大学等机构的汉语言文字

专家、中文信息处理专家以及词典学专家参与研讨会。与会专家充分肯定了修订

稿在词类规范基础上所做的改进,认可其在自洽性和一致性方面的提升。同时,

专家们提出了关于示例替换、优化规范引用文件表述、调整个别术语以及增加标

记代码组合应用说明性文档等方面的具体建议。课题组根据专家意见,已完成后

期修订,以确保该规范的科学性和实用性。

(7)示范性语料库后期加工

2024年6月,基于“《信息处理用现代汉语词类标记规范》(修订稿)”,

课题组组织中文信息处理专业方向研究生10人,对示范性语料库进行后期加工和

审核,包括完善标注规范,开展标注一致性检验等,完成示范性语料库后期加工

工作。

二、国家标准编制原则、主要内容及其确定依据,修订国家标准时,还包括修

订前后技术内容的对比

(一)编制原则

词类标记规范修订沿用原规范的词类划分基本框架体系与标记代码规定,采

用积极稳妥、吸收包容、谨慎微调的原则,反映词类研究的新成果,体现语言资

源建设的新实践,满足中文信息处理研究的新需要,慎重处理词类体系、词类划

分、标记代码三者关系,通过淡化词类层级框架,采用词类标记组合应用模式,

将词与非词切分单位的标记体系更好地融合起来,为非词切分单位的语法功能标

注提供了更科学合理的方案。

(二)编制依据

《信息处理用现代汉语词类标记规范》(修订稿)按照GB/T1.1—2020《标

准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草,符合《国

5

家通用语言文字法》、《国务院办公厅关于全面加强新时代语言文字工作的意见》

等有关法律法规及政策要求。

(三)修订工作主要内容

“《信息处理用现代汉语词类标记规范》修订”主要工作内容如表1所示。

表1:主要内容一览表

序号标题主要内容

明确“《信息处理用现代汉语词类标记规范》(修订稿)”

1范围

的主要内容与适用范围

明确“《信息处理用现代汉语词类标记规范》(修订稿)”

2规范性引用文件

所引用的国家标准

3术语和定义中文信息处理、词类体系、词类划分、标记代码

专题研究、专家咨询、意见汇总分析、完成词类标记规范修

4工作事项

订、建设示范性语料库

从中期检查组织工作、中期检查内容和程序、中期检查结果

5中期检查

方面,给出中期检查的要求

从验收组织工作、验收内容和程序、验收结果方面,给出验

6验收

收的要求

研制完成“《信息处理用现代汉语词类标记规范》(修订稿)”,

7成果

建设完成示范性语料库

(四)修订前后技术内容的对比

“《信息处理用现代汉语词类标记规范》(修订稿)”代替GB/T20532—2006

《信息处理用现代汉语词类标记规范》,与GB/T20532—2006标准相比,除结构

和编辑性改动外,主要技术变化如下:

术语与定义修订内容

(1)“汉语信息处理”修改为“中文信息处理”;

(2)修改了“汉语信息处理”的定义;

名词类修订内容

(3)名词类增加了“规范性引用文件”;

(4)名词小类方位名词修改为方位词,作为基本词类,标记为l;

(5)名词小类时间名词修改为时间词,作为基本词类,标记为t;

(6)名词小类的人名标记增加了姓和名的单独标记,分别标记为nhf和nhs;

6

(7)名词小类的机构名的示例增加;

(8)名词小类的其他专有名词的示例增加;

(9)删除了名词性习用语、动词性习用语、形容词性习用语、连词性习用语

等4个习用语小类,采用组合方式进行标记;

(10)删除了名词性缩略语、动词性缩略语、形容词性缩略语等3个缩略语小类,

采用组合方式标记;

(11)删除了名词性语素字、动词性语素字、形容词性语素字等3个语素字小类,

采用组合方式标记;

(12)删除了族名这一名词小类;

动词类修订内容

(13)动词类增加了形式动词作为动词小类,标记为vf;

(14)动词类增加了心理动词作为动词小类,标记为vs;

数词类修订内容

(15)数词类增加了基数词作为数词小类,标记为mc;

(16)数词类增加了序数词作为数词小类,标记为mo;

代词类修订内容

(17)代词类增加了人称代词作为代词小类,标记为rp;

(18)代词类增加了指示代词作为代词小类,标记为rd;

(19)代词类增加了疑问代词作为代词小类,标记为ri;

新增基本词类

(20)增加了语气词作为基本词类,标记为y;

标记代码的组合方式修订内容

(21)标记代码的组合部分增加了“标记代码的组合原则”;

(22)标记代码的组合部分增加了“标记代码的组合应用”;

(23)扩展了非汉字字符串的语法功能标注,采用组合方式进行标记;

其他修订内容

(24)修改“PartsofSpeech”为“PartofSpeech”;

(25)修改“其他”为“其他符号”;

(26)修改“词类(标记代码)”的格式为“词类,标记为代码”。

三、预期的生态效益、经济效益和社会效益

7

第一,《信息处理用现代汉语词类标记规范》(修订稿)能够更科学、全

面、准确地实现汉语词类标注,有助于推动原规范在新时期的广泛应用。词类

标记规范修订审慎处理了词类体系、词类划分与标记代码三者之间的关系,通

过淡化词类层级框架,采用词类标记组合应用模式,有效融合了词与非词切分

单位的标记体系,为非词切分单位的语法功能标注提供了更加科学合理的方案。

研制了示范性语料库,进一步增强了原规范的实用性和可操作性,提升了原规

范的科学性和自洽性。

第二,《信息处理用现代汉语词类标记规范》(修订稿)预期为中文信息

处理、语料库标注、词典编撰与语言教学研究等工作提供更为准确、一致性好

且兼容性更强的词类划分和标记标准,从而提高相关应用的效率与准确率,有

助于促进数据共享与协同创新。

四、与国际、国外同类标准技术内容的对比情况,或者与测试的国外样品、样

机的有关数据对比情况

无。

五、以国际标准为基础的起草情况,以及是否合规引用或者采用国际国外标准,

并说明未采用国际标准的原因

无。

六、与有关法律、行政法规及相关标准的关系

本标准与《宪法》、《国家通用语言文字法》等法律协调一致,无冲突、无

矛盾。

七、重大分歧意见的处理经过和依据

无。

八、涉及专利的有关说明

无。

九、实施国家标准的要求,以及组织措施、技术措施、过渡期和实施日期的建

议等措施建议

本标准修订了信息处理用现代汉语词类标记规范,为中文信息处理领域、现

代汉语教学与研究的专业人员和社会各界人士提供指南和参照。建议由标准归口

单位组织标准宣贯培训班,设立专门的答疑或咨询部门。

8

建议本标准为推荐性国家标准。

建议发布后六个月实施。

十、其他应当说明的事项

《信息处理用现代汉语词类标记规范(修订稿)》课题组

2024年8月28日

9

《信息处理用现代汉语词类标记规范》(修订稿)

编制说明

一、工作简况,包括任务来源、制定背景、起草过程等

(一)任务来源与修订背景

词类是词的语法分类,主要是根据语法功能划分出来的类。词类标注是给词

语标记类别、实现各如其类的过程,也是中文信息处理与语言资源建设、辞书编

撰、语言教学、数字出版等工作中的一个基础性任务。上世纪九十年代,我国在

语料库建设及标注加工方面取得了不少研究成果,但由于各个系统的标注集和标

记代码不统一,给信息交换和数据共享带来了困难,迫切需要面向语言文字信息

处理研制通用的规范标准,引导汉语语料库和信息处理系统词类标记的规范化,

促进语言资源建设与应用。《信息处理用现代汉语词类标记规范》(以下简称“词

类标记规范”)应运而生,其研制目的是面向信息处理领域提供一套统一的现代

汉语词类标记代码体系,供中文信息处理与语言资源建设参照使用,也可供辞书

编撰、汉语教学等领域参考。

这一规范由教育部、国家语委组织立项,教育部语言文字应用研究所承担。

规范研制完成后,经国家国家标准化管理部门审定,于2006年9月以推荐性国家

标准的形式发布,标准号为GB/T20532-2006,自2007年3月开始实施。

词类标记规范的研制与发布顺应了语言资源建设和信息处理研究迅速发展

的潮流,成为汉语语料库标注的重要参考标准,受到学术界、产业界的欢迎。但

近年来,随着现代汉语词类研究的深入,大规模语言资源建设的发展及中文信息

处理技术的飞速进步,原规范也需要与时俱进,适当加以修订,以适应相关领域

的实际需要。

2017年10月,由北京师范大学以及教育部语言文字应用研究所联合组成的课

题团队承担了国家语委十三五科研规划重点项目“《信息处理用现代汉语词类规

范》(ZDI135-42)修订”。至2020年9月,课题组完成了《信息处理用现代汉语

词类标记规范》(修订稿)。2024年5月14日,国家标准化管理委员会下达“《信

息处理用现代汉语词类标记规范》国家标准修订”计划,计划号为20232736-T-360。

1

词类标记规范提出了信息处理中现代汉语的词类体系、词类分类及标记代码,

在促进中文信息处理系统的规范化,促进语言资源的信息交换与共享方面起到了

重要推动作用,但由于自然语言处理技术发展、汉词词类问题研究深化以及实践

需要等原因,仍存在一些需要完善之处,例如:

(1)原规范标记体系的系统自洽性有待提升。原规范面向信息处理、语言

资源建设,规定了词类标记以及其他切分单位标记两套标记体系,二者需要更好

地融合,以增强规范系统的内在一致性。

(2)原规范研制工作对词类标注中最为复杂的词类兼类、词类活用问题基

本没有讨论和界定,这样处理虽然暂时避免了争议,但应用于语料库建设时,使

用者需要再次制定相应的规范,因此,修订工作应进一步明确对兼类等问题的处

理意见。

(3)汉语词类问题研究的新进展为规范修订提供了有利条件。原规范对不

同的词类体系兼容不足,比如规定方位词、时间词属于名词,是名词下的小类而

不是自成一类,修订工作应吸收最新的研究成果,以更好地适应语言实际应用中

的需求。

(4)原规范缺少配套的操作细则及示范性语料库,一定程度上限制了语言

信息处理技术或产品开发中对规范标准的高效应用,影响了规范的有效推广。

原规范自实施以来,国内外的汉语语言资源建设等工作虽不同程度上参考了

国标,但自行制定的标注规范各具特色,不同规范之间存在较大差异,资源共享

与整合问题尤为突出,并引发了某些新的信息孤岛甚至数据混乱现象。随着理论

研究的深入,中文信息处理技术的迅速发展,以及国家对语言安全和语言文字规

范标准建设的日益重视,词类标记规范修订已成为必要之举。修订工作应吸纳最

新的研究成果,提升其适用性,以更好地支持中文信息处理与语言资源建设、词

典编撰、语言教学等相关领域的创新应用,进而增强规范的生命力。

(二)修订过程

课题组通过广泛的文献调研、多次组织专家咨询,开展了较为深

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论