版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本项目研究的基础基础(一)国家语委现代汉语语料库我国从1990年开始筹备建立大型的国家级语料库——国家语委现代汉语语料库,该语料库由国家语言文字工作委员会主持,组织语言学界和计算机界的专家学者共同建立。
现代汉语语料库应是一个大型的通用的语料库,应以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务方面;现代汉语语料库作为国家级语料库,在语料可靠、标注准确等方面应具有权威性,在汉语语料库系统开发技术上应具有国际领先水平;共识:现代汉语语料库要面向国内外的长远需要,选材要有足够的时间跨度,语料应抽样合理、分布均匀、比例适当,科学地反映现代汉语全貌;在建立现代汉语语料库的同时,还应着手研究和制定有关语料库的统一规范和技术标准,以推动汉语语料库的建设。根据以上的用途和要求,现代汉语语料库定位为系统型通用语料库,总计7000万汉字。语料库建成后,拟每年增补350万字的新语料。
语料时间分布
时间跨度为1919年~2002年,以近20年的语料为主。
语料领域分布:
13个大类,40多个小类,100多个详细分类。
国家语委语料库的语料样本包括24个详细信息:a1总号;a2分类号;a3样本名称;a4类别;a5作者;a6写作时间;a7书刊名称;a8编著者;a9出版社;a10所在省;a11出版日期;a12期号;a13版次(初版印数);a14本版印数;a15总印数;a16总页数;a17开本;a18选择方式;a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;a23简繁体;a24抽样文章。
在国家语委平衡语料库加工过程中,应该努力形成一系列的可以作为国家标准的规范。对于现有不同的规范之间应力求调和,尽可能使用普遍认同的标记,以便各个中文信息处理系统能够使用统一的规范和标准。已经制定、颁布和立项研究的规范有分词词表规范、词性标记集规范、分词标注规范、短语标记集规范、短语标注规范、语义标记集规范、语义标注规范等。要维护语料库(国家级)和标准、规范的权威性和协调作用,还必须实时跟踪国内外语言学和计算语言学的最新研究成果,不断考虑相对稳妥的更新规范、语料库及语料库加工方法,保持其公允性、引导性和先进性。语料库的加工、应用及推广1)
网络有偿或无偿使用,提供语言学、计算语言学、对外汉语教学等研究者和外国留学生作各种常规查询,包括字、词搭配、例句抽取、句型、句法结构、某种历时的研究。2)
提供计算语言学研究的各种统计数据,例如字频、词频、句型句法结构统计、人名地名用字统计。3)
根据各种中文信息处理的方法和流派的不同,研究相适应的评测标准,提供标准测试集。充分发挥语用所在资源(国家级)、标准、规范上的权威性和协调作用,体现公允性、引导性和先进性。语料库应用设想1)
网络有偿或无偿使用,提供语言学、计算语言学、对外汉语教学等研究者和外国留学生作各种常规查询,包括字、词搭配、例句抽取、句型、句法结构、某种历时的研究。2)
提供计算语言学研究的各种统计数据,例如字频、词频、句型句法结构统计、人名地名用字统计。根据各种中文信息处理的方法和流派的不同,研究相适应的评测标准,提供标准测试集。充分发挥语用所在资源(国家级)、标准、规范上的权威性和协调作用,体现公允性、引导性和先进性。
提供各种常规查询界面,响应各种特殊查询需求。2)
生成各种基于语料库的统计数据。3)
提供各种常规评测标准及测试集,响应各种特殊需求的测试集。4)
跟踪国内外语言学和计算语言学研究,不断考虑相对稳妥的更新规范、语料库、语料库加工方法。语料库加工设想总结现有语料库的成绩,及时推广语料库的应用成果,争取国家继续立项,以便有更大的投资,保证国家语料库和国家规范的权威性、先进性,走可持续发展道路。
语料库的推广基础(二)信息处理用现代汉语词类标记集规范《信息处理用现代汉语词类标记集规范》的制定在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库建设》子课题“国家语委核心语料分词及词性标注加工”(项目编号:WT200104)的支持。《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文字应用研究所。基础(二)信息处理用现代汉语词类标记集规范《信息处理用现代汉语词类标记集规范》的制定在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库建设》子课题“国家语委核心语料分词及词性标注加工”(项目编号:WT200104)的支持。《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文字应用研究所。一、项目起止时间,计划执行情况,最终完成情况本课题于2003年1月启动,2005年1月完成课题全部目标,各项指标均达到或超过了课题任务书的规定。二、项目研究的主要内容和实际达到的研究目标7000万字语料的分词和标注。完成7000万字语料的词语切分和词性标注工作。语料切分标注错误率经过校对后控制在万分之五以下。100万字语料树库建设。在标注语料库的基础上完成100万字的树库建设。补充新语料。根据现时期语言文字应用的特点采集新的语料补充到语料库中,不断扩大现代汉语语料库的规模,计划补充1000万字新语料。
课题实际达到的研究目标是:
完成7000万字语料词语切分和词性标注加工,词语切分校对精度达到万分之五,词性标注精度达到千分之五,达到目标。在语料库加工过程中形成了语料库加工、词类标记集等规范和词语切分和词性标注、语料库校对、语料库管理、语料检索、查询统计等一系列计算机软件工具。100万字(5万句)句法树库建设完成。在句法树库建设过程中形成了树库加工规范和句法分析器、树库校对等计算机软件工具。补充1000万字新语料。根据语料库中当代语料和科技经济类语料偏少的现状,以科技、经济类语料为主补充了1000万字新语料。
研究成果
7000万字带有分词和词性标注的汉语语料;语料切分标注的相关规范;1000万字新语料,生语料库规模达到1亿字;词语切分和词性标注软件,切分标注的精度达到了国内领先水平;100万字(5万句)句法树库;汉语树库加工规范;语料库校对加工软件;语料检索工具软件;语料统计工具软件;语料库管理软件系统;相关研究论文。三、研究成果的创新点、先进性当前,依赖计算机的大型语料库对语言研究的重要性日益显著,建立一个能全面反映语言事实、蕴涵丰富语言信息的大规模语料库已成为语言学界和信息处理学界共同关注的课题。语料库建设是一项长期而艰巨的任务,从词语切分、词性标注到句法标注再到语义标注,环环相扣。我们希望建立一个尽可能全面、客观地反映汉语事实,适应语言信息处理及语言学家研究需要的现代汉语语料库并开发行之有效的软件工具和创制一套行之有效的工程化方法。科研成果在多个方面体现了创新性和先进性该语料库样本的平衡性,体现在历时的时间平衡和共时的分布平衡等方面;该语料库是目前最大规模的现代汉语标注语料库,时间跨度最大、类别分布最广;语料库加工、检索、统计、管理形成了一整套完整的软件系统,等等。国家语委现代汉语语料库加工遵循国内外信息处理领域通用的语料库加工路线,重视为语言学研究服务,采用机助人校的加工方式,通过开发语料库切分标注、校对、质量检查等软件工具来提高校对精度和控制加工质量。在加工过程中制定了《信息处理用词类标记集规范》等语料库建设规范。为兼容不同词语颗粒度,专门建立了层次化结构化的分词词表,分词词表的词条数量超过88000条。结构化词表示例:
标注语料库主要词类分布频率表:
语料标记样例样本编号:BF29701101样本名称:鸟的世界类别:文学·散文作者:杨栋出版时间:1997-12-11书刊名称:人民日报
鸟/n的/u世界/n
杨栋/nh
鸟/n,/w是/vl大自然/n的/u歌手/n,/w鸟语/n就是/vl大自然/n的/u音乐/n和/c诗歌/n了/u。/w
山村/n里/nd的/u鸟/n除了/p麻雀/n,/w就/d数/v燕子/n多/a了/u。/w村/n人/n对/p燕子/n很/d爱护/v,/w说/v它/r吃/v庄稼/n的/u害虫/n,/w常/a吓唬/v孩子/n们/k不要/vu去/v玩/v燕子/n,/w会/vu坏/v自己/r的/u眼睛/n。/w有时/r光/v屁股/n的/u小/a燕/n掉下/v来/vd,/w也/d要/vu送回/v燕/n窝/n里/nd去/v。/w现代汉语树库建设
目前国内外有多家高校和研究机构已经或正在进行现代汉语树库建设。出于使用目的不同,各家树库在语料选取和标注方式等方面有所不同,但总体思路大致相同。从内部结构和外部功能两种角度对短语进行分类。按照内部结构,将短语分为主谓短语、述宾短语、偏正短语、述补短语、联合短语、连谓短语、兼语短语等;按照外部功能,将短语分为名词短语、动词短语、形容词短语、副词短语、介词短语、数量短语等几类。每个短语都被赋予结构和功能相对应的一对标记。确定本树库的短语功能分类和短语结构分类体系主要依据具有一定代表性的吕叔湘、朱德熙、胡裕树等先生的语法体系和《中学教学语法系统提要》。这样既兼顾了我国主要的语法体系,又注意了与现行教学语法体系相衔接,不至于囿于一家之言,而能博采众长,使树库建设更具科学性。句法树标记集规范
(一)短语功能分类(二)短语结构分类标注的50,000棵句法树,抽样检查准确率约为85%。和上海交通大学计算机系共同开发了树库加工、校对的软件工具以及校对质量评测工具。句法树库是一项重要资源,它将为汉语语言研究和信息处理提供一个有利的数据平台,推动理论和应用的迅速发展,为汉语信息化建设作出贡献。(一)句法标注作为分词、词性标注和语义标注的中间环节,有着承上启下的重要作用。一个好的句法树库将为下一步的语义标注工作打下良好基础。(二)句法树库蕴涵丰富的句法信息,它为研究者提供带有句法标记的汉语真实文本素材,使之能够从中获得有关句法的各种信息。例如从词类入手,可以考察某一特定类别词语的句法功能(在真实文本中所处的句法环境);从短语功能类型入手,可以考察某一特定类型短语的内部构造模式,等等。(三)句法树库可以进行数据统计、例句抽取等工作,为计算语言学、词典编纂等领域的研究提供便利条件。四、直接经济效益和社会意义
语料库为国家语委规范汉字表、汉字属性库和科技部863课题智能中文信息处理平台、中文信息处理应用基础研究、973课题中文语音语言资源联盟等多个科研项目提供了数据支持;为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供服务;为日本东芝研究院、富士通研究院等企业提供语料库使用的有偿服务。在创造良好社会效益的同时,创造了十几万元的经济效益。
通过提供数据支持等有偿或无偿服务项目有:
(一)通过使用权许可提供有偿服务a.东芝(中国)研发中心;b.日本富士通研究中心;c.北京大学汉语文化学院;d.北京语言大学汉语水平考试(HSK)中心;e.厦门大学中文系;f.首都师范大学汉语文化学院;g.上海辞书出版社。(二)为其他课题提供无偿的数据支持a.普通话水平测试大纲(修订);b.规范汉字表项目;c.汉字能力测试项目;d.汉字属性库平台项目。(三)为研究人员提供无偿服务本课题加工的语料库还为相关研究人员和研究生提供了大量的免费检索查询统计等服务,如:a.北京师范大学中文系;b.北京师范大学对外汉语教学中心;c.中国科学院心理研究所;d.北京联合大学特殊教育学院;e.武汉大学中文系;f.广东韩山师范学院中文系;g.中国传媒大学。
课题组成员出版、发表了多篇论著,主要如下:
1)靳光瑾等编著,《中文信息处理若干重要问题》,科学出版社,20032)靳光瑾,谈语料库建设与规范标准问题,《中文信息处理若干重要问题》,科学出版社,20033)靳光瑾,肖航,富丽,章云帆,《语料库建设-标准制订和质量检查》,第3届
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年屋顶光伏安装合同(1篇)
- 糖尿病护理中的伦理问题与应对策略
- 2026年医疗健康平台合作合同协议
- 护理康复护理与功能训练
- 护理考研英语备考指南
- 支气管异物患者的康复指导
- 黑龙江2015年上半年银行招聘计算机学知识点:网络浏览器故障及解决办法模拟试题
- 眼部基础检查方法与护理配合
- 甲状腺疾病围手术期护理
- 神经外科患者的心理支持与护理
- JGT 486-2015 混凝土用复合掺合料
- 项目总体工程设计服务方案
- (正式版)JBT 9229-2024 剪叉式升降工作平台
- (高清版)DZT 0208-2020 矿产地质勘查规范 金属砂矿类
- 中医培训课件:《针灸学》
- 分子蒸馏完整版本
- 转动设备的检修课件
- 小动物常规临床检查皮肤
- 三好三维构造识图题库
- TCCUA 003-2019 金融信息科技服务外包风险管理能力成熟度评估规范
- 烟草专卖违法行为课件
评论
0/150
提交评论