现代汉语词典系列数据库.ppt_第1页
现代汉语词典系列数据库.ppt_第2页
现代汉语词典系列数据库.ppt_第3页
现代汉语词典系列数据库.ppt_第4页
现代汉语词典系列数据库.ppt_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代汉语词典 系列数据库,中国社会科学院语言研究所 2006,概述 来源: 根据现代汉语词典的系列辞书建立的数据库; 用途: 电子辞书的查询和发布; 辞书编纂和修订的参考资料; 从聚合的角度研究汉语词汇的资料; 用比较的方法研究辞书的资料;,现代汉语词典系列数据库,一、数据库主要内容 二、数据的一致性 三、数据库的主要应用功能 四、关于缺字问题,一、数据库主要内容,词典的版本信息 词条信息 偏旁部首 检字表 其他,一、数据库主要内容,词典的版本信息(以第三版为例)包括: 书号 书名 版次 作者 出版单位 出版时间 发行单位 印刷单位 印次 印数 开本 字数 印张 定价 防伪 前言 说明 总目 音节表 检字表 凡例 附录等。 词条信息包括: 词目 异体繁体字 拼音 释义 特征。,一、数据库主要内容,偏旁部首:偏旁部首、偏旁部首笔画。 检字表:归属于某偏旁部首的汉字、除去偏旁部首笔画外的汉字笔画。 其他:词条中其他一些可供查询、统计的语法、语义、语用、构词等特征。,二、数据库与辞书数据的一致性,数据的原始排列顺序与辞书数据保持一致 数据内容和辞书数据保持一致 数据库主体结构保持一致 各版本现代汉语词典辞书之间同种标记不同标法的数据在库中也要保持一致(主要表现在各种计算机字库中没有的标记、符号、序号等)。,三、数据库的主要应用功能,经过对词典内容的结构化处理,数据库里有以下几类信息可以用于检索、统计、分析和比较: 1、词目部分:字、词、语素、字数、偏旁部首、偏旁部首笔画、除去偏旁部首笔画外的汉字笔画、繁体字、异体字、可插入特征、结构词特征、重叠词特征、儿化等。 2、语音部分:原拼音、转写拼音、同音、轻声、第二音节无辅音特征、重读、结构词发音等。,三、数据库的主要应用功能,3、语用部分:学科分类(语、经、地质、地、等)。语用信息(、等)。 4、词类部分:个词类。 5、释义部分:释义中所包含的字、词、短语、句子 等字符串。 6、其他部分:多音、近义词、从属条目、外来语、专有名词、义项数等。 7、版本信息:凡例中的信息、偏旁部首、检字表、版次、时间、作者、前言、说明等。,三、数据库的主要应用功能,1、查词释疑 2、模糊查询 3、类别查询 4、比较查询 5、统计查询 6、逆序查询 7、版本信息,四、关于缺字问题,在WINDOWS XP操作环境中,使用GBK宋体字库,以现代汉语词典第三版为例,缺字共计个汉字(不包括各种符号)。我们对这些缺字逐个作了字形分析,决定用字形描述的办法来说明这些字。,四、关于缺字问题,1、缺字的分析 个缺字中,有个汉字在计算机字库中没有对应的简体字、繁体字或异体字,我们称其为绝对缺字。另外个缺字在计算机字库中可以找到各自对应的简体字、繁体字或异体字,我们称其为相对缺字。 对这些缺字都要进行缺字描述。,四、关于缺字问题,2、缺字的描述 缺字描述公式字型描述:结构描述 词典数据库中的缺字标记。 字型描述组成该字的若干个拆分的部首或字形。 :字形描述与结构描述的分隔符号 结构描述该字由若干个拆分的部首或字形所组成的方式。,四、关于缺字问题,2、缺字的描述 A、绝对缺字的描述 结构描述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等 字形描述:直接对应结构顺序进行字形排列 举例:是鸟:左右; 彳亢亍:左中右; 思:上下; 九田:上下;,四、关于缺字问题,2、缺字的描述 B、相对缺字的描述 用修改汉字结构中部分部首或字形的办法来描述 举例:鰶:魚改鱼; 顣:頁改页; 譆:訁改讠;,四、关于缺字问题,3、计算机缺字分类统计: A、绝对缺字个: 左右结构汉字有246个;左中右结构汉字有个;左上下结构汉字有5个;外里结构汉字有16个;外里右结构汉字有个;外里下结构汉字有个;上下结构汉字有63个;上左中右结构汉字有个;上下右结构汉字有个;上外里结构汉字有个;结构和修改结合及结构和短语描述结合的结构描述的汉字有个;采用修改缺字结构中拆分部分的偏旁部首或字型来描述的汉字有55个;,四、关于缺字问题,3、计算机缺字分类统计: B、相对缺字个: 通过简写偏旁部首进行缺字描述的有142个;通过简写非偏旁部首部分进行缺字描述的有142个;通过繁写非偏旁部首部分进行缺字描述的有2个;即要简写偏旁部首部分又要简写非偏旁部首部分的有10个;,四、关于缺字问题,3、计算机缺字分类统计: C、几个因字体变化而产生的缺字: 计算机中的汉字由于字体的变化而字型有所改变的汉字有4个。这四个汉字在处于小四号字体时该字字型与词典中汉字字型不一致,而处于其他字号字体时该字字型则与词典中汉字字型相一致。这四个汉字是:,四、关于缺字问题,4、关于GB18030-2000大字符集 个缺字在中的补充情况:,四、关于缺字问题,另外,在GBK和大字符集中有个别汉字字形与现代汉语词典中的字形有细微的差别,这会影响数据库与纸质词典在字形

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论