海量中文智能分词技术白皮书(3.0)_第1页
海量中文智能分词技术白皮书(3.0)_第2页
海量中文智能分词技术白皮书(3.0)_第3页
海量中文智能分词技术白皮书(3.0)_第4页
海量中文智能分词技术白皮书(3.0)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

技术白皮书技术白皮书 保密保密 技术白皮书 项目名称 项目名称 海量中文智能分词基础件 开发单位 开发单位 天津海量信息技术有限公司 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 1 of 11 目录目录 序言序言 2 第一章第一章 产品概述产品概述 3 1 1 产品简介 3 1 2 产品的适用范围 3 1 3 产品结构 3 第二章第二章 产品技术特点产品技术特点 3 2 1 分词准确率高 4 2 2 分词效率高 4 2 3 功能接口丰富 使用灵活方便 4 第三章第三章 产品功能介绍产品功能介绍 4 3 1 分词功能模块的介绍 4 3 2 开发接口 4 3 3 功能列表 5 第四章第四章 典型应用典型应用 7 4 1 KM 知识管理系统 7 4 2 搜索引擎 7 4 3 辞书出版 7 4 4 信息服务 7 4 5 网站信息发布 7 第五章第五章 产品性能指标产品性能指标 8 第六章第六章 运行环境运行环境 8 6 1 WINDOWS 8 6 2 LINUX 8 6 3 UNIX 9 第七章第七章 成功案例成功案例 9 7 1 商务印书馆 9 7 2 慧聪搜索引擎 9 7 3 其他案例 10 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 2 of 11 序言序言 1 1 什么是中文分词什么是中文分词 中文分词就是将连续的字序列按照一定的规范切分成词序列的过程 众所周知 在英文的行文中 单词之间是以空格作为自然分界符的 而中文只是字 句和段可以通过明显的分界符来简单划界 唯独 词没有一个形式上的分界符 虽然英文也同样存在短语的划分问题 但是在词这一层上 中文比之英文 要复杂的多 困难的多 2 中文分词的应用中文分词的应用 中文分词主要应用于信息检索 汉字的智能输入 中外文对译 中文校对 自动摘要 自动分类等很 多方面 下面就以信息检索为例来说明中文分词的应用 通过近几年互联网的发展 互联网上的信息也在急剧膨胀 各类信息混杂在一起 要想充分利用这些信 息资源就要对它们进行整理 如果面对中文信息不采用分词技术 那么整理的结果就过于粗糙 而导致资 源的不可用 例如 制造业和服务业是两个不同的行业 和 我们出口日本的和服比去年有所增长 中都有 和服 如果都作为一个词来处理 结果是检索 和服 的相关信息 会将他们都检索到 很显然 检索到 第一条信息是不恰当的 通过引入分词技术 可以使机器对信息的整理更准确 更合理 在 制造业和服务业是两个不同的行业 中 和服 不会被当作一个词来处理 那么检索 和服 当然不会将它检索到 使得检索结果更准确 效率也 会大幅度的提高 3 中文分词的意义和作用中文分词的意义和作用 要想说清楚中文分词的意义和作用 就不得不提到智能计算技术 智能计算技术涉及的学科包括物理 学 数学 计算机科学 电子机械 通讯 生理学 进化理论和心理学等等 简单的说 智能计算就是让 机器 能看会想 能听会讲 要想实现这样的一个目标 首先就要让机器理解人类的语言 只有机器理解了 人类的语言文字 才能使人与机器的交流成为可能 对于自然语言来讲 词是最小的能够独立活动的有意义的语言成分 所以对于中文来讲 将词确定下 来是理解自然语言的第一步 只有跨越了这一步 中文才能像英文那样过渡到短语划分 概念抽取以及主 题分析 以至于自然语言理解 最终达到智能计算的最高境界 实现人类的梦想 中文分词是中文信息处理系统的基础 有着极其广泛的实际应用 从基本的输入系统 到文字处理 以及 语音合成 文本检索 文本分类 自然语言接口 自动文摘等等 无处不渗透着分词系统的应用 分词系 统的完善与应用 必将促进中文信息处理系统的广泛应用 换言之 也就提高了中文软件对于中文的处理 能力 这也将使得计算机用户的日常工作的效率得以提高 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 3 of 11 第一章第一章 产品概述产品概述 1 11 1 产品简介产品简介 海量中文智能分词基础件是海量在中文智能分词技术基础之上推出的分词准确 高效 接口方便 灵活 便于二次开发的软件包 以及为使软件包在目标系统中实现最优品质而提供的特定服务 其服 务包括 目标系统架构咨询 辅助开发 技术培训 售后支持等 海量中文分词融合了多种先进 经典的分词方法 采用独特的算法调度机制 形成复方的分词算 法 海量分词技术很好的解决了中文分词的两大技术难题 即 歧义切分和新词识别 分词效果因此 而获得大幅提升 分词准确率达到99 7 北大语料封闭测试 同时 通过对分词底层代码的优化 分词效率达到每分钟2000万汉字 测试环境为 PC单机 CPU Amd 2500 内存512M DDR 使得分 词真正达到实用化的水平 海量中文智能分词基础件在保留海量中文分词技术的优秀性能的前提下 提供了方便灵活的调用 接口 以便于在其基础上的二次开发 1 21 2 产品的适用范围产品的适用范围 作为中文信息处理的核心和汉语自然语言理解的基础 海量中文智能分词基础件有着广泛的应用 前景 主要应用领域有 1 信息检索领域 如 全文检索 主题检索 2 汉字处理领域 如 智能拼音输入 手写识别输入 中文OCR 识别 自动校对 简繁转换 3 语音处理领域 如 语音合成 语音识别 4 内容识别与分析领域 如 信息摘录 自动文摘 自动标引 文本自动分类 自动过滤 数据挖掘 5 自然语言理解领域 如 机器翻译 自然语言接口 1 31 3 产品结构产品结构 中文字序 列文本 中文分词 新词识别歧义切分 复 方 分 词 算 法 字标注的分词方法 逆向最大匹配法 全切分 方 案 优 选 中文词序 列文本 中文分词规范 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 4 of 11 第二章第二章 产品技术特点产品技术特点 多年以来 中文分词技术一直是阻碍中文信息处理技术进一步发展的瓶颈 因为词是能独立活动的有 意义的最小语言单位 在词的界定方面 中文不同于西文之处在于 西文词之间是有自然分隔符的 而中 文却不具备 需要通过一定的技术手段进行处理 才能将词准确的分离出来 这就是分词技术 所以 西 文基本上不用经过分词就可以直接进入到检索技术 短语划分 语义分析等更高一层的技术领域 而对于 中文 只有越过这个技术瓶颈问题 分词的准确率足够高 分词速度足够快 中文的信息处理技术才有可 能和西文的信息处理技术在一个起跑线上 分词是中文信息处理从字符处理水平向语义处理水平提升的关键技术之一 是中文智能计算技术的基 础 目前 中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题 海量中文智能分词技术在 这两方面都有所突破 通过研究发现 中文自动分词准确率低主要受以下几方面因素的困扰 1 词表收录 2 分词规范 3 新词识别 4 歧义切分 从纯技术角度来看 新词识别和歧义切分是困扰分词的两大技术难点 海量中文智能分词采用复方概 念平衡各算法 使海量分词在大规模语料测试中的准确率达到了99 7 北大语料封闭测试 分词效率 2000 万字 分钟 测试环境为 PC单机 CPU Amd 2500 内存512M DDR 该指标目前处于国内领先水 平 已经达到实用要求 正因如此 海量承担了2000 年度国家863 计划课题 智能信息内容分析方法 研究 海量在中文分词技术基础之上推出了海量中文智能分词基础件 作为国内最优秀的中文智能分词产品 海量中文智能分词基础件具有以下特点 准 切分准确率99 7 北大语料封闭测试 快 2000万字 分钟 测试环境为 PC单机 CPU Amd 2500 内存512M DDR 活 丰富的功能接口 使用灵活方便 例如 系统外挂分词规范 用户可自定义 2 12 1分词准确率高分词准确率高 海量分词算法借鉴复方的概念 集成各种算法解决同一个问题 发展了受限的隐马尔科夫模型 使知 识库的冗余大幅降低 同时 在歧义切分和新词识别上投入了很大的力量 海量分词综合采用了最大匹配 法 逆向最大匹配法 单扫描分词法 有穷多层次列举法 二次扫描法 全切分 字标注的分词方法等等 多种分词方法 规则和统计相结合 最终是多种切分方案的选优 从而获得较为准确的分词结果 通过在北大语料库中的评测 其分词准确率达到99 7 2 22 2分词效率高分词效率高 为了使分词能够达到实际应用的目的 海量对于该产品进行了效率优化工作 主要体现在 1 对于分词算法进行优化 特别是调度算法的优化设计 可以有效的降低计算的复杂度 2 对于分词基础件进行代码级的优化 从程序的逻辑设计以及执行步骤上进行优化 关键环节用汇编 进行了翻写 从而可以最大程度的提升分词效率 通过以上的效率优化工作 分词效率达到每分钟 2000 万字 其测试环境为 PC 单机 CPU Amd 2500 内存 512M DDR 2 32 3功能接口丰富 使用灵活方便功能接口丰富 使用灵活方便 海量中文智能分词基础件提供了丰富的接口 以满足不同用户的需求 主要接口包括 分词初始化 码制选择 是否检索优化 是否需要格式化 分词模式 加载用户自定义词典以及其他附加信息的输出等 等 通过这些接口的组合使用 可以满足目前所有的分词调用需求 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 5 of 11 第三章第三章 产品功能介绍产品功能介绍 3 13 1分词功能模块的介绍分词功能模块的介绍 该产品的主要模块是中文分词模块 该模块可以实现将字序列的文本转化为词序列的文本 3 23 2开发接口开发接口 海量中文智能分词功能基础件对外提供了四类接口 1 基本接口 基本接口是使用本软件包所需的基本功能函数 海量中文智能分词功能基础件提供的基本接口 有四个 1 HLInitSeg 初始化海量分词系统 加载分词用数据 可在 ANSI 和 UNICODE 版本中使 用 2 HLUnInitSeg 卸载海量中文智能分词基础件 释放分词所占资源 3 HLCreateSegHandle 创建自动中文分词结果句柄 4 HLCloseSegHandle 关闭分词结果句柄 释放分词结果所占资源 2 分词接口 分词接口是用来对指定字符串进行分词的接口 海量中文智能分词功能基础件提供的分词接口有两 个 1 HLSegment 对指定字符串进行分词 2 HLSegmentEx 对指定字符串进行分词 3 获取分词结果接口 获得分词结果接口是用于对分词后的结果进行获取的相关接口 海量中文智能分词功能基础件提供 的获取分词结果接口有三个 1 HLGetResultCnt 得到分词结果中的词的个数 2 HLGetResultBuff 得到分词结果的字符串空间 3 HLGetMin 得到指定的分词结果 4 其他接口 本软件包提供了用户自定义词典和英文通配符查找的相关接口 海量中文智能分词功能基础件提供 的其他接口有两个 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 6 of 11 1 HLLoadUserDict 加载用户自定义词典 2 HLUnloadUserDict 卸载用户自定义词典 3 33 3功能列表功能列表 分词模式 分词模式 为适应各种不同的需求 海量中文智能分词基础件目前提供三种分词结果模式 大模式 中模式和小模式 其中 小模式结果仅提供了词串信息 中模式结果 提供了词串 词性 词号等结果信息 大模式结果不仅提供了词串 词性 词 号信息 还提供了句子号 段号等信息 在创建分词句柄时可以选择不同的模 式 本文档只提供小模式 定义如下 宏定义宏定义 宏定义宏定义 SEGMENT RESULT MODE NIN 小模式 只输出字符串指针数组 附加计算附加计算 标志 标志 附加计算标志是为适应不同需求的用户而定 可以实现面向全文检索的分词优 化 当不进行附加计算 标志取 0 值 时 只进行词形的切分 不作其他方面 的计算 详细信息参看下表 取取 值值说说 明明 0 默认值 不进行附加计算 HL ECF OPT SEARCH 检索优化 HL ECF OPT SEARCH EX 检索优化并转换相应码制 格式化 格式化 对分词结果进行格式化是指将分词结果的英文和数字的全角字符转变成半角字 符 将大写英文字符转化成小写英文如 转化后的结果为 abc 在创建 分词句柄 HLCreateSegHandle 时可以传入参数 bIsFormat true 来进行格 式化 分词支持分词支持 的码制 的码制 海量分词软件包支持多种码制 包括 GB18030 BIG5 UNICODE 以代码页的 形式实现 在调用分词接口时传入不同的参数即可实现不同码制的分词 代码页标志代码页标志取取 值值码码 制制 CODE PAGE GB1803054936GB18030 CODE PAGE BIG5950BIG5 CODE PAGE UNICODE100UNICODE 代码页定义 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 7 of 11 码制和分词模式的关系 码制和分词模式的关系 在不使用附加计算标志 HL ECF OPT SEARCH 的情况下 码制和分词模式的关系 如下 小小 模模 式式 输入码制输入码制输出码制输出码制 GB18030GB18030 UNICODEUNICODE BIG5BIG5 在使用附加计算标志 HL ECF OPT SEARCH 的情况下 在三种模式下无论输入是 什么码制 输出都是 GB18030 第四章第四章 典型应用典型应用 4 14 1 KMKM 知识管理系统知识管理系统 知识管理需要实现分析 辨认和调整文字 语音等各种信息 能够自动进行分类 链 接和个性化地传递信息 海量中文智能分词基础件可应用于知识管理系统 辅助信息进行 集成 分类 使知识管理系统成为强大的 综合性的信息源 4 24 2 搜索引擎搜索引擎 搜索引擎的准确率一直是用户关注的 然而多数搜索引擎并未给使用者提供准确的结果 运用分词技 术可以使其自动对请求做分词和断句处理 提高搜索的准确率 去处错误信息 4 34 3 辞书出版辞书出版 辞书的编纂是一项浩繁的工程 需要投入大量的人力物力 其中 语料采集 标注入库 提取书证最 为烦琐 以前 这些工作都是依靠人工 因此 辞书的出版缺乏时效性 严重滞后于语言的发展 无法适 应信息化社会的需要 另一方面 大量用有经验的编辑人员从事简单的重复劳动 造成人力资源的浪费 采用分词技术使辞书出版不再需要大量的人力与物力 降低了成本 语料采集 标注入库 提取书证 由基于分词技术的软件完成 提高了整理速度 保证了时效性 同时也提高了准确率 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 8 of 11 4 44 4 信息服务信息服务 随着信息技术的不断发展 特别是互联网应用的飞速普及 海量 无序的信息需要有效的管理 发布 查询工具 使用基于分词技术的搜索能够帮助可以迅速实现对海量数据的管理和快速查询 以其领先的技 术和卓越的性能 成为当之无愧的海量信息管理专家 4 54 5 网站信息发布网站信息发布 使用基于分词技术的自动分类技术可方便对大量的资料进行查找与管理 实现网站信息资料的挖掘 帮助 网站为访问者提供方便 准确的分类服务 网站发布信息量越大 自动分类越能体现它的作用 网站的信息 发布越便捷 第五章第五章 产品性能指标产品性能指标 版本与性能 版本与性能 针对不同的用户我们将本产品分为五个版本 其价格参见 海量分词版本与价格 适用范围适用范围词表词表 支持支持 码制支持码制支持准确率准确率速度速度占用资源占用资源 版本版本 1 1搜索引擎专用词表 GB1803099 7 33 3 万字 秒 版本版本 2 2大型服务级词表 GB1803099 7 11 1 万字 秒 版本版本 3 3企业应用级词表 GB1803099 7 3 70 万字 秒 版本版本 4 4研究应用级词表 GB1803099 7 1 23 万字 秒 版本版本 5 5个人应用级词表 GB1803099 7 0 41 万字 秒 定制词表定制词表 客户可根据应用范围选择需要增加的词表 这些词表包括 中国分类主题词表 中国商用关键词表 行业词表 港台用语词表 定制码制 定制码制 根据需求 用户可定制需要增加的码制 可增加的码制有 Unicode BIG5 第六章第六章 运行环境运行环境 6 16 1 WINDOWSWINDOWS 环境要求环境要求 软件开发环境软件开发环境 VC 6 0 软件支持环境 软件支持环境 Windows98 第二版 Windows Me 及其以上版本 海量中文智能分词基础件 Version 3 0 技术白皮书 Date 22 12 2007 Page 9 of 11 推荐使用 Windows2000 及其以后版本 硬件支持环境 硬件支持环境 最低配置 128M 内存 PII400 提供的开发接口 提供的开发接口 C C 6 26 2 LINUXLINUX 环境要求 本产品在以下系统环境中测试通过 gcc Configured with configure prefix usr mandir usr share man infodir usr share info enable shared enable threads posix disable checking host i386 redhat linux with system zlib enable cxa atexit Thread model posix gcc version 3 2 20020903 Red Hat Linux 8 0 3 2 7 os Red Hat Linux release 8 0 Psyche Kernel 2 4 18 14 on an i686 6 36 3 UNIXUNIX 本软件在以下系统环境中测试通过 gcc Reading specs from usr local lib gcc lib sparc sun solaris2 8 2 95 3 specs gcc version 2 95 3 20010315 release os Sun OS 发行版 5 8 Generic 108528 01 第七章第七章 成功案例成功案例 7 1 商务印书馆商务印书馆 商务印书馆是中国近现代出版事业中历史最悠久的出版机构 以翻译介绍外国哲学 社会科学的学术 著作和编纂出版语文工具书为主要任务 兼及研究著作 教材 普及读物等 2001 年海量依靠优秀的中文智能分词技术 中文自动词性标注技术 全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论