海量分词技术白皮书22.doc_第1页
海量分词技术白皮书22.doc_第2页
海量分词技术白皮书22.doc_第3页
海量分词技术白皮书22.doc_第4页
海量分词技术白皮书22.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海量中文智能分词技术白皮书2011年1月海量中文智能分词技术白皮书海量信息技术有限公司2011年1月目录序言4第一章 产品概述61.1海量中文智能分词基础件简介61.2 海量中文智能分词基础件应用前景6第二章 产品技术特点72.1海量中文智能分词基础件的特点72.2 算法特点82.3基础件特点8第三章 产品功能介绍103.1词形切分103.2词性标注(高级版)103.3关键词标注(高级版)103.4支持的字符集标准103.5语意指纹提取(高级版)103.6分词颗粒度控制11第四章 运行环境124.1 WINDOWS124.2 LINUX124.3 UNIX13第五章 海量中文智能分词的典型应用145.1KM知识管理系统145.2搜索引擎145.3辞书出版145.4信息服务145.5网站信息发布15第六章 合作伙伴成功案例166.1商务印书馆166.2腾讯SOSO搜索引擎166.3其他案例17附录A 数据辞典18附录B 市场部联系方式18序言1.什么是中文分词?中文分词就是将连续的字序列按照一定的规范切分成词序列的过程。众所周知,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。2.中文分词的应用中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。通过近几年互联网的发展,互联网上的信息也在急剧膨胀,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”,而被当作同一类来处理,结果是检索“和服”的相关信息,会将他们都检索到。通过引入分词技术,可以使机器对信息的整理更准确、更合理,在“制造业和服务业是两个不同的行业”中“和服”不会被当作一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。3.中文分词的意义和作用要想说清楚中文分词的意义和作用,就不得不提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才能使人与机器的交流成为可能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。 中文分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系统,到文字处理,以及语音合成,文本检索,文本分类,自然语言接口,自动文摘等等,无处不渗透着分词系统的应用。分词系统的完善与应用,必将促进中文信息处理系统的广泛应用,换言之,也就提高了中文软件对于中文的处理能力,这也将使得计算机用户的日常工作的效率得以提高。 第一章 产品概述1.1海量中文智能分词基础件简介海量中文智能分词基础件是海量信息在海量中文智能分词技术基础之上推出的分词准确、高效、接口方便灵活的便于二次开发的软件包,以及为使软件包在目标系统中实现最优品质而提供的特定服务。其服务包括:目标系统架构咨询、辅助开发、技术培训、售后支持等,简称为中文分词基础件。1.2 海量中文智能分词基础件应用前景作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。主要应用领域如下: 1)信息检索:如全文检索、主题检索 2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换 3)语音处理:如语音合成、语音识别 4)内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘 5)自然语言理解:如机器翻译、自然语言接口第二章 产品技术特点2.1海量中文智能分词基础件的特点中文分词技术的滞后是将当前中文信息自动化处理技术发展的瓶颈。词是能独立活动的有意义的最小语言单位。分词是中文信息处理从字符处理水平向语义处理水平提升的关键之一,是中文智能计算技术的基础。目前,中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题,海量中文智能分词技术在这两方面都有所突破。通过研究发现,中文自动分词准确率低主要受以下几个难题的困扰: 1)词表收录 2)分词规范 3)未登录词识别 4)歧义切分海量中文智能分词采用复方概念平衡各算法,使海量分词在大规模语料测试中的准确率达到了99.7%,分词效率10000字/秒,该指标目前处于国内领先水平,已经达到实用要求。正因如此,海量承担了2000年度国家863计划课题“智能信息内容分析方法研究”。 海量信息在中文分词技术基础之上推出了海量中文智能分词功能基础件,作为国内最优秀的中文智能分词产品海量中文智能分词功能基础件具有以下特点:准 切分准确率99.7%快 10000字/秒活 系统外挂分词规范,用户可自定义歧义识别 海量中文智能分词功能基础件依靠优秀的歧义识别算法,有效的避免了分词歧义的产生,使分词的准确率大大提高。未登录词识别 未登录词(包括姓名、地名等)的识别,是影响中文分词准确率的重要因素,海量中文智能分词功能基础件采用了先进的新词识别算法,能够自动准确地识别未登录词。可外挂用户自定义词典 用户可以根据自己的需求定义新词,利用海量中文智能分词软件包的接口与分词系统进行挂接。海量中文智能分词基础件优秀性能 海量中文智能分词基础件的开发采用复方概念平衡各算法,使海量分词有很高的分词准确性和快速的分词效率,达到实用要求。2.2 算法特点海量中文智能分词基础件的算法采用复方概念,通过多种途径解决同一个问题。发展了受限的隐马尔科夫过程, 使知识库的冗余大幅降低。在歧义识别和未登录词识别上投放了大力量。该基础件准确性高达99.7%,速度为10000字/秒,稳定性高且资源占用率低,分词知识库共享机制大大提升了系统资源的使用效率。2.3基础件特点l 产品支持标准产品支持的词表: 以现代汉语词典为基础建立的知识库。可选择增加的词表:中国分类主题词表:中国分类主题词表是在中国图书馆图书分类法三版(含中国图书资料法三版)和汉语主题词表基础上编制的。它集分类、主题为一体,是一部大型的综合性的分类法与叙词表对照索引式的一体化检索语言。它从内容到形式、从结构到语义等方面,实现了分类语言与主题语言、先组语言与后组语言的相互兼容。中国商用关键词表:是商业活动中常用的词的集合,主要指产品的品牌、名称、生产厂家等信息。(以新词和专有名词为主)行业词表:行业内名称的集合。港台用语词表:港台地区与大陆地区有些用语存在差异,由这些差异构成的集合就是港台用语词表。例如“软件”一词港台称之为“软体”,“布什”称之为“布希”。产品支持的码制:GB18030: 国家标准GB18030信息交换用汉字编码字符集基本集的扩充是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。GB18030编码空间约为160万码位,目前已编码的字符约2.6万。可选择增加的码制:u BIG5: BIG5是台湾计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。u Unicode:Unicode是一个涵盖了目前全世界使用的所有已知字符的单一编码方案。每个字符都被分配了一个称为码点的不同数值。l 使用灵活本产品支持多平台,多码制,多线程,多应用领域。与此同时该产品还提供增值功能,系统外挂分词规范,用户可根据需要自定义。第三章 产品功能介绍3.1词形切分海量分词规范 各种应用对分词结果的颗粒度要求是不同的。比如自动分类、关键词抽取比搜索需要的分词颗粒度要大,因为这样表示文本语义特征时效果会更好,而检索有一个查全率的要求,就需要把分词单位做的更为细致,不然就会造成漏查。到现在为止,海量已经做了五种类型的分词标准,分别是:检索、自动分类、聚类、自动摘要和关键词抽取。国家标准:信息处理用现代汉语分词规范3.2词性标注(高级版)通过输入的词给出其词性。由于汉语一字多意,同一个词在不同语境词性不同,因此,要做到自动标注,必须对语境进行分析。3.3关键词标注(高级版)关键词是反映文章主题内容但未经规范化处理的名词和术语。从用户输入的一句话或者几个词组中,抽取其中的核心词汇。3.4支持的字符集标准 支持GB18030 可选择增加的码制BIG5、Unicode。3.5语意指纹提取(高级版)在基于內容的消重应用中,基于字符串比对方式进行消重的应用一方面因为功能简单,无法实现真正的內容消重,另外一方面是文本比对的效率非常低,无法在实际中进行应用。因此我们提出了根据对文章內容的分析,然后基于生成一个128位的数字指纹,再对数字指纹进行比对的消重方式,不但实现了真正意义上的內容消重,而且大幅提升了消重的效率。3.6分词颗粒度控制各种应用对分词要求的颗粒度是不同的。比如自动分类、关键词抽取比搜索需要的分词颗粒度要大,因为这样表示文本语义特征时效果会更好,而检索有一个查全率的要求,就需要把分词单位做的更为细致,不然就会造成漏查。海量系统现在提供了两种颗粒的规则,其中,默认的为大颗粒接口,主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域,用于提升信息分析的有效性和准确性;另外一种应用为小颗粒度分词也叫检索优化分词接口,用于信息检索领域,用于提升查全率。例如:对中华人民共和国进行分词:大颗粒度分词(默认方式)结果为:中华人民共和国小颗粒度分词(检索优化)结果为:中华 人民 共和 国第四章 运行环境4.1 WINDOWS环境要求n 软件开发环境:VC+6.0 n 软件支持环境: Windows98第二版 /Windows Me及其以上版本 推荐使用Windows2000 及其以后版本n 硬件支持环境:最低配置:128M内存,PII400n 提供的开发接口: C/C+4.2 LINUX环境要求: 本软件在以下系统环境中测试通过:* gcc: Configured with: ./configure -prefix=/usr -mandir=/usr/share/man -infodir=/usr/share/info -enable-shared -enable-threads=posix -disable-checking -host=i386-redhat-linux -with-system-zlib -enable-_cxa_atexit* Thread model: posix gcc version 3.2 20020903 (Red Hat Linux 8.0 3.2-7)* os: Red Hat Linux release 8.0 (Psyche) Kernel 2.4.18-14 on an i6864.3 UNIX 本软件在以下系统环境中测试通过:* gcc: Reading specs from /usr/local/lib/gcc-lib/sparc-sun-solaris2.8/2.95.3/specsgcc version 2.95.3 20010315 (release)* os: Sun OS发行版5.8 Generic_108528_01第五章 海量中文智能分词的典型应用5.1KM知识管理系统知识管理需要实现分析、辨认和调整文字、语音等各种信息,能够自动进行分类、链接和个性化地传递信息。海量中文智能分词基础件可应用于知识管理系统,辅助信息进行集成、分类,使知识管理系统成为强大的、综合性的信息源。5.2搜索引擎搜索引擎的准确率一直是用户关注的。然而多数搜索引擎并未给使用者提供准确的结果。运用分词技术可以使其自动对请求做分词和断句处理,提高搜索的准确率,去除错误信息。5.3辞书出版辞书的编纂是一项浩繁的工程,需要投入大量的人力物力。其中,语料采集、标注入库、提取书证最为烦琐。以前,这些工作都是依靠人工,因此,辞书的出版缺乏时效性,严重滞后于语言的发展,无法适应信息化社会的需要。另一方面,大量用有经验的编辑人员从事简单的重复劳动,造成人力资源的浪费。采用分词技术使辞书出版不再需要大量的人力与物力,降低了成本。语料采集、标注入库、提取书证由基于分词技术的软件完成,提高了整理速度,保证了时效性,同时也提高了准确率。5.4信息服务随着信息技术的不断发展,特别是互联网应用的飞速普及。海量、无序的信息需要有效的管理、发布、查询工具。使用基于分词技术的搜索可以迅速实现对海量数据的管理和快速查询,以其领先的技术和卓越的性能,成为当之无愧的海量信息管理专家。5.5网站信息发布使用基于分词技术的自动分类技术可方便对大量的资料进行查找与管理,实现网站信息资料的挖掘,帮助网站为访问者提供方便、准确的分类服务。网站发布信息量越大,自动分类越能体现它的作用, 网站的信息发布越便捷。第六章 合作伙伴成功案例6.1商务印书馆 商务印书馆是中国近现代出版事业中历史最悠久的出版机构, 以翻译介绍外国哲学、社会科学的学术著作和编纂出版语文工具书为主要任务,兼及研究著作、教材、普及读物等。2001年海量依靠优秀的中文智能分词技术、中文自动词性标注技术、全文检索技术,中标商务印书馆辞书语料库及编篡系统。为商务印书馆开发语料自动分词及标注系统和语料库全文检索系统。系统实施后可以显著缩短辞书编纂周期,提高编辑工作效率。海量技术从各个方面全面满足了商务印书馆辞书语料库及编篡系统对于分词、标注、检索的需求。作为国内最著名的辞书出版社,商务印书馆选择海量技术证明了海量在中文自动分词、自动标注和全文检索领域技术的领先地位。6.2腾讯SOSO搜索引擎海量信息自2007年1月起与腾讯合作,为其搜索引擎 SOSO提供海量中文分词核心技术,全面提升SOSO检索准确率和检索效率。腾讯公司成立于1998年11月,是目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之一。成立十年多以来,腾讯一直秉承一切以用户价值为依归的经营理念,始终处于稳健、高速发展的状态。海量信息与腾讯合作,利用领先的海量中文智能分词技术,使SOSO得到全面提升,成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论