ICTCLAS的优化设计.doc_第1页
ICTCLAS的优化设计.doc_第2页
ICTCLAS的优化设计.doc_第3页
ICTCLAS的优化设计.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICTCLAS的授权策略 2004-4-30ICTCLAS的授权策略ICTCLAS的授权策略1ICTCLAS介绍1ICTCLAS大事记:1ICTCLAS授权策略2ICTCLAS自由软件授权2ICTCLAS商用API2ICTCLAS商用源代码3ICTCLAS介绍词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时两年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。该系统的功能有:中文分词;词性标注;命名实体识别;未登录词识别。特色在于:C/C+编写,支持多种Linux及Windows系列操作系统;ICTCLAS有GB2312和BIG5版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”;用户可以直接自定义输出的词类标准,定义输出格式;可按需要输出多个最优结果;所有功能模块均可拆卸组装。计算所汉语词法分析系统ICTCLAS同时还提供一套完整的API接口(包括:动态连接库,静态连接库,Linux下的库函数和COM组件)和相应的概率词典,开发者可以直接在自己的系统中调用ICTCLAS,在分词和词性标注的基础上继续上层开发。欢迎相关领域的工程技术人员、研究人员使用,并提供宝贵意见。联系人:张华平 中国科学院计算技术研究所 xt. 838刘 群 中国科学院计算技术研究所 xt. 9607ICTCLAS大事记:1) 2002年7月,在973项目图像、语音、自然语言理解与知识挖掘专家组的评测中,在所有参评的系统中,评测得分最高。(分词正确率高达97.58%,参赛单位包括北京大学,清华大学等)2) 2003年1月7日,获得国家版权局授予的软件著作权登记证书,编号为软著登字005178号)3) 在2003年4月22日至25日, ICTCLAS参加了第四十一届国际计算语言联合会(41st Annual Meeting of the Association for Computational Linguistics, 41th ACL )下设的汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN)举办的第一届国际汉语分词评测大赛,在参加的六项比赛中,获得了两项第一名、一项第二名。(参赛单位来自于6个国家和地区的12个系统,包括微软,SYSTRAN, Pennsylvania大学,Berkeley大学,北京大学4) 作为计算所的15项免费技术成果之一,被来自于国内外的约3000人次的下载使用。作为中文自然语言处理开放平台的自由软件,受到了广泛的欢迎和关注,在科学时报、新浪网、人民日报海外版均有报道。ICTCLAS授权策略分为如下三种: 自由软件,商用API,商用源代码。ICTCLAS自由软件授权1. 软件版本:Release Free Build0705(最后修订时间: 2002年7月;参加973评测版获得第一名,并在此基础上修正了程序部分BUG) 2. 词典版本:Dictionary Free Build0705(一个月的概率词典)3. 成果形式源代码,概率词典,文档,论文4. 效果: 973评测中获得较好成绩,可以满足个人及单位的非商业应用5. 技术支持:责任自负,无技术支持6. 适用协议自然语言处理开放资源许可证;自由软件授权方式7. 有何限制?只做研究用途,不能用于商用,不得以任何形式随自己的软件产品发布8. 收费完全免费,不提供API9. 源码:完全公开ICTCLAS商用API1. 软件版本:GB2312版本:ICTCLAS2.6 (最后修订日期:2004年4月30日;参加第一届国际评测获得两项第一名,一项第二名,并在此基础上修正了程序部分BUG)BIG5版本:ICTCLAS 1.2 (最后修订日期:2003年12月25日;参加第一届国际评测获得第三名)2. 词典版本:Lexicon20030425(六个月语料库训练出来的概率词典)3. 成果形式概率词典;文档;论文;一套完整的API接口(包括:动态连接库,静态连接库,Linux下的库函数和COM组件),开发者可以直接在自己的系统中调用ICTCLAS,在分词和词性标注的基础上继续上层开发; 4. 效果: 覆盖面更广,准确率更高,功能更全面,容错性更强; 是国际上最好的词法分析系统之一。5. 技术支持:提供技术支持,协助并指导申请人更好的利用商用资源6. 适用协议自然语言处理商用资源授权协议7. 有何限制?使用者需要尊重作者的知识产权,不得反编译,改动,不得转让,不得单独出售,但可以作为自己软件产品的有机组成部分发布并销售。8. 收费版本中国大陆授权价格全球授权价格GB2312版本 ICTCLAS2.6人民币5万元人民币12万元BIG5版本 ICTCLAS1.2人民币3万元人民币8万元GB2312版本和BIG5版本套装人民币7万元人民币18万元“中国大陆授权”指授权产品仅可以在中国大陆地区(不含港、澳、台)销售;“全球授权”指授权产品可以在全球任何地区销售。9. 源码:不公开,可参照自由版本ICTCLAS商用源代码1. 软件版本:GB2312版本:ICTCLAS2.6 (最后修订日期:2004年4月30日;参加第一届国际评测获得两项第一名,一项第二名,并在此基础上修正了程序部分BUG)BIG5版本:ICTCLAS 1.2 (最后修订日期:2003年12月25日;参加第一届国际评测获得第三名)2. 词典版本:Lexicon20030425(六个月语料库训练出来的概率词典)3. 成果形式概率词典;文档;论文;系统源代码;词典管理器;一套完整的API接口(包括:动态连接库,静态连接库,Linux下的库函数和COM组件),开发者可以直接在自己的系统中调用ICTCLAS,在分词和词性标注的基础上继续上层开发; 4. 效果: 覆盖面更广,准确率更高,功能更全面,容错性更强; 是国际上最好的词法分析系统之一。5. 技术支持:提供技术支持,协助并指导申请人更好的利用商用资源6. 适用协议自然语言处理商用资源授权协议7. 有何限制?使用者需要尊重作者的知识产权,不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论