




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于主题图的中文自动分类原型系统设计与实现 吕世国 (湖北财税职业学院湖北武汉) 摘要:针对目前基于主题图的中文自动分类的空缺,文章在总结对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助、作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以为系统实现主要语言,达到了基于主题图的中文自动分类的目的。 关键词:主题图;中文分类;盘古分词; :TP274.3:50639 主题图被誉为信息时代的,它是多种技术进行融合而出现的一种新兴技术,其作为一种复杂的元数据、一种数字化的知识组织方式、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术,引起了国内外学者越来越多的关注和思考。近年来出现了主题图在图书情报机构、医疗机构、企业单位、网络教育、电子商务、政府部门等领域的研究和应用。主题图将资源之间的关系透过,即主题()、资源出处()和关联()描述出来,它们就如同三维空间中的“点、线、面”,将一定领域的知识结构和他们之间的语义关联具体化。而在实际应用中,一般使用和存储语法形式的()描述。 目前常用的主题图引擎有、和等,然而仅有挪威公司的()获得了成功。知识开发组件(,)是由公司开发的一个由本体驱动,基于的构建和管理工具,主要用于创建、维护、配置主题图应用程序,是目前较完整的商业开发工具。 在()组件中,提供了基于主题图的自动分类功能,但是仅局限于英语和挪威语,缺乏对中文的支持。图书馆作为文献信息的服务机构,藏有大量历史文献,是众多历史研究者及历史爱好者查找资料、研究学习的场所。面对如此巨大的文献馆藏,若完全由人工来进行分类是不现实的。于是,在的基础上实现了基于主题图的中文自动分类系统的原型系统。 1系统功能模块设计 为实现基于主题图的中文自动分类,基于主题图的中文自动分类系统的目标如下:提供文档内容提交接口;提供文档上传接口;支持中文、英文、以及中英文混合文档;支持多种文档格式;自动提供分类推荐。 2系统设计思路(见图) 图为系统功能模块,系统包括:分别是获取文本、中文分词、词频记录、词频统计、分类推荐。具体是:获取文本模块其主要功能是通过提供用户接口,由用户提交文档内容或文档,获取文本;中文分词模块其主要功能是分析文本,采用中文分词工具实现中文分词;词频记录模块其主要功能是对分词结果进行词频计算;词频统计模块其主要功能是根据词频记录进行统计排序;分类推荐模块其主要功能是在词频统计的基础上返回分类推荐结果。 3系统实现 3获取文本 获取文本模块,其主要功能是与用户交互,从而获取需要分类的文本。 系统提供了两种用户交互的人机界面:一种是直接提交文档内容,一种是直接上传文档。 ()第一种界面(直接提交文档内容)提供了用户输入文档内容的文本框。通过这个文本框,用户输入文本内容,提交到系统中。采用这种方式,用户的操作比较复杂,需要打开文档,然后再复制文档内容,再粘贴到文本输入框提交文档。虽然使用这种方式比较繁杂,但是在处理一些极少使用到的文档格式的文档时很方便。 ()第二种界面(直接上传文档)提供用户选择文档的界面,用户可以选择多种文档格式文档,上传文档由系统处理。系统根据不同的文档格式,调用不同的解析工具来解析文档,提取文档文本。 解析器用于提取以,和为文档后缀的文档;解析器用于提取以为文档后缀的文档;解析器用于提取以“”,“”,“”,“”和“”为文档后缀的文档。 3中文分词 中文分词模块对获取的文本进行文本分析,进行中文文本分词。 汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础和关键。为了提高中文分词的精确度,在文本分词时,采用该主题图的专业词库。这样在文本中出现一些特别专业的词语时,系统能够识别,而不至于被系统忽略掉。此外,还需要对词语进行词性标注,在经过词性标注后,可以过滤掉一些对分类无效的词语,比如虚词、代词、连词、副词、形容词等。 本系统在中文分词模块中,采用的中文分词组件是盘古分词。盘古分词是一个开源的中文分词组件,有中文分词功能、英文分词功能、中文词性输出、停用词过滤功能、用户自定义规则、字典管理功能、关键词高亮等功能,在下单线程,分词速度为字符每秒,线程分词速度为字符每秒。盘古分词,不仅解决了中文分词,还对停用词进行了过滤和对中文词性进行标注,为词频记录模块提供良好的支持。 3词频记录 词频记录模块对盘古分词的结果进行词频分析,根据词性记录每个分词的词频。 首先,读取盘古分词的结果,根据词性排除掉一些对分类起干扰作用的词语,虚词、代词、连词、副词、形容词等;把排除后的词语采用基于的数据结构,即键值对的方式,对词频进行记录。保存的是词语,保存出现的次数和出现的百分比,当存在,递增,当不存在,新添加一个键值对第二,获取出现词语的总次数。 3词频统计 词频统计模块的主要功能是对词频记录进行统计,生成词频表并对词频进行排序。 通过词频记录模块中,遍历返回的词频记录,计算出每个词语在所有词语中,所占有的百分比。根据词语所占有的词频的百分比,对词频记录进行从高到低的排序,从而获取每个词语在文档中所占有的位置重要程度。 3分类推荐 分类推荐模块,其主要功能是根据词频统计的词频排序,以及主题图的状况,给用户提供分类推荐。 在词频排序时,该词语在文档中占据的重要程度已经非常明显,根据词频从高到低地排序,即可很大程度上展现了该文档所属的分类。 此外,由于主题图中的分类是有限的,并不完全肯定文档比较合适的分类一定存在主题图中,以及文档中存在的某些词语,在主题图中可能已经被定义为了等同关系,所以,还需要对主题图中的主题进行比对,将同义的词语进行合并。将合并后的词频排序结果,给用户推荐作为该文档的分类之一,当对于词频出现比较高,而文档中又不存在的主题,系统将给于文档提示,是否需要在该主题图中,添加该主题。 4应用效果 选择一篇文档对该系统进行文档自动分类应用。 首先进入文档自动分类界面: 点击浏览按钮后完成文档的选择,系统进入文档上传界面: 提交文档后,系统给出的文档自动分类结果: 点击分页导航,系统自动将结果集翻页: 5结语 该系统在实现对英文和挪威文自动分类的基础上,根据中文的特殊性,实现了基于中文的自动分类系统原型,一定程度上在文档分类上实现了自动化,减轻了用户的负担。当然,该系统也存在二种不足。一是在文档提交上,缺乏批量提交的接口,二是在中文分词上,采用的是基于词典的分词,和采用文本匹配的方式,并没有达到基于语义匹配的方式,因此在分类的精确度上还有欠缺。 参考文献 秦铁辉,郭延吉,孙琳信息时代的全球定位系统主题地图江西图书馆学刊,() 韩永青,陈卓群,夏立新国内外主题图应用研究述评图书情报知识,() 张玉涛,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-湖南-湖南广播电视天线工一级(高级技师)历年参考题库含答案解析
- 2025版保安员考试试题附含答案
- 2025年事业单位工勤技能-湖南-湖南公路养护工三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-湖南-湖南中式烹调师三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北理疗技术员三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北水土保持工二级(技师)历年参考题库含答案解析
- 2025年食品与饮料行业婴幼儿配方食品安全标准与监管报告
- 2025-2030中国线型低密度聚乙烯行业供需态势及前景动态预测报告
- 元宇宙社交平台虚拟社交平台用户满意度提升策略2025年分析:用户体验与瓶颈突破
- 2025年事业单位工勤技能-浙江-浙江水利机械运行维护工一级(高级技师)历年参考题库含答案解析(5套)
- 新疆准东经济技术开发区西部固废处置场项目环评报告
- 微胶囊灭火剂全氟己酮的研发与应用
- 生物电磁场调控-洞察及研究
- 风系统平衡调试要点
- JG/T 272-2010预制高强混凝土薄壁钢管桩
- 仙居两山生物科技有限公司生物酶及辅酶环评报告
- 货运平台代扣代缴协议书
- 日本所有番号分类
- T/CATCM 026-2023中药液体废弃物循环利用指导原则
- 过程稽核培训
- (高清版)DG∕TJ 08-7-2021 建筑工程交通设计及停车库(场)设置标准
评论
0/150
提交评论