




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的 研究成果。其他同志对本研究的启发和所做的贡献均已在沧文中作了明确的声明 并表示了谢意。 作者签名:壹,槛只期:塑叠! :l 论文使用授权声明 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此 规定。 作者签名:邋缝 导师签名:日期 h s 编码查询服务的知识库研究吁实现 摘要 摘要 h s ( h a r m o n i z e ds y s t e m ) 目录是一种国际通用的进出口商品分类体系,在国际贸易 中得到了广泛应用。目前,h s 目录已成为执行各类监管政策和进行进出口统计的基 本体系,而h s 编码则是海关和检验检疫部门判断商品适用政策的直接依据。但是, h s 编码的查询和确认工作枯燥耗时,且容易出现故意和非故意的错误,成为当前影 响货物通关效率的重要因素。因此,h s 编码的自动查询对实现检验检疫业务流程自 动化和提高通关效率具有巨大意义。 为此,复旦大学软件学院电子商务研究中心和上海市检验检疫局机场分局合作, 研究并提出了一套以实用、准确、高效为导向,面向进出口领域h s 编码智能查询系 统的设计方案。作为方案中的重要构件,作者负责了h s 知识库设计与原型系统实现。 本文首先基于现有g h s 编码目录的结构和内容,分析了h s 知识库的知识组织 和表达方式,其设计借鉴本体的概念关系描述方法,支持修饰关系、否定关系、限制 关系。该h s 知识库可同时支持标准h s 目录体系和检验检疫历史工作数据两个知识 来源,通过对h s 编码目录特征词的提取,并利用基于品类聚类的关联规则挖掘算法 对历史工作数据的处理,实现了知识库的半自动构建。 同时,论文基于h s 知识库,提出了高效、准确的h s 编码查询处理方法和可信 度算法,包括对商品名进行语义识别,基于知识库进行查询推理得到可能结果集,计 算出相关可信度,并进行结果后处理的整个过程。 本文中还实现了h s 知识库,并基于j 2 e e 开发了的h s 编码智能查询原型系统。 系统的实现采用分层架构,结构清晰;缓存和p l s q l 技术的使用使系统具有很高的 运行效率;系统对外提供包括b s 和w e b 服务两套i j 端支持,可以方便的实现跨平台 集成;大量开源组件的使用降低了系统构建费用,也使系统搭建方便快捷。本文中对 系统的双前端架构设计、开发实现、系统部署和w e b 服务发布进行了分析。从h s 编 码智能查询原型系统的测试以及在几大快件公司试运行情况看来,该系统具有较高的 查询准确率,批处理的查询调用方式具有很高的处理效率,所发布的w e b 服务也可以 方便集成到已有应用中,具有良好的应用前景。 关键词:h s 编码,知识库,本体,关联规则,w e b 服务 中图分类号:t p 3 9 3 h s 编码壹询服务的知识库研究1 i 实现摘要 a b s t r a c t h sf h a n n o n i z c ds y s t e m ) h a sb e e nw i d e l yu s e di ni n t e r n a t i o n a lt r a d i n g c u r r e n t l y , h s d i r e d o r vh a sb e c o m et h eb a s i sf o rc u s t o m si m p o r ta n de x p o r ts t a t i s t i c sa n dm o n i t o r i n g a n dh s c o d e sh a v ea l s ob e t a ) m ed i r e c tb a s i so ft h ec u s t o m sa n di n s p e c t i o n q u a r a n t i n ed e p a r t m e n t s w h e nd e t e r m i n i n g a p p l i c a b l ep o l i c i e sf o rc o m m o d i t y h o w e v e r , h sc o d eq u e r y i n ga n d c o n f n - m i n ga r eb e r i n ga n dt i m e - c o n s u m i n g ,a n di n t e n t i o n a la n dn n i n t e n t i o n s lm i s t a k ei sl i k e l y t oa r i s ew i mt r e m e n d o u sw o r k l o a d h sc o d ei n t e l l i g e n tq u e r yt o o lh a sb e c o mv e r ys i g n i f i c a n t f o ri n c i e a s i n gt h ee f f i c i e n c yo fc u s t o m sc l e a r a n c e i o e bo ff u d a nu n i v e r s i t ys o f t w a r es c h o o lc o o p e r a t i n gw i t hs h a n g h a ii n t e r n a t i o n a l a i r p o r te n t r y - e x i ti n s p e c t i o n q u a r a n t i n eb u r e a u p r o p o s e da ni n s p e c t i o n - o r i e n t e dh sc o d e i n t e l l i g e n tq u e r ys y s t e ms o l u t i o n t h ea u t h o rw a si nc h a r g eo fh sk n o w l e d g eb a s ed e s i g na n d p r o t o t y p es y s t e mi m p l e m e n t a t i o ni nt h i ss o l u t i o n b a s e do nt h es t u d yo fh sd i r e c t o r ya n dt h ec o n c e p td e f i n i n ga n de x p r e s s i n gm e t h o do f o n t o l o g y , t h i sp a p e rf i r s tp r o p o s e sas p e c i a l i z e dh s - o r i e n t e dk n o w l e d g eb a s ew h i c hs u p p o r t s d e c o r a t i n gr e l a t i o n s h i p ,n e g a t i v er e l a t i o n s h i pa n dl i m i t a t i v er e l a t i o n s h i p t h r o u g hc a t e g o r y c l u s t e r i n gb a s e da s s o c i a t i o nr u l e sm i n i n ga l g o r i t h m , t h ek n o w l e d g eb a s ec o n s t r u c t i n gf r o m t w od i f f e r e n td a t as o u r c u s ,w h i c ha r es t a n d a r dh s d i r e c t o r ya n di n s p e c t i o na n dq u a r a n t i n ew o r k h i s t o r yd a t a i nt h i sp a p e r , h sc o d e sq u e r ya l g o r i t h m sb a s e do nt h ek n o w l e d g eb a s ea r ea l s od i s c u s s e d , i n c l u d i n gt h ea ne n t i r ep r o c e s so fs e m a n t i ci d e n t i f i c a t i o no fg o o d sn e s p o s s i b l er e s u l ts e t c o n s t r u c t i o nb a s e do nk n o w l e d g er e a s o n i n g , a n dc a l c u l a t i o no fr e l a t e dc r e d i b i l i t yt ob er e t u r n e d 幻c l l e n ts i d e t h ea u t h o ra l s oi m p l e m e n t e dt h eh sk n o w l e d g eb a s ea n dj 2 e e - b a s e dh sc o d ei n t e l l i g e n t q u e r ys y s t e m t h es y s t e mh a sac l e a rl a y e r e da r c h i t e c t u r ea n dah i g hp e r f o r m a n c ew i t ht h em o fb u f f e ra n dp l s q la n da l s op r o v i d e sb sa n dw e bs e r v i c ei n t e r r a c ew h i c hi se a s yt o i n t e g r a t ei n t oe x i s t i n ga p p l i c a t i o n s u s i n go fo p e ns o u r c ec o m p o n e n tr e d u c e st h ec o s to fs y s t e m c o n s t r u c t i o n t h ep a p e ro u t l i n e dt h ea r c h i t e c t u r ed e s i g n ,d e v e l o p m e n ta n dw e bs e r v i c ed e p l o y o ft h eh sc o d e si n t e l l i g e n tq u e r yp r o t o t y p es y s t e m f r o mt h el e s tr e s u l t s , h sc o d ei n t e l l i g e n t q u e r ys y s t e mh a sah i g ha c c u r a c yr a t e ,a n dah i g he f f i c i e n c yw i t ht h ep r o v i d e db a t c h - c a l lm o d e b yt h ep u b l i c a t i o no fw e bs e r v i c e s ,i ti sf a c i l i t a t i n gt oi n t e g r a t eh sq u e r ys e r v i c ew i t he x i s t i n g a p p l i c a t i o n s a l lo ft h e s em a k eab r i g h tp r o s p e c tf o rt h e h si n t e l l i g e n tq u e r ys y s t e m s a p p l i c a t i o n k e y w o r d s :h sc o d e , k n o w l e d g eb a s e ,o n t o l o g y , a s s o c i a t i o nr u l e s ,w e bs e r v i c e c h i n e s el i b r a r yc l a s s i f i c a t i o nc o d e :t p 3 9 3 1 h s 编码智能盘询服务的知识库研究1 j 实现第一章绪论 1 1 研究背景 第一章绪论 全球制造业与商业活动的发展,促进了物流、人流和信息流集聚,形成了许多作 为供应链的起点和终点的航运枢纽中心。快速发展的国际贸易迫切需要基于标准的物 流信息化手段来提高物流效率,控制运营成本和加强信息管理。进出口领域的电子商 务和信息化因此成为信息高速公路的重要应用,对推动产业发展和繁荣具有巨大的经 济和社会意义。 检验检疫作为政府部门,是国际物流的重要环节,也是推广和应用物流标准的良 好依托和关键环节。检验检疫机构的口岸工作效率直接影响着物流速度。但是,现阶 段检验检疫系统所依据的舱单数据源并不能满足检验检疫业务自动化的需要( 比如, 数据源中缺少商品h s 编码和包装情况) ,导致实现系统的自动识别和智能审单难度很 大,系统可维护程度和可拓展性也大大降低。对此,传统的解决方案是是由申报单位 确认舱单并人工补输入h s 商品编码等信息,增加可供系统判断的信息。这样做虽然 可以解决舱单数据源不足的问题,但需要将大量的补登记工作量分配给不同的申报单 位,影响了通关效率。即使如此,如果申报单位涉及的商品批次巨大,( 比如快件企 业,在口岸通关环节中扮演着运输企业、申报单位、仓储单位等多个角色) ,他们的 补登日【作是很大的负担。另外,海关部门对快件的管理是按照价值划分的,对低于 5 0 美元的快件直接电子放行,即不要求通关单,更不考虑商品规类,因此应检快件逃 漏检现象非常突出 1 。 在此背景下,把检验检疫的信息化和流程标准化与国际物流信息化应用的标准结 合,形成统一的“信息一政务一物流”标准体系和实施规范,已成为迎合信息技术发展 和国际物流发展趋势的重要手段和保障。在这套体系和实施规范中,需要充分利用仓 单数据信息推理出h s 编码,供审单引擎完成自动审单,实现严格监管,并提高快件 系统可移植性、拓展性和健壮性。另一方面,当前进行的“大通关”建设涉及货物进 出口检验检疫、海关、外经贸委、机场、港务、船代、货代、运输、银行、外汇管理、 税务、货主、生产企业等诸多单位和部门,是一个庞大的系统工程。在此过程中,对 于舱单数据的处理和分析占有重要的一席之地,“先报检,后报关”的通关机制的确 定,要求货物h s 编码的前后申报高度一致,而舱单数据中往往缺少h s 编码信息 1 。 同时,在目前人工分类的情况下,也往往导致同一货物在报检和报关中h s 规类不一 致的现象,使得一些能够在源头完成的工作无法完成,从而延缓了口岸作业速度,也 加重了企业经济负担。因此,建立h s 编码智能查询系统,用信息化手段来统一货物 3 h s 编码智能盎洵服务的知识库研究j 实现 第一章绪论 的正确规类,对实现检验检疫流程自动化,提高口岸工作效率,实现严密监管,促进 “大通关”建设和降低企业运营成本都有巨大的积极意义 2 3 。 为此,复旦大学软件学院电子商务研究中心和上海市检验检疫局机场分局合作, 研究并提出了一套以实用、准确、高效为导向,面向进出口领域h s 编码智能查询系 统的设计方案。本文将着重于该方案中的重要内容,包括知识库设计、构造以及原型 系统实现,展开分析和论述。 1 2 研究内容 h s 编码智能查询系统由复旦大学软件学院电子商务研究中心和上海市检验检疫 局机场分局合作研究并提出,课题组的前期工作包括参考资料 4 5 中提出的h s 智 能编码查询服务框架,和 6 中提出的基于品类聚类的关联规则挖掘算法等。在整个 解决方案中,本文作者负责了其中的重要构件一h s 知识库的设计、构建以及基于该 h s 知识库的推理算法,并对原型系统进行了架构设计。这部分的工作已在作者所撰写 的论文 2 7 中有所体现,本文将结合课题进展,迸一步细化论述相关内容。 在论文面向的进出口领域,h s 编码智能查询系统的设计需高效,准确,实用为导 向。首先需要基于现有h s 编码目录的结构和内容构建h s 知识库。由于h s 编码体 系复杂度高的特性,在知识表达方式的设计既要考虑如何借鉴了本体的知识表达方法 ( 如各种关系的定义) ,利用了其在语义识别和推理机制上优势,又要最大程度的降 低知识库的初期构建成本。同时,由于快件处理系统的短时间大负载量访问,还需要 设计基于h s 知识库的实现高效h s 编码查询处理和可信度算法。 为了提高h s 编码智能查询系统的识别能力,需要从检验检疫部门大量历史报关 数据中获取知识,补充h s 知识库,提高系统查询精确度。对历史数据的处理,本论 文研究中考虑使用一种改进的关联规则挖掘算法,先利用品类信息对数据进行聚类, 然后使用基于品类信息的关联规则挖掘算法,以分而治之的策略使关联规则挖掘处理 达到较高效率。 最后,作为以实用为目的的h s 编码智能查询系统,如何在系统设计和开发的各 个层面实现高效、容错、易部署,也是本文要研究的内容。 综合起来,论文中的研究主要涉及以下问题: ( 1 ) h s 知识库设计,知识表达方法及知识库构建过程; ( 2 ) 基于h s 知识库的编码查询处理和可信度算法设计; ( 3 ) 品类信息关联规则挖掘算法在报关历史数据处理中的应用; ( 4 ) 基于j 2 e e 设计h s 编码智能查询原型系统,能满足响应时间,迁移部署等要 4 h s 编码智能盎询服务的知识库研究与实现 第一章绪论 求并最终对外发布为w e bs e r v i c e ; 1 3 本文结构 本文在h s 编码规范的基础上,结合进出口领域的h s 编码需要,探讨了h s 知识 库的知识表达与实现方法以及基于该h s 知识库的查询及可信度算法,提出一个支持 h s 编码查询的w e b 服务设计方案,介绍了h s 编码查询服务原型系统的架构与实现方 法,并且分析了该原型系统的测试结果及试运行效用。具体章节安排如下: 第一章整体概括了研究背景,研究内容及整篇文章的布局。 第二章对相关技术进行了介绍,包括h s 目录体系,自动分类技术,及关联规则 高效挖掘技术。 第三章对h s 知识库进行了说明,详细介绍了其知识表达方法,构建过程,并详 细介绍了基于h s 知识库的查询处理和可信度算法。 第四章介绍了h s 编码智能查询原型系统的架构及实现方法。 第五章介绍了整个系统的测试,部署及试运行结果,并进行了结果分析。 第六章对全文的工作进行了回顾并分析了本文的更多应用。 5 第二章h s 目录及课题相关技术综述 2 1h s 目录体系 商品名称及编码的协调制度( h a r m o n i z e ds y s t e m ,简称h s ) 是一个新型、系 统、多用途的国际贸易商品分类目录,具有严密的逻辑性和科学性,是国际贸易商品 分类体系的最新发展。自1 9 8 8 年在国际上实施以来,由于该制度协调了多方面的需 要,具有广泛的适用性,至今已在百多个国家被包括海关、检验检疫等越来越多的部 门、公司所采用。 8 h s 目录通过5 7 个层次的分类,系统地对国际贸易中的商品进行了归类,并为各 层次类别定义了数字编码( 即h s 编码) 以供查找和统计。其目录正文由品目子目、 归类总规则和类、章、子目注释三部分构成。从结构看,h s 分为类、章、品目、一级 子目和二级子目共五个层次。我国海关的海关商品统计分类目录,在此基础上还设了 三级子目和四级子且,共七个层次。依照h s 目录体系,各类进出口商品都可通过其 商品名定义在h s 目录中确定唯一的8 1 0 位h s 编码。该h s 编码已成为执行各类监 管政策和进行进出口统计的基础体系,是海关和检验检疫部门判断商品适用政策的直 接依据,进出口监管对于不同h s 编码的商品名采取不同的监管措施。 1 2 1 1h s 目录的基本归类思路 h s 包括2 l 类( c l a s s ) ,下分9 7 章( c h a p t e r ) ,又分为1 2 4 1 条四位数品目( i t e m ) , 再细分为5 1 1 3 个六位数的商品组,是一个相对复杂的分类制度。根据h s 归类总规则 的第一条,可以总结出h s 目录体系的基本归类思路分为如下三步。 第一步,归类总规则第一条首先指出“各类、章及分章的标题仅供查阅方便。” 它说明作为基本思路的第一步,应首先查阅内容目录,根据标题找出物品可能归入的 章;另一方面,说明这些标题仅供查阅方便而设,它们不是商品归类的法律依据。 第二步,为了说明商品归类的法律依据,归类总规则第一条接着规定“为了法律 的目的,商品的归类应按照品目条文和有关的类注释或章注释确定”。因此,之前第 一步中归入的章的基础上,第二步应考虑是否能按照品目条文,类、章注释确定商品 的归类。这里有两种情况较为特殊, ( 1 ) 绝大多数品目条文与所在章的标题是一致的。如:品目0 1 o l 的条文是: 活马、驴、马骡或驴骡。与所在第一章的标题:活动物,是一致的,可根据标题直接 找到。对于看来可归入这些品目的物品,如果有关类、章注释无其它规定,应按照这 6 h s 编码智能查询服务的知识库研究第一二章h s 目录及课题相关相关技术综述 些品目条文进行归类。 ( 2 ) 极少数品目的条文与所在章的标题不相符。如,品目6 2 1 2 的条文是“乳 罩、束腰带,紧身胸衣、背带、吊带、吊袜带和类似制品及其部件,不论是否针织或 钩编的。”而6 2 章的标题却是“非针织或非钩编的服装制品和服装附件。”两者显然 是不相符的。在这种情况下,因品目条文是商品归类的法律依据,应按照品目条文确 定商品的归类。如果仍然无法归类,则应通过首先查阅内容目录,根据标题找出物品 可能归入的章,然后按照该章的注释,尤其是排除性注释,找到这些品目。这体现了 h s 的严密的逻辑性和科学性。 第三步,在上述两步后仍无法进行归类的情况,归类总规则第一条最后规定:“在 这些品耳或注释无另行规定条件下,按以下规则确定。”这里所说的“以下规则”,相 对于品目条文,类、章注释而言,实际上是备用规则。在按照品目条文,类、章注释 无法确定商品的归类的情况下,并且只有在这种情况下,才能应用这些规则。这一规 定非常重要,它防止了归类的随意性,保证了归类的一致性;违反这一规定,就可能 导致错误的归类。如:按重量计,含会量仅为2 5 ,含铜量高达9 7 5 的合金,按照 7 1 章注释5 的规定,应算贵金属归入7 l 章,而如果按照归类总规则第二条的规定归 类,就会错误地将其归入7 4 章。 2 1 2 h s 注释 h s 目录体系中除了品目条文、子目条文和归类总规则,注释也是一个重要的组成 部分,包括类注释、章注释和子目注释。h s 目录体系中共有4 4 1 条注释,其中,类注 释4 9 条,章注释3 3 8 条,子目注释5 4 条,从其内容看,大体可分为下列几种: 1 排除性注释。绝大部分类、章都有排除性注释,例如,1 6 类的注释1 ,9 5 章 的注释l 。作为常规,人们在确定某一商品的归类时,通常的做法是,首先查阅h s 的 标题目录,根据常识按照类章标题,找到商品可能归入的类章,然后在该类章范围内, 查找商品可归入的品目。然而h s 是为协调海关管理及统计、国际贸易统计、运输业 等多方面的需要而制定的,对某些商品的分类并不一定符合人们的常识,且h s 的类 章标题是仅供查阅方便而设,对商品分类没有法律约束力,在这种情况下排除性注释 就能保证在按上述方法进行商品规类时,找得到商品应归入的品目。另一方面,不少 商品从不同的角度考虑可归入不同的几章,在这种情况下,排除性注释能保证该商品 只归入其中的一章,从而防止了归类结果的多样性。例如,砂纸,看来既可作为纸制 品归入4 8 章,又可作为石制品归入6 8 章,根据4 8 章注释1 ,该商品只能归入6 8 章 的品目6 8 0 5 。 2 归类注释。这种注释的主要作用是,使某些商品归类面对在数个可选品目时, 有主次之分。例如,1 6 类注释2 对该类内的机器零件的归类原则作了规定,依据此规 7 h s 编码智能盎询服务的知识库研究第二章h s 目录及课题相关相关技术综述 定,电视机的显象管归入品目8 5 4 0 ,而不作为电视机的零件归入8 5 2 9 。又如,农 用水泵,其功能符合品目8 4 1 3 的描述,其用途符合品耳8 4 3 6 的描述,根据8 4 章 注释2 ,在比较涉及功能和用途的品目时,以涉及功能的为主,因此,该商品应归入 品目8 4 1 3 。 3 对类、章、品日和子目内容的说明。这种注释对类、章、品目和子目的内容 作了具体的规定或说明,是对类、章、品目和子目的名称进行的补充,从而使商品归 类有明确的概念或标准,便于操作。这里大致有两种情况:( 1 ) 对所包括商品范围的 限定或说明。例如,第6 章注释1 对可归入第6 章的商品范围作了限定;第1 章注释 1 对可归入第1 章的活动物的范围作了说明。( 2 ) 对所包括的商品应具有的特征的规 定或说明。例如,第4 章注释2 对能归入品目0 4 0 6 的经浓缩乳精和添加乳或乳脂制 得的产品应具有的特征作了规定,8 4 章注释5 对可归入品目8 4 7 1 的自动数据处理机 的部件的特征作了说明。 4 对某些术语的定义或说明。这种注释不仅使用户对h s 中的某些术语有明确的 概念,从而能准确地对有关商品进行归类,而且对某些商品进行了详细的描述,从而 使我们增长了商品知识。例如6 1 章注释5 规定,婴儿服装是指身高不超过8 6 厘米的 小孩穿的服装,从而使确定婴儿服装的标准明确统一,避免了因人种不同而产生的商 品归类差异。又如,8 4 章注释5 、8 5 章注释5 分别对自动数据处理机和集成电路作了 较详细的描述,不仅使用户对分别可归入8 4 7 l 和8 5 4 2 的商品有了明确的概念,同 时也增长了我们对这类高科技商品的知识。在这里,值得注意的是,由于有了这种注 释,h s 中的某些术语在一定的范围内具有特定的含义,不了解这一点,在对某些商品 归类时,就难免出现差错。例如,对于商品犀牛角,若仅查阅品目和子目条文,就会 将其归入0 5 0 7 9 0 。但如果查阅了第5 章注释3 ,就会知道在h s 目录体系中犀牛角与 象牙视为同类。在这里,象牙这一术语不仅指大象的牙,同时也包括了犀牛角等,根 据这一注释,犀牛角应归入0 5 0 7 1 0 。 综上所述,根据归类总规则第一条可以得出一个商品归类的基本思路。归类基本 思路指出了h s 商品归类的基本步骤。h s 注释是h s 目录体系中不可忽视的另一个重要 部分。它们与归类总规则和h s 品日子目共同严密地组成了h s 这一科学的分类制度。 正是由于这两部分的不可分割性,1 9 8 3 年制定的关于建立商品名称和编码的协调制 度的国际公约明确规定,缔约国有义务“采用协调制度的全部品目和子目及其相应 数字编码,不得作任何增添或删改”;“采用协调制度的归类总规则和全部类注释、章 注释及子目注释,不得改变协调制度类章品目或子目的商品范围”。因为唯有这样, 才能保持h s 目录体系的科学性、完整性和严密性。同样,在h s 的实际运用中,只有 将h s 注释与归类总规则和品目子目密切地联系起来,才能保证对商品的分类科学而 准确。 8 h s 编码智能盘询服务的知识库研究第二章h s 目录及课题相关相关技术综述 2 2 智能分类查询技术 h s 编码智能查询是将用户输入的文本信息转化为代表分类信息的数字编码的过 程。这个过程总的来说是一个基于文本的分类查询过程,其中涉及到语义识别、歧义 消除、推理等,在知识库的构建上还涉及语义知识表达,数据挖掘等问题 3 。该分 类过程也一直是自然语言处理领域的个重要课题。近年来,国内外研究者对该问题 进入了深入的研究,也采用许多不同的方法来构造分类查询器 9 2 。从相关研究看来, 在这个课题中的一个重要的问题就是文本表示。 通常的情况下,文本被表示成一个文本特征向量,文本特征用词来表示,即文本 表示采用b o w ( b a go fw o r d s ) 模型。目前,多数文本分类系统采取这种文本特征的表 示方法,例如基于k n n ,n a t i v eb a y e s ,m a x i m u ne n t r o p y ,s v m ,r o c c h i o ,d e c i s i o n t r e e 算法的方案等,都属于这一类解决方法 1 0 。其中较为成熟且具有代表意义的是 卡内基梅隆大学计算机系较早前开发的r a i n b o w 文本分类系统 1 1 。该系统采用b o w 模型的文本特征向量来进行文本表示,该分类系统也支持以s v m ,k n n ,n a t i v eb a y e s 等多种方法进行文本分类处理。但是,该系统仅采用单词作为文本特征,没有考虑使 用人们掌握的领域知识,因而特征向量不能很好的表达概念关系,也因此存在表达能 力有限的问题,特别是在进行领域知识定义时存在较大难度。所以,虽然r a i n b o w 系 统在普通文本分类中有很好的应用效果,但由于其表达能力的客观限制,不适合用于 专业性极强的商品编码查询。所以,相对于文本分类,对于分类查询更好的办法是构 建专门的语义知识库。 2 3 语义知识库技术 语义知识库是近来的研究热点,其构建又有两种常见的方法。第一种方法将知识 库构建于本体 1 2 1 3 或者w o r d n e t 1 4 之上。相对于文本特征向量而言,该方法可 实现系统而先进的知识表达与推理。但直接进行这类知识库建造是一个异常复杂的过 程,包括构建实际分类体系以及将各类特定内容与分类体系中的节点相关联等,需要 多个领域的专家参与 1 5 ,特别在构建的初期和维护阶段需要花费大量的人力 1 6 。 目前,也有一些研究者提出了自动化本体构建的方法,但是都不同程度的带来了系统 精度的损失 1 7 1 8 。所以,虽然这类方法具有良好的前景,但当前尚没有采用这种 方法构建的实用型应用系统。这一类的查询系统基本都还处于实验阶段,这类方法也 暂时不适合用作实际系统的设计和开发 1 9 2 0 。 目前,较为实用的智能分类查询系统,其知识库的构建大多采用第二种方法,即 直接依赖于现成的通用分类体系( 如中国图书馆分类法、( h s 税则手册等) ,来完 9 h s 编码智能查询服务的知识库研究第一二章h sh 录及课题相关相关技术综述 成分类标引的过程。机器标引的样本语料映射到现成分类体系上,得到主题词( 关键词) 与分类号的关系,这些对应关系就是智能分类查询系统进行分类查询的依据。人们在 做文本信息分类时,是依据人类自身经验知识库来进行的,而计算机的分类,也必须依 据经验知识库来进行 2 1 。一般来讲,现成的通用分类体系是丰富标引经验的人工积 累,这些数据实际上相当于一个累积的标引专家知识库,经过处理就用作分类知识库, 用于构建智能分类查询系统 2 2 。 这是一种较为成熟的方法,以这种方法设计的智能编码查询系统在国内外的相关 应用系统中都有一些的涉及。比较典型的各地图书馆所使用的中国图书馆分类查询系 统。这类系统允许用户输入主题关键词,系统自动返回响应图书分类编号。参考资料 1 3 设计了一种基于中国图书馆分类法来完成分类标引的过程的图书分类智能查 询系统。机器标引的样本语料映射到现成分类体系上,得到主题词( 关键词) 与分类号 的关系,这些对应关系就是智能分类查询系统进行分类查询的依据。中国图书馆分 类法是丰富标引经验的人工积累,这些数据实际上相当于一个累积的标引专家知识 库,经过处理就用作分类知识库,用于构建智能分类查询系统。其知识库构建过程为以 下步骤: ( 1 ) 基本库建设。将现成的通用分类体系和知识库知识表达方式对比,定义一 定的知识转化规则,进行直接的内容映射。 ( 2 ) 标引数据模式匹配。对第一步中构建的基本库进行知识标引,定义概念关 系和规则。 ( 3 ) 新词增补。模式不同的词串经词频统计后,作新词的增补,提高基本库对新 词的反映能力。 但这种的解决方法有以下两个明显的不足:首先,这种知识库的半自动化构建方 法中标引词模式的匹配规则不足、数据筛选阈值难以确定等问题带来了知识库精度的 较大损失。对于类似h s 编码体系所在进出口领域,有很强的政策性,要求知识库的 构建有很强的权威性,能够被行业内的各个单位所接受。因此一个专业领域知识库的 构建,需要综合考虑到精度、成本和实现的难易程度,使之能为真实的系统服务。其 次,由于整个知识库的设计基于现成的通用分类体系,而这类体系一般用于人工使用, 没有采用本体等计算机专用概念关系描述方法,如上下位关系,反义关系等。其在知 识表达能力、推理机制等存在诸多限制。 1 0 h s 编码智能盎询服务的知识库研究第一二章h s 目录及课题相关相关技术综述 表2 1 几种分类和分类查询系统实现方法的比较 实现方式 采_ j b o w 将知识库构建于直接依赖丁: 本课题的实现方式 模型表示文 本体或者现成的通用 基丁二目录体系和语义 本分类 w o r d n e t 之上分类体系 本体的商品编码知识 评价标准 库知识库 表达能力非常有限强 较强 强 表达概念关系 不支持支持不支持支持 精度不高 很高一般较高 构建复杂度 一般1 常高 较高较高 本研究结合上述两种基于语义知识库的分类查询方法,即表2 1 中的第二种和第 三种方法,在现有h s 目录体系基础上构造知识库结构,在知识表达的设计上借鉴本 体对概念关系的描述和定义方法,同时吸取本体的推理机制,提出并实现一套针对h s 编码查询的知识库和推理机,使之结合两种的优点,具有较高的查询准确度和效率, 同时将系统和知识库构建成本控制在实用的范围以内 2 4 2 5 。 h s 编码智能盘询服务的知识库研究j 实现 第三章技术方案 第三章技术方案 3 1h s 编码查询服务框架 课题组在参考资料 3 中提出了面向海关、检验检疫以及各进出口公司的h s 编码 查询系统框架,其架构如图3 1 所示。系统的主要组件包括结果缓存,知识库,以及 查询引擎三个部分,其中知识库是系统的核心部分。 图3 1h s 编码查询服务的组件,结构及处理流程 从接口设计看,h s 编码查询系统提供了简单的输入和输出接口,系统接受商品名 字符串输入,据此进行语义识别和知识库推理等一系列处理,最后返回h s 目录中由 该商品名确定的h s 编码及编码可信度配对,或者几个h s 编码组成的可能结果集。这 样的输入输出接口既可以支持一般的w e b 应用前端框架,以实现b s 架构的应用访问; 也可以方便把h s 查询系统部署成后台w e b 服务,方便各类外部系统的跨平台访问和 调用。 系统内部的结果缓存,知识库和查询引擎三个主要组件大建了专家系统的体系结 构。这样的架构设计可以满足h s 编码系统易于部署和迁移的要求。在实现系统时, 可以将三个部分分别部署于不同主机,知识库也可以实现在不同的d b m s 中。 h s 编码智能壹淘服务的知识库研究j j 实现 第三章技术方案 3 2 知识库设计分析 3 2 1 知识库设计的挑战 知识库是h s 编码查询系统的核心。为了实现进出e l 领域h s 编码的智能化查询, h s 知识库应包含用于商品名语义识别的语料,并作为可能结果集生成和可信度计算的 基础。这要求在设计h s 知识库的时候,能够考虑到高效查询系统的需要。同时,由 于进出口领域有很强的政策性,这也要求h s 知识库的构建有很强的权威性,能够被 行业内的各个单位所接受。目前,无论是学术界还是工业界,都没有对进出口领域构 建过实用的本体或者机读词典等可直接用作h s 编码查询系统知识库。在正式的文件 里,只给出了( h s 编码规范。这本规范主要是提供给人阅读,也没有机读版本,这 也造成了可以参考的资料较少。 另一方面,近年,许多研究者提出了知识库或者本体的半自动化构建方法 e 1 7 1 8 ,但是这些方法都不同程度的带来了知识库精度损失的代价。这也直接导致 自动化构建的知识库或者本体至今没有进入实用阶段。一个专业领域知识库的构建, 需要综合考虑到精度、成本和实现的难易程度,使之能为真实的系统服务。具体到h s 编码智能查询系统来说,由于( h s 编码规范是正式的h s 标准归类指南。作为以实 用为导向的h s 知识库,其构建过程必然涉及把h s 编码规范导入的工作。但如前 文所述, h s 编码规范没有提供机读版本,所以在导入的过程中需要一定人工手动 方式的介入,这将带来无法忽视的额外工作成本。于是,在知识库设计时,如何使知 识库可以支持方便易用的人工知识库维护,尽量降低额外的知识库维护成本也是需要 考虑的内容。 最后,由于正式的参考资料h s 编码规范旨在为相关人员提供一种规类原则和 分类方法的指南,而不专注于直接提供商品的h s 编码映射。这导致大量的专用商品 名没有在( h s 编码规范直接注明,而都归入以“其他”类。对于这种情况,在实际 人工操作时往往通过经验和查阅相关资料来进行h s 编码规类。但是,在构建机读的 h s 知识库时,必须通过对检验检疫和海关等相关部门的历史工作数据进行学习来得到 此类专用商品名在h s 目录体系中的位置。这要求h s 知识库的知识表达设计具有强大 的扩展性,也要求h s 编码智能查询系统具有对历史数据进行挖掘处理的能力。这都 加大了系统的复杂性,提高了设计和实现的难度。 3 2 2 知识库设计的要求 针对专家系统,知识工程和本体设计和构建的学术原则,作者所在课题组经过多 1 t 5 编码智能盘询服务的知识库研究+ j 实现第三章技术方案 方调研和比较后,认为参考文献 2 6 中t r g r u b e r 提出了指导本体构造的五个准则, 适合作为h s 编码智能查询系统知识库设计的指导。这五个原则应用在h s 知识库设计 中,其含义如下: i 清晰( c l a r i t y ) :必须有效地说明所定义h s 编码,术语的含义。定义应该是 客观的,与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的,应该用 逻辑公理表达。定义应该尽可能的完整。所有定义应该用自然语言加以说明。 2 一致( c o h e r e n c e ) :知识库应该是前后一致的,也就是说,它应该支持与其 定义相一致的推理。它所定义的概念关联关系以及用自然语言进行说明的文档都应该 具有一致性。如果从一组概念关系中推导出来的一个句子与一个非形式化的定义或者 实例矛盾,则这个知识库是不一致的。 3 可扩展性( e x t e n d i b i l i t y ) :可扩展性是指,知识库提供一个共享的词汇, 这个共享的词汇应该为可预料到的任务提供概念基础。它应该可以支持在已有的概念 基础上定义新的术语,以满足特殊的需求,而无须修改已有的概念定义。在h s 知识 库中就是指,应该能够在不改变原有h s 编码定义的前提下,以这组存在h s 编码为基 础定义新的描述术语。 4 编码偏好程度最小( m i n i m a le n c o d i n gb i a s ) :i t s 知识库中定义的各种概念 应该处于知识的层次,而与特定的符号无关。知识表达形式的选择不应该只考虑表示 上或者实现上的方便。各种概念及关联关系的描述不应该依赖于某一种特殊的符号层 表示方法,也不能依赖于某种确定的语言。 5 本体约定最小( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :h s 知识库约定应该最小, 只要能够满足特定的知识共享需求即可。也就是况,知识库应该对所模拟的事物产生 尽可能少的推断,而让h s 知识库的构建者( 包括手动维护人员和历史数据处理引擎) 自由地按照需要去专门化和实例化这个知识库。 3 2 3 知识库设计思路 综合前述知识库设计的挑战和要求,h s 知识库的设计应该是以实用为导向,能充 分表达来自h s 目录体系和检验检疫历史工作数据的h s 领域知识,具有良好的扩展性 并能支持高效的查询算法。其具体设计思路需要考虑如下三方面的因素: 第一,h s 知识库首先应基于现有h s 目录体系。在构建h s 知识库时,借助人工干 预实现h s 目录体系至h s 知识库的导入。从知识表达方式来看,h s 知识库结构应该和 h s 目录体系做到结构上的逻辑对应,使知识库能基于h s 目录体系进行快速的初始构 建。 第二,在基于现有h s 目录体系的基础上,h s 知识库的知识表达方法应采用一部 分本体的概念关系描述方法,如上下位关系,反义关系等。其目的在于,基于这样h s 1 4 h s 编码智能盘询服务的知识库研究j 实现第三章技术方案 知识库设计的h s 编码查询引擎,可以借鉴本体对概念的一些推理机制,提高h s 编码 查询引擎的工作效率和结果正确率。对于本体和传统自动分类知识库的使用,作者已 在本文第二章的自动分类技术介绍,对比和分析。 第三,h s 领域知识来源包括h s 目录体系中的标准h s 归类定义,以及可以从海关 和检验检疫部门提供的历史报关数据中挖掘出来的非标准化、补充的h s 归类定义。 因此,知识表示方法应同时支持标准化和非标准化知识,并设置标志位加以区别。在 响应客户端查询请求时,h s 查询引擎应能统一搜索两部分知识;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 碧桂园法务管理办法
- 个人贷款管理办法原则
- 上海纳税信用管理办法
- 落实教师待遇管理办法
- 产品市场研究管理办法
- 课程大纲制定管理办法
- 专业社工机构管理办法
- 中介公司客户管理办法
- 线下剧本杀管理办法
- 装备应用与管理办法
- 小学信息技术人工智能教学案例
- 服装零售业概况
- sg1000系列光伏并网箱式逆变器通信协议
- 专升本03297企业文化历年试题题库(考试必备)
- 第四讲大学生就业权益及其法律保障课件
- 重庆大学介绍课件
- 学校开展校园欺凌专项治理情况自查表
- 牛津深圳版九年级上册Module 1 Geniuses Unit1 Wise Man in History话题作文期末复习
- 电能表生产流程
- Scala基础语法课件汇总整本书电子教案全套课件完整版ppt最新教学教程
- 冀朝铸传:第二章:偶像父亲冀贡泉第二节:鲁迅同室话友谊
评论
0/150
提交评论