(产业经济学专业论文)多视点商品本体学习研究.pdf_第1页
(产业经济学专业论文)多视点商品本体学习研究.pdf_第2页
(产业经济学专业论文)多视点商品本体学习研究.pdf_第3页
(产业经济学专业论文)多视点商品本体学习研究.pdf_第4页
(产业经济学专业论文)多视点商品本体学习研究.pdf_第5页
已阅读5页,还剩164页未读 继续免费阅读

(产业经济学专业论文)多视点商品本体学习研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a d i s s e r t a t i o ns u b m i t t e dt o a c a d e m i cd e g r e e se v a l u a t i o nc o m m i t t e eo f w u h a n u n i v e r s i t yo ft e c h n o l o g y f o rt h ed o c t o r sd e g r e ei nm a n a g e m e n t r e s e a r c ho nm u l t i - v i e wc o m m o d i t y o n t o l o g y l e a r n i n g d o c t o r a lc a n d i d a t e :z h a n gb o m a j o r : s u p e r v i s o r : i n d u s t r i a le c o n o m i c s p r o f n i eg u i h u a l111ill、rjjllji 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 1 研究生( 签鼽戥博铷( 如七期列删5 , ,0, 中文摘要 互联网及电子商务的发展对商品信息和知识的共享提出了更高的要求,越 来越多的应用性研究中尝试使用本体来解决信息交换时的语义差异问题,然而 多数研究是建立在一个“假想”的商品本体之上,目前以商品数据和商品知识为描 述对象的真实商品本体相对匮乏。尤其是现有的中文商品本体,不但在规模上 达不到实际应用的需求,而且在设计上均忽略了商品认知的多视点特性,造成 本体不能全面的描述商品知识,难以支持许多应用场景对本体的要求。 为解决上述问题,必须研究如何设计多视点商品本体以描述商品认知的多 视点特性,研究本体的学习方法以获取期望的多视点商品本体。基于上述两个 主要研究目标,本文借鉴了现有的商品本体设计与本体学习研究成果,利用自 然语言处理领域的方法和技术,对中文多视点商品本体建模和商品本体的学习 方法进行了深入研究。主要的工作包括: 多视点商品本体的建模与本体学习任务的确定。针对商品认知的多视点特 性,提出商品主观知识的概念并建立了商品主观知识的分析指标,提出了商品 知识结构模型;在此模型基础上,设计了多视点商品本体元模型对商品知识结 构进行规范描述和形式化说明,由多视点商品本体的元模型所规定的知识内容 确定了多视点商品本体的学习任务框架。 基于大规模商品电子目录的商品间分类关系抽取。提出一种基于u n s p s c 的商品概念间分类关系抽取方法,依靠u n s p s c 中收录的商品与服务名称及其 分级标准,构建以商品概念为基本单元,概念间分类关系为基本语义关系的多 视点商品本体骨架。给出了商品本体的扩展概念集,还提出了基于组词特性的 概念关系修剪算法进行整理。 基于w e b 的商品属性概念的获取。提出了一种基于w e b 的商品属性概念获 取策略。根据w e b 页面的结构化程度,对于显性页面块,研究了根据属性术语 识别模板和过滤模板获取候选属性术语和短语的方法;对于普通文本块,提出 了纯文本中属性术语分类的内外部特征,研究了基于s v m 的属性术语识别方法, 为保证属性术语识别的准确性,还建立了基于规则的启发式识别方法。 基于属性匹配的商品间非分类关系的学习。提出了基于属性匹配的商品间 非分类关系学习策略,采用基于词形和基于概念相似度的属性子集匹配方法, 根据属性子集匹配结果,提出匿名关系类型判定规则。提出了基于决策树分类 器的商品属性的自动分类方法,将商品属性划分到目标子集中。 面向属性分布的商品主观知识的挖掘。提出基于已知视点类型文本的属性 视点隶属度与属性关联度挖掘策略。针对未知内容和发布者类型的w e b 文档, 研究基于内容的w e b 文本分类和基于风格的商品描述文档分类方法以识别文本 的内容和视点类型。提出基于共现率的属性视点隶属度和属性关联度计算模型。 多视点商品本体的应用实例研究。介绍了使用多视点商品本体的一个应用 系统案例,阐述了商品本体在系统中的作用,介绍了该商品本体的构建方法。 关键词:多视点商品本体,商品分类关系抽取,商品属性获取,商品间非分类 关系学习,商品主观知识挖掘 a b s t r a c t t h ed e v e l o p m e n to ft h ei n t e r n e t a n de c o l n m e r c ep u t t i n gf o r w a r dh i g h e r r e q u e s t st o t h es h a r i n go fc o m m o d i t yi n f o r m a t i o na n dc o m m o d i t yk n o w l e d g e ,a g r o w i n gn u m b e ro fa p p l i c a t i o nr e s e a r c ha t t e m p tt o u s eo n t o l o g yt or e s o l v et h e s e m a n t i cp r o b l e mw h i c he x i s t si nt h ep r o c e s so fi n f o r m a t i o ne x c h a n g e h o w e v e r m o s tr e s e a r c h e sa f cb a s e do na l l “h y p o t h e t i c a l c o m m o d i t yo n t o l o g y , t h et r u ee x i s t i n g c o m m o d i t yo n t o l o g i e sa l en o te n o u g h ,e s p e c i a l l yt h ec h i n e s ec o m m o d i t yo n t o l o g i e s t h ec u r r e n tc h i n e s ec o m m o d i t yo n t o l o g i e sn o to n l yc a n tm e e tt h ec e r t a i na p p l i c a t i o n s c a l e ,b u ta l s oi g n o r et h em u l t i v i e wc o g n i t i v ep r o p e r t yw h e nt h eo n t o l o g y w a s d e s i g i l e d t h e s ec h i n e s ec o m m o d i t yo n t o l o g i e s c a n n o td e s c r i b et h ec o m m o d i t y k n o w l e d g ee n t i r e l ya n ds u p p o r tm o s ta p p l i c a t i o n e n v i r o n m e n t s t os 0 1 v et h ep r o b l e ma b o v e ,t h em u l t i - v i e wc o m m o d i t yo n t o l o g ys h o u l db e d e s i 蟹皿e df o rd e s c r i b i n gt h em u l t i v i e wc o g n i t i v ep r o p e r t y o fc o m m o d i t ya n dt h e o n t o l o g yl e a r n i n gm e t h o ds h o u l d b er e s e a r c h e df o ro b t a i n i n gt h ea n t i c i p a n t m u l t i v i e wc o m m o d i t yo n t o l o g y b a s e do i lt h et w oo b j e c t sa n dc u r r e n t r e s e a r c h r e s u l t si nt h en a t u r el a n g u a g ep r o c e s s i n g ,t h e r e s e a r c hw o r ko nm u l t i - v i e w c o m m o d i t yo n t o l o g ym o d e l i n ga n dl e a r n i n ga l ep r o p o s e di nt h i sp a p e r t h ew o r k s a r c d e s c r i b e da sf o l l o w s : t h eh y p o n y m yr e l a t i o n se x t r a c t i o n b e t w e e nc o m m o d i t yc o n c e p t sb a s e do i l e c a t a l o g i nt h i sp a r t ,t h ep a p e rp r o p o s e sa h y p o n y m yr e l a t i o n se x t r a c t i o nm e t h o d o n t h eb a s i so fc o m m o d i t ya n ds e r v i c ec a t a l o gi nt h eu n s p s c t h ee x t r a c t i o nr e s u l t i s t h ef o u n d a t i o na r c h i t e c t u r eo fm u l t i v i e wc o m m o d i t yo n t o l o g yw h i c h i sc o m p o s e do f c o m m o d i t yc o n c e p t sa n dc a t e g o r yr e l a t i o n sb e t w e e nc o m m o d i t yc o n c e p t s - b e s i d e s t h a t ,t h er e l a t i o n r e v i s ea l g o r i t h mb a s e do np h r a s ec o n s t r u c t i o nf e a t u r e sg i v e nt o a d j u s tt h ee x t r a c t i o nr e s u l ts e t t h ea c q u i s i t i o no fc o m m o d i t ya t t r i b u t eb a s e do nw e b i nt h i sp a r t ,t h ep a p e r b r i n g sf o r w a r dac o m m o d i t ya t t r i b u t ea c q u i s i t i o ns t r a t e g yw h i c h t a k e st h ew e ba st h e d a t as o u r c e t h es t r a t e g yt a k ed i f f e r e n tm e t h o d sa c c o r d i n g t h ew e bp a g e ss t r u c t u r i n g f e a t u r e t ot h es e m i s t r u c t u r e dp a g e ,t h es t r a t e g yu s e st h ea c q u i s i t i o nm e t h o db yt h e a t t f i b u t et e r mr e c o g n i t i o nt e m p l a t ea n df i l t e rt e m p l a t e t ot h et e x tp a g e ,t h es t r a t e g y u s e jt h ea c q u i s i t i o nm e t h o db a s e do ns u p p o r tv e c t o rm a c h i n e ( s v m ) w h i c h i i i a c c o r d i n gt ot h ec o m m o d i t ya t t r i b u t et e r m si n t e r i o ra n de x t e r i o rc h a r a c t e r i s t i ci nt h e t e x t i na d d i t i o nt ot h i s ,ah e u r i s t i cr e c o g n i t i o nm e t h o db a s e do nr u l e si sa l s op r o p o s e d t og u a r a n t e et h ea c c u r a c yo ft h es v ma c q u i s i t i o nm e t h o d t h en o n c a t e g o r yr e l a t i o n sl e a r n i n gb e t w e e nc o m m o d i t yc o n c e p t sb a s e do n c o m m o d i t ya t t r i b u t e sm a t c h i n g t h el e a r n i n gs t r a t e g y b a s e do na t t r i b u t es u b s e t m a t c h i n gi sp r o p o s e da n dt h ek e yt e c h n o l o g i e so fa t t r i b u t em a t c h i n gm e t h o da l e m o r p h o l o g ym a t c h i n ga n dc o n c e p t s s i m i l a r i t y c a l c u l a t i o n t h em a t c h i n gr e s u r a c t i v a t e st h ed e c i s i o nr u l eo ft h ea n o n y m o u sr e l a t i o n t h ea t t r i b u t es u b s e t sa r ec r e a t e d b yt h ea u t o m a t i cc l a s s i f i c a t i o nm e t h o db a s e d o nd e c i s i o nt r e e a t t r i b u t ed i s t r i b u t i o n o r i e n t e dm i n i n g m e t h o do fc o m m o d i t ys u b j e c t i v e k n o w l e d g e t h ep a p e rp r o p o s e st h em i n i n gs t r a t e g yo fa t t r i b u t e sm e m b e r s h i pd e g r e e t oc e r t a i nv i e wt y p ea n da t t r i b u t e sa s s o c i a t i o nd e g r e et oa n o t h e ra t t r i b u t e t h ec o r eo f t h i ss t r a t e g yi sc a l c u l a t i n gt h ed i s t r i b u t i o no fa t t r i b u t et e r m si nc e r t a i nt e x tb l o c k w h i c hb e l o n g st oad e f i n i t ev i e wt y p e w h e r e f o r e ,f o rt h eu n k n o w nc o n t e n ta n dv i e w t y p ew e bt e x t ,r e s e a r c h e s o nt e x tc a t e g o r i z a t i o nb a s e do nc o n t e n ta n db a s e do n w r i t i n gs t y l ea r en e c e s s a r y t h ek e yp r o c e s so ft h ea t t r i b u t e sd i s t r i b u t i o nc a l c u l a t i o n i sh o wt ob u i l dt h ec a l c u l a t i n gm o d e l so fa t t r i b u t e sm e m b e r s h i pd e g r e e a n d a t t r i b u t e sa s s o c i a t i o nd e g r e e a sa na p p l i c a t i o nc a s ea b o u tm u l t i - v i e wc o m m o d i t yo n t o l o g y , as e m a n t i c i n t e g r a t i o ns y s t e mb a s e do nm u l t i v i e wc o m m o d i t yo n t o l o g yi s i n t r o d u c e di nt h i s k e y w o r d s :m u l t i v i e wc o m m o d i t yo n t o l o g y , h y p o n y m yr e l a t i o n se x t r a c t i o nb e t w e e n c o m m o d i t yc o n c e p t s ,c o m m o d i t y a t t r i b u t ea c q u i s i t i o n ,n o n - c a t e g o r y r e l a t i o n sl e a r n i n gb e t w e e nc o m m o d i t yc o n c e p t s ,c o m m o d i t ys u b j e c t i v e k n o w l e d g em i n i n g i v 目录 第1 章绪论1 1 1 研究意义1 1 2 国内外相关研究综述。2 1 2 1 商品本体的建模。2 1 2 2 本体学习方法。3 1 2 3 信息抽取技术7 1 3 研究目标、内容与框架9 1 3 1 研究目标9 1 3 2 研究内容。1 0 1 3 - 3 全文组织框架1 1 第2 章多视点商品本体元模型1 4 2 1 商品认知的多视点特性1 4 2 1 1 传统商品本体设计的缺陷。1 4 2 1 2 商品的认知视点分类1 5 2 1 3 商品主观知识的成因:1 6 2 1 4 商品主观知识的分析指标。1 7 2 1 5 面向多视点的商品知识结构模型2 1 2 2 基于商品知识结构模型的多视点商品本体建模2 3 2 2 1 多视点商品本体元模型的建模方法。2 3 2 2 2 多视点商品本体元模型的结构。2 8 2 2 3 多视点商品本体元模型的形式化描述2 9 2 3 基于元模型的多视点商品本体学习任务框架3 1 2 3 1 多视点商品本体学习的目标3 1 2 3 2 商品客观知识的学习任务3 2 2 3 3 商品主观知识的学习任务3 4 2 3 4 本体学习子任务间关系3 5 2 4 本章小结3 6 第3 章基于大规模商品目录的商品分类关系抽取3 8 3 1 商品分类关系抽取任务解析3 8 3 1 1 商品术语与商品概念3 8 3 1 2 商品概念抽取4 1 3 1 3 商品问分类关系抽取任务4 2 3 2 大规模商品电子目录u n s p s c 介绍4 2 3 2 1 常用的本体概念与分类关系抽取数据源4 2 3 2 2u n s p s c 中的商品与服务分类体系4 5 3 3 基于u n s p s c 的商品分类关系抽取方法4 8 3 3 1 商品概念的抽取方法4 8 3 3 2 商品间分类关系的识别与扩展4 8 3 3 3 商品间分类关系修剪s 0 3 4 本章小结5 2 第4 章基于w e b 的商品属性的自动获取5 4 4 1 商品属性获取任务5 4 4 1 1 商品属性获取任务解析5 4 4 1 2 商品属性概念获取的数据源5 5 4 1 3 汉语环境下商品属性概念特性一5 8 4 2 商品属性概念获取策略5 9 4 2 1 基于w e b 的商品属性概念获取的策略5 9 4 2 2 基于w e b 的商品属性概念获取关键技术,6 0 4 3 面向不同页面类型的商品属性术语识别:6 3 4 3 1 显性页面块中商品属性术语的识别6 3 4 3 2 普通文本块中商品属性术语的识别6 7 4 3 3 基于s v m 的普通文本商品属性术语识别方法7 8 4 4 本章小结。8 1 第5 章基于属性匹配的商品间非分类关系学习8 3 5 1 商品阳j 非分类关系学习任务。8 3 5 1 1 商品间非分类关系学习的目标8 3 5 1 2 商品间非分类关系的特性8 5 5 2 商品非分类关系学习的策略8 7 5 2 1 基于属性子集匹配的商品非分类关系学习策略8 7 5 2 2 基于属性子集匹配的商品非分类关系学习关键技术8 9 5 3 商品属性集的自动分类方法9 5 5 3 1 商品属性自动分类的目标9 5 5 3 2 商品属性术语的分类特征信息9 6 5 3 3 基于决策树的商品属性术语分类方法1 0 1 5 4 本章小结1 0 6 第6 章面向商品属性分布的商品主观知识挖掘1 0 7 6 1 商品主观知识挖掘任务1 0 7 6 1 1 商品主观知识挖掘目标1 0 7 6 1 2 商品主观知识挖掘的数据源1 0 8 6 2 基于已知视点类型文本的商品主观知识挖掘策略1 0 9 6 3 面向基本视点的w e b 文本分类方法1 1 0 6 3 1 面向基本视点的文本分类问题描述1 1 0 6 3 2 w e b 文本的分类特征信息1 1 2 6 3 3 基于朴素贝叶斯的文本分类方法1 1 8 6 4 属性的视点隶属度和关联度挖掘方法1 2 0 6 4 1 视点隶属度计算方法1 2 0 6 4 2 属性关联度计算方法1 2 2 6 5 本章小结1 2 3 第7 章多视点商品本体的应用实例1 2 4 7 1 电子商务与物流语义集成系统。1 2 4 7 1 1 系统的设计目标1 2 4 7 1 2 系统体系结构与功能1 2 5 7 2 语义集成系统中的商品本体知识库e c 语义词典1 2 7 7 2 1 e c 语义词典子系统的功能和体系结构一1 2 7 7 2 2 e c 语义词典中的词库结构1 3 0 7 2 3 e c 语义词典在系统中的作用。1 3 2 7 3 多视点本体学习技术在e c 语义词典构建中的应用1 3 4 7 3 1 商品分类关系建立1 3 4 7 3 2 在线属性术语获取:。1 3 5 7 4 本章小结1 3 7 第8 章全文总结与展望。1 3 8 8 1 全文总结1 3 8 8 1 1 全文内容1 3 8 8 1 2 主要创新点1 4 2 8 2 研究展望1 4 4 致谢1 4 5 参考文献1 4 6 攻读学位期间参与的科研项目1 5 6 攻读学位期间发表的相关论文1 5 7 武汉理工大学博士学位论文 1 1 研究意义 第1 章绪论 商品数据作为国民经济运行中的一项重要基础信息,被广泛应用于商品的 设计、生产、流通和交易等各个环节。近年来,随着商务信息化和企业信息化 程度逐渐提高,由商品信息流到物流和资金流的转换越来越受到各公司和企业 的重视。然而,商品数据的信息化在各生产部门之间的发展却是相互独立的, 这就造成了各部门的信息系统之间关于商品信息和知识的描述千差万别、各不 相同,这种现象严重妨碍了商品信息的交互以及商品知识的共享与重用。 本体是共享概念模型的明确、形式化、规范的说明,它使共享范围中不同 角色对知识具有共同认可的、明确的、唯一的定义。本体的这一特性使得人与 信息系统、信息系统与信息系统之间的知识交换、共享成为了可能。因此,大 量基于本体的应用性研究迅速展开,国内外的研究者尝试将商品本体应用于大 规模定制生产、物流采购、智能推荐、在线谈判、电子交易和企业信息系统集 成等领域。 但是,大量的应用性研究将焦点集中在如何使用本体解决语义问题,却并 不关心如何构建本体,这些研究均假设已经存在了一个期望中的商品本体。而 事实上,作为应用研究基础设施的商品本体十分匮乏,中文大规模商品本体更 是十分少见。这主要是由于商品本体的期望规模大、语义丰富、领域性强,如 果仅靠人工方法构建商品本体,难免会效率低一f 、实现凼难。因此必须依靠本 体学习技术提高商品本体构建的效率和精度。但是目前,多数本体学习算法很 难获得令人满意的学习结果。因此,研究运用相关的知识获取技术,改进改善 本体学习方法,来降低商品本体构建的开销是十分必要的。 除了本体内容匮乏难以满足应用之外,目前的中文商品本体结构设计也存 在着一些缺陷。一个突出的问题是:多数研究都忽略了商品认知具有多视点特 性这个重要的现实背景。多视点特性指不同类型的用户由于观察商品的角度不 同而对商品有着不同的理解,而这些理解上的差异往往是交易对象最希望得到 的知识。在本体中描述商品认知的多视点特性为商品本体的设计和学习方法的 研究都提出了新的要求,如何描述和获取反映多视点特性的商品知识同样具有 十分重要的现实意义。 武汉理工大学博士学位论文 综上所述,中文商品本体的构建必须在建立拟合实际需求的本体结构基础 上,研究快速、准确构建本体的商品知识获取方法和技术。本文在国内外相关 研究和作者所在项目组所承担的“十一五”国家科技支撑计划重大项目“电子商务 与现代物流共性集成技术研究开发”( 2 0 0 6 b a h 0 2 a 0 8 ) 之子项目的研究基础上,设 计多视点商品本体对商品知识及多视点特性进行充分的描述,结合自然语言处 理的相关技术和手段,研究基于多种数据源的中文商品本体学习方法。本文的 研究为丰富和发展中文环境下商品本体学习及知识获取理论与方法,促进本体 在商品信息交换中的应用,具有一定的理论研究意义和实际应用价值。 1 2 国内外相关研究综述 1 2 1 商品本体的建模 关于本体的定义,最被广泛认可的g r u b e r 提出的l ,他认为“本体是概念模 型的明确的规范说明”,准确的说本体描述的对象是概念以及概念与概念之间的 关系。按照本体所描述概念的领域依赖程度,本体可分为通用本体和领域本体。 最为著名并被广泛应用的通用本体应该为w o r d n e t i 引,w o r d n e t 其实是一个基于 心理语言规则的英文语义词典,它以同义词集合为单位组织信息,一个同义词 集合便代表一个概念,同时w o r d n e t 中还定义了多种概念间关系。通用本体经常 被运用于自然语言处理。与之不同,领域本体则描述的是特定领域中的概念及 概念之间的关系p j 。但领域本体中所描述的概念也不完全是专业概念,文献【4 】 按照一个概念在领域中的重要程度,以及概念与该领域的相关性,把一个领域 本体涉及的概念分为:绝对无关概念、通用概念、相关概念和核心概念。 商品本体属于领域本体的范畴,按照领域本体的定义,商品本体描述的是 与商品有关的各种概念及概念间关系。这些与商品有关的知识存在于商品的设 计、生产、流通和交易等各个环节,而商品知识描述的差异严重妨碍了商品信 息交互、知识的共享与重用。因此,大量研究开始将本体应用于大规模定制生 产f 列、物流采购【6 】、智能推荐 7 1 、在线谈判【8 j 和电子交易【9 】和企业信息系统集成等 领域,已解决领域内概念模型共享和重用的问题。 当面向不同的应用时,商品本体的结构也各不相同,国内外很多学者对商 品本体或产品本体的建模方法与本体结构进行了研究。吴健等人【1 0 】设计了一个 产品配置本体以解决不同制造企业间异质系统间知识共享问题,构成产品配置 2 武汉理工大学博士学位论文 本体的包括基本概念集合、概念间关系集合、配置约束规则集合和公理集合, 其中概念集合是个包含了九种概念类型的九元组 a t t r , c l a s s i f y , a m o u n t , m e a s u r e m e n t ,m a t e r i a l ,s t a t u s ,i c ,i i ,i e ,概念关系类型包括层次性关系、整体部 分关系、归属关系和同反义关系。为解决产品配置共享的推理,该本体中还设 计了约束规则集,包括选择约束、可选约束、排斥约束、依赖约束和矛盾约束。 文献【1 1 】针对产品全生命周期管理的特点,建立基于元数据的产品数据本体,通 过分析元数据建模的元层次,提出了基于元数据的产品数据本体建模体系结构 以及通用描述。日本学者h m u r a y a m a l l 2 l 研究了利用类查询语言c q l 从不同的 标准零件库中构建产品本体的方法。 上述的研究主要还是针对制造领域,用于解决不同制造企业之间的数据共 享,严格来说这些本体更应该被称为“产品本体”。商品本体更倾向于解决商品交 易领域的问题,在这方面国外也有很多学者进行了研究。k i m 等提出了商品的 扩展实体关系( e x t e n d e de n t i t y r e l a t i o n s h i p ,e e r ) 模型,并用于支持商品本体 的人工构建【1 3 l 。澳大利亚学者m a r t i n l l 4 l 对产品本体描述中的复杂性问题进行了 探讨,建立一个描述产品与服务的本体g o o d r e l a t i o n s ,g r 本体的建模基于四个 场景:描述上实体的w e b 资源,通常这些资源会提供一些特定的产品给销售商 或最终消费者,或同时提供给以上两者。对于商品的详尽实例,则可有可无; 描述商品和服务型号、款式和分类的w e b 资源( 多为制造商) ,除一般商品属性 外,还有一些制造商的附加属性( 日期,序列号) ;根据商品分类和型号款式, 提供描述详尽的商品描述,并且提供商品租赁信息的w e b 资源( 多为出租商和 本地经销商) :根据商品分类和型号款式,提供描述详尽的商品描述,并且提供 商品详尽的相关服务( 修理,维护) 的w e b 资源( 多为本地经销商) 。对于中文 商品本体研究比较少见,文献 1 5 1 介绍了一个面向电子商务的信息需求本体,其 描述对象主要为交易中的商家以及交易活动或集合体,并未研究对于商品自身 知识的描述方法。文献【1 6 1 研究了电子商务环境下产品本体构建技术,提出一个 基于u n s p s c 分类的产品本体的元模型,但该元模型结构比较简单,并没有对 商品知识的组成和结构进行深入研究。 1 2 2 本体学习方法 本体的构建最初都是人工进行的,因此出现了一些帮助手工建立本体的工 具,如o n t o l i n g u a1 1 7 1 、o n t o s a u r u s1 1 8 l 、w e b o n t od 9 i 、w e b o d e 1 2 0 i 、o i l e d 2 1 l 、 o n t o e d i t1 2 2 1 、k a o n1 2 3 j 以及著名的p r o t 6 9 6 1 2 4 i 等。手工建立本体虽然较为精确, 3 武汉理工大学博士学位论文 但效率低下,因此必须研究依靠知识获取技术进行本体学习的方法。 本体的学习方法实质上就是从各种数据源中获取期望的知识的过程,各种 知识的表现方式在不同的数据源中是大不相同的,因此针对不同的数据源,本 体学习方法也不同。文献 2 5 1 按照数据源的结构化程度将本体学习方法分为基于 结构化数据源、基于半结构化数据源和基于非结构化数据源三类。 结构化与半结构化数据源,主要包括各种类型的数据库,各种带有结构化 信息的网页,以及各种带有标记语言符号的网页,如r d f 标注的网页。这些数 据源的共同特点是:目标知识已经按照一定的结构进行组织,因此学习方法较 为简单并且容易实现。 在结构化的数据源中,本体学习的目标概念以及概念间关系大多存在于数 据库表中的记录、字段属性、字段约束和实体一关系图中。因此,文献1 2 6 1 通过 考察数据库中的表、属性、主外键和包含依赖关系,研究这些元素与本体结构 元素的映射规则,利用这些映射规则直接从数据库中提取本体知识。与之类似 的做法还有:文献【2 7 】提出了将关系模式转换为概念模式的相关方法,然后由用 户对概念模型进行修订生成最终的本体。k a s h y a p 2 8 】则提出首先根据关系模式得 到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系,由 于用户查询具有很大的随机性,所以很难保证结果的质量。a s t r o v a 驯研究了通 过数据库中的元组进行概念间的继承关系学习的方法。上述的研究都是基于将 数据库中的关系模式转化为本体中概念模式的思路,由于数据库中关系模式中 包含的语义十分有限,所以并不适合从这些方法构建大规模的本体。 与结构化的数据源相比,半结构化数据源中蕴含的语义信息也比结构化数 据源丰富一些,但其中知识结构并不严格,基于半结构化数据源的本体学习方 法多数选择利用这些隐含的结构信息进行知识获取。如针对含有结构信息的网 页,一些研究者希望提取其中一些结构模式中的语义信息。d o a n 等人印l 和m e l l o 等人1 3 l j 使用预定义的规则,从d t d 中提取语义信息生成相应的概念模式,然后 对这些概念模式进行语义集成得到本体。这种使用预先定义规则的方法,不具 有很好的移植性。为了克服不同的结构信息在语法上的差异,文献【3 2 】提出任何 一种半结构化数据都可以映射成一棵由非终结符集、终结符集、开始符集和规 则集组成的语法树,这样就将本体的学习的数据源进一步结构化,本体学习的 直接来源是非终结符集和终结符集中的元素而并非半结构化数据本身,研究者 还开发了o n t o l i f t 系统来生成语法树,目前该工具己集成到k a o n 平台中。 相似的研究还有d e i t e l 驺j 提出的一种从r d f 标注中进行本体学习的方法。 m o d i c a 3 4 j 开发的o n t o b u i l d e r 工具能够根据用户浏览行为从x m l 和h t m l 标记 4 武汉理工大学博士学位论文 的半结构化数据源中生成本体。 除了包含隐含结构信息的网页,机器词典和电子目录也是本体学习的重要 来源。机器词典是指计算机可以读取其中内容的数字化的词典,词典是经过严 格编纂的知识库,其中的条目是按照一定规则进行组织的,知识表达方式也具 有一定的模式,因此许多研究期望通过这些规律从中获取知识。早在8 0 年代 a m s l e r 3 5 】和c a l z o l a r i 3 6 i 就进行了这方面的工作,他们期望找到词典中概念定义 形式上的规律性来寻找给定概念的上位词。后来的一些基于词典的学方法都是 基于类似的思想,例如:r i g a u 等人【3 7 】提取了韦伯斯特大辞典中概念定义的语法 模板,利用模板发现词典中各词条之间的层次性关系。 关于商品本体或产品本体的学习,近年来的一个新趋势是采用半结构化的 商品电子目录。商品电子目录一般是关于商品和服务分类的工业化标准( 如国 际目录标准u n s p s c ,e c l s s ,e o t d 等1 3 8 j ) ,这些目录在现实中得到了一定程 度推广和应用,它包含较全面的分类概念和分类层次,一般采用编码的方式进 行商品类目的组织。电子目录是按照商品分类标准编纂的,因此其结构类似于 一个简单的商品本体,这为以电子目录为数据源进行本体学习提供了极大的便 利。尤其是对于规模要求高的商品本体,更是一条可行思路和必然选择。w i l k e s 研究了利用国际零件库标准i s 0 1 3 5 8 4 构建商品本体的方法1 3 叫。h e p p 和m a r t i n ( 2 0 0 6 ) 在e c l s s 的基础上发布了o w l 语言的商品本体j 。但其最大的不足 在于这些电子目录几乎不包含或仅包含少量的商品属性集,如u n s p s c 中不包 含属性集,新近发布的e c l s s 5 0 含有2 4 ,0 0 0 个概念,但仅含有3 , 6 6 7 个商品属 性。为了满足应用对商品属性需求,需要在电子目录的基础上扩充商品属性以 增强商品本体的语义表达

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论