(计算机软件与理论专业论文)面向本体的专业领域语义词典及其实现.pdf_第1页
(计算机软件与理论专业论文)面向本体的专业领域语义词典及其实现.pdf_第2页
(计算机软件与理论专业论文)面向本体的专业领域语义词典及其实现.pdf_第3页
(计算机软件与理论专业论文)面向本体的专业领域语义词典及其实现.pdf_第4页
(计算机软件与理论专业论文)面向本体的专业领域语义词典及其实现.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向本体的专业领域语义词典及其安现摘娶 摘要 进出口木体是实现进出口行业信息集成、信息共享、智能作业的重要手段。 本文结合进出口领域的应用特点,探讨了迸出口木体的作用、特点、表达结构与 构建方法,提出一个支持h s 编码查询的解决方案,分析了利用语义网查询语言 s p a r q l ,实现基于进出口本体的推理查询机制和实现方法,介绍了系统的架构 与机制。 本文使用0 w l m l l 规范来摘述进出口本体,结合传统的搜索框架,对语义 网查询语言s p a r q l 进行转化,利用高效的空间向量模型来实现推珲查询模型, 最后使用s o a 的思想通过w e bs e r v i c e s 来构建整个系统。 本文对专业领域本体构建技术及其应用进行了研究,并取得了以下丰要成 果: 1 结合进出1 2 木体的实现,对相关的技术与珲论进行了系统的分析,其中包 括木体的定义、描述语言、分类等。这些是本文研究重点专业领域本体的定 义及查询实现的基础。 2 对进出口术体牛成过程中涉及到的分词、语义消除歧义等技术进行定制改 善,分词的准确率达到9 2 。其时问和成本及性能比有了较大的提高。 3 以进出口领域权威的( h s 编码规范为基础,确定了进出口木体的逻辑 结构。方便进出口领域相关应用的开发。 4 在项目组的研究基础上,实现基于本体的进出口检验检疫h s 编码查询演 ,j :系统。日前能够查询h s 编码规范的部分章节。准确率达到9 0 ,召回车达到 9 5 。 关键词:语义词典:o n t o l o g y ;小体:h s 编码;s p a r q l :空问向量模型; w o r d n e t 面向本体的专业领域语义词典及其实现a b s 仃a c t a b s t ra c t o n t o l o g yi sp l a y i n gak e yi ni n f o r m a t l o na g g r e g a t i o na n ds h a r i n g ,a n d i n t e l l i g e n tb u s i n e s si nt h ei n d u s t r yo fi m p o r t & e x p o r t i nt h i sw o r k ,a n o n t o l o g ya n di t sf u n c t i o n s ,f e a t u r e s ,r e p r e s e n t a t i o na r ep r e s e n t e dw i t h r e q u i r e m e n t so fi m p o r t e x p o r ta p p li c a t i o n s af o r m a lr e a s o n i n gs o l u t i o n a n dm e c h a n i s ma r ei l l u s t r a t e df o rt h eo n t o l o g y b a s e dr e a s o n e r as e m a n t i c q u e r yl a n g u a g e ,s p a r q l ,i se x p l o r e dt oi m p l e m e n tt h ep r o p o s e dr e a s o n e r t h i st h e s i ss t u d i e st e c h n o l o g yo fg e n e r a t i o no fo n t o l o g ya n di t s a p p l i c a t i o n sa n dm a k e sa c h i e v e m e n t sa sf o l l o w s : 1 m a k eas y s t e m a t i cs t u d yo ft h eb a s i ct h e o r i e so fo n t o l o g yi n c l u d i n g i t sd e f i n i t i o n ,d e s c r i p t i o nl a n g u a g e ,a n dc l a s s i f i c a t i o n 2 m a k ei m p r o v e m e n ti nt h ek e yt e c h n i q u e so fg e n e r a t i o no fo n t o l o g y i n c l u d i n gc h i n e s ew o r d ss e g m e n t a t i o n 3 d e f i n et h el o g i c a ls t r u c t u r eb a s e do nt h ei m p o r t e x p o r tm sc o d e s p e c i f i c a t i o n 4 d e v e l o pad e m os y s t e mb a s e do nt h ew o r ko ft h ep r o j e c tt e a mt o d e m o n s t r a t et h et h e o r yo f t h i st h e s i s k e y w o r d s :s e m a n t i cl e x i c o n ,o n t o l o g y ,h sc o d e ,w o r d n e t 。s p a r q l ,v s m i v 面向本体的专业领域语义诃典及其安现 第一章锚论 1 1 研究背景 第一章绪论 在制造业与商业活动的国际版图上,我国处于供应链的起点和终点,正在成 为物流、人流和信息流集聚的中心。快速发展的国际贸易迫切要求信息手段来提 高物流效率和质量,进出口领域的电子商务和信息化因此成为信息高速公路的重 要应用,对推动产业发展和繁荣具有巨大的经济和社会意义。 电子商务及电子政务推动了社会的发展。网络信息数量也正以指数级速度快 速增长。2 0 0 6 年5 月1 6 日,国务院信息化办公室发布的 2 0 0 5 年中国互联网络 信息资源数量调查报告显示1 2 ”,全国域名数为2 ,5 9 2 :1 0 个,与2 0 0 4 年同期 相比增长4 0 企业网站占4 5 2 ,教台科研占5 1 ,政府网站占4 4 。随着网站 数量的剧增,网络数据量也随之增大。这就带来了许多的问题,如这么多的网站 如何共享数据,如何有效地协作。特别是在政务网站,围家发布的规章制度如何 方便简单的被其他行业应用使用? 语义网及木体的出现,有效地解决了这些难题。语义网设计的初衷就是要建 设一个可供机器及人珲解的网络。本体则是其实现这一目标的基础。本体可以消 除概念和用词上的混乱,达成对事物统一的认识,可以作为中间语言在各个应用 系统之问起到翻译的作用。 小体是“共享概念模型明确的形式化规范说明”【2 j 。它能够在某一领域内, 支持人们和关联系统之问对特定概念或术语达成统一的珲解和贡献,解决歧义, 足构建语义网的关键。语义网是对w e b 的扩展,其信息具有良好的的定义和组 织,便于机器珲解。在语义网的多层次表示框架中,x m l 层是基础的语法层, r d f 基于三元组模型实现了数据层,本体层是语义层,逻辑层提供基于本体的 智能扣卿规则。w 3 c 推荐使用o w l 来描述术体,并且基于该描述实现查询与 拊碑功能。 术文的应用背景是上海市的出入境“电子检验检疫”系统。该系统涉及审批 核查、检验检疫、业务数据统计分析、专业知识更新管坪、统计查询和政务信使 服务等关键业务流程。采用进出口本体可以支持上述信息管珲的自动化和智能 化。一方面,通过进出口本体可以直接实现自动检验检疫的业务分析;另一方面, 基于进出口本体所支持的推珲,可以实现h s 编码智能查询,然后再利用h s 编 码提高快速查验和核放的效率和准确率。 2 i ;i 兜儿4 7 贝 面向本体的专业领域语义词典及其实现 第一章绪论 1 2 本文研究的内容 针对进出口领域h s 编码这个行业应用,有必要构建一个行业本体。机器学 习、自然语义珂解、数据挖掘等技术的发展为木体的自动化生成奠定了基础。在 实际的应用中,如何平衡构建的成本和时间及性能是一个必须要苗先考虑的问 题。同时,如何和国际通行的语义词典,如w o r d n e t 有较好的兼容性,方便重 用和后续的开发也是本文研究的重点。 目前,大部分本体仍是手工方式构趟7 l 【b 1 。手工构建本体既费时又费力,这 极大地限制了木体的应用。本文所提出的进出口本体,基于作者所在课题组前期 所研发的知识库【1 1 使用本体的描述方法对该知识库进行实现,采用木体所支持 的形式化推珲方法提高该知识库系统的性能。即在该进出口本体的基础上,利用 语义网的逻辑推珲方法和工具,提高应用系统的智能和精度,如智能h s 编码查 询、帮助系统等。与已经实现的知识库系统一样,本文所研究的进出口本体丰 要参考h s 编码规范。在进出口领域,h s 编码是通行的困际规范,具有严密的 逻辑性和科学性,被一百多个国家采用,是进出口报关、报税的商品查验基础, 是各国c i 岸执法部门执法和贸易统计的基础【5 l 。以 h s 编码规范为基础构建 行业木体,具有较强的权威性和广泛的应用基础。 o w l 是w 3 c 定义的w e bo n t o l o g y 描述语言。w e b 应用的大量出现,使得 o w l 成为了本体丰要的描述语言。为了适应应用的需要,本文采用定义最宽松 o w lf u l l 作为小体的描述语言。佃现有的查询推珲机制并不能完整地支持o w l 伽l 的扣卿及查询,这也使得我们有必要去实现领域木体的查询及推珂。 最后,作为一个实用的系统,效率是一个必须考虑的问题。如何从算法、架 构答多个层面去进行合适的选择,同样是本文需要研究的内容。 总之,本文通过以进出口领域为例子,对行业本体进行定义及实现其推珲查 询机制,最后实现一个宄整的系统,给出一个本体行业应用的实例。 1 3 本文结构 本文在h s 编码规范的基础上,结合进出口领域的h s 编码需要,探讨了进 出1 2 1 木体的作用与结构,分析了利用语义网查询语言s p a r q l 并探讨基于进出 口木体的推珲机制和应用框架,提出一个支持h s 编码的形式化推珲查询解决方 案,介绍了系统的架构与构建方法,并且以h s 编码查询为应用背景,展示了进 出口术体及其推珲的实现方法和性能改进技巧。具体章节安排如下: 第2 兜儿4 7 贝 面向本体的专业领域语义p d 典及其实现 第一节绪论 程。 第一章绪论整体概括了研究背景及整篇文章的布局。 第二章对语义词典及本体进行了介绍。 第三章对进出口领域的木体进行了定义并详细介绍了进出口本体的构建过 第四章详细介绍了基于进出口本体的推珲查询框架。 第五章介绍了整个系统的部署情况及实验的进展。 第六章对全文的工作进行了回顾并分析了本文的更多应用。 第3 贞儿4 7 负 面向本体的专业领域语义词典及其实现 第二章语义u a 典及本体综述 第二章语义词典及本体综述 本体论是一个哲学术语,从哲学角度来看,木体论关注的是“存在”,即世 界的本质是什么,世界上存在哪些类别的实体。哲学的术体论是对世界真实存在 做出的客观描述。 计算机科学领域的本体论借用了哲学的定义,主要是用来描述某一领域存在 的概念及其关系,它和人工智能和信息技术的发展密不可分。为了避免重复构建 知识库的代价,使得系统开发者在前人的基础上更加专注特定领域知识的构建。 木体论在知识管理领域获得了重视。其主要原因是本体客观的描述了某一领域的 知g r ( 概念及其关系) ,能够实现知识的复用和共享。这也使得本体在信息检索、 电孑商务等领域也日益受到重视。本体这个概念很早就提出了,佃其表现形式却 经过了多次变化才明确下来。很多文献把w o r d n e t ,h o w n e t 等语义词典也称为本 体。 2 1 语义词典 传统的语义词典,如英语语义词典w o r d n “7 1 ,汉语概念词典h o w n e t t 4 ”,中 文概念词典c c d l 8 】大都采用手工方式进行构建,需要耗费大量的人力和时间。维 护成本也很高,词汇量也无法达到专业领域的使用要求。在这些语义资源的基础 上,针对不同的用途,研究自动或者半自动的语义词典技术也成为一个热门的研 究方向。c o p e s t a k e 通过对语义词典进行解析牛成分层次的知识库【2 4 1 ;r d o f f 等 人采用少量的核心词汇对牛语料文木进行处珲构建某一领域的语义词典【2 习; r i c h a r d s o n 等人通过机读词典自动构建知识j 车f 2 “。 从影响力永看,w o r d n e t 是语义词典的典范,中国大陆的中文概念词典c c d , 台湾地区中央研究院研制的中共双语知识本体词网1 4 8 】均参照w o r d n e t 的体系构 建。中文领域,h o w n e t 是一个优秀的中共双语语义词典。研究语义词典有必要 对w o r d n e t 、h o w n e r 有个全面的了解。 w o r d n e t 是普林斯顿大学一组心珲词汇学家和语言学家从1 9 8 5 年开始研制 的在线词汇参照系统。它是一部基于语言学原珲的词典。 w o r d n e t 有近9 5 6 0 0 个不同的词,这些词组成了7 0 1 0 0 个语义。和其他标准 词典不同,w o r d n e t 将词汇分成名词、动词、形容词、副词、虚词五类。在实现 过程中,则将虚词忽略。与传统按照词形排列的词典不同,w o r d n e t 是按照语义 关系组织的。该语义关系描写了上位( h y p e m y m y ) 下位( h y p o n y m y ) 、同义 第4 贞n4 7 贝 面向本体的专业领域语义词典及托变现 第二节语义p 4 典及本体综述 ( s y n o n y m y ) 、反义( a n t o n y m ”、部分( m e r o n y m ) 整体( h o l o n y m ) 等词汇语义关系。 h o w n e t 有8 1 0 6 2 个中文词语,7 6 5 2 6 个英文词语,组成了9 5 6 9 0 个中文义 项数及9 5 9 3 5 个英文义项数,共有2 4 0 8 9 个概念。从语义方面划分,h o w n c t 包 括了实体、事件、属性、属性值、万物、时间、空间、部件8 个大类h 9 1 。 w o r d n e t 将具有同一词性、用法相同者组成一个s y s s c t ( 义项集合) ,所有 的s y s s c t 组成了一个巨大的网状结构,描述每个语义类的属性及其之间的关系。 与w o r d n e t 相比,h o w n c t 有不同的构造思想。h o w n e t 以英语和汉语所表达的 概念为描述对象,描述概念的属性及其关系。w o r d n c t 仅考虑了同义、反义、上 位和下位等关系。h o w n e t 主要是为了构造双语常识知识库。h o w n e t 除考察 w o r d n e t 使用到的关系外,还考察属性、万物、部件、整体等关系。 因为h o w n e t 考察的关系繁多,比较难建设,所以也造成了词汇量有限。这 也肩示我们在构造语义词典的时候,能够考虑到具体的应用,针对应用需要的关 系来定义语义词典的关系,在时间、成本、效果三者之间取得平衡。 2 2 本体的定义 在人工智能界,最早给出本体定义的是n e e h e s 等人,他们将本体( o n t o i o g y ) 定 义为“给出构成相关领域词汇的基木术语和关系,以及利用这些术语和关系构成 的规定这些词汇外延的规则的定义”。【2 7 】 1 9 9 3 年,g r u b e r 给出了本体的第一个在信息科学领域广泛接受的的定义,即 “本体是概念模型的明确的规范说明” 2 8 1 后来,b o r s t 在此基础上给出了木体的另 外一种定义【2 9 】:“木体是共享概念模型的形式化规花说明”。s t u d e r 等对上述两个 定义进行了深入的研究,认为木体是芡享概念梭型的明确的形式化规范说明”这 包含4 层含义p 叫:模型( e o n e e p t u a h z a h o n ) 、明确( e x p h o t ) 、形式化( f o r m a l ) 和共享 ( s h a r e ) 。 “概念校型”指通过抽琢出客观世界中一些现缘的棚灭概念而得到的校碰。 概念模型所表现的含义独立于具体的环境状态。 “明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化” 指木体是计算机可读的( 叩能被计算机处珲) 。 “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,即木体针对的是团体而非个体的共识。木体的目标是捕获相关领域的知识, 捉供对该领域知识的共同珲解,确定该领域内焚同认可的词汇,并从不同层次的形 第5 贝j l4 7 贝 面向本体的专业领域语义词典及其变现第二章语义词典及本体综述 式化模式上给出这些词汇( 术语) 和词汇问相可关系的明确定义。 2 2 1 本体与语义词典的关系 很多文献将语义词典w j r d n e t ,h o w n c t 也称作本体。但本体和语义词典有所 不同。首先,本体是一个严格定义的概念,适合于逻辑推珲。它在某个领域内是 公认的概念集合,用于描述特定领域的概念模型。语义词典是与传统按照字型、 音节排序的词典相对应的一个名词。语义词典定义比较松散,具有语义功能的词 典都可以称为语义词典。它描述的范围比本体广。如英文语义词典w o r d n e t 和 中英文常识知识库h o w n c t 都是语义词典。它们对事物的描述往往不太严格,也 不具有很高的权威性。本体通过概念、关系、公珲和实例等要素来严格刻画领域 对象。在某领域范围内,具有非常高的权威性。 本体和语义词典又是不可分开的,本体可以从语义词典中得到。作者认为具 有严格关系且有领域权威性的,且支持推珲查询的语义词典就是本体。 2 3 本体的分类 g u a n n o 【4 1 通过详细程度和领域依赖度两个维度对木体进行划分,详细程度 高的称作参考木体,详细程度低的称为共享木体。依照领域依赖程度,木体可分 为通用木体、领域本体、仟务木体和应用木体四类。 项级本体描述的是最普通的概念及概念之间的关系,如空间、时问、事件行 为等等,与具体的应用无关,其他种类的木体都是该类木体的特例。 领域木体描述的是特定领域( 法律、医学等) 中的概念及概念之间的关系。 仃务小体描述的是特定仃务或行为中的概念及概念之间的关系。 应j 钉本体描述的是依赖于特定领域和仃务的概念及概念之间的关系。 本文所研究的进出口木体属于领域小体,是实现进出口行业信息集成、信息 兆享、智能作业的重要手段。 2 4 本体的描述语言 本体丰要通过四元组进行表示。四元组表示方法的基本思想是【3 2 j :一个本 体中的四个辛要元素是概念( c o n c e p t s ) 、关系( r e l a t i o n s ) 、实例( m s t a n c e s ) 和 公珲( a x l o m s ) 。其中概念表示某个领域中一类实体或事物的集合。关系籀述 概念和概念的属性的交百。实例是概念表示的具体的事物的集合公 筇6 负j l4 7 兜 面向本体的专业领域语义埘典及j c 文现第二章语义- d 典及本体综述 珲是规则和约束的集合。 o n t o l o g y 描述语言起源于历史上人工智能领域对知识表示的研究,主要有 以下语言或环境为代表:c y c l 3 3 1 、o n t o h n g u a 3 ”、l o o m l 3 5 1 等。近年来,w e b 技 术为全球信息共享提供了便捷手段,以共享为特征的本体论与w e b 技术结合是必 然趋势。在此背景下,基于w e b 标准的本体描述语言正成为木体论研究和应用的 热点,如:o i l l 3 6 1 、d a m l w o i l f 3 7 】以及由w 3 c 主持制定的r d f 、r d fs c h e m a 、 o w l f 3 8 】等。 文献【删给出了各种木体描述语言的对比,如下表所示: 表1 1 各种本体语言的比较 类别语言表丛力推理复杂度备注 描述逻辑 a l c 一般较低甲期的逻辑描述 s h i q 强高a l c 上建立的, 强表达力描述逻 辑 s h o q ( d ) 强高针对 d a m l + o i l 推 理对s h i q 的修 改 面向w e b r d f r d f s 弱撤低包拓建直本体的 基本定义 d a m l + o i l 强高 其推理由s h o q 实现 l 面向w e b w 3 co w l i i r e一般低有效的控制复杂 标准 度 o w l d l强高在可推理的范曝 内提高表达力 o w l f u 很强 无应控制不考虑推理的限 制,提供晟强的 表选力同丁 r d f 在众多的小体描述语言中,o w l 破厂泛运用。 o w l 是2 0 0 2 年正式成为w 3 c 手拄荐的w e bo n t o l o g y 的表示语言。o w l 采 用面向对象的方式来描述领域知识。即通过类和属性来描述对象,并通过公珲 ( a x i o m s ) 来描述这些类和属性的特征和关系。 o w l 包括类、属性、类实例以及类问的关系4 种基本元素酋先,o w l 语 言的表述能力丰要体现在对类和特性的描述上,它通过构造函数来构造类和特 第7 贝j l4 7 贝 面向本体的专业领域语义词典及其变现第二章语义- d 典及本体综述 性。o w l 继承了r d f s 中的r d f s :c l a s s 等一系列的构造函数,同时也新增了部 分函数。其次,为了能够迸一步描述类和特性的特征和关系。o w l 定义了公珲, o w l 对类和特性之间的关系代数、复合关系、划分关系、部分到整体的关系等 进行了细致的定义。并且,对于类、特性及实例问相似性与不相似性进行约束,更 好地支持术体问的推导和映射,增强本体信息的复用性 o w l 包括3 个子语言:o w lf u l l ,o w ld l 和o w ll z t e 。o w lf u l l 包括 所有的o w l 词汇和r d f s 提供的原语,能够提供最大程度的知识描述能力,但 是没有计算上的保证。它还允许本体增加预定义词表的含义。o w lf u l l 可以看 作是r d f 的扩展,而o w l l i t e 和o w l d l 可以看作是受控r d f 的扩展。o w l f u l l 由于过于复杂,且还不成熟,因此还在不断地更新中。o w l d l 提供大部分 o w l 词汇支持和r d f s 支持,并在语义上等同于描述逻辑,它在保证计算的完 整性和可判定性的前提下,对本体进行描述。o w ll i t e 用于提供分类结构和简 单约束,是o w ld l 中相对容易实现部分的子集合,在形式上也没有o w ld l 那么复杂。 这3 个子语言的关系如下:每个合法的o w ll i t e 都是一个合法的o w l d l 本体:每一个合法的o w ld l 本体都是一个合法的o w lf u l l 本体;每一个 有效的o w l l i t e 结论都是一个有效的o w l d l 结论:每一个有效的o w l d t 结 论都是一个有效的o w lf u l l 结论。反之则不成立例 下图展示了使用o w l - l t e 语言来描述一个木体的实例。其中使用了o w l 提供的s u b c l a s s o f 关系,确定了h o r s e 及p 喀是a m m a l 的子类。 a a s s _ 1 i vd = ”a a h n o f y n a r = o “c l a s si d f j d = t h 靶 l r d i ss u b c | a s s o fc d fl e , o l f f c o = a r a m a r ? ,) ( o w jc b s s ) o “c l a s sf d ff d = 蕾叼 i d f ss u h e l a s s o ff d ff e s o w c e ;i 稿瑚1 i n a r 2 3 ( o r l :o a t a t ,p e p r o p e r t , 2 4 ( o w l :c l a s sr d f :i d - ”l i u ea n i m a l ,) 2 y ( o w l :c l a s sr d f :i d - ”e m u l e “ 2 6 2 7 ( o w l :c l a s s 2 h ( o u l :c l a s sr d f :i i ”h o r s e “ 29(rdfs:subclassofr d f :r s - r 伊“i i l l u ea n i m a l ”, 3 0 ( o w l :c l a s s y 3 1 0 1 1 i d d g c c o d e 3 3 3 6 r d f s :s u b c l a s s o fr d f :r l e s 0 4 1 忡“u l t v ea n l m a l ”, 3 7 0 ,l j - 脚:o j h 冉薪面叶字符的位置 b ,l i 岖- i a l - e : t o rl l - n ;i w h e r e ? e l e m e n tt a b l e :n a m e ? n a m e ) 筇一步:如果是第一次查询u r i “h t t p d e m _ op a v p t en e t d e m o o w l ”,则先 将其读取并转化为索引,进行木地存储。若该u r i 已查询过且在失效时间之前, 则鱼接从木地存储谈取。其转化后的逻辑结构为“u r im d 5 值、属性、属性值”。 系统对这个条目中的u r i 、属性、属性值进行索引并保存。 第二步:将s p a r q l 查询语句转换成空间向量查询格式,格式轼换可以通 过正则表达式或者j a v a c c 编写转换语法进行转换。 s e l e c t7 n a m e 部分转化为釜询词 w h e r e 部分转化为查询条件, 第三步:通过存查询语句中增加h k e 关键词,扩充s p a r q l 协议,使之能 利用空问向量模型的优势支持模糊查询,根据权重关系给出拥关列表。 4 3 2 相似度定义及计算 利用已牛成进出口木体的属性关系,为每个属性赋予一个权重。如“5 0 公 斤的活猪”,“5 0 公斤”和“活”两个属性的权重并不相同。这里使用t f i d f 公式 来衡量一个词的权重( 1 7 i 。 2 i ;3 0 吼j l4 7 贝 面向本体的专业领域语义词典及其变现第四亭基于进h 口本体的推理查问框架 2 i f ( t , ,咿l 。g 而m 其中w 0 表示词汇t e r mi 在文档d o c u m e n t j 的权重。t q t j ,d j ) 表示i 在j 中出 现的频率。a c t , ) 表示含有词汇i 的文档的出现次数。m 是所有文档的数目。 t f i d f 方法使用词汇的出现频率来近似代表其重要程度。但这种方式存在问 题,如“公斤”这个属性会出现在多个门类中,所以其出现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论