(计算机应用技术专业论文)基于本体的文本分类模型研究.pdf_第1页
(计算机应用技术专业论文)基于本体的文本分类模型研究.pdf_第2页
(计算机应用技术专业论文)基于本体的文本分类模型研究.pdf_第3页
(计算机应用技术专业论文)基于本体的文本分类模型研究.pdf_第4页
(计算机应用技术专业论文)基于本体的文本分类模型研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的文本分类模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西华大学硕士学位论文 基于本体的文本分类模型研究 计算机应用技术专业 研究生邓爽指导教师彭宏 摘要 在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了 长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将 它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法, 在事先构造的训练语料上学习各个类别的特征,自动构建出一个分类器。 传统的文本分类方法都是采用向量空间模型的文本表示方法,用关键词 作为特征来构建的。然而,向量空间模型的文本表示方法是基于贝叶斯假设 之上的,即认为词与词之间没有语义联系。但是在现实文本中的用词往往是 有关联的,比如:同义词、上下位关系等。并且用关键词来表示文本的特征 虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过 高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上 解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方 法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用剩 余的特征来表示文本。根据结果特征的特点,降维方法可以分为( 1 ) 特征提 取:结果是原始特征的子集;( 2 ) 特征抽取:结果不是原始特征的子集。基 于概念的文本分类方法,采用概念作为特征,将特征从词空间映射到概念空 间,这样多个同义词就对应一个概念,而一个多义词在不同的语境下会被映 射到不同的概念,提高了特征的凝聚度,克服了基于关键词的分类方法的缺 陷,提高了分类准确率。 本文的研究工作主要包括以下几个方面: 1 建立了基于本体的文本分类模型。 西华大学硕士学位论文 2 提出基于本体获取概念特征的方法。 3 使用概念空间代替词空间,提出相应的权重与相似度的计算方法,建 立概念向量空间模型。 4 讨论了k 最邻近方法和支持向量机分类器,并将概念向量空间模型的 思想运用于这两种分类器。 5 给出新方法的仿真实验。实验结果表明,基于概念的文本分类与基于 关键词的文本分类相比,在查准率、查全率和f 1 测试值上都占有较大优 势。 关键词:文本分类,本体,概念层次,特征选择,概念空间模型,s v m ,k n n 西华大学硕士学位论文 r e s e a r c ho nac o n c e p tv e c t o rm o d e lo fd o c u m e n t s b a s e do no n t o l o g y c o m p u t e ra p p l i c a t i o nt e c h n i q u e s m d c a n d i d a t e :d e n gs h u a n gs u p e r v i s o r :p e n gh o n g n l ca u t o m a t e dc l a s s i f i c a t i o no ft e x t si n t op r e - s p o = i f i e dc a t e g o r i e sh a sg a i n e d ar a p i dp r o g r e s si nt h el a s tt e n y e a r s ,d u et o t h ei n c r e a s e da v a i l a b i f i t yo f d o c u m e n t si nd i g i t a lf o r ma n dt h ee n s u i n gn e e dt oo r g a n i z et h e m m a c h i n e l e a r n i n gt e c h n o l o g i e sa r eu s e di nt h i sp r o c e s st oa u t o m a t i c a l l yb u i l dac l a s s i f i e rb y l e a r n i n g ,f r o mas e to fp r e v i o u s l yc l a s s i f i e dd o c u m e n t s , t h ec h a r a c t e f i s t i e so f c a t e g o r i e s n ev e c t o rs p a c em o d e l ( v s m ) i sac o n v e n t i o n a lt e x tc l a s s i f i c a t i o nm o d e l t h a tr e p r e s e n t sd o c u m e n t sa sv e c t o r si nam u l t i d i m e n s i o n a ls p a c e w h e nk e y w o r d sa r ee x t r a c t e df r o mad o c m n e n tc o l l e c t i o n , e a c hd o c u m e n ti sr e p r e s e n t e da s av e c t o ro fw e i g h t e dk e yw o r d sf 晴e q u e n c i e s i nt h et r a d i t i o n a lv s m ,t h es y s t e m s r e l e v a n c ej u d g m e n ti sb a s e do nt h eb a s i ca s s u m p t i o nt h a td o c u m e n t sa r er e l a t e dt o e a c ho t h e ro n l yi ft h e r ea r es h a r e dk e yw o r d si nt h ed o c u m e n t s h o w e v e r , t h e d i f f i c u l t yl i e si nt h ef a c tt h a tm o s tk e yw o r d sh a v em u l t i p l em e a n i n g so nt h eo n e h a n d , a n do nt h eo t h e rh a n d , s o m ec o n c e p t sc a nb ed e s c r i b e db ym o r et h a no n e k e yw o r d i na d d i t i o n , t h et r a d i t i o n a lt e x tc a t e g o r i z a t i o nu s ek e yw o r d so c c u r r i n g i nd o c u m e n t st od e t e r m i n et l l ec l a s so ft h ed o c u m e n t s b u ti th a v et w om a i nf l a w s : t h eo r ei sl e s sc a t e g o r yi n f o r m a t i o n , a n dt h eo t h e ri sh i 曲d i m e n s i o n a l i t yw h i c h c a u s e sd a t as p a r s e p h r a s ec a nb eu s e dt or e l i e v et h ef i r s tp r o b l e mb u t :i tw i l l a g g r a v a t et h e s e c o n do n e f o rt h es e c o n do n e , t h eu s u a lw a yi s u s i n g d i m e n s i o n a l i t yr e d u c t i o n r ) m e t h o d s w h i c hc a nr e m o v en o n e - e f f c c to r m 西华大学硕士学位论文 l e s s - e f f e c tf e a t u r e sa n dt h el e f tf e a t u r e sa r eu s e dt or e p r e s e n tt h et e x t a c c o r d i n gt o t h en a t u r eo ft h er e s u l tt e r m s ,d rh a st w ot y p e s :( 1 ) t e r ms e l e c t i o n :t h er e s u l t t e r m si sas u b s e to ft h eo r i g i n a lt e r m s ;( 2 ) t e r me x t r a c t i o n :t h er e s u l tt e r m si sn o t as u b s e to ft h e 删g i n a it e r m s t h et cm e t h o db a s e do n c o n c e p ti sn o tu s m gk e y w o r d sb u t c o n c e p t s t om a k e u p c h a r a c t e r i s t i ci t e m sa n d c o n s i d e r i n g h y p o n y m y - h y p o n y m yr e l a t i o nb e t w e e ns y n o n y m ys e t s t h ea p p r o a c hc a nk e e p t h et e x ti n f o r m a t i o nm o s t l ya n ds o l v et h et w op r o b l e m sa tt h es 锄et i m e t h em a i nw o r k so ft h i sp a p e rw e r ei n t r o d u c e da sf o l l o w s : 1 w ee s t a b l i s h e dt h et e x tc a t e g o r i z a t i o nm o d e lb a s e d0 n o n t o l o g y 2 w e p r o p o s e d am e t h o db a s e do no n t o l o g yt h a to b t a i n e dc o n c e p t s 3 t h ek e y w o r d sa r em a t c h e da g a i n s tt h ea t t r i b u t et e r m so ft h ec o n c e p t si n t h eg i v e no n t o l o g y , r e q u i r i n ge x a c tm a t c h e s b a s e do nt h ea m o u n to fm a t c h i n g t e r m sf o re a c hc o n c e p ta w e i g h tf o re a c hc o n c e p tc a l lh ed e f i n e d w ec o n s i d e r e d t h ep o s s i b l ea p p l i c a t i o no ft h ep r o p o s e dt h e o r yo nc a l c u l a t i n gs i m i l a r i t yd e g r e eo f d o c u m e n t s ,w h i c hi st h ef i x e dd o m a i n t h e s ec o n s t r u c t e dt h ec o n c e p tv e c t o r m o d d 1 4 w ei n t r o d u c e dk n na n ds v m , a n dt h c yw e r ei m p l e m e n t e df o rt h e p u r p o s eo ft h ep r o p o s e dd o c u m e n tc l a s s i f i c a t i o n w ee m p i r i c a l l yt e s t e dt h ep r o p o s e dm o d e lo nd o c u m e n t si no r d e rt od e m o n s t r a t e t h eg e n e r a la p p l i c a b i l i t yo ft h em e t h o d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tw ec a n i n c o r p o r a t ed o m a i no n t o l o g yt oa s s i s ti nd o c u m e n tc l a s s i f i c a t i o n f o rs o m ed a t a s e t st h ec o n c e p tv e c t o rm o d d ( c v m ) i sm o r ee f f e c t i v et h a nt h ev e c t o rs p a c e m o d e l ( v s m ) b a s e dt e r m m o r e o v e r , t h ep e r f o r m a n c ec o m p a r i s o n so fs v ma n d k n nb a s e do nc v ms h o wt h a ts v ma c h i e v e sb e t t e rp e r f o r m a n c et h a nk n n 9a n d s v m t r a i n i n gi st h u sp e r f o r m e do v e rt h er e d u c e dt r a i n i n gs e t k e yw o r d s :t e x tc l a s s i f i c a t i o n ,o n t o l o g y , c o n c e p th i e r a r c h y , f e a t u r es e l e c t i o n , c o n c e p tv e c t o rm o d e l ( c v m ) s v m ,k n n i v 西华大学硕士论文 申明 本学位论文是在导师的指导下完成的研究工作和取得的研究成果。除了 文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包括为西华大学或其他教育机构的学位或证书而使用过的 材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。论文成果归西华大学所有,特此申明 作者签名及f ,茨 订年;f j 占日 l 导师签名岛彦 。7 年占月二日 西华大学硕士论文 1 绪论 1 1 研究背景和意义 随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的急 剧增加,如何快速有效地获取、管理和使用这些文本数据,己经成为信息科 学和技术领域面临的一大挑战。传统通过人工的手段对庞大的原始文档集进 行组织和整理的方法,不仅费时、费力,效果也未必很理想。相比之下,如 果能由计算机直接对文档信息进行过滤、分类,把用户真正感兴趣的部分提 交给用户,就能使用户从繁琐的文档处理工作中解放出来,更加便捷地认识 和区分不同的文档内容,使大量的繁杂的文档条例化和系统化,并能极大地 提高信息的利用率。因而,自动文本分类作为一项具有较大实用价值的关键 技术,得到了广泛的关注,取得了很大的发展。 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,缩写为t c ) 是根据给 定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类 的过程“一。对于计算机,由于它不具有人类的智能,要正确地执行文本分类 的任务,首先要将文本的有用信息输入计算机中,为此应对文本进行科学的 抽象,建立它的数学模型,用以描述和代替文本。用简单而准确的方法将文 档表示成计算机能够处理的形式是进行文本分类的基础。 文本的表示方法借鉴了许多文本检索的表示方法和技术,这主要是因为 文本检索技术的发展历史久远、技术相对成熟。文本检索中常用的计算模型 有:布尔模型。1 ( b o o l e a nm o d e l ) ,向量空间模型( v e c t o rs p a c em o d e l ,简称 v 跚) ,概率模型嗍( p r o b a b i l i s t i cm o d e l ) 等。这些模型从不同的角度出发, 使用不同的方法处理特征加权、类别学习和相似计算等问题。向量空间模型 和机器学习算法在文本分类领域中的紧密结合和成功的运用,使得基于向量 空间模型的文本表示方法迅速成为文本分类研究领域中文本表示的主流方 法。向量空间模型是由s a l t o n 等人在6 0 年代末提出的“1 ,最早成功应用于信 息检索领域,后来又在文本分类领域得到了广泛的运用。以向量空问模型为 西华大学硕士论文 代表的分类模型都是用词作为特征的,它们为了降低系统的复杂度,一般都 假设词和词之间是相互独立的,这显然是与事实相违背的。向量空间模型虽 然能够很好地解决文本在计算机中的表示闯题,但是却不能考虑文本中词和 短语的语义信息,而这些信息对由自然语言书写成的文本来说是至关重要的。 为了解决这一缺陷,从词所表达的概念意义层次上来认识和处理文本,基于 概念的文本分类模型逐渐成为文本分类领域所追逐的热点。 1 2 自然语言处理方法 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s ,n ip ) 是研究计算机如何处理 人类语言的学问,是一门跨越语言学、认知心理学、计算机科学的综合科学 ”。目前,自然语言处理语义层的研究方向有很多,与文本分类、信息检索 关系密切且比较具有代表性的方向包括w o r d n e t 、h n c 、h o w n e t 、l s a 、本 体论等。w o r d n e t 是在普林斯顿大学认知科学实验室的gm i l l e r 教授设计的 一种基于认知语言学的英语词典啪它不是光把单词以字母顺序排列,而且 按照单词的意义组成一个“单词的网络”w o r d n e t 以s y n s e t 表示概念,所 谓s y n s e t 是在特定的上下文环境中可互换的同义词的集合。北京大学计算语 言学研究所开发了与w o r d n e t 兼容的汉语语义词典一一中文概念词典 ( c c d ) ”。中科院声学研究所的黄曾阳提出了概念层次网络( h n c ) 理论, 采用概念化,层次化,网络化的形式表达语义。h n c 理论认为,计算语 言学界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏 低和偏高的不足,不是描述人的语言感知过程的适当模式,因为“思维的机 制绝不是语法或句法,而是概念联想网络的建立、激活、扩展、浓缩与存储”, 从而提出计算机对汉语的处理不应该以图灵检验为标准,而应该以对语言模 糊的消解能力为第一标准。中科院计算语言信息中心的董振东创建的知识库 知网( h o w n e t ) ,是一个以汉语和英语的词语所代表的概念为描述对象, 以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库“小。 在h o w n e t 中,义原是h o w n e t 中不可再分的、表示语义的基本单元,每个 词语的语义由几个义原的组合表示。来自b e uc o m m u n i c a t i o n sr e s e a r c h 、 西华大学硕士论文 u n i v e r s i t yo fc h i c a g o 和u n i v c r s i t y o fw e s t e r no n t a r i o 的s u s a nt d u m m s 等 五位学者共同提出了潜在语义分析( l s a ) 自然语言处理的方法“”“”。l s a 利 用截断的奇异值分解降维的方法( 或者其它统计归纳、代数计算方法) 达到 信息过滤和去除噪声的目的。l s a 不同于v s m 中文档和词语的高维表示,而 是将文档和词语的高维表示投影在低维的潜在语义空间中,缩小了问题的规 模,得到词汇和文档的不再稀疏的低维表示,这种低维表示反而揭示出词汇 ( 文档) 之间语义上的联系本体( o n t o l o g y ) 是源自哲学上的一个概念, 用于描述事物的本质。在近一、二十年来,本体论已被计算机领域所采用, 用于知识表示、共享及复用“目。n c c h c s 等人指出:“一个本体定义了组成主 体领域的词汇的基本术语和关系,以及用于组合术语和关系一起定义词汇的 外延的规则“。一般情况下,o n t o l o g y 是面向特定领域,用于描述特定领 域的概念模型。 1 3 研究现状及发展趋势 一般来说,o n t o l o g y 更多地被用在信息检索上“”,这与信息检索发展 得较早不无关系。o n t o l o g y 一般采用某种描述语言( 如d o v i l 、o w l 等) 来表示,采用描述语言的逻辑推理能力完成信息检索例。b o n i n o 啪1 ,g u h a 嘲 等人在基于o n t o l o g y 驱动的互联网智能搜索领域作了深入研究。b o n i n o 认 为,未来的w e b 搜索引擎中,待检索的资源应当以语义标注的形式存在, 而o n t o l o g y 是一种很好的可实现查询的知识域描述形式,o n t o l o g y 导航 ( o n t o l o g yn a v i g a t i o n ) 能够实现获得有意义的资源所需的语义层推理。张宏 斌”则研究了o n t o l o g y 表达模型在解决m 中两类不确定性问题中的应用, 两类不确定性分别是:查询语义不确定性,指查询者所要表达的真实查询意 图或者文档作者所要表达主题真正含义不能被系统所获知;相关不确定性, 指文档模型和查询模型间的相关性是模糊的。h o t h o 。u j 嘲、t i u n m 等人分别研 究了o n t o l o g y 在文档聚类和分类中的应用。目前,将领域本体应用到文本 分类中的研究还很少,其中大部分的研究都是基于w o r d n e t 的。虽然,从 w o r d n e t 与o n t o l o g y 的关系上来看,两者在文本分类中的应用是相似的。 西华大学硕士论文 但是,前者通常会忽略概念问的关系,而o n t o l o g y 却可以弥补这一缺陷。因 为o n t o l o g y 可以看作是一个带标识的有向图,其中节点表示概念,有向边表 示概念之间的联系,指明所联接的概念节点之间的某种关系。概念具有层次 结构,不同的层次表明其抽象的程度不同,层次越高概括性越强,包含的下 位概念可能越多上位概念由组下位概念组成,上位概念常常是下位概念 的抽象、概括或整体表示:下位概念往往是上位概念的属性、特征或说明, 是对上位概念的补充和细化,它描述自己的独有属性,同时继承上位概念的 属性。因此,利用领域本体的概念层次与文本分类模型相结合是一个非常值 得研究的方向 文本分类的研究现在主要集中在以下几个方面: ( 1 ) 文本表示,即如何才能更有效把文本所蕴含的深层含义表示出来。包 括特征选取和权重计算。如用聚类的方法对词进行聚类,然后用这些类别来 表示文本;或者由文档聚类后形成的簇的中心向量构成概念空间,把文本 转换到概念空间上来表示慨捌,等等。 ( 2 ) 自动文本分类方法,主要是把人工智能和机器学习等领域的先进知识 引入到文本分类中来,以提高分类的效果。例如把在模式识别中取得很好效 果的支持向量机( s v m ) 方法引入到文本分类中来,取得了很好的效果啪1 ” ( 3 ) 无标注语料的使用。由于在训练分类器的时候需要大量的人工标注的语 料,这是一项对人力、物力需求都很大的工程:同时互连网有大量的无标注的 语料存在。能否利用这些无标注的语料,而降低手工标注语料的规模,也是 一个研究的热点m 1 4 本体基本知识 1 4 1 语义与本体的关系 对人类语言、文字、符号所包含语义的本质研究,始于语言学家。语言 学研究认为:在认知发育的过程中,人类在大脑中建立了对世界的基本看法 概念树结构,并通过语言来表达这种概念树结构咖语言学对语义闯题 蘸华大学硕士论文 研究的基本思路是从表达“语义”的基本单位词汇语义开始研究,而后 达到对句子甚至是超句的语义理解m 1 。语言符号的“形音一义物”三 者之间的关系,通常用图1 1 所示的语义三角形来表示 图1 1 语义三角形 f i g 1 1s e m a n t i ct r i a n g l e 图中给出了概念和事物的映射、符号与概念的映射关系。在现实生活中, 人与人信息交流有时出现障碍的原因正是由于这两种映射关系,即对同一事 物的概念认知模糊,或同一概念描述的不确定,因此哲学上的本体论要解决 对知识进行统一的概念化 哲学、语言学侧重于面向人类理解的语义研究,而数理逻辑和计算机科 学则更加侧重于面向机器( 应用程序) 理解的语义研究。传统应用程序开发过 程中,对符号的语义解释通常由程序员本人完成,并以硬编码的方式实现机 器对符号的所谓“语义理解”。这种方式虽然实现较为简单,但是同时也带来 了无法保证不同程序员对符号的语义解释一致性,在不受控的网络环境中, 在无法实现一致的语义解释下,无法保证系统之间的互操作等重要问题。为 解决上述问题,计算机科学家开始结合人工智能领域中的有关本体,将现实 世界语义用形式语言来编码,即通过知识工程师,将某个领域内被公众所认 可的知识用形式语言编码。机器通过将符号( 语义标签) 向语义形式编码的 映射来实现对符号的语义理解。 由此可知,人类通过头脑中的概念系统向现实世界中的对象进行映射, 来理解符号( 词汇) 的语义。而计算机( 应用程序) 很难将符号( 语义标签) 直接映射到现实世界,但为使计算机能像人类一样正确理解领域资源的语义, 西华大学硕士论文 就要创建一个符号系统,该系统可以将现实世界中某个领域知识做形式化封 装,通过将符号向该符号系统的映射实现机器对语义符号的理解,该符号系 统即一本体,本体是机器对资源语义的最小单位。 1 4 2 本体的定义 在计算机界,尤其是知识工程界,人们对本体的认识和定义经历了一个 不断深化的过程。不同于哲学中的本体论概念,计算机科学中的本体有自己 特定的含义,目前比较有代表性的定义如下: 1 1 9 9 1 年,n e c h e s 等人指出:。一个本体定义了组成主题领域的词汇 的基本术语和关系,以及用于组合术语和关系以定义词汇的外延的规 则川蚓。这个定义仅给出了知识工程中的本体的一个基本指南,即:要 建立本体,首先要识别所面对领域的基本术语和这些术语之间的关系, 然后要识别组合这些术语和关系的规则,并提供这些术语和关系的定义。 2 g r u b e r 在1 9 9 3 年给出的定义是:“本体是概念化的一个显式的规格 说明”d 町。b o r s t 对这个定义稍微作了修改:“本体是被共享的概念化的一 个形式的规格说明”。g r u b c r 和b o r s t 的本体定义都强调了给出形式解释 的可能性,主要缺点是没有对其中的“概念化”给出明确的说明”1 。 s t u d e t 等人“1 为上述定义做出了如下解释:“概念化涉及通过标识某个现 象的相关概念而得到这个现象的抽象模型。显式地指出所用到的概念的 类型,以及定义概念使用的约束。形式化是指本体应该是机器可读的。 共享反映了这样一个观念,即本体获取了一致的知识,它不是某个个体 私有的,而是可以被一个群体所接受的”。 3 g u a r i n o 对本体的理解是:“本体是工程上的人造物,由一组描述 特定存在的特定词汇、一组关于这些词汇的既定含义的显式的假设构成。 在最简单的情况下,本体描述了通过包含关系相联而形成的概念的层次 结构。在复杂一点的情况下,本体还包括用来描述概念之间的其它关系 和限制概念的既定解释的合适的公理”这是从计算机科学尤其是知识 工程角度的最明确而具体的定义,描述了知识工程中的本体的最基本的 西华大学硕士论文 构成。 4 目前被大部分人公认的定义是t o mg m b e r 在1 9 9 4 年提出的:“本体 是关于共享概念的一致约定。共享概念包括用来对领域知识进行建模的 概念框架、需要互操作的主体之问用于交互的与内容相关的协议,和用 于表示特定领域的理论的共同约定在知识共享的情况下,本体的形式 特化为具有代表性的词汇的定义一种最简单的形式是一种层次结构, 用来详细描述类和它们之间的包含关系。关系数据库的框架( s c h e m a t a ) 也是一种本体,它用来描述能共享的数据库之间的关系和集成这些数据 库需遵循的约束” 由以上定义可以看出,哲学界的“本体”概念和计算机界的。本体”概 念是有区别的。为明确区分二者,哲学领域的“本体”在英文中以大写“o ” 开头的“o n t o l o g y ”表示,是一种理论,一种关于存在及其本质规律的系统 化解释,这个解释不依赖于任何特定的语言;计算机界的“本体”在英文中 以小写。o ”开始的“o n t o l o g y ”表示,是一个实体,是对某领域应用本体论 方法分析、建模的结果,即把现实世界中的某个领域抽象为一组概念及概念 之间的关系的规范化描述,勾画出这一领域的基本知识体系,为领域知识的 描述提供术语。 领域本体是用于描述指定领域的一种专门本体。它给出了领域实体概念 及相互关系,领域活动以及该领域所具有的特征和规律的一种形式化描述。 从开发者的角度看,领域本体定义了开发者之间需要共享的领域信息的公共 词汇;从系统的角度看,领域本体定义了能被机器理解的领域概念及其关系。 如果把每一个知识领域抽象成一套概念体系,在具体化为一个词表来表示, 包括每一个词的明确含义、词与词之问的关系以及该领域的一些公理知识的 陈述等,并且能够与这个知识领域的专家达成某种共识,即能共享这套词表, 所有这些就构成了该领域的一个本体。最后,为了便于计算机处理和理解, 需要用一定的编码语言明确表达上述体系。 一个构建完整的领域本体可以形式化的定义为一个无环的有向网络 o ( c ,y ) 。 其中: c ( c l ,c 2 ,a ,q ,ac j ,a ,c m ) , 西华大学硕士论文 v 一 b c 川o d f i s m l i ” 1 5 3 特征项权重计算 对于特征项权重的计算,经典的矿d r 方法考虑两个因素:1 ) 词语频 率矿( t e r mf r e q u e n c y ) :词语在文档中出现的次数;2 ) 词语倒排文档频率何 ( i n v e r s ed o c u m e n tf r e q u e n c y ) :该词语在文档集合中分布情况的一种量化。 常用的计算方法是l o g :( n n i + 0 0 1 ) ,其中为文档集合中的文档数目,t z i 为出现该词语的文章数。 根据以上两个因素,可以得出公式: 一吮x l 0 9 2 ( n t + 0 0 1 ) ( 卜1 ) 其中吮为词语瓦在文档d j 中出现的次数,为词语瓦在文档皿中的 权值,k 一1 , 2 , a m ( m 为词的个数) 。 为了计算方便,通常要对向量进行归一化,最后有: 。 ( 1 - 2 ) 以上公式的提出是基于这样一个考虑:对区别文档最有意义的特征词应 该是那些在文档中出现频率足够高而在文档集合中的其它文档中出现频率足 够少的词语。 西华大学硕士论文 1 5 4 文本问的相似度度量 向量空间模型中的另一个概念是相似度( s i m i l a r i t y ) 。相似度s i m ( d 1 ,d 2 ) 用于度量两个文档d l 和d :之间的内容相关程度。当文档被表示为文档空间 的向量,就可以利用向量之间的距离计算公式来表示文档间的相似度。常用 的距离有向量的内积距离: s i m ( d - ,d :) 。荟 s i m ( d 1 ,d 2 ) - e o s o - ( 1 - 3 ) ( 1 - 4 ) 将v s m 应用于不同的领域,其相似度的计算有所不同。例如,对于信息检 索来讲,v s m 采用向量间的某种距离度量来反应文本对查询的满足程度。所 有相似度的值最后能与真实情况相符,计算简便,同时最好能归一化到 0 ,1 区间上,并且分布尽可能的均匀,使阈值的选择容易一些。 1 6 本文的组织结构 本文主要研究了基于本体的文本分类模型,实现了使用概念而非词汇来 组成特征项,最大限度地保留文本语义信息。对特定的领域进行了实验分析, 结果表明将本体引入到文本分类中,能够获得较高的精确度、召回率和f 1 测量值。全文的组织结构可以概括如下: 第一章为绪论。介绍了本体的基本知识,回顾了向量空间模型中常用的 关键技术。 第二章针对本文的研究内容,主要介绍了领域本体在文本分类中所涉及 的一些概念。论述了基于本体的概念向量模型,采用概念作为特征,代替原 来关键词作为特征。这里主要论述的关键技术有:概念的获取,概念向量空 间模型的建立及相应的算法和概念特征权重的计算方法等。 第三章提出了基于概念向量模型的文本分类框架,并简要介绍了其中的 诬华大学硕士论文 主要模块。给出了文本相似度的计算方法,并针对目前较为流行的文本分类 器:k n n 和s v m 分类器,探讨了与概念向量模型结合的方法。 第四章实验过程及结果分析主要对新旧方法进行了结果对比。并对实 验结果进行了分析。 第五章总结全文的内容,并对未来的工作进行了展望。 西华大学硕士论文 2 基于本体的概念向量模型 在人工智能领域,知识建模必须在知识库和a g c 血行为( 问题求解技能) 和环境( 问题存在的领域) 两个子系统,而领域知识的表达依赖于特定的任 务。这样做的好处是只需要考虑相关的领域知识但是,在大规模的模型共 享、系统集成、知识获取和重用依赖于领域的知识结构分析因此,进入九 十年代以来,与任务独立的知识库( 本体) 的价值被发现,并受到广泛关注。 人们引入本体来表达信息,从而使之成为知识,实现计算机与信息的交流。 文本分类中的关键问题是对大量文本进行收集和加工处理,使之从无序 到有序,使每个文档都获得某种特征化的表示,即让原来隐含的、不易识别 的特征显性化。如何有效地表示文本是直接影响分类效率的主要因素。传统 的向量空间模型( v s m ) 是最简便有效的文本表示模型之一,它在实践中取 得了很好的效果。但是它以文章中出现的关键词直接作为向量中的一项,并 不能解决词的同义性和多义性问题。针对上述问题,我们利用本体的知识表 达来获得文本中词之间的关系,使用概念而非词汇来组成特征项,将词空间 上升到概念空间,最大限度地保留文本的信息。 本文在v s m 和本体论的基础上,提出一种基于本体的概念获取方法, 用其来得到文本的概念特征,建立概念向量空问模型。本章重点研究了如何 通过本体的概念层次结构来获取文本的概念特征,进而建立概念向量空间模 型。主要内容包括:本体的概念层次关系分析、用来获取概念特征的匹配算 法描述、基于本体的概念向量空间模型的建立及相应算法的描述,以及概念 权重的计算分析。 2 1 本体的表达嘲 2 1 i 本体中的概念与属性 当本体在不同的领域应用时,其定义通常会发生变化。本文主要利用本 西华大学硕士论文 体中所定义的概念和属性来完成特征词条与概念之问的转换。下面介绍一下 本体中的概念与属性: 1 概念 概念指一个或多个底层概念组成的范围,即由多个概念组成的集合此 集合能够概念性地描述出问题的范围。 在本体的结构中,概念具有很重要的地位因为定义了概念这个术语, 才能用层次结构表示信息间的关系所谓层次结构,就是利用概念对象问的 继承关系,描述所有领域的信息结构。这种信息结构对文本的分类是非常重 要的,因为可以通过在结构上的推理得到对分类有用的信息。根据概念的定 义,概念是一个范围或领域。如把“硬件”作为一个概念,组成概念“硬件” 的那些子概念就可以用更明确、更细分的概念来表示。而概念和与其有继承 关系的子概念会因为分类领域的不同而变化。如将本体用于计算机领域时, 概念“硬件”可用“硬盘”、“软盘”、“光驱”等子概念描述。但用于i n t e r n e t 领域时,概念“硬件”用“设备”、“介质”、“路由器”等子概念描述会更恰 当。 2 属性 属性可以看作是概念的描述。如果本体属于一个特定领域,概念就是其 子集合,而这些概念就是由不同的属性集合来进行说明的。在一个本体的层 次结构中,应该包括概念及概念本身的详细属性这样,由具有属性的概念 构造出的本体概念层次的信息结构,会为文本分类提供很多的有用信息。属 性集合可以赋予相关联的概念特性( 如同义词等) 。可从层次结构中得到概念 之间的特殊关系,也可从一个概念得到其本身的重要属性。所以,属性是充 分有效地利用本体理论的有效手段。 2 1 2 本体的信息表达方式 下面说明分类结构中使用的信息表示方式。可以通过这些表示方式,更 确切地了解整个信息结构的表现形式。主要有四种信息表示方式,包括:( 1 ) 本体使用的各种概念的定义;( 2 ) 描述概念具有的特征属性;( 3 ) 说明概念 西华大学硕士论文 间的关系;( 4 ) 概念间的关系权值。 1 ) 概念 领域:用于描述本体所定义的领域,即分类的最大领域。 子概念:相对概念而言,是组成概念的子概念。 超概念:相对概念而言,是由概念组成的超概念 2 ) 属性 有超概念( h a s s u p e r ) :用于表示更泛化的概念。 有子概念( h a s s u b ) :用于表示更特化的概念 有同义词:用于表示有另外的相似的概念 3 ) 关系 上包含关系( h a s - a ) :用于描述“超概念”与“概念”之间存在包含关 系,“超概念”包含“概念”。 下包含关系( i s a ) :用于描述。子概念”与“概念”之间存在包含关系, 其中“概念”包含。子概念”。 属于关系( b e l o n g - t o ) :用于描述概念之问的关系,其中可以有祖先的 关系。 4 ) 权值( 概念问的相似度) 领域一概念值:描述概念与欲分类的领域问的相关性强度。 超概念一概念值:描述超概念与概念间的相关性强度。 概念一子概念值:描述概念与子概念问的相关性强度。 概念一概念值:描述概念与概念间的相关性强度。 用上述形式描述的一个本体论的信息结构如图2 1 所示。 最上层概念的领域为“网络”,所以可以得知这个本体要描述的领域为网 络。在第二层可以发现三个概念,这三个概念很明显具有超概念与子概念的 属性,并且在超概念和子概念间都存在权值。下面是最底层的概念,可以得 知其属于哪个概念。 。 西华大学硕士论文 f i g 2 1a ni n f o r m a t i o n 醴x u c t u r eo fo n t o l o g y 图2 1 一个本体信息结构 2 1 3 概念继承与概念层次 通常认为概念是一种观点、想法或意念。所以很难明确地定义其意义。 但在本体中,认为概念是一个领域、一个范围、或是由多个己知的领域组合 而成的集合。采用这种解释方式就可以比较明确地了解其意义。本文也采用 这种概念的定义方式,把概念当作一个领域或一个集合。即用很多子集描述 一个概念。 。 在图2 2 左侧,定义两个概念时,有部分子集相同,但不是完全相同。 在本体论中这种情形解释为:这两个概念具有部分相同的子集。如果定义了 一个“软件概念”又定义了一个“网络概念”,由于“软件概念”和4 网络概 念”的子集不完全相同,那么这两个概念在领域上就有某种程度的重叠。 西华大学硕士论文 相交独立 f i f r 2 2r e l a t i o n s h i pb e t w e e nt h ec o n c e p l s 图2 2 概念之间的关系 、 、 ( 多塑) ( 概念a ) 弋:= 多 继承 在图2 2 中部,两个概念问没有任何相同之处,这种情况最常出现在完 全不相关的集合之间。如一个“软件概念”与一个“硬件概念”在较大的“计 算机”领域中没有任何的关联。另外还有一种情况如图2 2 右侧所示,一个 概念包含于另一个概念之中这种情况出现时,会认为两个概念之间有继承 关系。比较小的领域会继承比较大领域的属性然后再加上本身的一些特定属 性。三种情况中最重要的是第三种情况,即概念之间的继承关系。只有利用 这种继承关系,才能够开发可提供更多信息的信息层次结构。这种结构称之 为概念层次。 前面了解了概念层次,现在介绍概念继承。所谓概念继承就是概念在继 承关系上表现出来的属性概念继承研究有继承性的概念之间的关系。可以 认为超概念是由概念所组成的集合。这里用图2 3 举例说明概念继承。 由图2 3 中可以看到,最外面的圆圈看作是最底层也是最明确的概念i 第二层与第一层圆圈之间所包含的概念,由多个底层的概念组成,称为超概 念:同理,最上层的“网络”这个超概念就是第二层的概念所组成的集合。 因此,可以说最内层的“网络”代表最大的领域,即最泛化的概念。按照自 内向外的方向,概念的领域越来越小,但意义越来越明确。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论