




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的语义Web 文本分类探讨黄显堂(浙江温州大学图书馆温州325003)摘要:本文探讨了本体与语义Web的关系、本体在语义Web文本分类中的作用,并重点探讨了基于本体的语义Web 文本分类的特点以及Web文本分类器的一般工作原理。关键词:本体语义Web文本分类中图分类号:G254.364;TP301. 2Research on Semantic Web Texts Classification Based on OntologyHuang Xian-tang (Library of Wenzhou University Wenzhou 325003)Abstract: This article has discussed the relations between ontology and semantic Web, the functions of ontology in semantic Web text classification, and has discussed the semantic Web text classification characteristic based-on ontology as well as the Web text classification sorter general Operational mechanism with emphasis.Keywords: Ontology;Semantic Web;Text Classification1、引言当前Web上的信息是一种无结构或半结构的数据,只能供人阅读而不能被计算机所理解,因而也就不能自动化处理,如何对网页尤其是对网页上的文本进行自动分类,已成为信息提取和信息检索面临的一个重要课题。为了解决这个问题,本体在Web上的应用导致了语义Web的诞生,其目的是解决Web上信息共享时的语义问题。Berners-Lee于2000-12-18在XML2000的会议上正式提出了语义Web1,它的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理(Agent)对WWW上异构和分布信息的有效访问和搜索。语义Web可以看作是在本体理论基础之上对现有Web所进行的扩展,目标是使Web上的信息具有计算机可以理解的语义。因此,在本体的支持下可以实现Web文本的自动分类。2、本体与语义Web的关系本体(Ontology)是语义Web中的元数据,它以机器能够理解的方式描述数据的语义,代理可以在机器之间进行通信,以提供更多的自动化服务。基于本体的语义Web根据语义Web的体系结构,语义网的实现离不开XML语言和RDF。XML+RDF+Ontology构成了相互理解的基础,同时成为语义Web体系结构的核心2。但是XML和RDF在处理语义上存在两个问题:一是同一概念有多种词汇表示;二是同一个词有多种含义(概念)3。因此,必须在语义层次上解决Web信息共享和交换的问题。本体通过对概念的严格定义和概念之间的关系来确定概念的精确含义,表示共同认可的、可共享的知识,从而解决一词多义以及多词近义等问题,因而在语义Web中具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。这样在使用XML定义标签格式和RDF表达数据后,可以使用一种本体的网络语言(如OWL)来描述网络文档中的术语的明确定义及其之间的关系。本体作为Berners Lee所提出的语义Web体系结构的第三层,为语义Web提供了相关领域的共同理解,确定了该领域内共同认可的概念的明确定义,通过概念间关系描述了概念的语义。本体层为语义Web提供语义级的共享,使得人及机器间能够进行语义交互。3、本体在语义Web分类中的作用 本体作为网络信息的组织与检索的基础,通过对信息内容的约束确保一致性和正确性,在语义Web自动分类中起着重要的作用,主要可以从以下几个方面来理解:31利用本体作为结构化Web信息和组织知识库的基础。 一方面,本体作为一个领域的概念框架可以用来理解和组织知识库,因为它澄清了领域知识的结构,从而为知识表示打下了良好的基础,而本体描述语言又能将Web上概念和概念之间的关系描述出来,它将逻辑定义和关系用一组限定的词汇进行表达,采用XML的语法以适应Web上传输的需要。而且,本体可以重用,从而可以避免重复的领域知识分析,其统一的术语和概念也使知识共享成为可能。另一方面,本体也提供了系统元数据的词汇表来注解数据和描述文件。有了本体就能够对文档进行一种更为准确的划分。可以准确的了解文档是关于哪一个领域,哪一个概念的,换句话说,这种划分提供了一种标准的分类,这种标准的分类为以后可能的查询提供了一个基础。32利用本体对Web网页进行语义标注。 所谓语义标注就是对文档信息的内容特征进行分析,对文档建立检索标识的过程。而基于领域本体的语义标注其本质就是实现文档特征项与本体概念之间的映射关系,并据此建立语义标注,为随后基于本体的文本分类奠定基础。 语义标引的大致实现过程描述如下:首先,对文档进行预处理,通过中文分词去掉无用虚词以及停用词,得到一系列关键词集合;然后,结合领域本体中所定义的概念,根据关键词的统计词频或者结构化文档中的标签从文档中抽取特征词汇,并对特征词汇进行语义处理:确定该特征词属于哪个同义词集合、判断是否存在与之逻辑密切相关的其他词汇,从而建立起特征项与本体概念间的映射关系。最后,就文档特征项对文档建立语义标注。如果有必要,还可以根据本体中定义的属性关系和推理规则,对文档进行隐含语义标注,即某些反映文档内容或主题的词汇并没有在文中显式出现,但是却隐含在原文档的内容中。此时可以根据关联关系或推理规则为文档附加上这些隐含的语义标注。目前,语义标注的方法可分为人工标注、半自动标注和自动标注。33利用本体进行语义扩展。 由于自然语言具有丰富多彩的表达形式,有大量的同义词、近义词和多义词存在,计算机要自动识别词的准确含义就需要借助特定的工具Ontology。利用本体进行语义扩展,用本体中概念和概念约束的明确规范说明,可以帮助系统在多个可能的意义中选择最适合的意义。 34利用本体进行概念过滤。 Web信息资源中可能出现一些与类别领域本体无关的词汇,在进行主题概念提取后这些词汇会混杂在与分类有关的主题概念中,这时需要对它们进行概念层次过滤,主要是将提取出的主题概念和领域本体的主题概念进行比较,不相匹配或差距较大时就将这些主题概念过滤掉,从而减少文本特征表示中不符合分类要求的网页的数量,提高分类系统的准确率。35根据相关概念进行推理,挖掘隐含信息。 语义推理是指利用文献的语义标注和本体语义关系及推理规则进行推理,从而实现智能检索和知识组织。推理是找出文本中没有明显表示出来或者有转义的意义,系统利用本体中缺省的知识填充空缺的意义。本体通过比较概念的逻辑结构来推论一个概念的含义。例如,如果 B 概念是形成 A 概念的必要条件之一,本体能得到推论:B 概念是 A 概念的一个实例,然后 B 概念自动地列在 A 概念下。正是由于本体具备的推理功能,对推理机的研发也是本体应用中的一个重要方面。4、基于本体的语义Web 文本分类方法4.1 Web文本自动分类的主要特性由于Web文档的类别划分不是一成不变的,随着时间的推移,会有新的类别加入或者有过时的类别被删除,因此Web文档的自动分类适合采用以类别为中心的分类模式。此外,与普通文档分类不同,Web文档自动分类有两个主要特性4:一是文档的超文本性质:超链接含有丰富的信息,有助于理解被链接页面与链接页面之间的关联。这方面的研究在文献56中提到,而文献7对几种分析超文本的方法进行了比较实验。二是类别集具有层次结构,利用层次分类技术可以将复杂的分类问题分解为简单的分类问题。.2Web文本分类的一般步骤文本分类是文本挖掘中一项非常重要的任务,也是国内外研究较多的一种挖掘技术。在机器学习中分类称作有监督学习或有教师归纳,其目的是提出一个分类函数或分类模型(也称作分类器),文本分类能把数据库中的数据项映射到给定类别中的一个。一般来讲,文本分类需要四个步骤:(1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;(2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;(3)用导出的分类模型对其它待分类文本进行分类;(4)根据分类结果评估分类模型。另外需要注意的是,文本分类的效果一般和数据集本身的特点有关。目前,普遍认为不存在某种方法能适合于各种特点的数据89。.3基于本体的语义Web 文本分类器原理 反馈修改训练部分 分类部分本体层 Web文本训练集领域本体预处理文本特征表示 分类器匹配模块概念特征提取学习算法测评器 图4.3基于本体的语义Web 文本分类器模型基于本体的Web 文本分类器总体上可以划分为训练、测试和分类三个部分。其中测试和分类的过程有很多重叠。训练的目的是训练分类器使其可用于分类,主要包含两个过程,首先要建立特征集,基本流程为:预处理训练例关键词与领域本体中概念的匹配概念特征的选取概念特征集的建立;之后则是训练分类器,基本流程为:预处理训练例依据概念特征集取得文本的特征表示训练分类器。分类则是分类器依据训练结果对未知文本进行分类并给出类别标识的过程,基本流程为:预处理未知文本依据特征集取得文本的特征表示分类器分类给出分类结果。测试的前半部分与分类相同,只是在得到测试例的分类结果之后会送到测评器来得出该分类器的测评结果。如上图4.3所示:.3.1预处理模块 预处理模块主要是完成对文本的分词和词性标注,并通过禁用词处理除去出现频率高但对文本分类起作用小的词。在预处理模块中需要被“过滤”的部分包括:(1)非文本信息。包括图形、图像、声音、动画、脚本语言等,这是由于分类器是基于纯文本的。(2)标点、不可识别的字符及所有与文本分析无关的内容,因为标点符号对于文本内容没有任何实际的含义,无法对分类起到帮助作用。其他无关内容包括控制符、标识符等。4.3.2匹配模块匹配模块是将领域本体应用到文本分类中的关键部分,主要是对主题概念的特征项进行查找和标注,并确定主题概念,完成对预处理模块输出的词集和主题概念的匹配。在对特征项进行匹配的过程中,应用本体中描述的各种语义关系对特征词进行扩展,可以提高匹配的效率。4.3.3概念特征选取 概念特征选取是对概念特征集冗余处理的过程。在概念获取的过程中会出现许多冗余概念,如相同的概念或者不满足设定闭值的词等,通过合并或删除冗余的概念,建立概念特征集合。4.3.4文本的特征表示 在文本经过了预处理,概念特征集建立之后,就可以对文本进行转化。只有得到文本特征表示,分类器才可以完成对文本的识别和处理。4.3.5分类器 分类器的实现原理因采用的分类算法而异。但在可以对文本进行分类之前必须进行训练。训练的过程为::对训练集进行预处理,根据特征集得到每个文本的特征表示,送交分类器完成训练过程。分类器一般会在训练的过程中完成相关数据的计算与保存。分类则是分类器对未知文本进行类别标定的过程。分类的过程为:对文本进行预处理,根据特征集得到该文本的特征表示,送交分类器得到分类结果。4.3.6测评器 评测器主要用来评价一个分类器在分类准确度上的表现。测试集与训练集相似,是一些已经做好类标注的文本。将测试例送往分类器得到分类结果、将其与正确分类作比对,就可以对分类器的准确度做出评价。5结束语语义Web是今后Web建立的方向,其出发点是改变现有互联网依靠文字信息来共享资源的模式,本体对其实现起着重要的作用,通过本体来描述资源的语义信息,达到语义级的共享,从而提高网络服务的智能化、自动化。基于本体的语义Web文本分类取决于本体中对各种概念的关系的描述,所以本体的制定是一个由领域专家不断修改、完善的过程。国内对基于本体的中文文本自动分类的研究起步较晚,尽管已有一些研究成果,但进展非常有限,还有很多问题有待进一步研究。本文探讨了本体与语义Web的关系、本体在语义Web分类中的作用,并重点探讨了基于本体的语义Web 文本分类的特点以及文本分类器的一般工作原理,以期人们对基于本体的语义Web 文本分类有更深入的认识。参考文献:1 Berners-Lee and the Semantic Web Vision./pub/a/2000/12/xm1200/tim bl.html2 张丽坤,蒋波.基于本体的语义Web研究. 计算机技术与发展,2007(6):116-1193 邓志鸿.Ontology研究综述J.北京大学学报:自然科学版,2002,38(5):730-738.4 Mc Callum A,K Nigam.A Comparison of Event Models for Naive Bayes Text Classification. In Proceedings of AAAI-98 Workshop on Learning for Text Categorization.Madison.1998,509-5165 G Attardi,S D.Marco and D Salvi.Categorization by context.Journal Universal ComputerScience.1998,4,9,pages 719-736.6 J Frnkranz.Exploiting structural information for text classification on the WWW.In Proceedings of IDA-99,3rd Symposium on Intelligent Data Analysis.Amesterdam,The Nether-land
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光缆线务员理念考核试卷及答案
- 紫胶蒸发工岗前考核试卷及答案
- 重冶备料破碎工基础考核试卷及答案
- 铁合金炉料烧结工标准化作业考核试卷及答案
- 多膛炉焙烧工特殊工艺考核试卷及答案
- 煅白制备工上岗考核试卷及答案
- 铸造碳化钨熔炼破碎工内部技能考核试卷及答案
- 教科版高中信息技术必修1教学设计-2.1 信息获取的方法
- 玩具制作工5S管理考核试卷及答案
- 2025年二手房买卖资金监管及资产保全服务协议范本
- 顶楼违建房买卖协议书
- 医学伦理与道德规范
- 大学团支书竞选
- (高清版)JTG 2120-2020 公路工程结构可靠性设计统一标准
- 连翘仿野生种植技术规范
- 国际标准《风险管理指南》(ISO31000)的中文版
- GB/T 18910.41-2024液晶显示器件第4-1部分:彩色矩阵液晶显示模块基本额定值和特性
- 癌性疼痛中西医结合诊疗指南
- 88版干部履历表
- 房屋拆除工程投标书
- IT设备维修申请表
评论
0/150
提交评论