基于贝叶斯的多维数据分类模型_第1页
基于贝叶斯的多维数据分类模型_第2页
基于贝叶斯的多维数据分类模型_第3页
基于贝叶斯的多维数据分类模型_第4页
基于贝叶斯的多维数据分类模型_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于贝叶斯的多维数据分类模型摘要:传统的数据检索模型忽略了信息之间的关联性,从海量、离散分布的数据中提取有效相关的内容不仅消耗大量的系统资源,较高的信息查找复杂度降低了系统检索性能,而且抽取结果相关度低导致无法满足用户需求。论文提出了一个基于贝叶斯的多维数据分类模型,利用数据之间存在的关联性将数据按照不同搜索维度进行分类管理。根据实验结果表明,该模型能够有效地提高数据查询效率。关键词:数据分类模型关联性贝叶斯1引言随着我国城镇化水平不断提高,燃气管道接入千家万户。随着用户逐步增长,传统的燃气计费及用户管理方式需要消耗大量的人力物力,已经无法满足现有状况的需求。信息技术的发展为燃气计费及用户管理提供了有效的解决方案。通过构建一个基于B/S分布式的燃气计费及用户管理系统能够提高燃气企业业务管理效率1。然而,随着用户数量以几何级数的方式增长,燃气企业所收集到的海量用户信息及业务数据信息离散的分布在系统数据库中。传统的数据查询方法仅利用用户的查询请求从海量数据中提取信息,不仅增加了查询匹配复杂度,而且消耗大量的系统资源234。面对复杂的用户查询请求,系统无法有效地分析用户请求信息,以至于返回的低相关度结果不能满足用户需求56。此外,企业的发展离不开业务统计信息,数据以静态方式存储,系统忽略了数据之间的关联性,使得海量一维数据无法满足企业需求,进而导致不能为企业决策提供支持。本文设计了一个基于贝叶斯的多维数据分类模型,利用数据之间的相关度,将数据进行分类,根据不同的数据查询维度,将数据进行多维度组织。经过仿真实验,该模型能够提高数据查询效率。2多维数据分类模型在数据库中,用户数据的存储方式依赖于关系数据库的结构化存储模型,即。其中user表示一个用户信息的存储结构;ID为系统为该用户分配的ID号,ID作为主键通常用来唯一标识用户的信息;name作为结构化信息中的一个特征项被用来表示用户的名字;address代表用户的居住地址;cost,表示用户的消费情况。传统的分类方法通常采用一维的方式对数据进行分类。例如,根据用户所在区域、用户消费状况、用户信誉度或用户入库时间等特征项进行分类。这种简单的分类方法无法满足用户多维的查询及统计需要。在数据分类之前,需要定义一个分类维度库,即D=(d1,d2,.,dn)。通过分层的方法将每个分类维度通过分类维度来表述,也就是说,将现有的分类维度进行抽象,生成顶层分类维度集合,若新生成的分类维度隶属于其中的某个,则将其隶属于该分类维度下,成为其子节点。从以上过程看出,该分类模型是个不断学习变换的模型,可通过树形结构进行表示。子类的创建需要通过评价函数来给出,这里我们选用贝叶斯分类方法,当一个新类别创建后,将其与顶层类别进行匹配,若属于其中某一类的概率较大,则归属于该类别。当某一新类别隶属di或di的子孙后,那么该类别可以被视为di或di子孙的一个特征,即该新类别与其他类别可以表示di或di的子孙。那么一个类别可以表示为di=(unode,dnode,f),其中unode为该di的父类别,dnode为该di的子类别集合,f为di的特征。贝叶斯分类模型是一个利用先验知识来构建分类树的模型。每个类别均有特征对其进行描述,也就是f在创建该类别时需要进行初始化。本文采用基于训练模型的分类构建算法。首先定义分类特征F=(f1,f2,.,fm),F为当前所有分类D的特征集合,一个分类di可以由一个或几个特征f来表示。设FB=(fb1,fb2,.,fbk)为特征训练库,根据特征fi从文本或其他信息选择具有该特征较为明显的信息进行分解,将含有或表示该特征的分解信息存储至FB中,这些信息即可表示一个fbi,也就是说,fbi中存储着表示该特征的离散的信息,若某一数据需要进行分类识别,那么可从该信息中提取若干特征与特征信息进行匹配,首先获取该数据的特征,再将其特征与fbi进行匹配,以判断其是否属于该fbi,再根据fbi所隶属的fi,从而确定该数据隶属于某一类别di。当判断该数据属于某一顶层类别后,还需进一步进行细化,以判断该数据是否属于其子类,若通过特征匹配后属于某一子类,则循环此过程,直到将该数据判定属于分类树中的叶子节点。反之,若在分类判别过程中出现无法确定该数据分类后,则可进行评估,并判定是否生成一个新的类别。因此,数据的分类判别过程也是分类树的一个不断学习进化的过程。在数据库中的任一数据均可能具有多个类别,通过确定某一分类,即可获得该类别下的数据,分类过程如图2所示。计算分类隶属度可通过贝叶斯分类模型来计算其隶属度的大小,根据评估结果进行排序,可分别列出所属分类。贝叶斯分类模型还可以被用来计算特征隶属度,根据隶属度大小将特征进行排序。在特征计算过程中,数据包含多个特征,但由于用户分类查询的意图对查询特征具有较大影响,因此,需要在计算隶属度的过程中加入一个判定阈值来消除某些相关度低特征的影响,还需要引入一个特征识别的机制,即一旦认定该信息属于某个特征,且该特征较为重要,则该信息即使可被视为噪声也要作为一个特征信息,也就是说,可根据先验知识将某些重要的特征信息或标志性信息分配较高的权重,在计算特征隶属度或分类隶属度的过程中,将其作为重要信息而保留。3实验结果及分析在仿真实验中,数据库中存储的数据量为5000。通过运行分类算法,数据库中的信息被划分为46个类别。本文与传统未分类查询算法进行比较,并分别进行了1000次查询。图3表示查询时间对比结果,图4表示查询相关度对比结果。如图3所示,随着请求数量的不断增加,未分类查询算法始终拥有较高的查询响应时间,基于贝叶斯分类的查询算法则保持较低的查询时间。对于两种算法之间存在的性能差异而言,当一个查询进入到系统中,对于未分类查询算法而言,它需要从整个数据库中查询所需的信息,因此,它的查询空间较大。基于贝叶斯分类查询算法能够精确将数据内容分类,通过确定所查询数据的特征,能够将查询请求定位到某一类别,根据查询数据特征不断的缩小分类粒度,则可精确地定位所查询的数据,从而降低了查询空间规模,因此查询响应时间维持在较低的水平。如图4所示,基于贝叶斯分类的查询算法根据数据之间特征的关联性,将数据进行分类,当用户输入查询信息时,快速精确地定位到分类节点上。因此,本文提出的算法能够获得较高的信息检索结果相关度,即所检索的相似信息集合中的信息被采纳的程度较高。从而验证了本文提出模型的有效性。5结语本文提出了一个基于贝叶斯的多维数据分类模型,利用数据之间的关联性,构建一个自学习自调节的分类树,降低了查询空间规模,能够精确地将查询请求定位到所需的查询数据分类上,使得用户所获得的查询结果与查询请求具有高度的相关性。参考文献:1李锴,IC卡燃气表预付费系统的研究J.山西电子技术.2006,3:86-88.2闭乐鹏,徐伟,宋瀚涛,基于一类SVM的贝叶斯分类算法J.北京理工大学学报.2006,26(2):143-146.3孙天昊,陈飞,朱庆生,曹峰,基于贝叶斯分类的增强学习协商策略J.计算机科学.2011,38(9):227-229.4彭兴媛,刘琼荪,不同类变量下属性聚类的朴素贝叶斯分类算法J.计算机应用.2011,31(11):3072-3074.5曹玲玲,潘建寿,基于Fisher判别分析的贝叶斯分类器J.计算机工程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论