(计算机应用技术专业论文)基于知识模型推理的deep+web数据源分类研究.pdf_第1页
(计算机应用技术专业论文)基于知识模型推理的deep+web数据源分类研究.pdf_第2页
(计算机应用技术专业论文)基于知识模型推理的deep+web数据源分类研究.pdf_第3页
(计算机应用技术专业论文)基于知识模型推理的deep+web数据源分类研究.pdf_第4页
(计算机应用技术专业论文)基于知识模型推理的deep+web数据源分类研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)基于知识模型推理的deep+web数据源分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于知识模型推理的d e e pw e b 数据源分类研究 中文摘要 基于知识模型推理的d e e pw e b 数据源分类研究 中文摘要 互联网的飞速发展使w e b 信息量不断膨胀,为人们提供了可供访问的海量信息。 其中蕴含的庞大w e b 信息正在不断深化,由于其隐藏于查询接口之后,无法利用传统 的搜索引擎技术获取,因而被称为d e e pw e b 。高速增长的d e e pw e b 信息已成为人们 进行信息获取的一个重要来源,然而d e e pw r e b 数据的异构性和动态性,为大规模d e e p w e b 数据集成带来巨大的挑战。d e e pw e b 数据源分类在大规模数据集成中的重要性 正在逐渐凸显。 本文针对d e e pw r e b 数据源分类的关键技术进行深入研究,提出了一种新颖的基 于知识模型推理的增强型分类模型,有效地解决了传统分类方法的局限性。本文的主 要研究工作如下: ( 1 ) 研究t d e e pw e b 结构化查询接口中可视化特征的规律性,提出了一种基于信 息熵和共现特征的b o w 选择方法。有效的特征选择是特征划分的重要前提。 ( 2 ) 分析了基于b o w 的特征分类方法的不足,提出了基于知识模型的特征推理模 型,弥补了b o w 集合的有限性。 ( 3 ) 采用了基于潜在语义分析方法的层次化知识库特征选择方法,并构造基于 w i k i p e d i a 知识库的辅助分类器。 ( 4 ) 提出了基于知识模型推理的增强型d e e pw e b 数据源分类模型,将领域概念丰 富的辅助分类器应用于有限的d e e pw e b 查询接口特征分类中,实现特征的语义推理 和领域化概念的扩充。 本文最后在真实的u i u cw e b 数据集上进行实验验证,通过对实验结果的分析比 较,验证了本文提出的分类策略是有效的,具有较高的分类精度和应用价值。 关键词:d e e pw e b ,数据集成,数据源分类,知识模型,语义推理 作者:黄黎 指导教n - 崔志明( 教授) a b s t r a c t r e s e a r c ho nd e e pw e bs o u r c e sc l a s s i f i c a t i o nl e v e r a g i n gw o r l dk n o w l e d g ei n f e r e n c e r e s e a r c ho nd e e pw e bs o u r c e sc l a s s i f i c a t i o n l e v e r a g i n gw o r l dk n o w l e d g e i n f e r e n c e a b s t r a c t a st h er a p i dd e v e l o p m e n to fi n t e r n e t , 舱bi n f o r m a t i o nc a p a c i t yi s e x p a n d i n g c o n t i n u o u s l y , w h i c hp r o v i d eh u g ei n f o r m a t i o nr e s o u r c ef o ru s e r s e n o r m o u sw 色b i n f o r m a t i o na r ed e e p e n i n g ,a n dh i d d e nb e h i n dq u e r yi n t e r f a c e s ,w h i c hc a n tb eo b t a i n e d b yt r a d i t i o n a ls e a r c he n g i n e s s ot h e ya r ec a l l e dd e e pw e b t h ei n c r e a s i n go fd e e pw e b i n f o r m a t i o nw i t hh i g l l s p e e dh a v eb e i n gas i g n i f i c a n tr e s o u r c ef o ri n f o r m a t i o nr e t r i e v a l d u et ot h eh e t e r o g e n e i t ya n dd y n a m i c i t yo fd e e pw e bd a t a , d a t ai n t e g r a t i o no f l a r g e s c a l ed e e pw e ba r ev e r yc h a l l e n g i n g a n dd e e pw e bs o u r c e sc l a s s i 丘c a t i o ni s b e c o m i n gm o r ea n dm o r es i g n i f i c a n ti nl a r g e s c a l ed e e pw 色bd a t ai n t e g r a t i o n t h i st h e s i sr e s e a r c h e so nk e yt e c h n o l o g i e so fd e e pw e bs o u r c e sc l a s s i f i c a t i o n i n d e p t h ,p r o p o s e san o v e le n h a n c i n gc l a s s i f i c a t i o nm o d e lb a s e do nk n o w l e d g em o d e l i n f e r e n c e ,w h i c ho v e r c o m e st h el i m i t a t i o n so ft r a d i t i o n a lc l a s s i f i c a t i o nm e t h o d s e f f e c t i v e l y o u rr e s e a r c hi s s u e sa r ef o l l o w s : ( 1 ) r e s e a r c ho nd i s c i p l i n e so fv i r t u a lf e a t u r e s i ns t r u c t u r e dd e e pw e bq u e r y i n t e r f a c e s ,a n dp r o p o s eab o ws e l e c t i o nm e t h o db a s e do ni n f o r m a t i o ng a i na n d c o - o c c u r r e n c ef e a t u r e s a ne f f e c t i v ef e a t u r es e l e c t i o ni sav i t a lp r e c o n d i t i o no ff e a t u r e s p a r t i t i o n ( 2 ) a n a l y z es h o r t a g e so ff e a t u r es e l e c t i o nb a s e do nb o w , a n dp r o p o s eaf e a t u r e i n f e r e n c em o d e lb a s e do nk n o w l e d g ei n f e r e n c e ,w h i c hc o u l do f f s e tf i n i t eb o ws e t s ( 3 ) a p p l yf e a t u r es e l e c t i o nm e t h o di nh i e r a r c h i c a lk n o w l e d g er e p o s i t o r yb a s e do n l a t e n ts e m a n t i c a n a l y s i s ,a n dc o n s t r u c t a l la u x i l i a r yc l a s s i f i e rb a s e do nw i k i p e d i a e n c y c l o p e d i a ( 4 ) p r o p o s ea ne n h a n c i n gd e e pw e bs o u r c e sc l a s s i f i c a t i o nm o d e ll e v e r a g i n g k n o w l e d g em o d e li n f e r e n c e ,a n da p p l yt h ea u x i l i a r yc l a s s i f i e r 晰也p l e n t yd o m a i n c o n c e p t st ol i m i t e df e a t u r e sc l a s s i f y i n go fd e e pw e bq u e r yi n t e r f a c e s ,i no r d e rt or e a l i z e f e a t u r es e m a n t i ci n f e r e n c ea n da u g m e n td o m a i nc o n c e p t s f i n a l l y , e x p e r i m e n t sa r ep e r f o r m e do nr e a lu i u cw e br e p o s i t o r yd a t a s e t t h e e x p e r i m e n t a lr e s u l t sa n da n a l y s i ss h o wt h a t ,o u rc l a s s i f i c a t i o nm o d e li se f f e c t i v e ,w h i c h c o u l dp r o v i d eh i g h e rc l a s s i f y i n gp r e c i s i o na n da p p l i c a t i o nv a l u e s k e yw o r d s :d e e pw e b ,d a t ai n t e g r a t i o n ,s o u r c e sc l a s s i f i c a t i o n ,k n o w l e d g em o d e l , s e m a n t i ci n f e r e n c e i l w r i t t e nb yh u a n gl i s u p e r v i s e db yc u iz h i - m i n g 图表目录 图1 1d e e pw e b 信息获取过程2 图2 1 支持向量机原理图1 3 图3 1d e e pw e b 查询接1 :3 表单2 2 图3 2d e e pw e b 查询接e l 示例2 3 图3 3 查询接口模式与数据源数量增长的关系分析2 4 图3 4 查询接口模式排序2 4 图3 5 网页表单的h t m l 代码2 6 图3 - 6 网页表单中特征提取集合2 7 图3 7d e e pw e b 查询接口分类结果f m e a s u r e 评价3 l 图4 1 标准表单分类模型3 6 图4 2 查询表单分类中的特征产生模型3 6 图4 3l d a 生成图模型3 9 图4 4 基于w i k i p e d i a 的表单特征构造过程4 4 图5 1d e e pw e b 查询接口表单4 6 图5 2d e e pw r e b 查询接口页面的内容结构5 0 图5 3d e e pw e b 查询接口视觉块树5 0 图5 _ 4 数码产品领域语义推理表示5 5 图6 1w i k i p e d i a 概念特征集合6 0 图6 2 可视化分析结果图6 1 图6 3 在t e l 8 数据集中分类的f m e a s u r e 评价6 4 图6 4 在i w r a n d o m 数据集中分类的f m e a s u r e 评价6 4 图6 5 基于知识模型的d e e pw e b 数据源分类结果6 5 表3 1 表单特征列表2 6 表4 1l d a 的执行过程3 9 表4 2 基于知识库关系分析的特征产生4 2 表4 3 特征构造算法4 5 表5 1 基于语义推理的查询接口特征统计4 8 表6 1 分类预测矩阵5 8 表6 2d e e pw 曲查询接口表单t e l 8 数据集5 9 表6 3u r l 种子列表6 0 表6 - 4d e e pw e b 增强分类策略比较6 5 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体己经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:三董3 整日期:2 翌2 :! 罗 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:墨! 鉴 导师签名: 三 期 期 日 日 基于知识模型推理的d e e pw e b 数据源分类研究 第1 章绪论 第1 章绪论 本章首先简要介绍论文的研究背景和d e e pw e b 数据集成领域的研究现状,讨 论并阐述论文的研究意义;然后将详细介绍论文的研究内容和创新成果;最后对论 文结构进行组织安排。 1 1研究概述 互联网技术的飞速发展带来了w e b 资源的加速膨胀,w e b 数据库规模正在以指 数级的增长趋势发展,并形成一个巨大的、分布广泛的信息资源库。随着信息检索 技术的发展,蕴涵于网络深处的海量d e e pw e b 资源为人类进行信息获取提供了重 要的来源。然而d e e pw e b 的动态性和异构性使得对w 曲信息的有效利用仍然面临 巨大的挑战,因此,d e e pw 曲数据集成一直是国内外众多专家学者研究的热点。 1 1 1 研究背景 w e b 信息资源正以空前的速度增长,在史无前例的范围内实现信息的共享。目前, 整个w e b 信息量己超过2 0 0 ,0 0 0 t b ,运用搜索引擎技术已经能够较好的获得w e b 信息 量。然而,w e b 资源不断深化的过程,使得大量有价值的资源隐藏于w e b 查询接口后 端。这些信息通常由后台w e b 数据库动态产生,网络爬虫( c r a w l e r ) 无法捕获这些页面, 造成现有搜索引擎技术无法对这些页面索引,只能通过查询接口表单( f o r m ) 提交查 询来获得,如图1 1 所示。因此,这些页面对于用户来说是隐藏的,我们称之为d e e p w e b ( 又称为h i d d e nw e b ,或i n v i s i b l ew e b ) 。 按w e b 信息蕴含的深度,整个w e b 可以划分为表层网( s u r f a c ew e b ) 和深层网 ( d e e pw e b ) 两部分。d e e pw | e b 的概念最初由d r j i l le l l s w o r t h 于1 9 9 4 年提出,是指那 些由普通搜索引擎难以发现其信息内容的w 曲页面【l 】。d e e pw 曲信息量的快速增长, 以及信息潜在的巨大价值,使d e e pw e b 研究越来越受到人们的关注。 第1 章绪论 基于知识模型推理的d e e pw e b 数据源分类研究 图1 1 d e e pw e b 信息获取过程 2 0 0 0 年7 月,b r i g h t p l a n e t 对d e e pw 曲做了一次较为全面的宏观统计【2 1 ,f f i :t d e e p w e b l 拘现状。u i u c 大学又在2 0 0 4 年4 月对d e e pw 曲进行了较为准确的估算3 1 。总结如 下: 目前整个w e b 上大约有超过3 0 7 ,0 0 0 个w e b 数据库站点,4 5 0 ,0 0 0 个w e b 数据库,信息量超过7 , 5 0 0 t b ,其数量比2 0 0 0 年增长了6 倍多; d e e pw e b 数据库中存储的信息量是s u r f a c ew 曲中静态网页信息量的 4 0 0 5 5 0 倍,该数量还在不断的增长; d e e pw 曲的月平均数据访问量大约高出s u r f a c ew e b 的5 0 ; d e e pw e b 存储的有效高质量内容总量至少是s u r f a c ew - e b 的1 0 0 0 2 0 0 0 倍, 其信息内容与信息的需求和领域更加相关,大约超过5 0 的d e e pw e b 内 容是特定面向某个领域的,其内容更加深入专一。 由此可见,d e e pw e b 信息量更大,主题更专一,信息质量更好,信息结构化程 度更高。但是由于d e e pw 曲的动态性和异构性,大规模d e e pw | e b 数据集成存在极大 的挑战性。通过手工方式已远不能在效果和效率上满足用户对信息获取的需要,如何 在海量的d e e pw e b 信息中有效的寻找合适的数据源一直是专家学者研究的热点,因 此亟需一种有效的自动按领域分类方法。d e e pw e b 数据源按领域分类的研究动机是 以尽可能自动的方式实现对w e b 数据库信息的有效利用。由于w e b 数据库提供的结构 化查询接口是人们访i h - d e e pw 曲资源的唯一途径,因而也成为研究d e e pw 曲按领域 2 基于知识模型推理的d e e pw e b 数据源分类研究 第l 章绪论 划分的有效途径之一。如何根据d e e pw 曲结构化查询接口模式确定其对 立w e b 数据库 的领域划分,并有效的实现d e e pw e b 数据源的组织分类,具有十分重要的研究意义 和巨大的提升空间。 1 1 2国内外研究现状和发展趋势 目前,对于d e e pw e b 海量信息的探索已成为专家学者关注的热点,国内外许多 研究机构都做出了有益的探索。 国外一些专门机构,女i c o m p l e t e p l a n e t 和i n v i s i b l e w e b 等,构建d e e pw e b 目录实现 对w e b 数据库按领域分类,涉及多个领域的若干个分类,但其w e b 数据库覆盖面只在 整个w r e b 中占有很小的比例,即使最大的c o m p l e t e p l a n e t 也只占1 5 6 【2 1 。许多商业网 站也仅通过手工组织方式对w e b 数据库进行领域层次的划分,并构建至l j y a h o o ! 1 i k e 层 次化分类模式中。 由于d e e pw e b 查询接口是获取d e e pw e b 信息的唯一入口,因此,针对d e e pw e b 中的结构化数据,d e e pw r e b 数据源分类通常有两种方法:预查询方法( p r e - q u e r y ) 和提 交查询方法( p o s t q u e r y ) ,它们都得到了广泛的研究。基于关键字的提交查询方法, 利用探测方法对查询返回的大量结果进行领域归属检验,达到信息分类的目的。 i p e i r o t i s 等人研究了利用少量查询探测的方法对后台数据库进行分类。利用有监督的 机器学习方法构造一个基于规则的分类器,利用规则前件作为查询词对后台数据库进 行查询探测,计算查询返回的结果数;然后通过近似计算查询返回结果数的主题覆盖 率,实现数据库的划分is 。其研究考虑返回结果的数量,仅局限于非结构化d e e pw e b 的分类。h e d l e y 利用文档采样的方法获得数据库摘要,通过计算摘要与预定义概念集 合的相似程度实现领域的划分【5 1 。以上方法反复的利用搜索引擎技术获得查询匹配的 结果,无法满足实时性的要求,在结构化多属性接口中,该方法也难以获得较好的分 类效果。 预查询方法则依赖于查询表单中的可视化特征,基于表单的模式属性进行分类。 b h e 首次提出了一种基于结构化查询接口模式特征实现d e e pw e b 数据源聚类的方 法,将模型区分度作为聚类目标函数,实现区分最大化【6 1 。o p e n g 利用聚类算法针对 第l 章绪论 基于知识模型推理的d e e pw e b 数据源分类研究 应用广泛的e c o m m e r c e 的w e b 数据库提出了一种有效的分类方法,但仅局限于商业领 域【刀。l b a r b o s a 等人提出一种基于上下文感知的表单聚类方法,将w e b 表单构建成一 个超链接的对象集合,用包含w e b 表单的页面中的文本信息作为数据库内容的上下 文,克服了表单内容和页面内容中有限的词袋( b a go fw o r d s ,b o w ) 特征的局限性, 并利用表单页面的超链接信息发现隐含领域的指向性特征。但是该方法只是简单的把 表单中的标记和h t m l 标签作为文本利用词频分析的方法进行处理,缺乏一定的语义 分析【8 1 。 目前国内对d e e pw e b 的研究尚处于跟踪和探索阶段,对d e e pw e b 数据源的分类 研究刚刚起步。山东大学的马军教授提出了一种基于d e e pw 曲网页中文本块的多种 统计特征对d e e pw e b 数据库分类的算法【9 1 ,将表单网页的内容文本作为数据库内容描 述的上下文,并采用分层模糊聚合的有向图方式的特征知识表征方法,在一定程度上 实现了语义相似性的分析。 目前对d e e pw e b 数据源的分类多集中于对查询接e l 的分类研究。但是这些研究 成果都缺乏一定的可扩展性,其分类的精度也有待提高,原因分析如下: 海量d e e pw e b 数据的异构性,使查询接口缺乏统一的模式,并缺乏一种 高效的异构数据源接口模式匹配方法; d e e pw 曲的异构性表现为查询接e l 中的异构属性可能跨多个领域,造成模 式映射中存在一定程度上的不确定性,已有的研究成果只利用传统的模式 映射,而忽略了现实属性划分中的不确定性问题; d e e pw e b 查询接1 :3 提供的视觉特征为领域划分提供依据,但是目前的研究 成果仅局限于对词袋特征固有语义性的分析,忽略了特征项之间潜在的语 义关联,这是导致分类性能不高的主要原因; 当d e e pw e b 查询接口特征的结构化程度较弱,几乎没有和领域相关的描 述属性时,上述基于结构化查询接口的分类方法就难以奏效。 因此,d e e pw 曲数据源分类研究具有广阔的前景。如果能将d e e pw e b 数据源分 类与领域知识相结合,通过构造辅助分类器,在特征选择和分类的过程中基于语义的 4 基于知识模型推理的d e e pw e b 数据源分类研究 第1 章绪论 推理,不断增强分类算法的舯i - - r 厶匕b g , ,并实时改进分类策略,进行分类迭代反馈,不断修 正分类判断标准;在分类的过程中根据领域之间的不同特征实时调整相似性判断函数 的判断标准,并多阶段的执行分类,则能极大的提高分类性能,获得可观的实用价值。 1 1 3研究意义 d e e pw 曲几乎能够为人们提供所需要的所有信息,但是海量d e e pw e b 资源的异 构性和自治性,使得在d e e pw e b 中寻找合适的数据源面临巨大的挑战。手工分类方 式在效果和效率上已远远不能满足用户对信息获取的需要,亟需一种自动化方式实现 w e b 数据库的分类。d e e p w e b 数据源分类作为d e e pw e b 数据集成中的一个关键步骤, 逐渐成为当前一个重要的研究领域。查询接口是获取w e b 数据库信息的主要途径,对 w e b 数据库的划分实质上是对查询接口的分类,这也是查询接口集成的首要前提。通 过w e b 领域划分,用户借助异构数据集成的全局查询接口就可以方便高效的获取信 息,同时也隐藏了异构数据源接口模式的差异性。 d e e pw e b 数据源的分类研究涉及机器学习、自然语言处理、统计分析等多学科 领域,由于d e e pw 曲查询接口特征的特殊性,传统的经典分类算法已无法在性能上 有明显突破。因此,本文将从一个新的角度研究d e e pw 曲查询接口表单特征划分的 策略。跨领域知识的结合和推理手段的应用,都有助于有效的发现结构化查询接口特 征间的语义关联性,在分类性能和效果上都会有更大的提升,因而具有前瞻性的研究 意义和巨大的应用价值。 1 2 研究内容与创新 本文针对d e e pw e b 数据源分类进行研究,以d e e pw e b s 构化查询接口作为研究 的切入点,提出了一种新型的增强型d e e pw e b 数据源分类策略,其研究内容和创新 贡献分别叙述如下。 1 2 1 研究内容 本文以d e 印w e b s 构化查询接口作为研究的切入点,依赖于查询表单中可视化 第l 章绪论 基于知识模型推理的d e e pw e b 数据源分类研究 特征的领域指示性,采用预查询的方法实现d e e pw 曲数据源的分类。 文献 1 0 】研究表明,d e e pw e b 查询接1 2 1 表单中的属性特征满足齐夫分布 ( z i p f - d i s t r i b u t i o n ) ,即只有少数特征项的出现频率是相对较高的,并且领域属性特征 的数量将随着接1 3 数量的递增而趋于收敛。其次,d e e pw e b 查询接1 2 1 的分类不同于 传统的文本分类,其特征是由与后台数据库字段关联的结构化属性标签组成,具有良 好的结构性,构成一个多属性模式。再次,丰富的d e e pw e b 查询接1 3 在其结构和内 容属性上存在一定区别性和变化性,相同或相似领域中的查询接口存在很多共通之 处,这为本文利用查询接口的属性特征对异构的数据源进行分类提供了依据,并且该 方法具有很强的多领域适应性和扩展性。 本文在对d e e pw 曲查询接1 3 固有特征研究的基础上,突破了传统的基于词袋 ( b o w ) 方法的局限性,将查询接口特征的分析提高到语义分析的高度。传统b o w 方 法仅利用有限的固有特征,缺乏特征语义性分析,造成特征表征的盲目性,当特征稀 疏时,很难获得理想的分类效果。因此,本文结合了领域知识模型和泛化概念的思想, 通过设计辅助特征生成器,从特征的语义关联性和上下文关系中合理估计特征表示的 权重,构建特征概念的推理表示模型,达到丰富b o w 特征的目的,以较少的样本代 价获得较高的分类结果。并实时改进分类策略,通过分类迭代反馈,不断修正分类判 断的标准,以获得较高的分类结果。 1 2 2创新及贡献 本文创新及贡献如下: 一、本文提出一种新型的增强型d e e pw 曲数据源分类框架。该框架集合了大规 模的外部领域知识模型,从人类基于知识背景的认知理解的角度出发,利用外部知识 信息有效的驱动t d e e pw e b 查询接1 3 特征的构造,丰富了查询接口中有限的固有特 征,从特征词法分析的层次提升到了语义分析的高度,解决传统b o w 方法对查询接 口进行特征表征所造成的局限性。 二、针对d e e pw | e b 查询接口特征的有限性和指向性特征,本文利用外部知识库 ( w i k i p e d i a ) 为d e e pw e b 查询接1 2 1 划分构造辅助特征产生器。通过对知识库中层次化 6 基于知识模型推理的d e e pw e b 数据源分类研究 第1 章绪论 知识概念的分析,有效地实现了对概念特征的序列化表示,隐含的解决了特征词义的 消歧问题。 三、利用辅助特征产生器,提出了一种利用潜在语义分析的特征生成方法。在建 立表单特征到概念特征的泛化映射过程中,利用潜在的语义分析,挖掘隐含的主题特 征,有效的解决了自然语言处理中的同义词和多义词问题;同时丰富了特征内容,生 成了一个较高维的特征空间,解决了因为特征稀疏所造成的分类问题瓶颈。 四、该模型具有较高的通用性和扩展性。只需要数量相对较少的标记样本,构造 一个比较简单的表单分类器,借助外部知识库的丰富样本扩大分类器的覆盖面,从而 改变了传统的半监督学习中样本数据格式一致的限制。 1 3论文组织 下: 本文针对d e e pw e b 数据源分类的关键技术进行研究,共分为七章,内容组织如 第1 章为绪论。该章首先介绍本文的研究背景,通过阐述d e e pw e b 数据集成的国 内外研究现状和发展趋势,揭示 d e e pw e b 数据源分类研究的重要性。最后介绍了 本文的研究创新与内容组织。 第2 章介绍w e b 挖掘的相关知识和关键技术。该章首先介绍了w e b 挖掘的背景知 识,并描述了经典的分类算法,详细分析各算法的优缺点和适用范围。 第3 章详细阐述d e e pw e b 数据源分类技术。该章主要研究基于b o w 方法的d e e p w e b 数据源分类技术,包括查询接口特征的选择,特征权重的估计,并对相应实验的 分类结果进行分析,然后详细阐述了b o w 方法的不足,并提出相应的改进办法。 第4 章研究并设计d e e pw e b 查询接口特征产生模型。该章主要讨论如何选择一种 层次化知识模型,并详细阐述特征产生器的构造过程。 第5 章研究基于知识模型推理的d e e pw e b 查询接口分类策略。该章首先提出一种 基于知识模型的增强型d e e pw r e b 数据源分类框架,然后详细介绍基于知识模型推理 的d e e pw e b 查询接1 3 特征的构造方法,以及基于层次化知识模型的相似性度量手段。 第l 章绪论 基于知识模型推理的d e e pw e b 数据源分类研究 第6 章是实验和性能评价。该章主要针对第4 章和第5 章的研究技术,在u i u c 的 t e l 一8 和1 w r a l l d o m 数据集上对上述d e e pw e b 数据源分类策略进行验证,并详细讨论 和分析了实验的结果和性能。 第7 章是全文总结和展望。总结了全文的研究工作和创新之处,指出了存在的诸 多不足,并对下一步工作进行展望。 8 基于知识模型推理的d e e pw e b 数据源分类研究 第2 章w e b 挖掘及分类方法 第2 章w e b 挖掘及分类方法 数据挖掘是从大量数据中提取或“挖掘 知识,它跨越多个学科领域,涉及数据 库技术、机器学习、统计学和人工智能等多个领域。全球存储数据或瞬态数据的爆炸 性增长激发了对数据挖掘技术的需求,已经引起了信息产业界和整个社会的高度关 注。w e b 挖掘作为数据挖掘领域中一个新兴的分支,成为一个年轻而充满生机的研究 领域,得到了越来越多专家学者的关注。 2 1w e b 挖掘概述 i n t e m e t 的不断发展带来了w 曲信息量的高速膨胀,形成了一个巨大的、分布广泛 的信息服务中心。数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这 些知识是隐含的、实现未知的、潜在的有用信息。数据挖掘的提出最初是针对大型数 据库的,但是从更广泛的角度来讲,数据挖掘意味着在一些事实或观察数据的集合中 寻找模式的决策支持过程。因而,数据挖掘的对象既可以是数据库,也可以是任何组 织在一起的数据集合。例如从大量的股票行情的变化数据中发现其规律,并预测未来 的走势;对商业领域的长期销售记录数据中,可以分析出顾客的消费习惯和行为,以 提供营销策略和决策支持等。 w e b 的不断发展,形成了一个具有开放性、动态性、异构性特点的全球分布式网 络,w e b 包含的丰富和动态的超链接信息,以及w e b 页面的访问和使用信息,为数据 挖掘提供了丰富的资源,因而逐渐发展出一支w e b 挖掘的研究领域。w e b 文本挖掘 ( w r e bt e x tm i n i n g ) 是从文本挖掘( t e x tm i n i n g ) 发展而来的。它“将数据挖掘技术应用 到信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、自然语言处理 ( n a t u r a ll a n g u a g ep r o c e s s i n g ) 和文档摘要( d o c u m e n ts u m m a r i z a t i o n ) 等多种技术中 去,旨在从大量文本数据中发现以前未知的知识 【1 1 】。w e b 文本数据本质上是一种特 殊的有内在格式的文本数据,w e b 文本挖掘需要结合w e b 文本自身的特点,将文本挖 掘技术应用到w - e b 文本中。然而w e b 具有多数据源、数据结构的半结构化,及动态性 等特点,使得w e b 挖掘面临着许多难题。因此,运用现有的数据挖掘技术对分布的、 9 第2 章w e b 挖掘及分类方法基于知识模型推理的d e e pw e b 数据源分类研究 异构的w e b 信息进行挖掘,就成为了数据挖掘技术面临的挑战和未来的发展方向,由 此产生了基于w e b 的数据挖掘。 w e b 挖掘利用数据挖掘技术从与w w w 相关的资源和行为中抽取感兴趣的、有用 的模式和隐含信息。即指从大量w 曲文档的集合c 中发现隐含的模式p 。如果将c 看作 输入,将p 看作输出,那么w e b 挖掘的过程就是从输入到输出的一个映射孝:c 邓。 w e b 挖掘涉及w e b 技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合 技术。 与传统的纯文本相比,w e b 页面结构性良好,是一种半结构化的数据。w e b 页面 的基本结构是d o m ( d o c u m e n to b j e c tm o d e l ,文档对象模型) 结构,d o m 结构将有助 于信息的提取。但是w e b 页面的动态性和缺乏统一的结构,使w e b 页面分析的复杂性 远远高于传统的文本分类。与传统的基于关键字的w e b 搜索相比,w e b 挖掘是一项更 具挑战性的任务,它搜索w e b 结构,以此确定w e b 内容的重要性,发现w e b i 为i 容的规 律性和动态性,挖掘w e b 的访问模式。从研究任务角度看,w e b 挖掘可以分为三类: w e b l 为容挖掘( w e bc o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用 挖掘( w e bu s a g em i n i n g ) ,w e b 结构挖掘又可以作为w e b l 内容挖掘中的一部分。 w e bl 为容挖掘是指对w e b 页面内容和链接信息,以及后台数据库进行挖掘,从w e b 文档内容及其描述信息中获取有用知识。w e b 文档分类作为w e b 内容挖掘中一个重要 的应用,基于预先分好类的文档实例集,为每个文档赋予一个取自预定义的主题类别 集的类标号。基于关键字的文档分类方法和基于关键词关联分析方法在w e b 文档分类 中得到了很好的应用,取得了理想的效果。然而,w e b 页面包含的主题和广告导航信 息较为复杂,所以基于块的页面内容分析( v i p s ) 在构造高质量的分类模型中起到非 常重要的作用。此外,由于超链接包含了关于页面主题的有益的语义线索,也可以得 到充分的利用。目前,语义w e b 的广泛研究和成果,也为w e b 分类提供了新的研究途 径,同时,w e b 分类研究也有助于构建语义w e b ,二者相辅相成。 d e e pw e b 中丰富的信息内容构成了w 曲资源的重要组成部分,并逐渐成为w e b l 为 容研究中一个新的研究分支。按其结构化程度,d e e pw e b 可以分为两类:( 1 ) 非结构 化d e e pw e b ,提供非结构化的数据对象,如文本、图像、音视频等。例如,n e w s s o h u c o m 1 0 基于知识模型推理的d e e pw e b 数据源分类研究 第2 章w e b 挖掘及分类方法 是一个关于新闻的非结构化d e e pw 曲。( 2 ) 结构化d e e pw e b ,提供结构化的查询接口 和结构化的数据对象,结构化的h t m l 标记与后台数据库相关联,并形成记录级的属 性一值对。例如,d a n g d a n g c o r n 是一个关于图书的结构化d e e pw e b ,它可以根据书名、 作者、出版社等条件进行查询,返回图书记录信息。研究表明结构化的d e e pw e b 占 了相当大的比重【1 2 】,结构化的d e e pw 曲和非结构化i 拘d e e pw e b 的比例为3 :1 。因此, d e e pw 曲的内容挖掘,尤其是结构化d e e pw e b 的数据源分类具有很高的研究价值。 2 2分类算法综述 数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用分类、 聚类、关联规则等技术;另一类是建立一种以机器学习为主的人工智能模型,通常采 用神经网络、自然法则计算方法等。w 曲上的内容挖掘多为基于文本信息的挖掘,它 和文本挖掘的功能和方法比较类似,利用w e b 文档中部分标记可以提高w e b 文本挖掘 的性能。 w e b 文本挖掘依赖于文本分类技术,但与纯文本分类相比,w e b 文本分类需要考 虑更多的因素。与一般的文本不同,w e b 文本主要以网页形式存在,具有多种多样的 格式,没有统的标准和写作风格,结构信息丰富。能否合理利用这些特征将对分类 器的性能和表现产生较大影响。w e b 中的海量信息,需要借助有效的手段进行全面的 数据分析。分类则是一种有效的数据分析形式,通过提取数据描述,预测离散或无序 数据的类标号以帮助决策。在对w e b 文本分类进行研究时,采用文本自动分类研究的 核心技术,并分析w e b 文本的结构以合理利用w e b 文本的内在结构信息,最终按照主 题将w e b 文本分类到预先定义的若干个类别中去。 数据分类是一种监督学习( s u p e r v i s e dl e a r n i n g ) ,即分类器的学习在被告知每个训 练元组属于哪个类的“监督”下进行。数据分类分为两步:第一步是训练阶段,对预 先定义的数据类或概念集合建立分类模型;第二步是测试阶段,使用模型进行分类, 评估分类器的准确率。典型的分类算法包括朴素贝叶斯方法、决策树方法、支持向量 机方法、最大熵方法、神经网络方法等【1 3 , 1 4 。以下简要介绍这几种比较典型的自动分 类算法,并分析了它们的优缺点。 第2 章w e b 挖掘及分类方法基于知识模型推理的d e e pw e b 数据源分类研究 2 2 1贝叶斯分类算法 贝叶斯方法( b a y e sm e t h o d ,b m ) 在机器学习领域中应用很广泛。贝叶斯方法分两 种:一种是朴素贝叶斯方法( n a i v eb a y e sm e t h o d ,n b m ) ,另一种是贝叶斯信念网方 法( b a y e sn e tm e t h o d ,b n m ) 。 朴素贝叶斯( n a i v eb a y e s ) 分类方法【1 5 ,1 6 1 是一种简单且有效的分类方法。它假设每 个特征都独立于其它特征,即特征独立性假设,在给定的文档类语境下,文档属性之 间是相互独立的。 假设函为一任意文档,它属于文档类别集c = c l ,q ,c k ) 中的某一类c j 。根据朴素 贝叶斯分类法有: 七 p ( d ,) = p ( c ,) 尸( d ,h ) ( 2 1 ) - 一 、 。,、尸 ,) p ( d ,ic ,) 以叫吐) _ 二铲 ( 2 - 2 ) 对文档面进行分类,就是按上述两个公式计算所有文档类别在给定西情况下的概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论