




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 的飞速发展,网上的信息资源空前的丰富。人们迫切需要拥有能够 从中快速、有效地发现资源和知识的工具,提高在w e b 上检索信息、利用信息的效率。 将传统的数据挖掘与w e b 结合进行w e b 挖掘,己成为数据挖掘的一个重要和繁荣的子领 域。 支持向量机是由v a p n i k 及其领导的a t & t 实验室研究小组提出的一种新的非常有发 展前途的机器学习算法。因为s v m 具有较强的理论依据和较好的泛化性能,使得它成为 继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。 本文首先对w e b 挖掘的有关理论进行了论述,详细描述了w e b 文本挖掘系统的设计, 包括w e b 文本挖掘系统的系统结构、模块功能等。接着对统计学习理论进行了介绍,深 入探讨了建立在该理论基础上的s v m 算法。接着结合支持向量机分类器的特点提出了递 进直推式支持向量机学习算法p t s v m ,给出了具体实现步骤和算法有效性的证明。最后 给出了算法的实验结果并作了详细的分析。 关键词:w e b 挖掘:文本挖掘:文本分类:支持向量机:直推式学习 i ak in do ft r a n s d u c t i v ei n f e r e n c ew e bd a t am i b eb a s e do ns u p p o r t v e c t o rm a c h ir e a b s tr a c t w i t ht h ee x p l o s i v eg r o w t ho ft h ei n t c r n e t ,w e bh a sc o n t a i n e df l o o do f i n f o r m a t i o na n dr i c hr e s o u r c e s i ti sn e c e s s a r yt op r o v i d eu s e r sw i t ht o o l sf o r e f f i c i e n tk n o w l e d g ed i s c o v e r yo nt h ew e b ,i no r d e rt oi m p r o v et h ee f f i c i e n c y o fi n f o r m a t i o nr e t r i e v a la n di n f o r m a t i o nu s a g eo nw e b w i t ht h ea p p l i c a t i o n o fd a t am i n i n gt ow e b w e bm i _ n i n gh a sb e c o m eo n eo ft h em o s ti m p o r t a n t a n df l o u r i s h i n gf i e l d so fd a t am i n i n g s v mi san e wk i n do fp r o m i s i n gm a c h i n e le a r n i n ga l g o r i t h mp r o p o s e db y v a p n i ka n dh i sg r o u pa ta t & t b e l ll a b o r a t o r y b e c a u s es v mh a ss t r o n g e r t h e o r e t i c a lf o u n d a t i o na n db e t t e rg e n e r a l i z a t i o 丑p e r f o r m a n c e ,i tb e c o m e st h e n e wr e s e a r c hh o t s p o ta f t e rt h er e s e a r c ho fa r t i f i c i a ln e r v en e ta n di tw i l lp u s h t h ed e v e l o p m e n ti nm a c h i n el e a r n i n gt h e o r ya n dt e c h n o l o g y i nt h i sp a p e r ,t h ep r i n c i p l eo fw e bm i n i n gh a sb e e ni n t r o d u c e da t f i r s t t h eb u i l d i n go fw e bt e x tm i n i n gs y s t e mh a s b e e nd i s c u s s e di nd e t a i l , i n c l u d i n gt h ea r c h i t e c t u r eo fw e b t e x tm i n i n gs y s t e ma n df u n c t i o no fs y s t e m m o d u l e s e c o n d l y ,t h eb a s ek n o w l e d g eo ft h es t a t i s t i c a ll e a r n i n gt h e o r yh a s b e e ni n t r o d u c e da n dt h es v mb a s e do nt h et h e o r yh a sb e e ng o n ed e e pi n t o d i s c u s s e d t i r d e l y ,b yc o m b i n i n gt h ec h a r a c t e r i s t i c so fs m v w ec a r r yo u ta m e t h o do fp r o g r e s s i v et r a n s d u c t i v es u p p o r tv e c t o rm a c h i n ec a l l e d p t s v m ,a n dm a k eo u tt h es p e c i f i cs t e po fp r a c t i c i n ga n dt h ep r o v e m e n to ft h e a l g o r i t h m i nt h ee n dw eg i v ear e s u l to ft h ee x p e r i m e n ta n dd e t a i l e da n a l y s i s k e yw o r d s :w e bm i n i n g ;t e x tm i n i n g ;t e x tc l a s s i f i c a t i o n ;s v m ;t r a n s d u c t i v e s t u d y 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成 硕:t 学位论文 :二氆基王毫挂囱量扭的直燕式婴揎塑:。除论文中已经 注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中猷明确方式 标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或来公开发表 的成果。 本声明的法律责任由本人承担。 论文作者签名:箱鸽触湃弓月”日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使 用管理办法”。同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件 和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编 学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密口( 请在以上方框内打“”) 论文作者签名 n 名:多荡气 瞧d ( 年了月悖 引言 支持向量机是由v a p n i k 及其领导的a t & t 实验室研究小组提出的一种新的非常有发 展前途的机器学习算法。因为s v m 具有较强的理论依据和较好的泛化性能,使得它成为 继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。 本文首先对w e b 挖掘的有关理论进行了论述,详细描述了w e b 文本挖掘系统的设玑 包括w e b 文本挖掘系统的系统结构、模块功能等。接着对统计学习理论进行了介绍,深 入探讨了建立在该理论基础上的s v m 算法。接着结合支持向量机分类器的特点提出了递 进直推式支持向量机学习算法p t s v m ,给出了具体实现步骤和算法有效性的证明。最后 给出了算法的实验结果并作了详细的分析。 第1 章绪论 随着i n t e r n e t 的飞速发展,网上的数据资源空前的丰富。在这海量的、异构的w e b 信息资源中,蕴含着具有巨大潜在价值的知识。人们迫切需要拥有能够从中快速、有效 地发现资源和知识的工具,提高在w e b 上检索信息、利用信息的效率。 1 1w e b 挖掘的起源 目前处理w e b 信息的最广泛的手段是i n t e r n e t 的搜索引擎。但是,目前基于关键 字的搜索引擎存在一些问题。首先,对任一范围的主题,都可能很容易地包含成百上干 的文档。这会使得搜索引擎返回的文档数目过于庞大,其中很多与主题的相关性并不大, 或所包含的内容质量不高。其次,很多与主题相关的文档可能并不包含相应的关键字。 可以说搜索引擎的查全率、蠢准率都不尽意,并且它不能发现w e b 资源背后蕴藏的知 识。 w e b 不仅为新技术的产生开辟了新的领域,也为传统技术的研究提出了新的方向。 对于搜索引擎存在的问题,人们想到了数据挖掘。简单地说,数据挖掘是从大量数据中 提取或“挖掘”知识。将传统的数据挖掘技术与w e b 结合起来,从w e b 文档和w e b 活动 中抽取感兴趣的、潜在的、有用的信息,进行w e b 挖掘,成为数据挖掘一个重要的研究 领域”。w e b 挖掘技术能够从w e b 海煮的数据中自动地,智能地抽取隐藏于这些数据中 的知识,它弥补了搜索引擎的不足并且有更广泛的应用。 2w e b 挖掘的定义 w e b 挖掘是数据挖掘在w e b 上的应用,是一项综合技术,涉及w e b 、数据挖掘、计 算机语言学、信息学等多个领域。不同的领域对w e b 挖掘的含义有着不同的理解,项目 开发也有其侧重点。一般的讲w e b 挖掘是指从与w w w 相关的资源和行为中抽取感兴趣的、 有用的模式和隐含的信息。我们从更为一般的角度出发,对w e b 挖掘作如下定义:w e b 挖掘是指从大量w e b 文档的集合c 中发现隐含的模式p 。如果将c 看作输入,将p 看作 输出,那么w e b 挖掘的过程就是从输入到翰出的一个映射e :c - p f “。 2 w e b 挖掘从数据挖掘发展起来,但是w e b 挖掘与传统的数据挖掘相比有许多独特之 处。首先,w e b 挖掘的对象是海量、异构、分布的w e b 文档。其次,w e b 在逻辑 - 是一 个由文档节点和超链接构成的图,因此w e b 挖掘所得到模式可能是关于w e b 内容的,也 可以关于w e b 结构的。此外,由于w e b 文档结构本身是半结构化或无结构的,且缺乏机 器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等 存储结构来发现知识,因此有些数据挖掘技术并不适用于w e b 挖掘,即使可用也需要建 立在对w e b 文档进行预处理的基础上。 1 3w e b 挖掘的现状 w e b 挖掘将传统的数据挖掘和w e b 结合起来,从w e b 文档和w e b 活动中抽取感兴趣 的潜在的有用模式和隐藏的信息。w e b 挖掘由数据挖掘发展丽来,在介绍w e b 挖掘研究 现状之前,首先概括的会绍数据挖掘的相关知识。 1 3 1 数据挖掘研究综述 数据挖掘就是对观测到的数据集进行分析,这个数据集经常是很庞大的。目的是发 现未知的关系和以数据拥有者可以理解并且对其有价值的新颖方式来总结数据【4 j 。 数据挖掘是随着人类进入信息社会以来对信息价值的认识不断提高而发展来的,是 信息技术自然演化的结果。 自2 0 世纪6 0 年代以来,数据库和信息技术己经系统地从原始的文件处理演化到复 杂的、功能强大的数据库系统。自7 0 年代以来,数据系统的研究和开发已经从层次和 网状数据库系统发展到开发关系数据库系统、数据建模工具、索引和数据组织技术。自 8 0 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大 的数据库系统。异种数据库和基于i n t e r n e t 的全球信息系统,如删也己出现,并成 为信息产业的生力军。在过去的3 0 年中,计算机硬件稳定的、令人吃惊的进步导致了 功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库 和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析。 数据的丰富带来了对强有力的数据工具的需求,大量的数据被描述为“数据丰富, w e b 挖掘从数据挖掘发展起来,但是w e b 挖掘与传统的数据挖掘相比有许多独特之 处。首先,w e b 挖掘的对象是海量、异构、分布的w e b 文档。其次,w e b 在逻辑上怒一 个由文档节点和超链接构成的网,因此w e b 挖掘所得到模式可能是关于w e b 内容的,也 可以关于w e b 结构的。此外,由于w e b 文档结构本身是半结构化或无结构的,且缺乏机 器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等 存储结构来发现知识,因此有些数据挖掘技术并不适用于w e b 挖掘,即使可用也需要建 立在对w e b 文档进行预处理的基础上。 1 3w e b 挖掘的现状 w e b 挖掘将传统的数据挖掘和w e b 结台起来,从w e b 文档和w e b 活动中抽取感兴趣 的潜在的有用模式和隐藏的信息。w e b 挖掘由数据挖掘发展而来,在介绍w e b 挖掘研究 现状之前,首先概括的介绍数据挖掘的相关知识。 i 13 1 数据挖掘研究综述 数据挖掘就是对观测到的数据集进行分析,这个数据集经常是很庞大的。目的是发 现未知的关系和以数据拥有者可以理解并且对其有价值的新颖方式来总结数据h j 。 数据挖掘是随着人类进入信息社会以来对信息价值的认识不断提高而发展来的,是 信息技术自然演化的结果。 自2 0 世纪6 0 年代以来,数据库和信息技术己经系统地从原始的文件处理演化到复 杂的、功能强大的数据库系统。自7 0 年代以来,数据系统的研究和开发已经从层次和 网状数据库系统发展到开发关系数据库系统、数据建模工具、索引和数据组织技术。白 8 0 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大 的数据库系统。异种数据庠和基予i n t e r n e t 的全球信息系统,如w 删也己出现,并成 为信息产业的生力军。在过去的3 0 年中,计算机硬件稳定的、令人吃惊的进步导致了 功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库 和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析。 数据的丰富带来了对强有力的数据工其的需求,大量的数据被描述为“数据丰富, 数据的丰富带来了对强有力的数据i :其的需求,大量的数据被描述为“数据丰富, w e b 挖掘从数据挖掘发展起来,但是w e b 挖掘与传统的数据挖掘相比有许多独特之 处。首先,w e b 挖掘的对象是海量、异构、分布的w e b 文档。其次,w e b 在逻辑 - 是一 个由文档节点和超链接构成的图,因此w e b 挖掘所得到模式可能是关于w e b 内容的,也 可以关于w e b 结构的。此外,由于w e b 文档结构本身是半结构化或无结构的,且缺乏机 器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等 存储结构来发现知识,因此有些数据挖掘技术并不适用于w e b 挖掘,即使可用也需要建 立在对w e b 文档进行预处理的基础上。 1 3w e b 挖掘的现状 w e b 挖掘将传统的数据挖掘和w e b 结合起来,从w e b 文档和w e b 活动中抽取感兴趣 的潜在的有用模式和隐藏的信息。w e b 挖掘由数据挖掘发展丽来,在介绍w e b 挖掘研究 现状之前,首先概括的会绍数据挖掘的相关知识。 1 3 1 数据挖掘研究综述 数据挖掘就是对观测到的数据集进行分析,这个数据集经常是很庞大的。目的是发 现未知的关系和以数据拥有者可以理解并且对其有价值的新颖方式来总结数据【4 j 。 数据挖掘是随着人类进入信息社会以来对信息价值的认识不断提高而发展来的,是 信息技术自然演化的结果。 自2 0 世纪6 0 年代以来,数据库和信息技术己经系统地从原始的文件处理演化到复 杂的、功能强大的数据库系统。自7 0 年代以来,数据系统的研究和开发已经从层次和 网状数据库系统发展到开发关系数据库系统、数据建模工具、索引和数据组织技术。自 8 0 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大 的数据库系统。异种数据库和基于i n t e r n e t 的全球信息系统,如删也己出现,并成 为信息产业的生力军。在过去的3 0 年中,计算机硬件稳定的、令人吃惊的进步导致了 功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库 和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析。 数据的丰富带来了对强有力的数据工具的需求,大量的数据被描述为“数据丰富, 但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的 工具,理解它们己经远远超出了人的能力。 数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科 学和医学研究作了巨大的贡献。数据和信息之问的鸿沟要求系统地开发数据挖掘:r 具。 数据挖掘是一个交叉学科,是人工智能、机器学习与数据库技术相结合的产物,受 数据库技术、统计学、机器学习、可视化和信息科学等多个学科影响,数据挖掘系统町 能集成空间数据分析、信息检索、模式识别、图像分析、w e b 技术、经济、商业、e 物 信息学等领域的技术。 。 由于数据挖掘源于多个学科,因此产生了大量的、各种不同类型的数据挖掘系统。 数据、数据挖掘任务和方法的多样性,为数据挖掘提出了许多挑战性的课题。数据挖掘 方法的提出引起了学术界和工业界的广泛关注,开展了各种各样的研究计划,研究的主 要目标是发展有关的方法论、理论和工具。从具有不同数据语义的结构化的,半结构化 的和非结构化的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助 发现多个异种数据库中的数据规律,这些规律多半滩以被简单的查询系统发现,并可以 改进异种数据库的信息交换和互操作性。髓b 挖掘发现关于w e b 内容、w e b 使用和w 髓 动态情况的有趣知识,己成为数据挖掘的一个非常具有挑战性的领域。 1 3 2w e b 挖掘的研究进展 当前w e b 正在深度和广度方面飞速地发展着,前所未有地改变着我们的生活,在当 今社会扮演越来越重要的角色。 w e b 是一个巨大的、分布广泛的、全球性的信息服务中心,涉及新闻、广告、消费 信息、金融管理、教育、电子商务和许多其它信息服务,还包括了丰富和动态的超链接 信息,以及w e b 页面的访问和使用信息。 在w e b 迅速发展的同时,我们不能忽视“信息爆炸”的问题,即信息极大丰富而知 识相对匾乏。在这些大量、异质的w e b 信息资源中,蕴含着具有巨大潜在价值的知识, 为数据挖掘提供了丰富的资源。另外,w e b 上的一些主要工作,如w e b 站点设计、w e b 服务设计、计e b 站点导航设计、电子商务等工作也变樗越来越复杂和重要。w 髓对有效 的资源和知识发现是具有极大的挑战性。这些挑战推动了如何高效地发现和利用 4 i n t e r n e t 上资源的研究工作。 目前有许多基于索引的w e b 搜索日l 擎,它可以完成对w e b 的搜索,对w e b 页面作索 引,建立和存储大量的基于关键字的索引,用于定位包含某些关键字的w e b 页砸。利用 搜索引擎,有经验的用户可以通过提供一组紧密相关的关键字和词组,快速定位到所需 的文档。搜索引擎部分地解决了资源发现问题,但其覆盖率有限、精确度不高,硬件设 施消耗大,维护起来比较困难,其效果远不能使人满意。此外,搜索弓l 擎的目的在于发 现w e b 上的资源,但就w e b 上的知识发现而言,即使检索精度再高,搜索引擎也不能胜 任。为此,需要开发比信息检索更高的新技术。 从大量的数据的集台中发现有效、新颖、有用、可理解的模式,数据库领域采用了 数据挖掘技术。但是,数据挖掘技术的绝大部分工作所涉及的是结构化的数据库,很少 有处理w e b 上的异质、半结构化信息的工作。解决这一个问题的途径就是将传统的数据 挖掘技术和w e b 结合起来;进行w e b 挖掘。w e b 挖掘是数据挖掘技术和理论应用到w w w 资源进行挖掘的一个新必领域。w 髓挖掘作为数据挖掘的一个新主题,引起了人们极大 的兴趣,它实现对w e b 存取模式、w e b 结构和规则,以及动态的w e b 内容的奄询。w e b 挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,w e b 文 档分类,w e bl o g 挖掘、智能查询、建立m e t a - w e b 数据仓库等。同时,它也是个富有 争议的研究方向,基于w e b 的数据挖掘的研究剐刚起步,需要国内外学者在理论h 开展 更多的讨论。 目前,国际上对此领域研究主要集中在:搜索引擎的设计、文件自动分类技术、关 键词的自动获取、半结构化信息的提取以及w e b 上新型应用的研究等。应用领域中通用 的w e b 挖掘工具还比较少,主要分为文本信息挖掘工具和用户访问模式挖掘工具。 不同的人从浩瀚的w e b 信息资源中所获得的信息也是不同的。如何从这些信息中发 现潜在的、有价值的知识便是本文要做的工作,也即w e b 文本挖掘。 1 4 统计理论与支持向量机 w e b 文本挖掘可以对w e b 上大量文档的集合的内容进行总结、分类、聚类、关联分 析,以及利用w e b 文档进行趋势预测 5 1 。本文将研究使用支持向量机( s u p p o r tv e c t o r m a c h in e ,s v m ) 算法对w e b 文本进行分类。 5 s v m 是在统计学习理论基础上构造的一种通用学习机器。作为s w 的奠基者前苏联 数学家v v a p n i k 早在上世纪6 0 年代就开始了统计学习理论的研究。 统计学习理论的最主要贡献有三个方面:1 、提出了小样本统计学理论,无需事先假 定和估计分布中的参数。2 、最大边缘算法,这是一个几何意义明确的算法,理论依据 是结构风险最小化原理。它是分类器泛化性能的保证是算法设计理论基础。3 、核函数, 它是非线性问题转化为线性可分问题的桥梁,是解决非线性问题的有效手段。 统计学习理论是一种新理论,真正引起人们的注意是1 9 9 5 年,文献 6 的出现是统 计学习理论走向成熟和得到正式承认的标记。目前,一般认为统计学习理论是神经网络 的最新进展。 小样本统计学理论指的是依据有限样本进行统计推断的理论。传统的统计学习模式 识别方法是先假设样本服从某一其体分布,并利用这些样本点对分布中的参数进行估 计,从而进行定量分析。但这种参数估计方法随着维数的增高,对样本点数目的需求呈 指数增长。v a p n i k 统计学习理论的基础是小样本统计学理论,这种小样本统计学理论基 于对过度拟合和泛化能力之间关系的定量刻画,这种刻莉不仅避免了对样本点分布的假 设和数目的要求,还产生了一种新的统计推断原理一结构化风险最小化原理,该原理堪 称为s v m 算法的基石。 事实上,早在2 0 世纪7 0 年代初,v a p n i k 就已经给出了经验风险和期望风险关系的 定量刻画,奠定了小样本统计学的理论基础,但这时并没有引起人们的注意。最大边缘 算法是结构风险最小化原理近似实现的几何解释,它的出现标志着v a p n i k 的统计学习 理论真正有了直接可以付诸实际应用的直观算法,它不仅吸引了大量的理论研究者,也 受到了大量应用研究者和工程技术人员的普遍关注。以最大边缘算法为基础的支持向量 机理论已获得了公认。 最大边缘算法仅仅适用于线性可分问题。在前馈神经随络中,通过增加隐层,神经 网络具备了处理线性不可分问题的能力。s v m 的思路是用特征映射将线性不可分的样本 集映射到高维特征空间,使它耵】在高维特征空间是线性可分的。 由于s v m 算法的潜在应用价值,吸引了国际上众多的知名学者,近几年出现了许多 发展和改进的支持向量机算法。如文献1 7 _ ”所述。s v m 在模式识别领域已经有了些应 用,如手写体数字识别、人脸识别与入脸检测、以及文本分类等各个领域。研究s u m 在 6 w e b 挖掘中的应用是本论文的主要内容。 1 5 论文结构 全文分为五章。 第一章是绪论,概括性的介绍了w e b 挖掘的相关技术和内容以及统计学习理论和支 持向量机算法。 第二章是w e b 文本挖掘系统的设计,首先介绍了w e b 挖掘的分类,然后介绍了w e b 挖掘系统的设计。 第三章是统计学习理论和递进式学习理论,介绍了统计学习理论和递进式学习的相 关知识。 第四章是s v l , t 概述,介绍了支持向量枫的构造原理和训练方法。 第五章介绍了一种新的递进直推式支持向量机学习算法,并用实验证明了这种算法 的优点。 7 第2 章w e b 挖掘系统的简介 w e b 上信息的多样性决定了w e b 挖掘的多样性。一般将w e b 挖掘分为内容挖掘、 结构挖掘以及日志挖掘三大类,w e b 文本挖掘属于w e b 内容挖掘的一种。在本章分析 w e b 文本挖掘的设计之前,有必要了解一下w e b 挖掘的分类。 2 1w e b 挖掘的三种分类 w e b 挖掘按照处理对象的不同,分为三大类:内容挖掘、结构挖掘以及日志挖捌。 w e b 内容挖掘( w e b c o n t e n tm i n i n g ) 是从w e b 文档的内容信息中抽取知识,w e b 内容 挖掘又可以分为对文本文档c 包括t e x t ,h t m l 等格式) 和多媒体文档( 包括i m a g e ,a u d i o , v i d e o 等媒体类型) 的挖掘。w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 是指从w e b 文档的结 构信息中推导知识,w e b 结构挖掘不仅仅局限于文档之间的超链接结构,还包括文档 内部的结构、文档u r l 中的目录结构等。w e b 日志挖掘( w e bu s a g e m i n i n g ) 3 l 称w e b 使用记录的挖掘,就是通过对w e b 同志记录的挖掘,发现用户访问w e b 页面的模式, 从而进一步分析和研究w e b 日志记录中的规律,以期改进w e b 站点的性能和缎织结 构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地 域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。 如图2 1 所示。 2 1 1w e b 内容挖掘 圈2 1 w e b 挖掘的分类 w e b 内容挖掘可以对w e b 上大量文档集合的内容进行摘要、分类、聚类、关联分 析,以及利用文档进行趋势预测等。w e b 文本挖掘与通常的文本挖掘的功能和方法比 8 较类似,但是,w e b 文档中的标记,例如 , 等蕴含了额外的信息,通 过利用这些信息可以提高w e b 文本挖掘的性能。 2 1 2w e b 结构挖掘 w e b 结构挖掘是从w w w 的组织结构和超链接关系中推导知识。山于文档之问的 互连,w w w 能够提供除文档内容之外的有用的信息。由于w e b 中包含的结构信息处 理起来比较困难,因此通常的w e b 搜索引擎等工具仅将w e b 看作是一个平面文档的 集合i 而忽略了其中的结构信息。w e b 结构挖掘的目的在于揭示蕴含在这些文档结构 信息中的有用的模式。 2 1 3w e b 日志挖掘 w e b 日志挖掘通过挖掘w e b 日志记录来发现用户访问w e b 页面的模式。通过分 析和探究w e b 日志记录中的规律,可以识别电子商务的潜在窖户,增强对最终用户的 i n t e r n e t 信息服务的质量和交付,并改进w e b 服务器系统的性能和结构。目前研究较多 的w e b 使用记录挖掘技术和工具可分为两大类:模式发现和模式分析。 2 2w e b 的数据模型 w w w 上的信息不同于数据库中数据,w e b 页面是通过h t m l 语言来定义的通 常将w e b 作为一种半结构化的数据源。w e b 页面由标题f r m e ) 、主体( b o d y ) ,超链接( l i n k ) 等组成。可以用由“点”和“线”构成的图来建立w e b 的数据模型。线( 网页间的超链 接) 将一个个点( 网页) 链接成一个网状结构。点和线中有重要的信息。由此可将w w w 上 的文本型数据源归纳为网页的标题( 点) 、网页的主体( 点) 、网页的超文本标题( 点) 、网页 间的超链接( 线) 等部分。对这四部分分析如下。 1 标题,即网页源代码中用彻e 和彻e ) 标记的文字。它出现在浏览器界面最: 方的标题栏中。标题中的内容与页面主题的关系非常密切,起着概括全篇的重要作用。 2 页面的主体,除了少数专业网站外,主要用自然语言书写。虽然自然语言理解领域己 取得很多进展,但从文本中提取出深层次的句法结构仍十分困难,更不用说理解文章 9 的意思本身了,所以通常用统计正文中关键词的出现次数并将其作为特征量进行模式 识别。 3 超文本标记,标记中所包含的信息主要体现在对文中间位置的关键词的重要程度予以 不同的标示。比如各级小标题( 代码 0 ( 3 - 7 )f 呻, 也就是说,v c 嫡与观察数的比值应随观察数增加而减小到0 。 推论3 1 在指示函数集h y ,w ) ,w e a 一定的可测条件下,双侧一致收敛的必要和充 分条件是 l i r a 型盟。o 卜。 r 是( 3 7 ) 式的特例。 定理3 3 对于整个界限函数集h y ,w ) ,w a ,为了使经验方法单侧一致收敛到它们 的期望值,其必要和充分的条件是对于任何正的6 , 1 7 ,f ,存在函数集r ( ) ,w ) ,w a , 满足 l o ,w ) 一工。( y ,w + ) o ,v p ( _ ) ,一r ( y ,w ) ) d f ( y ) s6 ( 3 - 8 ) 对于样本数l ,r ( ) ,w ) ,w a 的s 嫡下式成立: 。l i r a 半t 7 ( 3 - 9 ) 在进行学习理论研究中,可以分为三个里程碑,即依次根据以下三种方法来定义经 验风险最小化原理的一致性的充分条件 1 运用v c 嫡来定义: 魍华。o ( 3 - l o ) f - , 2 运用退火嫡来定义: l i r a 曼艘;o j * f 其中退火v c 嫡为 h 二( f ) - l n e n ( z ,a ,乙) 3 运用增长函数来定义: 1 9 ( 3 - 1 1 ) 其中增长函数为 3 。4 结构风险最小化原理 l i r a 堕;o ,- * f g “( f ) 一i ns u p n “( z ,a ,z f )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业可持续发展目标(SDGs)下的企业绿色采购策略
- 2025年农业物联网在农业生产智能化改造中的技术难点与突破研究分析报告
- 2025年农业生态环境监测物联网技术发展与应用前景报告
- DB45∕T 2124-2020 交通一卡通技术规范
- 技术更新时代的国际比较教育机器人的道德困境与策略比较研究
- 温州科技职业学院《中学生物学命题与解题》2023-2024学年第二学期期末试卷
- 湖北科技学院《信息检索:先材》2023-2024学年第二学期期末试卷
- 闽南科技学院《卫生统计学一》2023-2024学年第二学期期末试卷
- 重庆航天职业技术学院《油画半身》2023-2024学年第二学期期末试卷
- 西安外事学院《婴儿社会活动设计》2023-2024学年第二学期期末试卷
- 国家开放大学《中国法律史》期末机考题库
- 2024年北京大学强基计划物理试题(附答案)
- (正式版)JBT 14449-2024 起重机械焊接工艺评定
- 中医诊断思维与辨证思路培训讲义课件
- 超声波流量计、流量计算机气相色谱仪说明书-17.encal3000色谱仪-elster
- 教育家办学:中小学校长专业标准解读课件
- 抹灰施工工艺培训课件
- 茶叶企业营销课件
- 《高等数学》全册教案教学设计
- 部编人教版六年级下册语文 第六单元素养提升卷 优质试题课件
- DB14T1049.3-2021 山西省用水定额 第3部分:服务业用水定额
评论
0/150
提交评论