火龙果软件第6章Web挖掘技术新_第1页
火龙果软件第6章Web挖掘技术新_第2页
火龙果软件第6章Web挖掘技术新_第3页
火龙果软件第6章Web挖掘技术新_第4页
火龙果软件第6章Web挖掘技术新_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Web挖掘的意义Web挖掘的分类Web挖掘的意义Web挖掘的数据源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法从大量信息中发现了用户感兴趣的信息:在互联网上有大量信息通过简单的浏览和关键词匹配的搜索引擎得到的是孤立的“表面信息”,Web挖掘可以发现潜在的丰富的相关信息。 把Web上丰富的信息变成有用的知识: Web挖掘是面向Web数据的分析和知识提取。 因特网中包含了页面内部、页面之间、页面链接、页面访问等用户可以使用的信息很多,但这些信息的深刻含义难以直接被用户使用,所以必须浓缩精制。 个人化用户信息:个人化网站信息是未来的发展趋势。 通过Web挖掘,可以实现用户的访问行为、频

2、率、内容等的分析,可以获得关于组用户的访问行为和方式的普遍知识,改进Web服务侧的设计,提供个性化服务。Web挖掘的意义、Web挖掘依赖挖掘的信息源可分为挖掘包含在某种类型的信息中的知识模式,如Web内容挖掘:网站的网页的各种信息集成、概况、分类等Web访问信息挖掘: Web访问信息挖掘挖掘用户访问Web时留在服务器端的访问记录。 分析日志记录规律可以识别用户的保真度、喜好和满意度,发现潜在用户,提高网站服务竞争力。Web挖掘分类、Web结构挖掘(Web结构挖掘):Web结构挖掘挖掘是挖掘网页之间的链接结构。 在整个Web空间中有用的知识不仅包括在网页的内容中,而且包括在网页的链接结构中。 对

3、于给定的网页集合,可以通过结构挖掘发现页面之间的关联信息、页面之间的包含、参考、依赖性等。 WeB挖掘是一个广泛的概念,对包括网页内容、网页间结构、用户访问信息、电子商务信息等在内的各种WeB数据,从互联网中提取知识,为包括访问者、网站经营者、电子商务在内的基于互联网的商务活动提供决策支持Web挖掘的意义、Web挖掘和信息检索这两种不同的观点: Web上的信息检索是Web挖掘的一个方面: Web挖掘是Web上的IR技术的扩展,目的是解决信息检索、知识提取和更广泛的业务问题。 很多这种观点来自数据挖掘研究的领域。 Web挖掘是一种智能信息检索: IR领域的研究者来说,IR研究是向智能方向发展的结

4、果。 信息检索通常被称为Web挖掘的初始阶段,Web挖掘可以帮助更高级的业务决策和分析,以实现将信息集成到知识中的过程,而不是简单的信息索引和关键字匹配技术。 Web挖掘和信息提取,Web上的IE的研究目的是从很多Web语句中提取可分析的信息,与Web挖掘的关系也不同: IE是Web挖掘整体过程的一部分: Web上的数据通常是半结构化的或结构化的Web挖掘是IE的一种特殊技术:因为IE想提取嵌入在Web中的信息,所以Web挖掘和文本挖掘只是达到其目的的特殊技术手段。 信息提取通常被称为Web挖掘的预处理阶段,这是因为在数据挖掘领域,更广泛地理解Web挖掘应该是知识提取的完整过程。 Web挖掘的

5、数据源很广。 在网站上对用户有价值的数据会成为挖掘的数据源。 挖掘技术因这些对象的数据格式和意义的不同而不同。比较典型的数据源包括服务器日志数据在线市场数据网页的超链接关系、Web挖掘数据源、服务器日志数据、对Web服务器的访问、服务器端生成的三种日志文件: Server logs Error logs :访问请求失败的数据,例如连接丢失、认证失败、超时等Cookie logs:Cookie是web服务器生成的令牌,客户端有,标识用户和用户的会话。 Cookie是自动标记和跟踪网站访问者的标签。 这些日志用于记录用户访问的基本情况,是进行Web访问信息挖掘的主要数据源。 现场描述数据日期,以及

6、, time andtimentofrequentofrequirectiprometheremotionhostipand/ordnstrenterinerusernameremotelognameoftheuserbytestransferred server server name ipadressandportrequiresirequireandstemstatushttp otheclientservicenamerequestedservicenametaketaketake nfortrantractiontocomplementocomplementrotecontoverv

7、ientofuse viceservicepro例如,电子商务网站存储相关的电子商务信息。 在内容上,根据目的的商业网站不同,商业信息也不同。 但是,这种数据通常使用传统的关系数据库结构来存储数据。 在线市场数据是业务数据,是进行业务关联分析的主体。 用户的挖掘目标只能通过结合在线市场的数据分析来实现。 虽然网页、网页是网站信息的主体,但它们的主要信息不像关系数据库那样规则,因此网页的内容组织形式的分析是研究Web挖掘的具体方法的基础。 现在的网页大部分满足HTML标准,现在的网页挖掘方法大部分是针对网页进行的。 1998年WWW社区提出了XML语言标准(可扩展标记语言)。 此标准通过在HTM

8、L页面中添加描述页面内容的标签,用于自我描述HTML页面内容。 基于XML规范的挖掘研究也是重要的研究分支。 网页的超链接关系、网页间的超链接关系是重要的资源,网页的设计者总是在自己的页面中追加认为重要的页面地址。 如果有一页被很多页引用,很明显这很重要。 这是应该从那里发掘的知识。 Web内容挖掘可以被认为是基本的Web检索工作的延长。 在Web信息的检索中使用了很多技术。 大多数搜索引擎都采用了关键字匹配技术。 Web内容挖掘是基于信息检索构建的,通过采用概念级别、用户形象、页面链接技术等改进了传统的搜索引擎。 Web内容挖掘的方法、Web内容挖掘分为代理方法和数据库方法。 代理方法使用软

9、件系统(代理)完成内容挖掘。 包括智能搜索代理、信息过滤、个人化Web代理等。 智能检索代理可以超越简单的检索机制,用关键字以外的技术完成检索,利用用户模板及其感兴趣的知识领域等实现信息的提取。 信息过滤使用信息检索技术、连接结构知识和其他方法分析和分类文件。 个人化的Web代理利用关于用户的喜好的信息来指导搜索。 数据库方法将所有的Web数据描述为一个数据库系统。 也就是说,Web是多级异种数据库系统,能够用多种查询语言获得Web信息,完成信息的提取。 Web内容挖掘的基本技术是文本挖掘。 文本挖掘的方式是分层的,基本的层次是关键字检索:最简单的方式,与传统的检索技术相似。挖掘项目相关:聚焦

10、于页面信息(包括关键字)之间的相关信息挖掘。 信息分类和聚类:利用数据挖掘分类和聚类技术实现页面分类,使页面更分层地抽象化和组织。 自然语言处理:明确自然语言处理技术的意义,实现Web内容的更正确处理。 搜索引擎和Web内容挖掘,传统的搜索引擎效率低。 因为基于Web上的超文本结构进行了分解,所以从网页开始,调查并记录该网页的所有链接,然后将它们并排,从找到的新页面继续工作。 利用数据挖掘技术改进搜索引擎是值得的。通过对检索结果进行相关分析和聚类,对结果进行清洗浓缩。 搜索主题时,只搜索与某个主题相关的页面。 聚焦用户感兴趣的页面,提高在有限的资源上有效的内容挖掘能力。 搜索引擎的挖掘具有重要

11、方面,即利用超文本链接结构对页面内容进行分类,使搜索引擎检索到的页面与用户的兴趣相匹配。 有些页面包含很多链接,这些链接的页面是用户感兴趣的,所以需要搜索。 以合理高效的方式对选定页面进行内容分析和挖掘。 有效解决虚拟Web视图和Web上大量非结构化数据的方法是在这些数据上创建多层数据库(mldb )。 此数据库处于多级别,每个级别的索引小于其下一级别。 最低级别需要了解Web文档的结构。 顶层具有完整的结构,可以用查询语言(如SQL )访问和挖掘。 MLDB提供被称为VMV(Virtual Web View )的视图机制,Web上的感兴趣的结构聚合到该视图中。 类概念(近意句、词汇和意义关系

12、等)有助于汇总过程构建上层MLDB。 个性化和Web内容挖掘、个性化使网页内容和组织更适合用户的需要.以及个性化服务是Web挖掘技术的重要目标之一。 个人化会根据用户的需要改变网页的内容和访问方法. 这需要为每个特定的用户定制一个网页,或者根据用户的需要确定要搜索的网页。 Web内容挖掘的目的之一是基于页面内容的相似度进行用户的分类和聚类,个人化的确立通过用户过去的检索内容分析而确立。 自动个性化技术可以根据与过去的需要类似的用户的需要来预测特定用户的未来需要。 网页中的文本信息挖掘、挖掘的目标是页面的摘要和分类。 页面摘要:将传统的文本摘要方法应用于页面可以获得摘要信息。 页面分类:分类器可

13、以输入Web页面集(训练集),根据页面文本信息的内容进行监视学习,使用学习过的分类器对新输入的页面进行分类。 在处理阶段,将Web页集转换为二维数据表,列集是特征集、行为页集。 文本学习常用的方法是TFIDF向量表示,无论单词之间的顺序或文本结构如何,所有单词都是从文档中提取的文档词汇(Bag-of-Words )表示。 网页中的文本信息挖掘,构筑此类二维表的方法,每列有一个词,列集(特征集)是词典中所有有区分价值的词,整个列集可能有几十万列。 每行存储页面中单词的信息,页面中的所有单词都与列集(特征集)相关联。 如果列集中的各列(单词)不显示在页面上,则值为0。如果出现k次,则该值为k的页的

14、单词不显示在列集中,可以丢弃。 该方法可以表示页面中单词的频率。 在中文页面上,首先要把单词分开,然后再进行上述两个阶段的处理。这种结构的二维表示网页集合的词的统计信息,最终可以使用Naive Bayesian法和k-Nearest Neighbor法进行分类挖掘。 挖掘前,通常进行特征子集的选择以减少维数。 网页内的多媒体信息挖掘、多媒体挖掘是一个很大的研究分支,整体挖掘过程首先应用多媒体信息特征提取工具,形成特征二维表格,然后用传统的数据挖掘方法挖掘在特征提取阶段,使用多媒体信息提取工具进行特征提取。 一般来说,信息提取工具能够提取image和视频的文件名、URL、父URL、类型、键值表、

15、颜色向量等。 对于这些特征,例如,如果图像是“大”且与关键字“空”相关联,则关联规则的发现为蓝色的概率是68%。 分类:基于所提供的分类标准,可以利用决策树对特征集合进行分类。网页内容预处理和网页内容预处理的目的是将多媒体文件(如文本、图像和脚本)中包含的信息转换为可以执行Web挖掘算法的标准化格式。 通常,所述预处理通过通用分类或聚类方法来进行。 一般的网页是主页:网站主页的内容页:提供详细内容信息的页面导航页:提供超级链接以使用户可以访问内容页的内容导航页:在页面上显示也可以访问其他内容页或提供内容导航页的信息搜索页:帮助用户在站点中搜索特定内容数据门户页:预处理网页内容,从用户那里收集信息,Web 自动完成页面分类是Web挖掘的基础工作。 一般采用C4.5和朴素的贝叶斯方法。 XML语言还可以提供更详细的分类知识。 文本内容的预处理是进行Web页内容的预处理的主要内容。 利用超图聚类的聚类、利用支持向量机的分类、特征空间削减技术等研究也被广泛采用。 Web页面内容挖掘的主要信息源是结构性的Web页面或半结构性的Web页面,但与其他信息结合使用可获得良好的效果,可与Web访问信息挖掘、Web结构或链接挖掘互补: Web结构挖掘能够将站点结构图每个HTML文件都通过页面内容挖掘算法被适当处理,从而允许Web访问信息挖掘环境中获得更多有用的信息,且内容挖掘的结果有助于改进访问信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论