第12章 文本和Web挖掘.ppt_第1页
第12章 文本和Web挖掘.ppt_第2页
第12章 文本和Web挖掘.ppt_第3页
第12章 文本和Web挖掘.ppt_第4页
第12章 文本和Web挖掘.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

08.06.2020,数据仓库与数据挖掘,1,第12章文本和Web挖掘,08.06.2020,数据仓库与数据挖掘,2,20世纪90年代以来,随着Internet和Web技术的飞速发展和普及,信息获取已经从手工获取发展到计算机获取,以及到现在的通过网络进行信息获取。要在浩如烟海的网络世界里以及文本中找到所需信息,需要一种能够发现网页或文本内部隐含信息的工具,文本挖掘技术应运而生。可以利用各种数据挖掘方法,如分类学习、关联挖掘和聚类分析等,处理网页和文本中各种复杂类型的数据对象,以便从浩瀚的因特网和文本信息海洋中挖掘出用户所需要的信息和知识。,08.06.2020,数据仓库与数据挖掘,3,12.1引例,乒乓球女团中国夺冠,第33金超越雅典奥运创造历史文本1神舟六号轨道舱正常运行60天取得大量科学数据文本2乒乓男单决赛颁奖中国三虎将包揽金银铜牌文本3,1)前三段文本中哪两段文本在内容上更接近?2)如果前两段文本各代表一类文本,那么,你认为第三个文本应该归为其中的哪一类?,08.06.2020,数据仓库与数据挖掘,4,12.2.1文本信息检索概述,信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息.1.信息检索的度量方式2.基于模型的检索3.基于相似性的检索4.文档间相似性计算举例,08.06.2020,数据仓库与数据挖掘,5,1.信息检索的度量方式,查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性,08.06.2020,数据仓库与数据挖掘,6,2.基于模型的检索,布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not组成的表达式向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合N,是R的补集),08.06.2020,数据仓库与数据挖掘,7,3.基于相似性的检索,根据一个文档集合d和一个项集合t,可以将每个文档表示为在t维空间R中的一个文档特征向量v。向量v中第j个数值就是相应文档中第j个项的量度。计算两个文档相似性可以使用上面的公式,08.06.2020,数据仓库与数据挖掘,8,4.文档间相似性计算举例,词典:北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币v1=1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0v2=0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0v3=1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,08.06.2020,数据仓库与数据挖掘,9,例如:,以下略,08.06.2020,数据仓库与数据挖掘,10,12.2.2基于关键字的关联分析,基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合,然后发现其中所存在的关联性关联分析对文本数据库进行预处理,生成关键字向量,根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果,然后调用关联挖掘算法,08.06.2020,数据仓库与数据挖掘,11,12.2.3文档自动聚类,1、什么是文档自动聚类2、文档自动聚类的步骤3、文档自动聚类的类型,08.06.2020,数据仓库与数据挖掘,12,1、什么是文档自动聚类,文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程其目的是要使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大,08.06.2020,数据仓库与数据挖掘,13,2、文档自动聚类的步骤,(1)获取结构化的文本集(2)执行聚类算法,获得聚类谱系图。聚类算法的目的是获取能够反映特征空间样本点之间的“抱团”性质(3)选取合适的聚类IA值。在得到聚类谱系图后,领域专家凭借经验,并结合具体的应用场合确定阈值(4)执行聚类算法,获得聚类结果,08.06.2020,数据仓库与数据挖掘,14,3、文档自动聚类的类型,平面划分法:对包含n个样本的样本集构造样本集的k个划分,每个划分表示一个聚簇层次聚类法:层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法:根据样本点临近区域的密度进行聚类,使在给定区域内至少包含一定数据的样本点基于网格的方法:采用多分辨率的网格数据结构,将样本空间量化为数量有限的网格单元,所有聚类操作都在网格上进行基于模型的方法:为每个簇假定一个模型,然后通过寻找样本对给定模型的最佳拟合进行聚类,08.06.2020,数据仓库与数据挖掘,15,12.2.4文档自动分类,自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中文档分类的关键问题是获得一个分类模式,利用此分类模式也可以用于其他文档的分类有了一个模式之后,需要进行人工标记和训练,以确定这个模式的参数,然后才能进行自动的文档分类,08.06.2020,数据仓库与数据挖掘,16,12.2.5自动摘要,文档的自动摘要就是利用计算机对文档进行处理,从中挑选出最能代表文档中心思想的句子或段落,经过修饰重组形成一段最能反映文档内容的文字;或者通过对文档的理解,重新生成一段能够表达文档主要内容的文字1、自动摘要的分类2、自动摘要的步骤,08.06.2020,数据仓库与数据挖掘,17,1、自动摘要的分类,主题摘要信息摘要纲目摘要摘录型摘要评论型摘要,08.06.2020,数据仓库与数据挖掘,18,2、自动摘要的步骤,对文档的预处理过滤分词统计分析提取摘要输出摘要对摘要的评估,08.06.2020,数据仓库与数据挖掘,19,12.3Web挖掘,12.3.1Web内容挖掘12.3.2Web结构挖掘12.3.3Web使用挖掘,08.06.2020,数据仓库与数据挖掘,20,Web挖掘的概念和分类,Web数据挖掘是用数据挖掘技术在Web文档和服务器中自动发现和提取感兴趣的、有用的模式和隐含的信息,08.06.2020,数据仓库与数据挖掘,21,12.3.1Web内容挖掘,1、Web内容挖掘的主要内容2、搜索引擎的主要构成部分,08.06.2020,数据仓库与数据挖掘,22,1、Web内容挖掘的主要内容,对搜索引擎的查询结果作进一步的处理,得到更为精确和有用的信息,以增强搜索引擎的内容查询功能数据库方法:把半结构化的Web信息重构得更结构化一些,然后就可以使用标准化的数据库查询机制和挖掘方法进行分析对HTML页面内容进行挖掘。对页面中的文本进行文本挖掘,对页面中的多媒体信息进行多媒体信息挖掘。包括对页面内容摘要、分类、聚类以及关联规则发现,08.06.2020,数据仓库与数据挖掘,23,2、搜索引擎的主要构成部分,搜索器索引器检索器用户接口,08.06.2020,数据仓库与数据挖掘,24,12.3.2Web结构挖掘,1、什么是Web结构挖掘2、Web链接结构的局限性3、Page-rank算法的思想4、HITS算法的思想,08.06.2020,数据仓库与数据挖掘,25,1、什么是Web结构挖掘,Web结构挖掘即挖掘Web潜在的链接结构模式,它是从WWW的组织结构和链接关系中推导知识Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式,这种模式可以用于进行网页分类、总结网站和网页的结构,由此获得有关不同网页间相似度及关联度的信息,并由此获得有关不同页面间相似度和关联度的信息,08.06.2020,数据仓库与数据挖掘,26,2、Web链接结构的局限性,不是每个超链接都具有认可的性质。有些是为了其他目的而创建的,如为了导航或付费广告等,这些不具有认可性质的超链接,不能用于权威判断在当今激烈的商业竞争下,很少有Web页面指向其竞争领域的权威页面权威页面很少是描述性的,08.06.2020,数据仓库与数据挖掘,27,3、Page-rank算法的思想,一个页面被多次引用,即很多页面有指向它的链接,则这个页面很重要一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面也可能很重要一个页面的重要性被均匀分布并传递到它所引用的页面,08.06.2020,数据仓库与数据挖掘,28,4、HITS算法的思想,页面的重要性应该建立在用户查询条件的基础上,每一页面都分别有Authority值和Hub值通常好的Hub是指向许多好的权威页面,好的权威是指由许多好Hub所指向的页面这种Hub和Authority之间的相互作用可用于权威页面的挖掘和高质量Web结构和资源的自动发现,08.06.2020,数据仓库与数据挖掘,29,12.3.3Web使用挖掘,1、什么是Web使用挖掘2、Web使用挖掘采用的手段3、Web使用挖掘的三阶段,08.06.2020,数据仓库与数据挖掘,30,1、什么是Web使用挖掘,用户在Web站点上的商业活动和浏览访问信息都记录在log文件中,Web日志挖掘就是从服务器的log文件或其他数据中分析用户的访问模式,08.06.2020,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论