《文本挖掘》PPT课件.ppt

上传人：x*** IP属地：四川上传时间：2020-02-09 格式：PPT 页数：22 大小：279.31KB 积分：15 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 2 9 数据仓库与数据挖掘 1 第12章文本挖掘在浩瀚的文本中找到所需信息 2020 2 9 数据仓库与数据挖掘 2 第12章文本挖掘 12 1引例12 2文本挖掘 2020 2 9 数据仓库与数据挖掘 3 12 1引例乒乓球女团中国夺冠第33金超越雅典奥运创造历史文本1 神舟六号轨道舱正常运行60天取得大量科学数据文本2 乒乓男单决赛颁奖中国三虎将包揽金银铜牌文本3 前三段文本中哪两段文本在内容上更接近如果前两段文本各代表一类文本那么你认为第三个文本应该归为其中的哪一类 2020 2 9 数据仓库与数据挖掘 4 12 1引例在文本规模较小文本量较少的情况下可以通过人工手段完成大规模大数量的文本情况下如何完成 2020 2 9 数据仓库与数据挖掘 5 12 2文本挖掘 12 2 1文本信息检索概述12 2 2基于关键字的关联分析12 2 3文档自动聚类12 2 4文档自动分类12 2 5自动摘要 2020 2 9 数据仓库与数据挖掘 6 12 2 1文本信息检索概述信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程人们借助某种检索工具运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息信息检索是一种不确定性检索用户在检索信息时并不知道信息源里是否有符合需要的东西 2020 2 9 数据仓库与数据挖掘 7 12 2 1文本信息检索概述基本概念信息检索的度量方式基于模型的检索基于相似性的检索文档间相似性计算举例 2020 2 9 数据仓库与数据挖掘 8 1 信息检索的度量方式查准率 Precision 是检索到的文档中的相关文档占全部检索到的文档的百分比它所衡量的是检索系统的准确性查全率 Recall 是被检索出的文档中的相关文档占全部相关文档的百分比它所衡量的是检索系统的全面性 2020 2 9 数据仓库与数据挖掘 9 2 基于模型的检索模型的种类布尔模型文档和查询式都表示为特征项的集合运用集合运算来检索向量空间模型文档和查询式都表示为高维空间中的向量通过对代数的向量运算进行检索概率模型文档和查询式是通过概率理论形式化为概率分布建立在概率运算的基础上 2020 2 9 数据仓库与数据挖掘 10 检索模型包含的三个要素文本集用户提问文本与用户提问相匹配 2020 2 9 数据仓库与数据挖掘 11 布尔模型将用户提问表示成布尔表达式查询式是由用户提问和操作符and or not组成的表达式运用几何运算来检索向量空间模型有一特征表示集特征通常为字或词用户提问与文本表示成高维空间向量其中每一维为一特征每个特征用权值表示用户提问向量的权值由用户制定通过对代数的向量运算进行检索概率模型富有代表性的模型是二值独立检索模型 BIR BIR模型根据用户的查询Q 可以将所有文档d分为两类一类与查询相关集合R 另一类与查询不相关集合N 是R的补集建立在概率运算的基础上 2020 2 9 数据仓库与数据挖掘 12 3 基于相似性的检索根据一个文档集合d和一个项集合t 可以将每个文档表示为在t维空间R中的一个文档特征向量v 向量v中第j个数值就是相应文档中第j个项的量度计算两个文档相似性可以使用上面的公式 2020 2 9 数据仓库与数据挖掘 13 4 文档间相似性计算举例以前述三个文档为例构建一个基于所有文档的词典词典内容北京大学体育馆乒乓球团体决赛中国队总比分奥运会金牌女子团体雅典奥运会男子单打检测数据神舟六号轨道舱太空科学试验金融银行监管市场经营国际货币人民币v1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 v2 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 v3 1 1 1 0 1 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2020 2 9 数据仓库与数据挖掘 14 12 2 2基于关键字的关联分析基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合然后发现其中所存在的关联性关联分析对文本数据库进行预处理生成关键字向量根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果然后调用关联挖掘算法与关系数据库中关联规则的挖掘方法相似 2020 2 9 数据仓库与数据挖掘 15 12 2 3文档自动聚类 1 什么是文档自动聚类2 文档自动聚类的步骤3 文档自动聚类的类型 2020 2 9 数据仓库与数据挖掘 16 1 什么是文档自动聚类文本聚类是根据文本数据的不同特征将其划分为不同数据类的过程其目的是要使同一类别的文本间的距离尽可能小而不同类别的文本间的距离尽可能的大传统的聚类方法在处理高维和海量文本数据时效果不太理想 2020 2 9 数据仓库与数据挖掘 17 2 文档自动聚类的步骤 1 获取结构化的文本集 2 执行聚类算法获得聚类谱系图聚类算法的目的是获取能够反映特征空间样本点之间的抱团性质 3 选取合适的聚类阈值在得到聚类谱系图后领域专家凭借经验并结合具体的应用场合确定阈值 4 执行聚类算法获得聚类结果 2020 2 9 数据仓库与数据挖掘 18 3 文档自动聚类的类型平面划分法对包含n个样本的样本集构造样本集的k个划分每个划分表示一个聚簇层次聚类法层次聚类法对给定的样本集进行层次分解根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法根据样本点临近区域的密度进行聚类使在给定区域内至少包含一定数据的样本点基于网格的方法采用多分辨率的网格数据结构将样本空间量化为数量有限的网格单元所有聚类操作都在网格上进行基于模型的方法为每个簇假定一个模型然后通过寻找样本对给定模型的最佳拟合进行聚类 2020 2 9 数据仓库与数据挖掘 19 12 2 4文档自动分类自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中文档分类的关键问题是获得一个分类模式利用此分类模式也可以用于其他文档的分类有了一个模式之后需要进行人工标记和训练以确定这个模式的参数然后才能进行自动的文档分类 2020 2 9 数据仓库与数据挖掘 20 12 2 5自动摘要文档的自动摘要就是利用计算机对文档进行处理从中挑选出最能代表文档中心思想的句子或段落经过修饰重组形成一段最能反映文档内容的文字或者通过对文档的理解重新生成一段能够表

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《文本挖掘》PPT课件.ppt

文档简介

温馨提示

最新文档

评论