




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 2 9 数据仓库与数据挖掘 1 第12章文本挖掘 在浩瀚的文本中找到所需信息 2020 2 9 数据仓库与数据挖掘 2 第12章文本挖掘 12 1引例12 2文本挖掘 2020 2 9 数据仓库与数据挖掘 3 12 1引例 乒乓球女团中国夺冠 第33金超越雅典奥运创造历史 文本1 神舟六号轨道舱正常运行60天取得大量科学数据 文本2 乒乓男单决赛颁奖中国三虎将包揽金银铜牌 文本3 前三段文本中哪两段文本在内容上更接近 如果前两段文本各代表一类文本 那么 你认为第三个文本应该归为其中的哪一类 2020 2 9 数据仓库与数据挖掘 4 12 1引例 在文本规模较小 文本量较少的情况下 可以通过人工手段完成 大规模 大数量的文本情况下 如何完成 2020 2 9 数据仓库与数据挖掘 5 12 2文本挖掘 12 2 1文本信息检索概述12 2 2基于关键字的关联分析12 2 3文档自动聚类12 2 4文档自动分类12 2 5自动摘要 2020 2 9 数据仓库与数据挖掘 6 12 2 1文本信息检索概述 信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程 人们借助某种检索工具 运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息 信息检索是一种不确定性检索 用户在检索信息时 并不知道信息源里是否有符合需要的东西 2020 2 9 数据仓库与数据挖掘 7 12 2 1文本信息检索概述 基本概念 信息检索的度量方式基于模型的检索基于相似性的检索文档间相似性计算举例 2020 2 9 数据仓库与数据挖掘 8 1 信息检索的度量方式 查准率 Precision 是检索到的文档中的相关文档占全部检索到的文档的百分比 它所衡量的是检索系统的准确性查全率 Recall 是被检索出的文档中的相关文档占全部相关文档的百分比 它所衡量的是检索系统的全面性 2020 2 9 数据仓库与数据挖掘 9 2 基于模型的检索 模型的种类 布尔模型 文档和查询式都表示为特征项的集合 运用集合运算来检索 向量空间模型 文档和查询式都表示为高维空间中的向量 通过对代数的向量运算进行检索 概率模型 文档和查询式是通过概率理论形式化为概率分布 建立在概率运算的基础上 2020 2 9 数据仓库与数据挖掘 10 检索模型包含的三个要素 文本集用户提问文本与用户提问相匹配 2020 2 9 数据仓库与数据挖掘 11 布尔模型 将用户提问表示成布尔表达式 查询式是由用户提问和操作符and or not组成的表达式 运用几何运算来检索 向量空间模型 有一特征表示集 特征通常为字或词 用户提问与文本表示成高维空间向量 其中每一维为一特征 每个特征用权值表示 用户提问向量的权值由用户制定 通过对代数的向量运算进行检索 概率模型 富有代表性的模型是二值独立检索模型 BIR BIR模型根据用户的查询Q 可以将所有文档d分为两类 一类与查询相关 集合R 另一类与查询不相关 集合N 是R的补集 建立在概率运算的基础上 2020 2 9 数据仓库与数据挖掘 12 3 基于相似性的检索 根据一个文档集合d和一个项集合t 可以将每个文档表示为在t维空间R中的一个文档特征向量v 向量v中第j个数值就是相应文档中第j个项的量度 计算两个文档相似性可以使用上面的公式 2020 2 9 数据仓库与数据挖掘 13 4 文档间相似性计算举例 以前述三个文档为例 构建一个基于所有文档的词典 词典内容 北京大学 体育馆 乒乓球 团体 决赛 中国队 总比分 奥运会 金牌 女子团体 雅典奥运会 男子单打 检测数据 神舟六号 轨道舱 太空 科学试验 金融 银行 监管 市场 经营 国际 货币 人民币v1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 v2 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 v3 1 1 1 0 1 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2020 2 9 数据仓库与数据挖掘 14 12 2 2基于关键字的关联分析 基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合 然后发现其中所存在的关联性关联分析对文本数据库进行预处理 生成关键字向量 根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果 然后调用关联挖掘算法与关系数据库中关联规则的挖掘方法相似 2020 2 9 数据仓库与数据挖掘 15 12 2 3文档自动聚类 1 什么是文档自动聚类2 文档自动聚类的步骤3 文档自动聚类的类型 2020 2 9 数据仓库与数据挖掘 16 1 什么是文档自动聚类 文本聚类是根据文本数据的不同特征 将其划分为不同数据类的过程 其目的是要使同一类别的文本间的距离尽可能小 而不同类别的文本间的距离尽可能的大 传统的聚类方法在处理高维和海量文本数据时效果不太理想 2020 2 9 数据仓库与数据挖掘 17 2 文档自动聚类的步骤 1 获取结构化的文本集 2 执行聚类算法 获得聚类谱系图 聚类算法的目的是获取能够反映特征空间样本点之间的 抱团 性质 3 选取合适的聚类阈值 在得到聚类谱系图后 领域专家凭借经验 并结合具体的应用场合确定阈值 4 执行聚类算法 获得聚类结果 2020 2 9 数据仓库与数据挖掘 18 3 文档自动聚类的类型 平面划分法 对包含n个样本的样本集构造样本集的k个划分 每个划分表示一个聚簇层次聚类法 层次聚类法对给定的样本集进行层次分解 根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法 根据样本点临近区域的密度进行聚类 使在给定区域内至少包含一定数据的样本点基于网格的方法 采用多分辨率的网格数据结构 将样本空间量化为数量有限的网格单元 所有聚类操作都在网格上进行基于模型的方法 为每个簇假定一个模型 然后通过寻找样本对给定模型的最佳拟合进行聚类 2020 2 9 数据仓库与数据挖掘 19 12 2 4文档自动分类 自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中文档分类的关键问题是获得一个分类模式 利用此分类模式也可以用于其他文档的分类有了一个模式之后 需要进行人工标记和训练 以确定这个模式的参数 然后才能进行自动的文档分类 2020 2 9 数据仓库与数据挖掘 20 12 2 5自动摘要 文档的自动摘要就是利用计算机对文档进行处理 从中挑选出最能代表文档中心思想的句子或段落 经过修饰重组形成一段最能反映文档内容的文字 或者通过对文档的理解 重新生成一段能够表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京平谷区纪委区监委所属事业单位招聘9人模拟试卷附答案详解(模拟题)
- 2025江苏盐城工学院招聘7人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025内蒙古鄂尔多斯市东方控股集团有限公司校园招聘15人模拟试卷及答案详解参考
- 2025广东工业大学计算机学院聘用制人员招聘1人考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025广西柳州市城中区委社会工作部招聘专职化城市社区工作者5人模拟试卷参考答案详解
- 2025广西桂林荔浦市公安局招聘综治网格长(一村一辅警)43人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025昆明市官渡区北京八十学校招聘(18人)考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025赤峰环保投资有限公司招聘3人考前自测高频考点模拟试题带答案详解
- 2025年成都市成华区卫健系统所属8家事业单位面向社会公开考试招聘20名工作人员模拟试卷及参考答案详解1套
- 2025投资协议书合同书模板(标准版)
- 河堤护坡方案范本
- pbo纤维课件教学课件
- 人教版九年级数学上册全册单元检测卷及答案(包含:期中、期末试卷)
- 脑梗死临床路径表单
- 2020年全国II卷英语高考真题试题(答案+解析)
- 《林佳明经方实践录》记录
- 宅基地转让协议书
- 十年(2015-2024)高考真题数学分项汇编(全国)专题25 新定义综合(数列新定义、函数新定义、集合新定义及其他新定义)(教师卷)
- 日语N2必备单词
- 燃气行业数字化转型实施路径
- 抖音短视频运营直播带货KPI绩效考核指标(抖音直播运营规划方案 抖音直播部门组织架构及职责说明)
评论
0/150
提交评论