




免费预览已结束,剩余30页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文文本挖掘,吴思博郑祥云谭紫逸,主要内容,1.1文本挖掘的背景,1、数据挖掘大部分研究主要针对结构化数据2、现实中大部分数据存储在文本数据库中3、存放在文本数据库中的数据是半结构化数据,1、文本挖掘概述,1.2文本挖掘的定义,文本挖掘(TextMining,TM),又称为文本数据挖掘(TextDataMining,TDM)或文本知识发现(KnowledgeDiscoveryinTexts,KDT),是指为了发现知识,从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程。,1.3文本挖掘与数据挖掘的区别,1.4文本挖掘的任务,文本挖掘预处理原始的非结构化数据源结构化表示文本模式挖掘文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系挖掘结果可视化也就是文本挖掘系统的表示层,简称浏览,1.5文本挖掘处理过程,文本挖掘的一般处理过程,1.6中文文本挖掘流程,1.7汉语特点与当前中文信息处理水平,汉语是一种语义型语言,重“意合”,轻形式,而且语形、语法和语义等各层面的歧义现象非常严重。(1)汉语缺乏狭义的形态(2)语法灵活(3)语义灵活(存在一词多义、同音词、同义词、近义词等),1.7中文文本挖掘研究现状,(1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架(2)中文文本的特征提取与表示大多数采用“词袋”法(3)知识挖掘的种类和深度有限,1.8文本挖掘的可能应用领域包括:,(1)客户模型分析(2)网上有害信息的发现、过滤与跟踪(3)主动个性化信息服务(4)公司资源计划(5)科技文献分析(6)网上论坛的实时监控;(7)电子邮件分类与过滤;等等。,2.1文本检索的基本度量,查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性,信息检索的度量方式,relevant:与某查询相关的文档的集合。retrieved:系统检索到的文档的集合。relevantretrieved:既相关又被检索到的实际文档的集合。,模型质量的评价实例,relevant=A,B,C,D,E,F,G,H,I,J=10retrieved=B,D,F,W,Y=5relevantretrieved=B,D,F=3查准率:precision=3/5=60%查全率:recall=3/10=30%,W,Y被检索到的文档,2.2文档检索方法,文本符号化符号化:为表示文档而标识关键词。停用词表:看上去“不相关的”词的集合。中文分词:中文分词对人名地名分解的仍然不好,大多分解成单字。,-展示分词软件,分词效果:zw-c(如果你听到某人说他使用某软体,然后看看效果,有些美中不足,那就叫星光灿烂吧!thusdonothavethetextsalreadystoredonaharddisk,andwanttosavethetextdocumentstodisk)1、去停用词:zwfc(zw,zj1)1听某人说使用软体看看效果美中不足星光灿烂thutextalreadistoreharddisksavetextdocumentdisktime:0.109s,2、不去停用词:zwfc(zw,zj1)1如果你听到某人说他使用某软体,然后看看效果,有些美中不足,那就叫,星光灿烂,吧,thudonothavethetextalreadistoreonaharddisk,andwanttosavethetextdocumenttodisktime:0.0s,文档建模,词频:指词t在文档d中出现的次数,即freq(d,t).(加权的)词频矩阵TF(d,t):用来度量词t与给定文档d之间的关联度。,-展示相关度实验,文档建模,词频矩阵行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度,基于相似性的检索,余弦计算法(cosinemeasure),文档间相似性计算举例,文档向量化,-展示相关度实验,查询:相关度,-展示相关度实验,文档间相似度(余弦定理),3.文本挖掘方法,文本挖掘功能层次,文本挖掘功能层次,3.1关联分析挖掘,关联挖掘有助于找出符合关联,即领域相关的术语或短语,3.1关联分析挖掘,3.2文档分类分析,3.2文档分类分析,应用领域门户网站(网页)图书馆(电子资料)自动分类优点:减小人工分类的繁杂工作提高信息处理的效率减小人工分类的主观性,3.2文档分类分析,文本分类基本步骤,3.3文档聚类分析,文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程其目的是要使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大,-展示相关度实验,3.3文档聚类分析,文档自动聚类的步骤(1)获取结构化的文本集(2)执行聚类算法,获得聚类谱系图。(3)选取合适的聚类IA值。(4)执行聚类算法,获得聚类结果,3.3文档聚类分析,文档自动聚类的类型平面划分法:对包含n个样本的样本集构造样本集的k个划分,每个划分表示一个聚簇层次聚类法:层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法:根据样本点临近区域的密度进行聚类,使在给定区域内至少包含一定数据的样本点基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社群活动羽毛球活动方案
- 电玩城充值活动方案
- 美甲店宣传充值活动方案
- 笑脸摄影活动方案
- 端午品活动策划方案
- 社长个人活动方案
- 线下观赛活动策划方案
- 社工摆点宣传活动方案
- 石油分公司慰问活动方案
- 美甲充值送活动方案
- 自控系统报警管理制度
- 营养支持小组管理制度
- 儿童腹痛试题及答案解答
- 2025年高考江苏卷物理真题(原卷版)
- 【公开课】种子植物+第2课时课件-2024-2025学年人教版生物七年级上册
- 培训企业台账管理制度
- 职业院校模块化课程体系构建与实践研究
- 2024年贵州贵州贵安发展集团有限公司招聘笔试真题
- T/CAQI 70-2019管道直饮水系统安装验收要求
- 房屋在别人名下协议书
- 江苏省2025年中职职教高考文化统考数学试题
评论
0/150
提交评论