文本挖掘课件_第1页
文本挖掘课件_第2页
文本挖掘课件_第3页
文本挖掘课件_第4页
文本挖掘课件_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/10/101第5章 文本挖掘2022/10/102主要内容文本挖掘的背景文本挖掘的过程特征抽取特征选择文本分类文本聚类模型评价2022/10/103文本挖掘的背景传统的自然语言理解是对文本进行较低层次的理解,主要进行基于词、语法和语义信息的分析,并通过词在句子中出现的次序发现有意义的信息。文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集,但是现有的技术手段虽然基本上解决了单个句子的分析问题,但是还很难覆盖所有的语言现象,特别是对整个段落或篇章的理解还无从下手。将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(Text Mining)或

2、文本知识发现(Knowledge Discovery in Text).2022/10/104文本挖掘的背景(续)文本挖掘与数据挖掘的区别:文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。2022/10/105提纲文本挖掘的背景文本挖掘的过程特征抽取特征选择文本分类文本聚类模型评价2022/10/107提纲文本挖掘的背景文本挖掘的过程特征抽取特征选择文本分类文本聚类模型评价国内外研究状况2022/10/108文本特征抽取定义:文本特

3、征指的是关于文本的元数据分类:描述性特征:文本的名称、日期、大小、类型等。语义性特征:文本的作者、标题、机构、内容等。2022/10/1010文本表示向量空间模型(Vector Space Model)M个无序标引项ti (词条项, 特征),词根/词/短语/其他每个文档d可以用标引项向量来表示权重计算,N个训练文档WM*N= (wij)词项的权重: 0,1, tf(词频=term frequency), tf*idf,2022/10/1011文本表示词频矩阵行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度矩阵元素可以是词频,也可以是布尔型。表示文档词频

4、的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352022/10/1012中文特征词(Term)的粒度Character,字:中Word,词:中国Phrase,短语:中国人民银行Concept,概念同义词:开心 高兴 兴奋相关词cluster,word cluster:葛非/顾俊N-gram,N元组:中国 国人 人民 民银 银行某种规律性模式:比如某个window中出现的固定模式2022/10/1014英文特征词一般采用keyword,无需分词,单词之间有空格分开。停用词(stop

5、word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组。词干提取 countries = country,interesting = interest2022/10/1015权重计算方法布尔权重(boolean weighting)aij=1(TFij0) or (TFij=0)0TFIDF型权重TF: aij=TFijTF*IDF: aij=TFij*log(N/DFi)TFC: 对上面进行归一化LTC: 降低TF的作

6、用基于熵概念的权重(Entropy weighting)称为term i的某种熵如果term分布极度均匀:熵等于-1只在一个文档中出现:熵等于02022/10/1017特征选择(2)term的熵:该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,词可能出现在较少的类别中相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离,该值越大,词对文本类别分布的影响也大。2022/10/1018特征选择(3)2 统计量:度量两者(term和类别)

7、独立性的缺乏程度, 2 越大,独立性越小,相关性越大(若ADBC,则类和词独立, N=A+B+C+D)互信息(Mutual Information):MI越大t和c共现程度越大ABCDttcc2022/10/1019特征选择(4)Robertson & Sparck Jones公式其他Odds: Term Strength: 2022/10/1020特征选择方法的性能比较(1)2022/10/1021特征选择方法的性能比较(2)2022/10/1022特征选择方法的性能比较(3)YangYi-ming2022/10/1024提纲文本挖掘的背景文本挖掘的过程特征建立特征选择文本分类文本聚类202

8、2/10/1025文本分类定义:给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件分类系统可以是层次结构,如yahoo!分类模式2类问题,属于或不属于(binary)多类问题,多个类别(multi-class),可拆分成2类问题一个文本可以属于多类(multi-label)这里讲的分类主要基于内容很多分类体系: Reuters分类体系、中图分类2022/10/1027自动文本分类方法Rocchio方法Nave BayeskNN方法决策树方法decision treeDecision Rule ClassifierThe Widrow-Hoff

9、Classifier神经网络方法Neural Networks支持向量机SVM基于投票的方法(voting method)2022/10/1028Rocchio方法可以认为类中心向量法是它的特例Rocchio公式分类类C中心向量的权重训练样本中正例个数文档向量的权重2022/10/1029Nave Bayes参数计算Bayes公式2022/10/1030kNN方法一种Lazy Learning, Example-based Learning新文本k=1, A类k=4,B类k=10,B类带权重计算,计算权重和最大的类。k常取3或者5。2022/10/1031决策树方法构造决策树CARTC4.5

10、(由ID3发展而来)CHAID决策树的剪枝(pruning)2022/10/1032Decision Rule Learningwheat & form WHEATwheat & commodity WHEATbushels & export WHEATwheat & agriculture WHEATwheat & tonnes WHEATwheat & winter & soft WHEAT(粗糙集)RoughSet 逻辑表达式(AQ11算法)学习到如下规则2022/10/1033The Widrow-Hoff ClassifierOnline Learning类c向量的第j个分量xi的第

11、j个分量Learning RateTarget Value ( 0 or 1)2022/10/1034Neural Network.c1c2cnInput LayerHidden LayerOutput LayerBackpropagation2022/10/1035支持向量机Support Vector MachineSupport VectorOptimal Separating Hyperplane2022/10/1036基于投票的方法Bagging方法训练R个分类器fi,分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得

12、到的。对于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别Boosting方法类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率AdaBoostAdaBoost MH2022/10/1037分类方法的评估邻接表每个类Precision=a/(a+b), Recall=a/(a+c), fallout=b/(b+d)=false alarm rate, accuracy=(a+d)/(a+b+c+d), error=(b+c)/(a+b+c+d)=1-accuracy, miss rate=1-recallF=(2+1)p.r/(2p+r)Break Even Point, BEP, p=r的点如果多类排序输出,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论