大三下所有课件商务智能chapter07-text mining_第1页
大三下所有课件商务智能chapter07-text mining_第2页
大三下所有课件商务智能chapter07-text mining_第3页
大三下所有课件商务智能chapter07-text mining_第4页
大三下所有课件商务智能chapter07-text mining_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/7/24传统的自然语言理解是对文本进行较低层次的理解,主要进行基于词、语法和语义信息的分析,并通过词在句子中出现的次序发现有意义的信息。文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集,但是现有的技术手段虽然基本上解决了单个句子的分析问题,但是还很难覆盖所有的语言现象,特别是对整个段落或篇章的理解还无从下手。将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge Discovery in Text).一、文本挖掘的定义 The Institute of Business Intel

2、ligence, HFUT2/862022/7/24文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。二、文本挖掘与数据挖掘的区别: The Institute of Business Intelligence, HFUT3/862022/7/24文本挖掘(text mining):是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。Text data mining 、knowled

3、ge discovery from textual databases一、文本挖掘的定义 The Institute of Business Intelligence, HFUT4/862022/7/24特征抽取特征选择文本分类文本聚类模型评价文本挖掘的过程 The Institute of Business Intelligence, HFUT5/862022/7/24文本挖掘的过程 The Institute of Business Intelligence, HFUT6/86特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集文本挖掘的一般处理过程2022/7/24三、

4、文本挖掘的关键技术 The Institute of Business Intelligence, HFUT7/86文本预处理文本分类文本聚类文本自动摘要文本的向量空间表示文本特征提取文本相似度2022/7/24文本是以文字串形式表示的数据文件。文本分析过程即通过文本分析,从中找出一些特征以便将来使用。文本分析包括语种识别、特征提取、文本聚类和文本分类等。为什么要进行文本分析? The Institute of Business Intelligence, HFUT8/862022/7/24 从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别

5、处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。 使计算机能够通过对这种模型的计算和操作来实现对文本的识别。 The Institute of Business Intelligence, HFUT9/86为什么要进行文本分析?2022/7/24文本表示是指用文本的特征信息集合来代表原来的文本。目前,在信息处理领域,文本的表示方法主要是采用向量空间模型(Vector Space Model,VSM)。向量是既有大小又有方向的量。 The Institute of Business Intelligence, HFUT10/86三、文本挖掘的关键技术文本预处理文本的向量

6、空间表示2022/7/24向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3Wn),其中Wi 为第i个特征项的权重。特征项一般选用字、词或词组。因此要将文本表示为向量空间中的一个向量,就首先将文本分词,用这些词作为向量的维数来表示文本。最初的向量表示完全是0、1的形式。但这种形式无法体现词在文本中的作用程度,故0、1逐渐被更精确的词频代替。 The Institute of Business Intelligence, HFUT11/86三、文本挖掘的关键技术文本预处理2022/7/24语种识别工具能自动发现文本使用的语种。这类工具应用文本内容的一些线索来识别语种。通常用机器领域里的

7、算法,利用相应语种的训练文本进行训练,最终实现识别的目的。 The Institute of Business Intelligence, HFUT12/86三、文本挖掘的关键技术语种识别2022/7/24用于表示文本的基本单位通常称为文本的特征或特征项,或文本的元数据。在中文文本中可以采用字、词或短语作为表示文本的特征项。特征提取主要是使用自动的提取过程,识别文本中词项的意义。 The Institute of Business Intelligence, HFUT13/86三、文本挖掘的关键技术特征提取2022/7/24分类:描述性特征:文本的名称、日期、大小、类型等。语义性特征:文本的作

8、者、标题、机构、内容等。 The Institute of Business Intelligence, HFUT14/86三、文本挖掘的关键技术特征提取2022/7/24特征提取对掌握该文本的内容很重要,是一种强有力的文本挖掘工具。在一篇文本中,标题是该文本的高度概括,文本中的特征,如人命、地名、组织名等是文本中的主体信息。 The Institute of Business Intelligence, HFUT15/86三、文本挖掘的关键技术特征提取2022/7/24特征是概念的外在表现形式,特征提取是识别潜在概念结构的重要基础。利用自动标引技术可以对文本进行特征标引。对汉语文本进行特征抽

9、取时,需要先对文本进行分词处理。 The Institute of Business Intelligence, HFUT16/86三、文本挖掘的关键技术特征提取2022/7/24 The Institute of Business Intelligence, HFUT17/86分词实例和平民主和平、民主和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平2022/7/24 The Institute of Business Intelligence, HFUT18/86文本表示词频矩阵行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度矩

10、阵元素可以是词频,也可以是布尔型。表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352022/7/24 The Institute of Business Intelligence, HFUT19/86中文特征词(Term)的粒度Character,字:中Word,词:中国Phrase,短语:中国人民银行Concept,概念同义词:开心 高兴 兴奋相关词cluster,word cluster:蔡赟/傅海峰N-gram,N元组:中国 国人 人民 民银 银行某种规律性模式:

11、比如某个window中出现的固定模式2022/7/24 The Institute of Business Intelligence, HFUT20/86中文分词方法最大匹配法(Maximum Matching method, MM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。2022/7/24

12、The Institute of Business Intelligence, HFUT21/86中文分词方法双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的分词结果,从而决定正确的分词。最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。联想-回溯法(Association-Backtracking method, AB法):采用联想和回溯的机制来进行匹配。2022/7/24首先,要建立一个以介词、冠词、连词

13、等无实质意义的单词组成的停用词表( stop words ),然后,利用创建的停用词表,从被标引的文本中筛去停用词,抽取关键词。 The Institute of Business Intelligence, HFUT22/86西文分词方法2022/7/24一般采用keyword,无需分词,单词之间有空格分开。stop words:指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组。 The Institute of Busin

14、ess Intelligence, HFUT23/86西文分词方法2022/7/24 The Institute of Business Intelligence, HFUT24/86A dog is chasing a boy on the playgroundDetNounAuxVerbDetNounPrepDetNounNoun PhraseComplex VerbNoun PhraseNoun PhrasePrep PhraseVerb PhraseVerb PhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).语

15、义分析词汇分析(词性标注)语法分析A person saying this maybe reminding another person toget the dog back 语用分析(语言行为)Scared(x) if Chasing(_,x,_).+Scared(b1)推理、推断2022/7/24 The Institute of Business Intelligence, HFUT25/862022/7/24 The Institute of Business Intelligence, HFUT26/86标引源数据库一条待标引的记录英语单词遇空分词停用词表存储剔除去除重复关键词词频统

16、计,保留高频词利用词表确定标引词或直接选择关键词标引西文文本标引流程图2022/7/24利用计算机抽取西文关键词,首先要建立一个以介词、冠词、连词等无实质意义的单词组成的停用词表,然后利用创建的停用词表,从被标引的文本中筛去停用词,抽取关键词。(1)从文本中取出一个单词:西文中每两个单词间有空格间隔,可通过空格取词。(2)确定候选关键词:利用取出的词去搜索停用词表,如是停用词则舍去;否则,则作为候选词。 The Institute of Business Intelligence, HFUT27/86抽取关键词的方法与过程以西文文本为例2022/7/24(3)分析候选关键词:对于重复的候选关键

17、词,删除重复词,同时累计词频。如果标引对象是全文,还可以根据位置给候选关键词赋予权重,例如,权值最高的位置是标题,其次是文摘、首尾段、首尾句、其他位置,然后计算每个被取出词的权值之和,并将它们按权值从大到小排序,根据排序结果决定所取出的词是否作为标引词。 The Institute of Business Intelligence, HFUT28/86抽取关键词的方法与过程以西文文本为例2022/7/24(4)确定标引词:如果标引对象是标题,只需判断所取出的候选词是否重复,去重后,这些词可以全部作为标引词。如果标引对象是文摘或全文,抽出的候选关键词会很多,需要对它们进行进一步筛选,具体的方法:

18、根据词频统计的结果,去除低频词,将高频词作为标引备用词,然后根据系统规定的标引词的数量,最终确定标引词。 The Institute of Business Intelligence, HFUT29/86抽取关键词的方法与过程以西文文本为例2022/7/24文本聚类是把一个文本集合分成几组的过程。对于文本标题中的关键词的相似匹配是对文本进行聚类的一种简单方法。 The Institute of Business Intelligence, HFUT30/86三、文本挖掘的过程文本聚类2022/7/24分类工具是把文本集合中的文本分配到已经存在的类别中,即,已存的“主题”中。将文本分类到各文本类

19、中,一般需要一个算法。这些算法包括决策树分类器、近郊算法和休眠专家算法等。文本分类通过自动组织,把文本分到相应的主题中,能够使文本数据库更易于浏览和查询。 The Institute of Business Intelligence, HFUT31/86三、文本挖掘的过程文本分类2022/7/24 The Institute of Business Intelligence, HFUT32/86三、文本挖掘的过程文本分类定义:给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件分类系统可以是层次结构,如yahoo!分类模式2类问题,属于或不属于(

20、binary)多类问题,多个类别(multi-class),可拆分成2类问题一个文本可以属于多类(multi-label)这里讲的分类主要基于内容很多分类体系: Reuters分类体系、中图分类2022/7/24 The Institute of Business Intelligence, HFUT33/86三、文本挖掘的过程自动文本分类方法Rocchio方法Nave BayeskNN方法决策树方法decision treeDecision Rule ClassifierThe Widrow-Hoff Classifier神经网络方法Neural Networks支持向量机SVM基于投票的方法(voting method)2022/7/24 The Institute of Business Intelligence, HFUT34/86三、文本挖掘的过程系统结构标注工具机器学习工具模型数据标注的样本分类工具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论