第1讲文本挖掘概述_第1页
第1讲文本挖掘概述_第2页
第1讲文本挖掘概述_第3页
第1讲文本挖掘概述_第4页
第1讲文本挖掘概述_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1讲文本挖掘概述,1什么是文本挖掘?2文本挖掘的基本思想3文本挖掘和数据挖掘的区别和联系4文本挖掘的一般过程5文本挖掘可以解决什么类型的问题?6文本挖掘应用7文本挖掘在医疗领域应用的案例展示,本讲主要内容,1什么是文本挖掘?,关于文本挖掘名字TextMiningTextDataMiningKnowledgeDiscoveryinText文本知识发现KnowledgeDiscoveryinTextualData文本挖掘定义TextMiningismainlyaboutsomehowextractingtheinformationandknowledgefromtext文本挖掘是一个以半结构(如WEB网页)或者无结构(如纯文本)的自然语言文本为对象的数据挖掘,是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在的有用的规律的过程。(对KDD定义进行扩展),2文本挖掘的基本思想首先利用文本切分技术,抽取文本特征,将文本数据转化为能描述文本内容的结构化数据,然后利用聚类、分类技术和关联分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相应的关系。,换个说法:把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。,文本挖掘特点:,大规模的数据集高维过适应overfitting噪声数据挖掘出的模式的可理解性,3文本挖掘与数据挖掘的区别和联系,区别:文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识;数据挖掘已不是什么方兴未艾的新兴技术,在业界远未普及,但是,理论技术已经高度发达,对于某些问题解决也几近成熟。文本挖掘面临好多问题。大多数情况,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。,联系数据挖掘和文本挖掘不是两个完全不同概念。事实上,它们都基于对以前样例的抽样分析,虽然样例组成大不相同,但是许多学习方法是相似的。因此,在文本挖掘过程中,文本将转换为数字形式。,数据粗分为两种类型:(a)有序数值类型可以比较大小,例如,“重量”和“收入”(b)分类类型。分类属性是在代码书中定义的无序数值代码。最常见分类类型数据是可以取值为“真”或者“假”的属性,用1表示真,0表示假。学习程序并不关心代码含义,而最终理解学习程序结果却要依赖代码含义。,文本是以文字串形式表示的数据文件非结构化文本源(如文档、网页、企业管理日志等)文本的特点语言难点:文本不是给计算机阅读的复杂的语言结构:语法语义更困难的:歧义多语言,这辆车没有锁;小张租小王两间房;三个学校的领导;这个人好说话;放弃美丽的女人让人心碎。,经典的数据挖掘和文本挖掘的数据表示有很大不同。文本挖掘方法想要看到文档格式,而经典数据挖掘方法着重于处理电子表格格式的数据,而在文档领域描述数据的标准是称为XML格式的变体。很明显,我们期望文本和数字是完全不同的。我们将讨论的文本方法和数据挖掘中使用的方法是相似的。这些方法已经被证明是非常成功的,尽管它们没有考虑到特定的文本属性,例如语法的概念或者文字的意义。通过使用频率信息例如一个词在文档中出现的次数成熟的机器学习方法得以应用于文本挖掘。文本挖掘的一个重要支撑是-文本数据到数值数据的转换,所以虽然数据初始表示不同,但是通过中间阶段将数据转换成到经典的数据挖掘编码格式,无结构的数据将会被结构化。,文本数据是否不同于数值数据?,将数据从文本转换到标准数值形式。将文本转换为标准的电子表格格式,并且填写电子表格的单元格。可考虑将文档看作一个完整的样例。列是可以被衡量的属性。在文本的最基本模型中,可认为词的出现或不出现为每个文档中的可度量属性。因此,每行表示一个文档,每列表示一个词。如图,用1或者0填写单元格。在这个样例中,词“收入”出现在文档1和3,而不是文档2或4。,公司收入工作海外0101101111100001图1.3文档中词的二进制电子表格,词是属性,文档是样例将词转化为数字,然后应用已知的数据挖掘方法。,急于在原始数据中应用学习方法是愚蠢的,特别是在没有考虑特定文本属性的情况下。电子表格只不过是概念模型,在实际应用中效率低下.,考虑文档为一个集合。属性集将是集合中唯一词的总集合。我们称这个词集为字典。样例是个别的文档。一个应用程序可能有数千个或者甚至数以百万计的文档。这个字典将集中到比文档数目更小的词,但仍然可以编号到几十万。正常情况下的电子表格矩阵是稀疏的:任何单个文档仅仅使用字典中词的潜在集合的一个极小的子集。因为这一特殊性质,电子表格仍然是一个合理的概念模型数据。文本挖掘方法主要集中于正匹配,不担心其他词是否存在于文档。此观点也引起了处理时的极大简化,往往使得文本挖掘程序可以处理常规数据挖掘认为规模过于庞大的问题。尽管文本挖掘在高维度进行操作,但是在很多情况下,由于多数文档和多数实际应用程序的稀缺性,处理过程还是很高效的。,4文本挖掘的一般过程,词频统计特征提取词共现相关分析语义网关联规则分类聚类检索过滤TDT可视化分析,停用词同义词近义词标点符号?数字?日期?,词典导入专业字典自定义字典,文本挖掘的一般过程解释,文本采集文本预处理分词文本清洗文本矢量化原始的非结构化数据源结构化表示文本分析文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系知识获取挖掘结果可视化也就是文本挖掘系统的表示层,简称浏览,图3鼻炎非药物治疗手段,文本挖掘处理过程,文本挖掘的一般处理过程,文本挖掘的任务,1文本预处理原始的非结构化数据源结构化表示文本的预处理过程可能占据整个系统的80%的工作量。,同义词近义词停用词,2文本特征抽取抽取代表文本特征的特征项,这些特征可以用结构化的形式保存,作为文档的中间表示形式。文本特征表示:对从文本中抽取出的特征项进行量化,以结构化形式描述文档信息。这些特征项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合程度,这一步又叫做目标表示。,文本表示模型常用的有:布尔逻辑模型,向量空间模型、潜在语义索引和概率模型。VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用词袋法表示文本,这种表示法的一个关键假设,就是文章中词条出现的先后次序是无关紧要的,每个特征词对应特征空间的一维,将文本表示成欧氏空间的一个向量。,特征子集的提取:是通过构造一个特征评估函数,对特征集中的每个特征进行评估,每个特征获得一个评估分数,然后对所有的特征按照评估分大小进行排序,选取预定数目的最佳特征作为特征子集。,特征集约减目的:1)为了提高程序效率,提高运行速度;2)数万维的特征对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的特征对分类的贡献小,在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。3)防止过拟合(Overfit)。对每一类,去除对分类贡献小的特征,筛选出针对反映该类的特征集合。,一个有效的特征集直观上说必须具备以下两个特点:1)完全性:确实体现目标文档的内容;2)区分性:能将目标文档同其他文档区分开来。,3文本模式挖掘文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系4模式评价和可视化也就是文本挖掘系统的表示层,简称浏览,文本挖掘的用武之地:文本摘要文本分类信息检索文档聚类与组织信息提取预测评估其他,注:这里不强调语言学领域的分析,统计和关联关系是研究的基础。,5文本挖掘可以解决的问题类型,指从文档中抽取关键信息,用简洁的形式,对文档内容进行摘要和解释,这样用户不需阅读全文就可了解文档或文档集合的总体内容。如上海交通大学纳讯公司的自动摘要,文本摘要,应用广泛,但是对文档分类的命名却不尽如人意。,文本分类,一个文档通常可以出现在多个文件夹里,举个例子来说,根据以往的经验来预测股票的走势。搜集一些和某个公司的财务报告有关的新闻文章,然后建立起一个文档信息和那家公司股票涨跌之间的关联关系,这些文档的标签是二进制的,1表示上涨,0表示下跌。,图1.4文本分类,复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器,1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;3)用训练好的分类模型对其它待分类文本进行分类;4)根据分类结果评估分类模型。,一般来讲,文本分类需要四个步骤:,近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学习的决策树基于向量空间模型的K-最近邻基于概率模型的方法,如朴素Bayes分类器,隐马尔可夫模型等。神经网络方法基于统计学习理论的支持向量机方法,信息检索,图1.5检索匹配的文档,还有什么能比搜索引擎更基础呢?,给出有关被检索文档的一些线索,与线索匹配的文档,用户提交的一系列的线索词,有时文档匹配器可以对文档中的某些词进行替换,代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎。,召回率:Recall,又称“查全率”准确率:Precision,又称“精度”、“正确率”可以把搜索情况表示:A:检索到的,相关的(搜到的也想要的)B:检索到的,但是不相关的(搜到的但没用的)C:未检索到的,但却是相关的(没搜到,然而实际上想要的)D:未检索到的,也不相关的(没搜到也没用的),希望:被检索到的内容越多越好,这是追求“查全率”,即A/(A+C),越大越好。希望:检索到的文档中,真正想要的、也就是相关的越多越好,不相关的越少越好,这是追求“准确率”,即A/(A+B),越大越好。“召回率”与“准确率”虽然没有必然的关系在实际应用中,是相互制约的。要根据实际需求,找到一个平衡点,F值。,原理1、文本相似度计算的需求始于搜索引擎。搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。2、主要使用的算法是tf-idftf:termfrequency词频idf:inversedocumentfrequency倒文档频率主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。第一步:把每个网页文本分词,成为词包(bagofwords)。第三步:统计网页(文档)总数M。第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf为:n/N*1/(m/M)(还有其它的归一化公式,这里是最基本最直观的公式),例:计算文本相似度的程序包gensim,第四步:重复第三步,计算出一个网页所有词的tf-idf值。第五步:重复第四步,计算出所有网页每个词的tf-idf值。3、处理用户查询第一步:对用户查询进行分词。第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf值。4、相似度的计算使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。官方主页:github代码页:,布尔模型是简单常用的严格匹配模型;概率模型利用词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。,检索方法有三种:,没有现成的文件夹,不了解文档集合的结构?例如,一个公司可能设有接受和记录用户投诉电话的服务台,公司想要了解用户投诉的类型以及将这些投诉分类。,文档聚类与组织,图1.6组织文件到组,聚类过程相当于指定分类文本时所需要的标签。因为有许多聚类文本的方法,指定分类的标签并非是最好的方法。不过,聚类的结果能够帮助人们分析,比如一家公司可以通过研究一组概括聚类的关键词了解它的客户。,典型的无监督机器学习问题,K-平均算法K-平均算法是划分方法中基于质心技术的一种算法,以K为参数,把n个对象分为K个簇,以使簇内具有较高的相似度,而簇间的相似度较低,相似度的计算根据一个簇内对象的平均值(质心)来计算。K-中心算法K-平均算法对于孤立点敏感,为消除这种敏感性不采用簇中对象平均值作为参考点,而选用簇中位置最中心的对象为参考点,这就是K-中心算法。,常用的聚类划分方法有:,信息提取,仅仅测量出现或者不出现的词。这些测量本身是非常地广泛和复杂。它们可能是实数值变量,如销售量;或者代码,比如行业代码“汽车产业”。,目标是提取非结构化文档,并且自动填写电子表格的值。,数据挖掘期望高度结构化的数据。为使文本结构化,采用了很简单的表示形式,即测量单词是否存在。信息提取是文本挖掘的子域,旨在结构化领域将文本挖掘提升到与数据挖掘平等的地位。,至今还没有实用的系统,根据已知样本中每个样例的属性值建立从已知属性到未知属性之间的映射,以期找到新实例中的未知属性值。最终目标是预测,搭建起从已知样例到未知样例的桥梁。学习程序研究文档,试图寻找一些能够对新样例做出正确推断的广义规则。怎么判断学习程序处理新样例的效果?经典的方法是重复随机选择(也就是holdout验证)一些已知样例,不允许学习程序学习这些样例。这些被重复随机选择的样例仅仅用作评估。对许多文本挖掘方案,“holdout验证”是有效的。也可能会出现状况。新闻报道随着时间变化,所以我们必须注意我们所选择的测试文档的出版日期。,预测评估,概念衔接可以鉴别文档的共享概念,从而把相关的文档连接在一起。答疑通过知识驱动的模式匹配,文本挖掘可以找出问题的最佳答案。自动问答机器翻译等,其他,6文本挖掘应用,网络安全,微软CEO巴尔默说:“这可能是我在过去几年感觉最糟糕的事情没有进行自己的搜索技术的研发投资。”微软总部、硅谷、剑桥等几大6实验室都在进行搜索方面的技术研发,而微软亚洲研究院更是将互联网搜索和数据挖掘列为继新一代多媒体、新一代用户界面、无线及网络技术和数字娱乐之后的第五大研究方向。可以预料未来几年信息搜索技术必将成为操作系统的组件之一。如何有效地提供基于Internet的资源发现服务,以帮助用户从大量信息资源的集合中找到与给定的查询请求相关的、恰当数目的资源子集,也就成为一项重要而迫切的研究课题。代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎;,Web信息搜索,大量的垃圾邮件不仅浪费了宝贵的网络带宽、信息存储、计算机处理等资源,也对人们的日常工作造成了不良影响。更重要的是,一些垃圾邮件携带反动、色情、病毒等有害信息,严重干扰了正常的网络秩序,甚至威胁到国家的安全和社会的稳定。从现状来看,垃圾邮件不仅仅规模大、特征多样,而且内容特征越来越隐蔽,特征变化很快,使得对垃圾邮件的判定与过滤变得更加困难。垃圾邮件已经成为网络社会中的一个毒瘤。有效的垃圾邮件判定也成为IT领域的一个重要难题,超过50%的企业对于目前防毒与内容过滤产品各自为政的管理方式感到负担沉重,迫切需要整合防病毒与基于文本挖掘的内容过滤产品,以节省网络安全管理成本。,垃圾邮件过滤,生物信息学是一门正在迅速兴起的边缘学科。它位于生物、计算机、数学等多个领域的交叉点上,其研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。生物信息学领域很多富有魅力的话题,比如DNA序列综合特征分析、蛋白质功能和相互作用分析、疾病基因发现、药物作用靶点预测等等,都可以归结为典型的文本挖掘和机器学习问题。这一领域的主要进展是有关生物实体的识别(命名实体识别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论