web数据挖掘总结.docx

上传人：m*** IP属地：河南上传时间：2020-01-19 格式：DOCX 页数：20 大小：43.69KB 积分：20 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、数据挖掘数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web技术中的应用。Web数据挖掘是一项综合技术,通过从Internet上的资源中抽取信息来提高Web技术的利用效率,也就是从Web文档结构和试用的集合中发现隐含的模式。数据挖掘涉及的学科领域和方法很多，有多种分类法。（1）根据挖掘对象分：关系数据库、面向对象数据库、空间数据库、时序数据库、DNA数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等；（2）根据挖掘方法分：机器学习方法、统计方法、神经网络方法和数据库方法等；a.机器学习方法可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传算法等。b.统计方法可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）等。c.神经网络方法可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。（3）根据开采任务分：可分为关联规则、分类、聚类、时间序列预测模型发现和时序模式发现等。a.关联规则：典型的关联规则发现算法是Apriori算法，该算法也称广度优先算法，是A.Agrawal和R.Srikandt于1994年提出的，它是目前除AIS算法、面向SQL的SETM算法外几乎所有频繁项集发现算法的核心，其基本思想是：如果一个项集不是频繁集，则其父集也不是频繁集，由此大大地减少了需要验证的项集的数目，在实际运行中它明显优于AIS算法。Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是从事务数据库、关系数据库和其他数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则可以分为两步:1)找出所有频繁项集.这部分主要由后面介绍的Apriori算法来解决.2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信度.b.分类规则：数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法很多，包括决策树方法、统计学方法、神经网络方法、最近邻居方法等等。其中，基于决策树的分类方法与其它的分类方法比较起来，具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的准确度等优点。c.数据聚类：其基本思想是：对数据进行分析的过程中，在考虑数据间的“距离”的同时，更侧重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组，这种分组基于如下的原理：最大的组内相似性与最小的组间相似性。d.时序模式：可用如下的例子描述时序模式：一个顾客先租看影片“Star Wars”，然后租“Empire Strikes Back”，再租“Return of the Judi”，注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式，称为时序模式。e.相似模式：时态或空间时态的大量数据存在于计算机中，这些数据库例子包括：股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间时态数据库中搜索相似模式的目的是发现和预测风险、因果关系及关联于特定模式的趋势。二、Web挖掘Web站点上的数据有其自身的特点，主要的可以归纳为以下几点:1、数据量巨大，动态性极强；2、异构数据库环境；3、半结构化的数据结构。Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。采用第一种策略的有针对Web的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有WebSQL ,及对搜索引擎的返回结果进行聚类的技术等。根据挖掘处理的数据可以将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有Page Rank和CLEVER,此外,在多层次Web数据仓库( MLDB )中也利用了页面的链接结构。Web使用挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。Web挖掘相关技术：数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。Web内容挖掘：1、Web文本挖掘Web文本挖掘可以对Web上的大量文档的集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测。在Internet上的文本数据一般是一组html格式的文档集,要将这些文档转化成一种类似关系数据库中记录的规整且能反映文档内容特征的表示,一般采用文档特征向量,但目前所采用的文档表示方法中,都存在一个弊端就是文档特征向量具有非常大的维数,使得特征子集的选取成为Internet上文本数据挖掘过程中的必不可少的一个环节。在完成文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到以前的某个环节,分析改进后进行新一轮的挖掘工作。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:连接数据,做数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。目前Web内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面，尤其是基于XML的上述专题研究。对分类挖掘而言，在预处理阶段要做的事情就是把这个Web页面集合文本信息转化成一个二维的数据库表，其中每一列是一个特征，每一行为一个Web页面的特征集合。在文本学习中常用的方法是TF工DF向量表示法，它是一种文档的词集(bag-of-words)表示法，所有的词从文档中抽取出来，而不考虑词间的次序和文本的结构。构造这种二维表的方法是:每一列为一个词，列集(特征集)为辞典中的所有有区分价值的词，所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息，这时，该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词)，如果在该页面中不出现，则其值为0;如果出现k次.那么其值就为k。这样就可以表征出页面中词的频度。这样构造的二维表表示的是Web页面集合的词的统计信息，最终就可以采用Naive Bayesian方法或k-Nearest Neighbor方法进行分类挖掘。WebSQL是一个用于Web页重构的查询语言,利用Web文档的图树表示形式,可从在线的文档站点或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务,利用试探法识别文档中显示该文档作为个人主页的句法特征。分词目前已有很多分词算法，如：正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法等。近几年又提出了很多新的方法旨在提高分词的精度和分词的速度，如：生成测试法通过词法ATN和语义ATN之间的相互作用来进行歧分决策，以提高分词的精确性；改进的MM分词算法采用正向增字最大匹配法和跳跃匹配法，结合词尾语义检查和归右原则以消除类型歧义；基于神经网络的分词方法尝试利用神经网络来处理歧分问题，但同时又引入一个问题：训练样本的选取，由于自然语言的复杂性，如何选取训练样本还需要作深入的研究；结合直接匹配算法、后缀分词算法和词表结构支持首字Hash的方法，局部提高了速度，但不能进行标准的二分查找；支持首字Hash的近邻匹配算法利用最大增字匹配算法，并支持首字Hash和标准二分查找以提高分词速度。分词的基本算法有: (1)基于词典与规则匹配法。基于词典与规则的方法应用词典匹配,汉语词法或其它汉语语言知识进行分词,这类方法简单、分词效率较高,但对词典的完备性、规则的一致性等要求比较高。匹配策略有:最大匹配法、最小匹配法、逆向匹配法、增字或减字匹配法、双向扫描法。(2)标志法。如切分标志法、统计标引法。(3)词频统计法。基于统计的分词方法将汉语基于字和词的统计信息,完备性较差。(4)语义语用法。如后缀分词法。目前使用最多的是基于词库的分词方法。由于中文在分词时可能产生二义性,如“计算机器”可分成“计算”“/机器”和“计算机”“/器”,这样必须结合其它分分词方法,如基于语法规则的分词法、基于朴素贝叶斯分词法等。在具体的分词过程中,我们还可以将单词变型归并,像同义词、近义词可进行归并,如“因特网”和“万维网”可当成一个词条处理。语义Web是下一代的Web技术，它赋予Web以计算机可理解的语义信息。在语义Web技术中，本体起着重要的作用。本体是人们对领域知识达成的共识，是对领域的形式化与结构化的描述。本项目针对语义Web目前存在的问题，应用语义Web技术，信息集成和信息管理的若干关键技术，从多个方面对语义Web进行研究。（1）语义信息集成。对本体的语义标注和本体集成方法进行研究，利用基于本体的语义标注和本体映射技术从异构的资源中抽取出有用信息，并通过映射方法集成多种信息源的的信息。（2）语义查询。实现语义信息的多种查询方式，包括：本体的可视化导航查询，针对概念/实例/属性的查询，基于全文检索技术的查询，语义关系的查询。（3）语义信息挖掘。语义信息的挖掘一直处在一个很浅层的阶段，目前的多数研究一直处在传统的文本信息挖掘。本项目的研究主要从本体实例聚类、本体分类，本体关联规则挖掘以及本体中关键词的抽取。这些技术是语义Web的应用的基础，他们可以用来分析语义信息的趋势，语义数据的自动处理等。（4）语义Web Service。通过系统定义的软件本体对Web Service进行描述，从而实现WebService的评估、组装等功能。（5）基于Peer to Peer的语义信息管理。这个问题的核心思想是要通过集成已有的Peer to Peer框架实现语义挖掘平台在P2P环境下的应用。（6）算法解释。利用定义的基础数据结构对上述算法的执行过程进行log，从而轻松的实现用户-算法及开发-算法之间的交互。提供针对算法本身的更友好的接口。2、Web多媒体挖掘Web多媒体挖掘与Web文本挖掘的不同点就在于需要提取的特征不同。Web多媒体挖掘需要提取的特征一般包括图像或视频的文件名URL、类型、键值表、颜色向量等。然后可以对这些特征进行挖掘工作。如关联分析发现类似“如果图像是大而且与关键词草原有关,那么它是绿色的概率是0. 8”的关联规则。当然也可以对多媒体进行分类、聚类等操作。多媒体数据挖掘的方法主要有：多媒体数据中的相似搜索，主要有两种多媒体标引和检索技术：基于描述的检索系统和基于内容的检索系统；多媒体数据的多维分析，可以按传统的从关系数据中构造数据立方体的方法，设计和构造多媒体数据立方体；分类和预测分析，主要应用于天文学、地震学和地理科学的研究，决策树分类是最常用的方法；多媒体数据的关联规则挖掘，关联规则的挖掘主要包括以下三类规则：图像内容和非图像内容之间的关联、与空间关系无关的图像内容的关联、与空间关系有关的图像内容的关联。3、特征提取经典的文本表示模型是向量空间模型（VSMVector Space Model），由Salton等人于60年代末提出，并成功地应用于著名的SMART文本检索系统。向量空间模型对文本进行简化表示，认为特征之间是相互独立的而忽略其依赖性，将文档内容用它所包含的特征词来表示：D=（t1，t2，tN），其中tk是文档D的第k个特征词，1kN。两个文档D1和D2之间内容的相似程度Sim（D1，D2）通过计算向量之间的相似性来度量。最常用的相似性度量方式是余弦距离。除了向量空间模型之外，Stephen Robertson和Spark Jones等人提出的概率模型得到了人们的广泛认可。该模型综合考虑了词频、文档频率和文档长度等因素，把文档和用户兴趣（查询）按照一定的概率关系融合，形成了著名的OKAPI公式。该模型在信息检索领域取得了成功。降维就是自动从原始特征空间中提取出部分特征的过程，一般通过两种途径：一是根据对样本集的统计信息删除不包含任何信息的特征；二是将若干低级的特征合成一个新特征。目前关于特征提取的方法很多，如文档频率法(DF)、信息增益(IG)、互关联信息(MI)、x2统计法(CHI)、特征增强(TS)等。DF是指包含某一特征的文档数，TS法通过统计特征在一组相近文档中出现的频率来估计特征的重要性，然而，人们在实际应用中发现，某些DF值或TS值很低的特征反而是信息相关的，不能从特征空间中删去，因此这两种方法在某些情况下不可靠，MI的弱点是受特征的边缘概率的影响很大，CHI和IG的使用效果较好。一般用的评估函数有几率比(Odds ratio)、信息增益( Information Gain)、期望交叉熵( Expected CrossEntropy)、互信息( Mutual Information)、词频( WordFrequency)等。（1）IG(Information Gain):即信息赢取。IG值代表了特征在训练集上的分布情况，它通过统计特征在各个类别中的出现次数来计算，公式如下:其中t代表特征，ci代表第i个类别，m为类别个数，只Pr(cI)代表类别cI的概率，Pr(cI|i)代表在包含特征t的条件下类别ci的概率，Pr(cI|-t)代表在不包含特征t的条件下类别cI的概率，Pr(t)代表特征t出现的概率，Pr(-t)代表特征t不出现的概率。IG值越高表示该特征在训练集中的类别上分布越集中。IG方法提取IG值较高的特征，其基本思想为分布越集中的特征越重要。(2) MI(Mutual Information):即互信息值，它通过计算特征t和类别c间的相关性来完成提取。计算公式为:为方便计算，简化为:其中N为训练集中包含的文本总数，A为t与c同时出现的次数，B为t出现而c不出现的次数，C为c出现而t不出现的次数。通过该公式就可以取得特征与各类别间的互信息值。为了能取得特征在数据集上的整体评价，有以下两种计算方法:前者代表了特征和各类别的平均互信息值，后者则取特征与各类别互信息值中的最大值。MI方法提取互信息值较高的特征，其基本思想为与类别相关性越高的特征越重要。(3)CHI具有和MI方法基本相似的思想，同样通过计算特征t和类别c间的依赖程度来完成提取。但二者的计算细节不同，CHI作了更多地考虑，有种看法认为CHI是一种“正规化”了的MI。CHI的计算公式如下:其中N为训练集中包含的文本总数，A为t与c同时出现的次数，B为t出现而c未出现的次数，C为c出现而t未出现的次数，D为二者都未出现的次数。与MI相同，CHI也有平均值和最大值两种方法来取得特征的整体评价:CHI方法的基本思想也是与类别关系越紧密的特征重要性越高。(4)DF(Document frequency):即文档频率，指训练集中包含该特征的文本总数。所谓文本包含特征是指这个特征在该文本中出现，忽略其在文本中的出现次数。DF方法提取DF值较高的特征，它的目的是去掉在训练集上出现次数过少的特征，保留出现达到一定次数、具有一定影响力的特征。在各个特征提取方法中，DF方法的计算是最简单的。(5)WEE(WeightEvidence):即文本证据权，其计算公式如下:其中，t是一个特征，m是类别的数量，ci代表第i个类别，代表类别ci的概率，Pr(cI|t)代表在包含特征t的条件下类别ci的概率，Pr(t)代表特征t出现的概率。4、分类目前文本分类的方法很多，如多元回归模型、K-邻近方法、神经网络法、贝叶斯方法、决策树法、支持向量机等，这些方法基本上可以分为两类：统计分类方法和基于机器学习的分类方法。支持向量机(SVM)是统计学习理论领域近几年才提出的新知识，目前仍处于发展阶段，但就目前的应用而言，SVM在很多领域的运用效果都非常理想。网页自动分类是Web内容挖掘的主要研究内容之一，采用的主要技术是分本分类技术，这是因为文本是目前Web内容的主体，并且对文本的处理较音频、视频的处理容易。文本分类首先要进行特征抽取。所谓特征是指一个词或词组。目前英文分类算法大多以单词为特征，在分词的时候利用空格和其它一些标点符号作为分隔符，从而抽取出文档中出现的所有特征，所有抽取出来的特征称为全特征集。特征抽取完毕后一般还要进行特征提取。特征提取是指从全特征集中提取一个子集的过程。提取出来的子集称为特征子集。根据John Pierre的理论，用来表示文本的特征理论上应具有如下特点;(1)数量上尽量少;(2)出现频率适中;(3)冗余少;(4)噪音少;(5)与其所属类别语义相关;(6)含义尽量明确;从全特征集中提取特征子集时通常根据特征的权值进行取舍，权值的计算方法有多种，比如信息赢取(Information Gain)，互信息(Mutual Information)等。特征提取后就可以用特征子集来表示文本，然后就可以构造用不同分类方法用来分类。常见的分类模型有:(1)K一近邻模型，(2)Rocchio模型，(3)贝叶斯模型，(4)神经网络模型，(5)决策树模型。目前研究人员己经提出了许多文本分类方法，如向量空间法(VSM)、回归模型、K近邻法、贝叶斯概率方法、决策树、神经网络、在线学习、支持向量机等。在完成特征提取之后，我们就可以使用这些特征来表示一个文本。具体的表示方法因分类方法而异。每种分类模型都会采用自己的方法来表示一个文本，并将这种表示方法纳入到自己的体系中去。所有的分类模型大体上都可分为训练和分类两个步骤。一般来说，训练例越多分类的准确度越有保证，但也并不是越多越好。(1)基于TFIDF的Rocchio算法Rocchio算法来源于向量空间模型理论，向量空间模型(Vector space model)的基本思想为采用向量来表示一个文本，之后的处理过程就可以转化为空间中向量的运算。基于TFIDF的Rocchio是这种思想的一种实现方法，其中文本以一个N维向量来表示，向量维数N即特征数，向量分量是特征的某种权重表示，该权值的计算方法称为TFIDF方法，步骤如下:通过TFIDF方法首先将训练集中的文本表示为向量，然后生成类别特征向量(即可以用来代表一个类别的向量)。类别特征向量取值为该类中所有文本向量的平均值。Rocchio算法训练的过程其实就是建立类别特征向量的过程。分类的时候，给定一个未知文本，先生成该文本的向量，然后计算该向量与各类别特征向量的相似度，最后将该文本分到与其最相似的类别中去。向量的相似度度量方法有两种:(以x,y代表向量，xi,yi代表向量分量):总体来看，Rocchio算法简单易行，运行速度尤其是分类速度较快。(2)朴素贝叶斯模型贝叶斯分类是一种统计学分类方法，它基于贝叶斯定理，可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率。分类时根据预测结果将该样木分到概率最高的类别中去即可。假定有m个类c1,c2,c3Cm，给定未知文本X,贝叶斯分类将给出条件X下具有最高后验概率的类别，即最大化P(Ci|X)根据贝叶斯定理可得:显而易见，P(X)对于所有类是个常数，则只需最大化P(X|Ci )P(Ci)即可。P(ci)可以根据训练集中的类别分布来计算，即,其中|Ci|为类别Ci包含的文本数，|D|为训练集中的文本总数。在一个具有许多属性的事例中，计算P(X|Ci)的开销会非常大，为了降低这种开销而引出了称为类条件独立的朴素假定:假定文档的一个属性对于分类的影响独立于其他属性，即文档的属性之间是不相关的。这就是朴素贝叶斯(Nave Bayes)的由来。这样就可以简单的以各个属性在类别Ci上出现的概率来推算P(X|Ci)。通常使用拉普拉斯估计(Laplacean prior)来推算。又因实现细节的不同有两种朴素贝叶斯模型，多元模型(Multi-variate Bernoulli Model)只考虑了特征在文本中是否出现(出现记为1，否则记为。)，多项式模型(Multinomial Model)考虑了特征在文本中的出现次数:朴素贝叶斯分类模型训练的过程其实就是统计每一个特征在各类中出现规律的过程。从理论上讲，贝叶斯分类的出错率最小，就试验结果来看，朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。(3)决策树决策树(Decision Tree)是一个类似于流程图的树结构，其中每个节点代表一个属性上的测试，每个分支代表一个测试输出，最后的叶结点代表类别。决策树方便改写为形如if-then的分类规则，易于理解。决策树的核心算法是一种贪心算法，它以自顶向下的方式在训练集的基础上构造决策树，之后取未知文本的属性在决策树上测试，路径由根结点到叶结点，从而得到该文本的所属类别。决策树的算法有C4.5(发展于ID3),CART,CHAID等，他们的区别在于构造决策树与树枝剪除的算法细节不同。决策树可以很好的抵抗噪声。最大的缺点在于不适应大规模的数据集，此种情况下决策树的构造会变得效率低下。(4)神经网络神经网(Neural Network)的学习结果为目标函数，根据这个目标函数的输出作为分类的依据。输入即为文本在各个特征上的各分量值。神经网络实际上是一组连接的输入/输出单元，其中每一个连接都具有一定的权值。通过训练集来训练的过程就是调整这些权值的过程，使得神经网络可以正确的预测类别。神经网络的训练是针对训练例逐个进行的，所以神经网络的训练集可以随时添加，不需要重新进行训练就可完成网络的调整。同时有实验结果表明，在训练例过少的情况下，神经网络的分类准确率较低。因为可通过训练来针对特征取一定的合适的权值，神经网络可以较好地抵御噪音的干扰。(5)K近邻K近邻分类(K-nearest neighbor)的思想也来源于向量空间模型，同样采用将文本转化为向量的思想。KNN是一种基于类比的分类方法。在训练的过程中KNN会生成所有训练例的特征向量，并将其保存下来。给定一个未知文本，首先生成它的特征向量，之后KNN会搜索所有的训练例，通过向量相似度比较从中找出K个最接近的训练例，然后将未知文本分到这K个近邻中最普遍的类别中去。相似度可以通过欧几里德距离或向量间夹角来度量。根据经验x一般取45。KNN是一种懒散的方法，即它没有学习过程，只是存放所有的训练例，直到接到未知文本的时候才建立分类。ON的训练过程较快，而且可以随时添加或更新训练例来调整。但它分类的开销会很大，因为需要很大的空间来保存训练例，而且分类效率很差。有看法认为在小数据集上KNN的表现优异。(6)SVM方法SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中，以期获得较好的综合能力。SVM专门针对有限样本，其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值(KNN和Naive Bayes方法基于样本数趋于无穷大)，从理论上说，SVM得到的将是全局最优点，从而解决了在神经网络方法中无法避免的局部极值问题。此外，SVM将实际问题通过非线性变换转换到高维的特征空间，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，特殊性质能保证机器有较好的推广能力，同时它巧妙地解决了维数问题，其算法复杂度与样本维数无关。5、网页分类方法一般来说，网页中对于分类有作用的部分首先是核心文本，即网页中关于网页内容的文本部分。其次是结构信息和超链接信息，再其次是多媒体信息。多媒体信息的识别涉及图像检索、语音识别等技术，且目前没有较好的结果，因此很少被考虑。我们进行网页分类的基本思路是:(1 )利用自行研制的网页解析器分离出目标网页的核心纯文本。(2 )利用自行研制的分类系统TCS对目标网页的核心纯文本部分进行分词、特征提取等操作，并产生目标网页的初始特征向量。(3)根据特征向量进行分类，确定目标网页的类别。通常采用以下五种标准在不同的方面来评价一个分类器:(1)精度(precision)(2)查全率(recall)(3) F标准综合了精度和查全率，将两者赋予同样的重要性来考虑，即，其中r代表查全率，p代表精度。这三个标准都只用于分类器在单个类别上分类准确度的评价。(4)宏观平均值(macro-averaged score)(5)微观平均值(micro-averaged score)。Web结构挖掘：整个Web空间中,有用知识不仅包含在Web页面内容中,也包含在Web页间超链接结构与Web页面结构之中。挖掘Web结构的目的是发现页面的结构和Web间的结构,在此基础上对页面进行分类和聚类,从而找到权威页面,这种方法可以用来改进搜索引擎。在搜索引擎中存贮了数以亿计的页面，很容易得到它们的链接结构。需要做到的是寻找一种好的利用链接结构来评价页面重要性的方法。Page Rank的基本思想是:一个页面被多次引用,则这个页面很可能是重要的;一个页面尽管没有被多次引用,但被一个重要页面引用,该页面也可能是很重要的;一个页面的重要性被均分并被传递到它所引用的页面。在Page Rank方法中，Page Rank被定义为:设u为一个Web页。Fu为所有的u指向的页面的集合，Bu为所有的指向u的页面的集合。设Nu=Fu为从u发出的链接的个数，C(C1)为一个归一化的因子(因此所有页面的总的Page Rank为一个常数)，那么u页面的Page Rank被定义为(简化的版本):即一个页面的PageRank被分配到所有它所指向的页面:每一个页面求和所有指向它的链接所带来的PageRank得到它的新的PageRank。该公式是一个递归公式，在计算时可以从任何一个页面开始，反复计算直到其收敛。对于搜索引擎的键值搜索结果来说，PageRank是一个好的评价结果的方法，查询的结果可以按照PageRank从大到小依次排列。从we b结构挖掘的现状来看，纯粹的网络结构挖掘研究很少，多数是和其它web挖掘形式结合起来。主要的研究集中在网络虚拟视图生成与网络导航、信息分类与索引结构重组、文本分类、文本重要性确定等几个方面。关键页/权威页(Hub/ Authority)方法页面的超链接关系十分复杂,例如:有的链接是为了导航,因此不能简单认为超链接即是引用关系;此外由于商业的需要,很少有页面会把其竞争对手的页面作为链接。正是由于超链接结构中存在着以上的缺陷,出现了关键页/权威页方法。关键页/权威页方法的思想是: Web上存在着一种重要的页面。所谓关键页指的是自身不一定为多个页面所链接,但是它的页面上存在着就某个专业领域而言最重要的站点链接。对于这种关键页,它起到了隐含说明其他Web文档页面重要性的作用。一个权威页应当是被多个关键页所链接的,而一个关键页应当包含很多权威页的链接。将关键页与权威页的这种联系按照算法计算出来,就是关键页/权威页方法的主要思想。HITS和Page Rank、以及在链接结构中增加了Web内容信息的HITS改进算法等，主要用于模拟Web站点的拓扑结构，计算Web页面的等级和Web页面之间的关联度，典型的例子是Clever System和Google.Web使用挖掘：Web使用挖掘又叫Web使用记录挖掘,是指通过挖掘Web日志记录来发现用户访问Web页面的模式。可以通过分析和研究Web日志记录中的规律,来识别电子商务的潜在客户;可以用基于扩展有向树模型来识别用户浏览模式,从而进行Web日志挖掘;可以根据用户访问Web的记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度。Web日志挖掘过程一般分为3个阶段:预处理阶段、挖掘算法实施阶段、模式分析阶段。Web服务器日志记录了用户访问本站点的信息,其中包括IP地址、请求时间、方法、被请求文件的URL、返回码、传输字节数、引用页的URL和代理等信息。这些信息中有的对Web挖掘并没有作用,因此要进行数据预处理。预处理包括数据净化、用户识别、事务识别等过程。通过对Web日志预处理后,就可以根据具体的分析需求选择访问模式发现的技术,如路径分析、关联分析、时序模式识别以及分类和聚类技术等。模式挖掘出来以后还要进行分析,使之得到很好的利用。常用有两种方法发现用户使用记录信息。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据,二是对日志数据进行直接访问以获取用户的导航信息;另一种是通过对用户点击事件的搜集和分析发现用户导航行为。从研究目标的角度看,已有的基于Web服务器日志数据的研究大致可以分为3类:以分析系统性能为目标;以改进系统设计为目标;以理解用户意图为目标。由于各目标针对的功能不同,采取的主要技术也不同。用户使用记录的挖掘通常要经过下面3个步骤:数据预处理阶段。这是使用记录信息挖掘最关键的阶段,数据预处理包括:关于用户使用记录的预处理、关于内容预处理和结构的预处理;模式识别阶段。该阶段采用的方法包括:统计法、机器学习和模式识别等方法。实现算法可以是:统计分析、聚类、分类、关联规则、序列模式识别等;模式分析阶段。该阶段的任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式。具体的实现方法要依具体采用Web挖掘技术而定,通常采用的方法有两种:一种采用SQL查询语句进行分析;另外一种将数据导人多维数据立方体中,而后利用OLA P工具进行分析并提供可视化的结构输出。对挖掘用户使用记录的研究早期多采用的是统计的方法,当用户通过浏览器对Web站点进行访问时,建立统计模型对用户访问模式进行多种简单的统计,如频繁访问页、单位事件访问数、访问数据量随时间分布图等。早期使用的方法为以广度优先算法为主的统计模型,还有一种启发式的HPG(hypertext probabilistic grammar)模型用于用户导航行为的发现,它也是一种基于统计的方法,由于HPG模型与k阶马尔可夫模型相当,所以近来也有人提出用马尔可夫模型挖掘用户使用记录。Web日志的挖掘的方法可以分为(1)以JiaWei Han为代表的基于数据立方体（data cube）的方法：将Web日志保存为数据立方体，然后在其上进行数据挖掘和OLAP操作；（2）以Ming-Syan Chen为代表的基于Web事物的方法：他们首先提出了最大向前引用序列（MFR）的概念，用MFR将用户会话分割成一系列的的事务，然后采用与关联规则相似的方法挖掘频繁浏览路径。Web行为挖掘在电子商务中得到了广泛的应用,在对事务进行了划分后,就可以根据具体的分析需求选择访问模式发现的技术(路径分析、关联、规则挖掘、时序模式以及聚类和分类技术等)Web使用挖掘中的模式分析,主要是为了在模式发现算法找到的模式集合中发现有趣模式。开发各种Web分析技术和工具,可辅助分析人员加深理解并使各种挖掘方法得到的模式获得充分利用。如Webwiz (pitkow)系统可将www的访问模式可视化;Webminer则采用类SQL语言的知识查询机制;另外也可以利用存储Web使用数据的数据仓库,采用OLAP方法发现数据中的特定模式。6、Web数据挖掘的四个步骤:1、查找资源:任务是从目标W e b文档中得到数据。2、信息选择和预处理:任务是从取得的W e b资源中剔除无用信息和将信息进行必要的整理。3、模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4、模式分析:验证、解释上一步骤产生的模式。7、Web挖掘在Internet上有非常广泛的应用,比较常见的有:(1)帮助寻找用户感兴趣的新闻或其他信息以在Web站点中提供个性化服务,吸引更多用户。(2)在搜索引擎上对文档进行自动分类从而降低在搜索引擎上为组织整理Internet文档所需消耗的人力资源,也可以对Web页面进行排序,改进搜索引擎。(3) Web日志挖掘在电子商务领域有很广阔的应用前景,如发现顾客的购买习惯和浏览兴趣所在,有针对性调整销售模式,提高业务量。8、通常Web挖掘可以分为3个子任务：资源发现、信息提取、概括。资源发现：是指从Web上搜索可用的信息；信息提取：是从已经发现的资源中提取出有用的信息。对于文本信息而言，不仅要考虑文本内容，而且也要考虑文本的结构；概括：是对Web信息自学习的过程，通过学习抽取一定的规则。一般来说，Web挖掘的数据来源途径有两个：搜索引擎的结果集和Web上的在线信息。这两种方式各有所长，需要视具体的应用而定。目前，已经有几种资源发现模型广泛应用于Internet上：目录/浏览模型(WAIS and Gopher)、检索模型(Archie and AltaVista)、超立方体(Yahoo and Excite)。许多资源发现工具大都采用了基于Robot的检索模型，这种方法扫描Web上的所有文档，并建立索引，但它同时也将一些不相关的信息和过时的信息包含进来。9、Web挖掘的发展方向:目前，在国内外Web挖掘的研究处于刚起步阶段，是前沿性的研究领域。将来几个非常有用的研究方向是：（1）Web数据挖掘中内在机理的研究；（2）Web知识库（模式库）的动态维护、更新，各种知识和模式的融合、提升，以及知识的评价综合方法；（3）半结构、非结构化的文本数据、图形图像数据、多媒体数据的高效挖掘算法；（4）Web数据挖掘算法在海量数据挖掘时的适应性和时效性；（5）基于Web挖掘的智能搜索引擎的研究；（6）智能站点服务个性化和性能最优化的研究；（7）关联规则和序列模式在构造自组织站点的研究；（8）分类在电子商务市场智能提取中的研究。10、研究意义和方向：路径模式挖掘在Web中，文档通过超链连接便于用户浏览，用户为寻找信息经常通过超链从一个页面跳到另一个页面。捕捉用户浏览路径称为Path analysis。理解用户浏览路径有助于改进系统设计，而且有助于作出更好的市场决策，例如在适当的页面出增加广告.Web中的智能查询数字时代的图书馆并不是一个有组织的信息仓库，而更象一个又一个杂乱无章的信息仓库，Web中的智能查询包括以下三个方面:1)资源发现:重点是自动生成可查找的索引。2)信息抽取:发现了资源后，下一个任务就是进行信息的自动抽取。3)信息归纳:利用分类技术可自动组织和管理数据，也可以发现用户感兴趣的模式。Web智能工具We b上的用户需要借助与软件系统来抽取、定位和管理Web文档，才能跟上信息的改变速度。这种软件系统叫做Web工具.现有的Web工具缺乏识别和使用深层语义的能力，查询语言描述能力有限。新一代的智能Web工具，利用智能Agent帮助用户发现新的信息。它可以自动地获取用户的兴趣主题，发现用户的浏览模式和信息资源的修改模式。能更有效地利用网络资源，将多个用户的查询要求聚成组，减少查询次数。将抽取的文档及其全文索引保存在数据库中，并发现各种有用的模式。提高网络响应速度传统解决网络响应速度慢的途径，一般都基于客户端:如优化传输，减少阻塞;根据预测，预先传输某些页面。在服务器端利用关联规则挖掘，不仅可以提高网络的响应速度而且可以有效地调度网络代理的缓存。当用户浏览某个页面时，网络代理可根据关联规则预先下载与该页面相关联的页面，即用户很可能访问到的页面，从而提高网络的响应速度，因为关联规则是基于统计规律的，反映了大多数用户的兴趣。11、基于Web挖掘的个性化技术的发展(1)与人工智能技术的结合个性化系统领域的许多问题最终都可归结到机器学习、知识发现等问题上。用户建模过程用通常都应用到代理和多代理技术。因此人工智能技术与Web挖掘技术的结合将会促进Web个性化系统的飞速发展。(2)与交互式多媒体Web技术的结合随着下一代Internet技术的飞速发展与应用，未来的Web的将是多媒体的世界。Web个性化技术和Web多媒体系统结合出现了交互式个性化多媒体Web系统。支持海量多媒体数据流的内容挖掘将成为Web挖掘技术的基本功能之一。由于这种基于内容的交互式个性化多媒体Web系统更能满足用户需要，因此也将成为Web个性化系统的发展方向之一。(3)与数据库等技术的结合12、数据挖掘和知识发现的发展方向：1、挖掘算法的效率和可扩放性。目前数据库数据量大，维数高，使得数据挖掘的搜索空间增大，发现知识的盲目性提高。如何充分利用领域的知识，剔除与发现任务无关的数据，有效地降低问题的维数，设计出高效率的知识发现算法是下一步发展的重点。2、数据的时序性。在应用领域的数据库中，数据在不断地更新，随着时间的推移，原先发现的知识将不再有用，我们需要随时间逐步修正发现模式来指导新的发现过程。3、和其它系统的集成。知识发现系统应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多相技术集成的系统。4、交互性。可以利用贝叶斯确定数据的可能性及其分布来利用以前的知识，再就是利用演绎数据库本身的演绎能力发现知识，并用于指导知识发现的过程。5、发现模式的精炼。可以利用领域知识进一步提炼发现模式，从中提取有用的知识。6、互联网上知识的发现。WWW正日益普及，从中可以找到很多新的知识，已有一些资源发现工具来发现含有关键字的文本，但对在WWW上发现知识的研究不多。加拿大的HAN等人提出利用多层次结构化的方法，通过对原始数据的一般化，构造出多层次的数据库。例如可将WWW上的图象描述而不是图像本身存储在高层数据库中。现在的问题是如何从复杂的数据(例如多媒体数据)中提取有用的信息，对多层数据库的维护，如何处理数据的异类性和自主性等等。13、文本挖掘面临许多新的研究课题:( 1)文本挖掘算法的可扩展性问题Internet的发展,电子商务和数字图书馆的兴起和广泛应用,永久存储设备价格的不断降低,所有这些都使得各单位储存的文本信息规模空前庞大。要对如此之大的文本集合进行处理,必须有快速高效的文本挖掘算法。( 2)文本表示文本挖掘处理的是自然语言表示的文本,是无结构或半结构化数据,缺乏计算机可理解的含义,在进行文本挖掘之前,需要对文本进行预处理及特征提取,将其表示为计算机可读的一种中间形式。目前,虽然自然语言处理领域的研究已取得较大进展,但还没有一种能够完全表示文本语义的中间形式。对于不同的挖掘目的,需要使用不同复杂度的中间表示形式。对于细粒度的、领域特定的知识发现任务,需要进行语义分析,以得到足够丰富的表示,抓住文本中对象或概念之间的关系。但是语义分析计算量大,如何更快速地进行语义分析并且对于大文本集合具有可扩展性是一个挑战性的问题。( 3)跨语言问题由于自然语言的多样性,各种语言各有其特点,在一种语言中有效的文本挖掘功能却很可能不适用于其它语言,尤其是印欧语系语言与汉语之间。并且随着经济的全球化,待处理的文本集合中可能存在多种语言写成的文本,因此,文本挖掘功能要考虑到多种语言之间的语义转换。( 4)算法的选择面对多种多样的文本挖掘算法,不同算法各有其特点,如何从中选择一个合适的算法是一个尚待研究的问题。因为作为一般用户来说,他们很难搞懂每个算法的原理和要求。( 5)算法运行中参数的设定很多算法运行时需要用户设定参数,有些参数的含义较难理解,因而也很难正确设定。如何让算法自动地选择相对较好的参数值,并且在算法运行的过程中自行调节参数的取值,是很多算法能否被广大使用的一个关键问题。( 6)模式的理解和可视化显示文本挖掘算法所发现的知识模式形式多样。提高这些模式的可理解性也是研究者们不得不面对的问题。提高可理解性的解决方法通常包括以图形方式显示结果,提供相对少量的规则,或者生成自然语言以及利用可视化技术等。而目前的文本挖掘系统,其面对的用户大多是有经验的专家,一般用户很难使用。( 7)领域的知识集成当前的文本挖掘系统大都未采用领域知识。领域知识很有用,它可以提高文本分析效率,有助于取得更紧凑的表示形式等,因此,可以考虑把领域知识集成到文本挖掘系统中。( 8)中文文本分词技术在印欧语系语言中,词与词之间有空格作为固定的分隔符,因此很容易进行分词。而在中文中,词与词之间没有分隔符,一个句子是由一串连续的汉字组成,加之汉语中的词具有不同的长度,相同的字可出现在许多不同的词中,还有许多词由单个字组成,这使得对中文文本进行正确分词面临较多挑战。尽管文本挖掘领域还存在许多亟待解决的问题,但是在需求的强烈推动下,许多计算机厂商纷纷推出文本挖掘软件,典型的应用领域包括将文本挖掘应用于网站管理,信息分流和过滤;应用于市场管理,质量管理和顾客关系管理以及利用

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

web数据挖掘总结.docx

文档简介

温馨提示

最新文档

评论

web数据挖掘总结.docx

文档简介

温馨提示

最新文档

评论

相关文档