《大数据分析与挖掘》第6章4大数据挖掘-非结构化

上传人：简*** IP属地：河北上传时间：2024-07-18 格式：PDF 页数：71 大小：8.66MB 积分：12 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2022年-2023年最新

大数据技术在企业创新背景下高

校物流人才培养中的转化与应用

——08非结构化数据挖掘一一

主讲：朱明

高级匚程师、高级技师、国家经济加

高级国家职业技能鉴定考评员

高级技能专业教肺

朱明■■百度个火空页朱明工作室

□知足常乐，历经:兵农医工商学。

□历经：兵团开车，赤脚医生、教师、地方修车，

□企业管理：技术、运营、物流、安全、保卫,

□职任：客运站长、公司经理，集团技术总监,

□总经理及法人代表。

学历：本科、MBA,

□专业：汽车维修与使用、企业管理、经济管理。

□职业资格与职称：高级工程师、高级技师、国家经济师、

高级技能专业教师、高级国家职业资格考评员。

管理科学研究院特约讲师、

□管理顾问有限公司高级讲师。

□客座任教：大学、技师学院、国家职业资格培训与考评及

□企业内部职业培训。

2022年-2023年最新

l^arti.

非结构化数据概要

2022年-2023年最新

结构化、半结构化和非结构化数据

•定义

•结构化数据，即行数据，存储在数据库里，可以用二维表结构来逻辑表

达实现的数据；

非结构化数据，不方便用数据库二维逻辑表来表现的数据

•存储格式的区别

•关系数据库一结构定义不易改变，数据定长。

非结构化数据库一是指其字段长度可变，并且每个字段的记录又可以由

可重复或不可重复的子字段构成的数据库。

2022年-2023年最新

,应用场景

・全球多达80%的大数据是非结构化的，如博客、微博等内容，其次人类

的自然语言语气、语调、隐喻、反语等非常复杂，简单的数据分析模型

无法应对。

•结构化数据的典型场景为：企业ERP、财务系统；医疗HIS数据库；教育

一卡通；政府行政审批；其他核心数据库等

•非结构化数据，包括视频、音频、图片、图像、文档、文本等形式。典

型案例如医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、

文件服务器（PDM/FTP）、媒体资源管理等。

•半结构化数据，包括邮件、HTML、报表、资源库等等，典型场景如邮件

系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。

2022年-2023年最新

•非结构化数据处理技术包括：

•Web页面信息内容提取；

•结构化处理（含文文本的词汇切分、词性分析、歧义处理等）；

•语义处理（含实体提取、词汇相关度、句子相关度、篇章相关度、句法

分析等）

•文本建模（含向量空间模型、主题模型等）

•隐私保护（含社交网络的连接型数据处理、位置轨迹型数据处理等）

•等等。

2022年-2023年最新

Part2.

文本数据挖掘

2022年-2023年最新

文本挖掘

•文本挖掘以文本型信息源作为分析的对象，利用定量计算和定性分析的方法,

从中寻找信息结构、模型、模式等各种隐含的新颖知识。

•文本挖掘的主要目标是获得文本的主要内容特征，如文本涉及的主题、文本

主题的类属、文本内容的浓缩等。

2022年-2023年最新

•文本分析技术部署：

・智能化理解：确定文字信息，然后进行分类或量化，再进一步分析。

•处理复杂文本：整合两种或更多数据源以获得更深刻的见解。

•颈化管理：透明、简单、准确的文本输出可通过自动审计跟踪、定期检

验和提交合规报告来核查。

2022年-2023年最新

•文本分析技术：

,1.术语文档矩阵(ATermDocumentMatrix)：是存在和频率可以用数字显示在”数据集，并直接并

入最佳预测模型，可进行复杂的数据运算，以确定哪些属于信号最强、哪些特定术语应进行组合以从

原文中识到出较大的概念。

•2.命名实体识别(NamedEntityExtraction,NEE)：基于自然语言处理,借鉴了计算机科学、人工智能

和语言学等学科，可以确定哪些部分可能代表如人、地点、组织、职称、产品、货币金额、白分比、

日期和事件等实体。NEE算法为每个标识的实体生成一个分数，该分数表明识别正确的概率。我们可

以视情况设定一个阈值，来达到我们的目的。

•3.文档主题生成模型(LatentDirichletAllocation,LDA)：主要用于监测客户行为变化，它可以发现数

据的相似性以便进行分类和分组。LDA使用统计算法从非结构化数据抽取主题、概念和其他含义，它

不理解语法或者人类语言，而只是寻找模式。任何数量、类型非结构化的、半结构化和结构化源数据

都可以应用LDA监测模式来进行分析。

•4.文本情感分析。文本情感分析(也称为意见挖掘)是指用自然语言处理，文本挖掘以及计算机语言学等

方法来识别和卫乂原素材中的主观信息。通常来说，理分析的目的是为了找出说话者/作者在某些

话题上或者针对二个文本两极的观点的态度。

2022年-2023年最新

文本挖掘的一般过程

文本挖掘的主要过程

过程任务

文本准备具体任务包括词性的标注、句子和段落的划分、文本过滤。

厂邈过计算机系统自动选择一组主题词或关键词可以作为文本的特

特征标引

征表小。

自动从原始特征集中提取出部分特征的过程被称为词频矩阵降维。两

词频矩阵降维种途径：一是根据对样本集的统计分析，删除不包含任何信息或只包

含少量信息特征；—是将若十低级特征合成一个新特征。

知识模式的提取发现文本中的不同实体、实体之间的概念关系、类型的隐含知识。

知识模式评价从提取出的知识模式集合中筛选出用户感兴趣的、有意义的知识模式

知识模式的输出用知识可视化；概念图软件套件等方式展现在用户的面前。

2022年-2023年最新

文本表示与预处理

•文本表示

•文本表示是指用文本的特征信息集合来代表原来的文本。

•文本的特征信息是关于文本的元数据，可以分为外部特征和内部特征两种类

型。文本的外部特征包括文本的名称、日期、大小、类型、文本的作者、标

题和机构等信息。文本的内部特征包括主题、分类、摘要等信息。

2022年-2023年最新

•文本的表示方法主要采用向量空间模型(VSM)。

•向量空间模型主要用于文本内容特征的表示，一般使用词来代表文本的特征

信息，我们称每个词为一个特征项。

・向量空间模型的基本思想是以向量(wl,w2,…,wn)来表示文本，其中wi为第i

个特征项的权重。可以选择字、词或者词组作为特征项。

•采用向量空间表示文本，文本挖掘问题就被转化为数据挖掘问题。这种表示

方法由于在用一个简单的向量表示一篇文本时会损失文本中的大量信息，这

种信息的损失会影响到挖掘的效果。

•通常选择词作为特征项，并使用词频来表示特征项对应的分量。

2022年-2023年最新

词频分为绝对词频和相对词频两种。绝对词频是指词在文本中出现

的频率；相对词频是规范化的词频，即要求所有向量分量的平方

和为1。

相对词频的计算方法主要运用TF[DF公式。

log（N/%+0.01）

其中：W（rJ）为词t在文本d中的权重11t为训练文体中出现t的文本数

为词t在文本d中的词频分母为规范化因子

N为训练文本的总数

2022年-2023年最新

*文本分词

•分词是中文信息处理从字符处理水平向语义处理水平迈进的关键，它是中文

自动标引的基础。

•汉语分词的难点主要表现在两个方面：

•歧义切分：汉语字与字之间组词灵活，给分词带来了很大困难。从上下文关

系的角度看，其中只能有一种切分结果是正确的。另外，从标引角度讲，还

存在交集型字符串。

・未登录词：主要是指分析系统的词典中未收录的词。不断出现的新词属于另

外一类未登录词。

2022年-2023年最新

•分词技术可以分为5类：词典分词法、切分标记分词法、基于统计的分词方

法、基于语言规则的分词方法和智能分词法。

,1）词典分词法

•构造一个机内词典（主题词典、关键词词典和部件词词典）并将其与被标引

的信息进行匹配，当从处理的信息中得到词典词汇时，好把它作为后备标引

词记载下来，最后利用西文成熟的标引技术进行标引处理。

•词典法主要用于主题相对集中的信息库。

•词语匹配方法有：就扫描的顺序而言有正向扫描匹配，逆向扫描匹配和正逆

向结合扫描匹配，其中正逆向结合扫描匹配可以解决交集型字符串的切分问

题。

•在进行词语匹配时，有最长匹配、最短匹配、长短匹配结合、词首匹配等多

种策略。

2022年-2023年最新

•2）切分标记分词法

•利用切分字典指导分词。

•切分字典是由能够断开词和词组或表示汉字之间关系的汉字集合组成字典，

包括的内容有词首字、词尾字等，也有的系统以非用字、条件用字等组成切

分字典。

•切分标记分词法的典型代表是非用词后缀表示方法。

•该方法将汉字分为“非用字”、"条件用字”、"表内用字”、"表外用

字“，但主要利用“非用字”和"条件非用字”进行词语的划分。

2022年-2023年最新

•3）基于统计的分词方法

•用字与字相邻共现的频率来反映字符串确实是一个词的可信程度。

•在上下文中，相邻的词同时出现的次数越多，即越有可能构成一个词。

•4）基于语言规则的分词方法

•在分词的过程中加入词法、语法以及语义规则等来提高分词的质量。

一般都是人工添加规则，或者在人工添加的基础上再从有限的训练语料库中

得到分词规则。

2022年-2023年最新

•5）智能分词法

•利用人工智能的方法进行分词。

常用的有中心词驱动分析法、分词与句法语义分析同步处理法和分层理解分

析法等。

•主要思想是建立分词知识库（包括词类词典、句法和语义规则知识库、专门

领域知识库和背景知识库等），并以分词知识库为基础进行推理和语句判断,

达到正确分词的目的。

2022年-2023年最新

•(3)文本标引

•标引就是描述信息内容特征的全过程，一般选取的标引词多为名词，因此在

选取标引词前需要进行文本进行词性标注。

•标引可分为人工标引和计算机自动标引。

常见的自动词性标注方法有基于概率统计的标注方法和基于规则的标注方法

两种类型。

2022年-2023年最新

•(4)文本相似度计算

一般认为相似的文本具有相似的关键词和相对词频，因此一般一组文本的相

似度可以用基于关键词向量或相对词频向量来计算，利用文本的相似度可以

对文本进行分类和聚类，或抽取重要的语句或重要段落。

•在文本与词的相关矩阵(tiji=l,2,…,m;j=l,2,…,n)中，其中tij表示第i

篇文本与第j个词的相关程度，tij的取值范围为［0,1］。

•利用文本与词的相关矩阵可以分析文本间的相关性。

2022年-2023年最新

•相关性的大小可以用相关系数S来度量，第i篇文本与第j篇文本的相关系

数可以表示为Sij。

•计算相关系数的方法有多种，其中，余弦系数法最为常用：

•望4和％为两个文本特征向量，它们的余弦相似度定义也可以表示成如下形

cos(d1,d2)=(d1-d2)/|d1||d2|

其中分d,为标准向量积，分母中的|d"是向量为的长度，|d,|是向量力的长度。

2022年-2023年最新

•(5)词频矩阵降维

•词频矩阵降维就是对特征集进行缩减，降低词频矩阵的维度，以便提高程序

效率和运行速度。为了解决这个问题，人们提出了概念标引降维、潜在语义

标引降维等方法。

•概念标引降维就是用表示主题概念词对文本进行标引。概念标引一般需要构

造一部好的层次概念词典。层次概念词典的主题概念方法包括通过聚类产生

上位词作为主题概念和由两个或两个以上的主题词合成主题概念。

•潜在语义标引法降维是利用矩阵理论中的“奇异值分解”技术将词频矩阵转

化为低维度的矩阵。它利用概念标引取代关键词标引，从语义相关的角度为

文本选取标引词，而不考虑标引词是否在文本中出现。

2022年-2023年最新

•(6)重复文本处理

•相关文章分析技术可用于处理重复文本。其主要的原理如下：

•第一步，对文档建立部分词索引(非全文索引)，这些词被确认为表达文章

主要概念的词，主要是名词、动词和形容词等实词，不包含连词和助词等虚

词；

•第二步，在进行相关文章分析处理时，首先对输入的文档进行分析，找到有

意义的索引词；

•第三步，逐词到索引库中查找与之相关的文档，并记录查询结果；

•第四步，根据每篇文档中包含索引词的多少、词频、文档的长度等信息来计

算相似度；

•第五步，根据相似度的大小进行排序，最相似的文档往往就是重复的文档。

2022年-2023年最新

•(7)文本过滤

•文本过滤就是从文本数据流中寻找满足用户特定需求的文本过程。这种过程

一般通过文本过滤系统来动态进行处理。

•它一般需要解决用户需求的表达、合适阀值的确定、用户的兴趣与动态文本

信息流的匹配等问题。

•用户需求的表达用于刻画用户特征与用户之间的关系。它可以分为基于兴趣

和基于行为的两种类型。

•文本过滤技术可以分为基于内容的文本过滤和基于协作的过滤。

2022年-2023年最新

3.文本分类与文本聚类方法

（1）文本分类

本进行

朱口，1口

类别描述

向量空间模型法将文本内容转换为向量,利用相似度运算进行分类。

基于关联的分类方法用信息检索技术等提取关键词，生成概念层次，利用关联分析对文档分类。

用算术平均为每类文本集生成中心向量，利用新文本向量与中心向量间相似度分

简单向量距离分类法

类。

计算文本属于类别的概率方法：计算特征词属于每个类别的概率向量；对于新文

简单的贝叶斯分类法本利用概率向量计算该文本属于某类的概率；比较新文本属十所有类的概率，将

文本分到概率最大的那个类中。

根据特征项集合描述训练文本向量,将新文本表小为特征向量,在训练文本集中

K最近邻居（KNN）

与该新文本距离最近的K篇文本，根据这最近的K篇文本所属的类别判断新文本的

算法

类别。

支撑|可量机(Support它不是通过减少特征的个数来控制模型的复杂性。在训练集上，作超平面的线性

VectorMaclune,SVM)划分，先将分类问题转化为寻找空间最优平面问题，再转化为一个二次规划问题。

2022年-2023年最新

•(2)文本聚类

•将数据挖掘中的聚类算法用于文本类别生成。

•常见方法包括划分聚类、层次聚类、基于统计分类、基于神经网络分类和基

于遗传算法分类等多种算法。

2022年-2023年最新

4.自动摘要方法

自动摘要方法

类别描述

自动在文中抽取主题句，计算句子中每个词的权值；计算每

个句子的权值；对原义中所有的句子按权值的高彳氐进行降序

自动摘录排列，权值最高的若干句子被选为摘要句；将所有的摘要句

按照在原文中的出现顺序输出。权值的计算主要依据：标题

词、词或句子的位置、句法结构和线索词。

基于理解的方法语法分析、语义分析、语用分析和信息提取、文本生成。

只对有用的文本片段进行有限深度的分析，其效率和灵活性

信息抽取

较息1。

基于结构的方法利用用义章的篇章结构生成摘要。

2022年-2023年最新

©art

Web数据挖掘

2022年-2023年最新

Web数据挖掘

•Web挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感

兴趣的信息。

•Web挖掘是一项综合技术，涉及Internet技术、人工智能、计算机语言学、

信息学、统计学等多个领域。

•通常：

数据汇总及模式识

资源发现别阶段

数据抽取及数据预分析验证阶段

处理阶段

Web挖掘过程的处理阶段

2022年-2023年最新

非结构化Web数据挖掘

•(1)Web数据挖掘的难点

•Web上的数据最大特点就是半结构化。

•由于Web的开放性、动态性与异构性等固有特点，要从这些分散的、异构的、

没有统一管理的海量数据中快速、准确地获取信息成为Web挖掘所要解决的

一个难点，也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。

・开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示

是Web挖掘的重点。

2022年-2023年最新

•Web数据挖掘应考虑以下问题：

•1）数据来源分析

•苗至鳖普里亍数据挖掘时’所需要的数据主要来自三个方面："eb服务器中的日志文件'Web服务器中的其他信息以及客户

•2）异构数据环境

•獴自鸣盛嘴盛匾瀛鬻•每个数据源都是异构的,因而每一个站点之间的信息和信息的组织都不一样,这就

•要想利用这些数据进行挖掘,第一要研究站点之间异构数据的集成问题；第二要解决Web上的数据查询问题。

・3）半结构化的数据结构

呢b上的数据没有特定的模型描述,每一个站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性。

•4）解决半结构化的数据源问题

•面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。

•5）文本矽结

•文本总结的目的是对文本信息进行浓缗,给出它的紧凑描述。

,高雪量援药第裳宙域取关键信息,用简洁的形式对文档内容进行摘要或解释。这样用户不需要浏览全文就可以了解文

2022年-2023年最新

•(2)XML与Web数据挖掘技术

,XML是Web应用服务的SGML(standardgeneralmarkuplanguage,SGML)的

一个重要分支，是一种中介标注语言，可以提供描述结构化资料的格式。

•XML提供了一种独立的运行程序的方法来共享数据，它是用来自动描述信息

的一种新的标准语言，它由若干规则组成，这些规则可用于创建标记语言，

并能用一种被称作分析程序的简明程序，处理所有新创建的标记语言。

•XML能够完成那些标准的HTML无法完成的Web应用：需要Web客户端在两个或

多个异质数据库之间进行通信的应用；试图将大部分处理负载从Web服务器

转到Web客户端的应用；需要Web客户端将同样的数据以不同的浏览形式提供

给不同的用户的应用；需要智能Web代理根据用户个人的需要裁剪信息内容

的应用。

2022年-2023年最新

2Web挖掘分类

•Web数据有三种类型：HTML标记的Web文档数据、Web文档内的连接的结构数

据和用户访问数据。

•按照对应的数据类型，Web挖掘可以分为内容挖掘、结构挖掘、用户访问模

式挖掘三类

Web挖掘分类

2022年-2023年最新

Web挖掘三种方法比较

Web内容挖掘Web结构挖掘Web访问挖掘

IR方法数据库方法

处理数据

无结构和半结构化Web结构挖掘用户访问挖掘

类型半结构化数据

数据

自由文本、HTML标HTML标记的超文档内及文档Senferlog,proxyse

主要数据

记的超文本文本间的超链接nTerlog,clientlog

词集、段落、概念、

表小方法OEM关系图关系表、图

IR的三种经典模型

TFIDF、统计、机器

机器学习、专统计、机器学习、

处理方法学习、自然语言埋数据库技术

有算法关联规则

解

模式发现、数据

贞面权重分类用户个性化、自

分类、聚类、模式向导、多维数据

士要应用聚类、模式发适应Web站点、

发现库、站点创建与

现商业决策

维护

2022年-2023年最新

•Web挖掘的基本构架

2022年-2023年最新

•Web挖掘步骤：

•1)资源发现。用爬虫(crawler)和蜘蛛(spider)从www上在线收集页面。浏

览页面是用户请求的页面，一个页面中包括几个框架、图片和脚本。由

于服务器记录的是下传到客户端的一个个文件流，在确定提取浏览页面

时，通常结合网站的拓扑结构，将图片(gif,jpeg,jpg)文件过滤掉。

•2)信息选择与预处理。如英文单词的词干提取、高低频词过滤，汉语词

的切分和索引库的建立；对Web日志文件及Web数据库/数据仓库中的数

据进行数据预处理。从WebServer数据库中抽取相关数据，进行二义性

分析，消除不一致性。确定浏览页面、用户、用户期间(sessions)和用

户访诃序列等，将用户访问网站留下的原始日志整理成事务数据库，以

供数据挖掘阶段使用。

•3)综合过程。发现Web站点的共有模式。

•4)分析过程。对挖掘到的模式进行验证和可视化处理。

2022年-2023年最新

•Web内容挖掘按实现方法

*信息检索(informationretrieve,IR)方法和数据库方法两种策略是在

直接挖掘文档内容和在其他检索工具搜索的基础上进行改进:

2022年-2023年最新

•IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。

•处理非结构数据一般采用词集(bagsofwords)方法，用一组组词条来表

示无结构的文本。首先对文本预处理，用相应的模型表示。用布尔模型表示

某词在文本中是否出现，用向量模型表示出现的概率，用概率模型表示出现

的飒率与是否独立出现，还可用最大序列长度、划分段落和概念分类等方法

表示文本。对词集的处理方法有TFIDF、HiddenMarkovModel,统计方法、

决策树和最大帽等。

•处理由HTML标记的半结构化数据主要利用传统的数据挖掘技术：如关联规则、

分类算法、演绎逻辑和规则学习等。

2022年-2023年最新

•数据库方法，推导出Web站点的结构或把它变成一个数据库。一般用OEM

(Objectexchangemodel,OEM)表小半结构化数据，它彳吏用带标记的图来

表示。其中对象为结点，标记为边，对象由唯一的对象标记符和值组成。

•直接挖掘文档内容：采用这种策略比较好的Web查询语言有WebSQL,Ahoy!等。

•对搜索引擎查询结果的进一步处理：对搜索引擎返回的结果进行挖掘可提供

给用户更为准确的查询结果。

2022年-2023年最新

4Web结构挖掘

•Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。

•由于超文本文档间的关联关系，使得WWW不仅可以揭示文档中所包含的信息,

同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面

进行排序，来发现重要的页面。

•挖掘Web结构的目的是发现页面的结构和Web结构，在此基础上对页面进行分

类和聚类从而找到权威页面。

•PageRank方法就是利用文档间链接信息来查找相关的Web页面。

2022年-2023年最新

•Rank方法(BrineandPage1998)

•Rank的基本思想是：一个页面被多次引用，则这个页面很可能是重要

的；一个页面尽管没有被多次引用，但被一个重要页面引用，该页面也可能

是很重要的；一个页面的重要性被均分并被传递到它所引用的页面中。

2022年-2023年最新

5Web访问挖掘

・用户使用Web获取信息的过程中，需要不停地从一个Web站点通过超文本链接

跳转到另一个站，这种过程在Web上每一个提供信息资源的服务器上都有一

个结构好的记录集，即Web审问log日志，包括服务器端的serverlog.

proxyserverlog和客户端的cookielog等。

•每当有获取资源的请求到来时，Web服务器都将记录和积累了所访问的页面、

时间和用户ID等信息，如表7.6所示。

2022年-2023年最新

服务器日志格式

域(field)描述

请求负面的时间、日期和时区(date、tuneandtunezoneof

日期(date)request)

例：[26/Apr/2003:03:04:41-0500]

客户端匹程主机的IP或者DNS入口(remotehostIPand/orDNSentry

IP(clientlP)例：123.456.77.9

用户名(use】

远程登录的用户名(remotelognameoftheuser)

name)

字出(bytes)发送和接收的字节(bytestiansferrcd(sentandreceived))

服务器(server)服务器、IP地址和端口(seivernamexIPaddressandpoll)

请求(request)URL查询和枝节(URLqueiyandstem)

状态(status)返回给HTTP状态标识(httpstatuscodereturnedtotheclient)

ZUZZ平一ZUZJ中取新

域(field)描述

服务名(service

用户请求的服务名称(requestedservicename)

name)

耗用时间(tmie完成浏览的时间(HE导et廉乐吊悬入密factiontocomplete)

taken)

协议版本传输用的协议版本(versionofusedtransferprotocol)

(protocolversion)例：”GetC.htmlHTTP/LO”

用户代理(user

服务提供者(servicepiovidei)例：Moz(Win98)

agent)

cookie标识号(cookieID)

参照贞(tefeuei)本页的上一页

2022年-2023年最新

Web访问挖掘

•分析不同的Web站点和Web访问日志可帮助人们理解用户行为和Web的结构。

•Web访问挖掘一般分成两种：一般访问模式跟踪和定制使用跟踪。

♦一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向。

•定制使用跟踪分析单个用户的偏好，根据其访问模式为每个用户定制符合其

个人特色的Web站点。

2022年-2023年最新

•对log数据挖掘采用的算法有：路径分析、关联规则及有序模式的发现、聚

类分析等。

•Web访问挖掘主要的应用体现在个性化、系统改进、站点修改、商业智能和

页面推荐上。

•通过分析和探究Web日志记录中的规律可以识别用户，增强对最终用户因特

网信息服务的质量并改进Web服务系统的性能和结构

2022年-2023年最新

•1）预处理主要包括对Web日志进行清理、过滤和转换以及剔除无关记录。

•2）用户访问模式的发现。可以采用统计学、模式识别、人工智能、数据库

数据挖掘等领域的成熟技术在Web的使用记录中挖掘知识。

-3）Web使用挖掘中的模式分析，主要是为了在模式发现算法找到的模式集合

中发现有趣模式。

2022年-2023年最新

6利用Web日志的聚类算法

•客户群体聚类主要是对Web用户行为模式进行分析，从WWW服务器的日志文件

中选取合适的会话向量，归一化处理后得到模式向量，最后生成用户聚类的

过程。

2022年-2023年最新

(1)客户群体的模糊聚类算法

•用C表示客户集合，0{3工2，...,。4；U表示某一站点URL集

合，U={UpU2,Um}；客户J的浏览图可用站点的URL

表示：

其中/(火［0,1］是客户G和)之间的关联度函数

2022年-2023年最新

4A)="上

2aM4)

式中n为URL的数量，hits(U)表示客户q访问URL(Uj)的次数。

利用覃和模糊理论中的相似度度量Sj定义模糊相似矩阵,

再根据相似类［X，的定义构造相似类，合并相似类中的

公共元素得到的等价类记为相似客户群体。

2022年-2023年最新

•(2)用户访问兴趣的算法

•K-Paths聚类方法是一种分割而非分层的聚类算法。

•它是按照路径的相似性进行聚类的算法。

•以一个用户访同事务T为例，它具有n个事务，K-Paths聚类方法将T分为k个

聚类(k<n),并使在每一个聚类中所有事务与该事务所在的聚类中心相似

度的总和最小。

2022年-2023年最新

•(3)客户群体聚类的Hamming距离算法

设x,ycn>1,则x,y之间Hamming距离定义为

“d(x,y)=ZE—y,

/=1

•以Web站点的URL为行、UserID为列建立User-ID关联矩阵，

元素值为用户的访问次数，则有URL-UserID关联矩阵Mmxn

代表客户访问该站点的记录，具有相似记录的客户即为相

似客户群体。若客户仅做了浏览而并未与商家成交，即列

向量中的值是未成交的浏览次数，则此相似客户群为潜在

客户群体，否则为在册客户群体Hd。

2022年-2023年最新

对于"mx〃关联矩阵，若有任意ML/]=I，然后计算列向量

间”omniing距离，从而建立列向量间的距离矩阵在

对称矩阵ME中的4aAi，黑/<〃）表示第，个列

向量和第J个列向量间的"amining距离。对于任意的d,

n,i<j<n\若<刈丸为阈值）则将第i

个客户和所有满足该条件的第，个客户划分为一类。此时若

考虑到客户对某一URL的访问频率，则需要对聚类结果加以

确认。若客户。和K之间连接强度C0（C,K）d、于事先确定的阈

值，则将该客户

。。（。㈤二中„„瓦//汇HI2H牝

/j=l

剔除出上并与其他被剔除的C划分为另一个类k'。

2022年-2023年最新

(4)基于模糊理论的Web页面聚类算法

客户访问情况可用表示。有S；=仁/«旭£吁

其中4(C,)-［0,1］是客户G和URZJ(uJ用的关联度：

4X0=^^-

*"此)

)=1

式中〃7为客户的数量，加75(C)表示客户G访问〃川文7)勺次数。

利用S；和模糊理论中的相似度度量sj定义模糊相似矩阵，再根

据相似类［X，的定义构造相似类，合并相似类中的公共元素得

到的等价类即为相关优b页面。

2022年-2023年最新

(5)Web页面聚类的Hamming距离算法

对于〃关联矩阵，若有任意河上,力>0,可先令何上,，］=1，

然后计算行向量间”a〃niiu】g距离，从而建立行向量间的距离

矩阵”<。在对称矩阵“<中，

表示第i个行向量和第，个行向量间的Hamming^.对于任意

的4)eM忌(1<i<nJ<j<〃>若4,v为阈值)则将第i个

所有满足该条件的第，个URL划分为一类。若考虑到客户

对某一URL的访问频率，则需要对聚类结果加以确认。若URL

C和K之间连接强度C0(C,KM、于事先确定的阈值，则将该URL

C剔除出类A,并与其他被剔除的。划分为另一个类八

2022年-2023年最新

7电子商务中的Web挖掘

•(1)电子商务中Web挖掘的作用

•Web挖掘有利于合理建造网站及合理设计服务器，如辅助改进分布式网络系

统的设计性能，在高度相关的站点间提供快速有效的访问通道；帮助更好地

设计Web主页；帮助改善市场营销决策，如把广告放在适当的Web页上或更好

地理解客户的兴趣，这样的知识有助于商家制定促销策略。

2022年-2023年最新

•(2)电子商务中Web挖掘的基本问题

・移意酒甯吾目融明杳卧Web挖掘大致可分为3类：以分析系统为目标；以设计系统为目标;

•1)用户的确定。

•3)完善访问路径

・由用现

ifiir汩

2022年-2023年最新

•（3）电子商务中的数据挖掘工具

•Web数据挖掘工具按其用途可有以下几种类型:

•1）文本信息挖掘工具

•2）用户访问模式挖掘工具

•3）用户导航行为挖掘工具

•4）综合性的Web分析工具

2022年-2023年最新

空间群数据挖掘

2022年-2023年最新

1空间数据挖掘的概念

,空间数据挖掘(spatialdatamining,SDM)是指从空间数据中抽取隐含的

知识、空间关系、空间及与非空间之间的有意义的特征或模式。

•空间数据挖掘功能可用于分析和解释地

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据分析与挖掘》第6章4大数据挖掘-非结构化

文档简介

温馨提示

最新文档

评论

《大数据分析与挖掘》第6章4大数据挖掘-非结构化

文档简介

温馨提示

最新文档

评论

相关文档