(企业管理专业论文)基于聚类的Web挖掘及电子商务应用.pdf_第1页
(企业管理专业论文)基于聚类的Web挖掘及电子商务应用.pdf_第2页
(企业管理专业论文)基于聚类的Web挖掘及电子商务应用.pdf_第3页
(企业管理专业论文)基于聚类的Web挖掘及电子商务应用.pdf_第4页
(企业管理专业论文)基于聚类的Web挖掘及电子商务应用.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 摘摘 要要 在电子商务蓬勃发展与广泛应用的同时, 所有电子商务决策者们都面临着一 个棘手的问题:如何在不涉及用户隐私的情况下对网站上的海量信息进行挖掘, 并将挖掘结果应用于电子商务决策支持, 以此来提升电子商务竞争力?web 数据 挖掘技术由此而诞生。 web 数据挖掘作为电子商务系统的一项重要应用技术, 为 电子商务公司的商业决策提供强有力的支持。但是,目前国内的大多数中小型电 子商务企业,其电子商务发展还不是很完善,对将 web 数据挖掘技术与电子商 务结合为电子商务提供决策支持方面, 无论是理论研究还是应用研究都还不是很 完善。基于此,本文主要从应用的角度将 web 数据挖掘技术与电子商务结合进 行探讨和研究,主要内容和研究成果如下: (1)首先对 web 数据挖掘的概念、特点、难点、分类以及 web 数据挖掘 的流程及其在电子商务中的应用优势都作了很详尽的论述。 (2) 研究了国内中小型电子商务网站服务器数据的特点和数据的物理意义, 并以此为依据寻找合适的方法对数据进行预处理。 针对电子商务网站的浏览用户 特点,将用户分成外部登录用户和内部系统用户来分析,为聚类分析和电子商务 应用研究提供可靠、有效的数据。 (3)在理解和掌握快速聚类算法的基础上,针对 k-means 快速聚类算法的 优点和缺点,结合 web 数据的特点,采用了一种连环聚类的方法来弥补快速聚 类算法聚类结果不精确的不足,并将探索性数据分析(也即分析每个网页被用户 访问的频率,揭示用户访问过的网页之间的差异的最大程度)结果与聚类分析结 果相结合来进行电子商务应用研究。最后应用这种方法进行了案例研究,证明其 是可行并有效的。 (4)在电子商务应用研究方面,在总结前人研究成果和分析实际网站的基 础上,针对广州邮政网的实际,提出了增长新业务点和协同商务等新应用方向, 为决策者改进电子商务网站提供了新的思路和方法。 关键词:关键词:web 数据挖掘;聚类分析;预处理;电子商务 ii abstract with the quick development and wide application of e-commerce , all decision-makers in charge of this face the following tricky issue:how to mine the enormous web information available for e-commerce decision-making without violating users privacy? this leads to the birth of web data mining technology which is an important application technology of e-commerce and provides strong support for decision-makershowever,for many small and medium sized domestic e-commerce companies,their e-commerce is not well developed and they are quite weak at the theoretical study and application of combining web data mining and e-commerce to support decision makingthis paper explores the combination of web data processing and e-commerce and covers the following areas: (1) it discusses in detail the concept, features, classification, process, difficulties and its application to the e-commerce of web data mining (2) it studies the features and physical significance of server data of domestic e-commerce websites and then explores suitable methods to preprocess databased on the characteristics of e-commerce website browsers,users are divided into external and internal users for analysis to provide reliable,effective data for clustering analysis and e-commerce application (3) it adopts loop clustering analysis to improve the inaccuracy of k-means clustering algorithm and combines explorative dada analysis with clustering analysis for e-commerce application studyan empirical study proves this to be effective (4) it suggests new application of e-commerce data mining to developing new business and business synthesis,thus provides new approach to improving e-commerce websites for decision-makers keywords:web data mining,;clustering analysis; preprocessing; e-commerce 广东商学院广东商学院 学位论文原创性及知识产权声明学位论文原创性及知识产权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或 集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。因本学位论文引起的法律后果完全由本人承担。 本学位论文成果归广东商学院所有。 特此声明 学位论文作者签名: 年 月 日 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 1 第第 1 章章 绪论绪论 1.1 课题的研究背景课题的研究背景 随着 internet 的迅猛发展,internet 已经成为一个信息的“海洋”。越来越多的 企业和用户把 internet 当作一个发布、接受信息,进行交流的主要媒体,通过这 个媒体向 internet 发出信息,并从 internet 上获取所需信息。 面对如此复杂而庞大的 internet 网络,越来越多的用户感到力不从心。据统 计,99%的 web 信息相对 99%的用户是无用的,每个用户真正需要的只是其中 很小的一部分,大量的无关信息会干扰甚至淹没其所需要的内容。如何有效地分 析用户的需求,帮助用户从 internet 的信息海洋中发现他们所要查找或者感兴趣 的资源,已经成为一个亟待解决的重要课题。 另一方面,电子商务的蓬勃发展使进行电子商务活动的公司、企业等面临一 个极大的挑战:如何对用户的注册信息、历史购买纪录、用户浏览信息等这些海 量的相关数据进行有效的组织利用,从而了解到用户尽可能多的爱好和价值取 向、购买模式等,以优化网站设计、为用户提供个性化服务、发掘潜在用户等。 经过多年的发展,数据挖掘技术已有一套比较成熟的理论和一定的研究成 果,将数据挖掘技术与 web 结合起来,进行 web 数据挖掘,可以帮助人们更有 效地从 web 数据中获取有用的信息。然而,web 数据挖掘与传统的数据挖掘相 比又有很多不同之处,web 数据挖掘的对象是大量异构的、分布的、半结构化的 web 数据,其滋生的特殊性决定了在 web 数据挖掘之前必须进行数据预处理。 研究 web 数据挖掘技术,并将它用于电子商务站点的开发,分析和预测 internet 背后的用户行为,获取用户的行为模式,可以为用户提供更好的服务,降低电子 商务网站的运营成本,提高竞争力。 1.2 国内外研究状况综述国内外研究状况综述 1.2.1 国外的研究状况国外的研究状况 据现有文献记载, 国外将 web 数据挖掘技术应用于电子商务始于 20 世纪 90 年代后期,并从此蓬勃发展起来。buchner a g,mulvenna m d1等人在 1998 年 首次明确提出将数据挖掘技术应用于电子商务环境下,以发现市场智能。在他的 文章中,挖掘的对象不仅包括 web 日志、web 页面,还包括市场数据,并且给 出了在电子商务环境下进行挖掘的一个总的框架。chen m s, park j s2等人于 1998 年首先将数据挖掘技术应用于 web 服务器日志挖掘, 发现用户的浏览模式, 提出了最大前向引用(maximal forward reference,mfr)系列的概念。将用户会 话分割成一系列的事物,然后采用与关联规则相似的方法挖掘频繁的浏览路径。 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 2 webkdd20003国际学术会议更将 web 个性化及推荐系统 (web personalization and recommender systems)和用户浏览分析(navigation analysis)以及 web 数 据挖掘系统架构研究(mining frameworks and case-studies)作为 web 数据挖掘 研究的极大主题研究方向。ron kohavi,llew mason4等人于 2004 年总结了四 年来在电子商务零售业中数据挖掘的经验及挑战,即:商务水平 vs 技术,以及 包括数据收集、数据仓库结构、商务智能在内的数据挖掘生命周期及发展,指出 了数据挖掘的应用已经超出了电子商务零售业, 其使用范围更广。 此后, web 数 据挖掘技术一直沿着两个方向发展:一个是在方法的研究与改进方面,另一个是 商务应用的拓宽方面。如:ken mcgarry,andrew martin5等人于 2005 年根据服 务器数据使用一个规则演绎算法建立了一个用户数据图表, 该图表使网站能够针 对特殊用户进行个性化推荐。qinbao song,martin shepperd6在 2006 年提出了 一种频繁使用路径识别算法,该算法不需要对用户团体进行识别,也不需要以关 联规则为基础,并将其应用于五个不同大小的数据库证明了它的有效性。 1.2.2 国内的研究状况国内的研究状况 国内对于将 web 数据挖掘技术应用于电子商务的研究在时间上与西方国家 相比差距并不大,但是主要是集中在方法的探讨上。周斌等人在 1999 年提出了 基于 e-oem 的数据模型及算法,该算法综合考虑服务器的应用逻辑设计、页面 拓扑结构及用户的浏览路径等多个数据源的用户访问模式及潜在顾客群, 克服了 以往算法的缺点,如发现模式不太理想及规则的可用性不理想等,提供了从大量 顾客数据及日志数据中挖掘有意义的用户访问模式及潜在用户群的数据模型, 以 便于商家制定促销策略7。另外,他们还于 2000 年提出了基于 bayes 概率的用 户访问路径及其发现算法,以从大量日志数据中发现有意义的用户访问模式、兴 趣爱好以及相关潜在顾客群等知识, 对于实行电子商务战略的商家的商业决策有 着重要的作用8。 西安交通大学宋擒豹等人提出: 首先以 web 站点的 url 为行, 以 userid 为列,建立 url-userid 关联矩阵,元素值为用户的访问次数,然后, 对列向量进行相似性分析得到相似用户群体, 对行向量进行相似性度量获得相关 web 页面,对相关页面进行进一步处理,以发现频繁访问路径。并提出了 web 页面和用户群体的模糊聚类算法。在该算法中,首先根据用户对站点的浏览情况 分别建立 web 页面和用户的模糊集,在此基础上根据 max-min 模糊相似性度量 规则构造相应的模糊相似矩阵,然后根据模糊相似矩阵直接进行聚类9。中国科 学技术大学徐勇等人提出基于神经网络的 web 用户行为聚类分析方法,即首先 对 web 服务器的日志文件进行分析,再进行会话分析,从会话向量中找出频繁 数据集,进行归一化处理后,生成模式向量,采用 sofm 模型进行聚类,最后 生成用户聚类10。中国科学院计算机技术研究所高文教授等人,在采用 web 站 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 3 点的访问日志进行事物识别后,根据群体用户对 web 站点的访问顺序进行路径 聚类,最终每一个聚类集就反映出该聚类集中的全体用户的访问兴趣,为了得到 这种用户访问兴趣而对用户进行划分,提出了 k-path 路径聚类方法11。 另外,一些学者针对超文本结构中的结构特征,提出了用 naive bayes 方法 进行分类的方法;基于时态数据库,以 web 数据拟周期采掘任务为背景,提出 了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法,对拟周期 采掘给出一种解决方法;利用服务器日志文件,运用 n 元(n2gram)预测模型对 用户未来可能进行的 web 访问请求进行预测等。 1.3 论文研究的意义及创新点论文研究的意义及创新点 1.3.1 研究意义研究意义 电子商务的快速发展在为商家带来巨大利益的同时也对商家提出了极大的 挑战。尤其国内的中小型电子商务网站发展还很不健全,可以说还不是真正的完 完全全的电子商务, 如何获取用户的信任?如何不侵犯用户的隐私?如何吸引用 户的眼球?等等的问题都困扰着电子商务开发商, 对电子商务开发商提出了更高 的要求。 电子商务开发商就更需要在不涉及用户隐私的情况下对网站上的海量信 息进行挖掘,分析用户需求、向用户进行个性化推荐、改进网页设计等等。 但是目前国内对 web 数据的挖掘还主要集中在方法的改进上面,对其实际 应用研究得还比较少,目前国内有关应用的成功案例也比较少。这就需要研究者 们不仅要自主研究,还需要借鉴其他先进国家的经验,引入成功系统进行本土化 研究,同时将多种数据挖掘方法结合,以适应不同的需求环境。并且,实际数据 挖掘应用的开发有助于对数据挖掘的理解,从而更好的改进 web 数据挖掘技术。 1.3.2 创新点创新点 本文针对国内中小型电子商务网站浏览的用户不多、 日志数据相对较少的特 点,放弃了大型电子商务网站大量使用算法对数据进行预处理的方法,而采用将 web 日志数据导入 excel 数据库, 利用 excel 数据处理板块对 web 日志进行预处 理 , 以 获 得 更 详 实 而 精 确 的 数 据 。 其 次 , 本 文 以 全 程 分 析 广 州 邮 政 ()日志数据为基础,在分析之前将日志数据分为了内部系统 数据和外部登录数据,以此增加在电子商务应用分析时的有效性。再次,在预处 理时,首先对日志数据进行了探索性数据分析,为网页分类提供依据。在预处理 之后使用 spss 分析工具对日志数据进行了连环聚类分析,获得了一个较为详实 而准确的聚类, 并将两个分析结果与电子商务网站的实际应用结合起来, 达到“学 以致用”的效果,为国内中小型电子商务网站的决策支持提供具有实际操作性的 方法。 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 4 1.4 论文的主要内容及组织结构论文的主要内容及组织结构 本文着重从应用的角度进行研究,首先对 web 日志数据进行预处理,其次 对预处理结果进行聚类分析,最后将分析结果应用于电子商务网站,将分析结果 与网站应用紧密结合。 本文内容主要分为四个部分: 1介绍国内外研究状况,阐述本课题的研究背景及意义。 2介绍 web 数据挖掘的相关概念与理论及其在电子商务中的应用优势。 3以广州邮政网的服务器日志数据为例,研究了 web 日志数据预处理的过 程,并对处理结果进行了分析。 4对数据处理结果进行分析并与电子商务网站的实际应用结合起来,为电 子商务开发商提供决策参考。 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 5 第第 2 章章 web 数据挖掘数据挖掘 web 是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本/超媒 体的、相互联系并且不断进化的信息仓库;是一个巨大的文档累积的集合,包括 超链接信息,访问及使用信息。大量的非结构化数据无法使用现有的数据库管理 系统来操纵和管理,其用户群体也表现出多样性的特点,这些都对信息系统的研 究人员提出了新的挑战。 web 数据挖掘起源于数据挖掘, 但是传统的数据挖掘大 多是针对关系数据库或数据仓库的,所处理的数据具有完整的结构,而 web 包 含各种类型的数据,web 数据的非结构化这一显著特征使 web 数据挖掘必然更 加复杂。 2.1 web 数据挖掘数据挖掘 随着 internet 的飞速发展,web 上的数据资源空前丰富,蕴藏着具有巨大潜 在价值的知识。当前的搜索引擎技术虽然在一定程度上可以帮助人们在 web 上 找到有用的信息,但是精度不高,不能满足实际需要,更重要的是不能发现隐藏 在海量 web 数据背后的知识,形成相对于海量数据的知识贫乏。因此,迫切需 要找到这样的工具,能够从 web 上快速有效地发现资源,发现隐含的规律性内 容,提高在 web 上检索信息、利用信息的效率,解决数据的应用质量问题。web 数据挖掘就是一个很好的解决方法。 2.1.1 web 数据挖掘的概念数据挖掘的概念 数据挖掘与知识获取是近年来计算机科学研究的一个热点。 在数据挖掘发展 的最初阶段,研究者更多地把注意力集中在对存放在数据库中的数据进行挖掘, kdd(knowledge discovery in database,从数据库中获取知识)的概念就是在这 种情况下被提出来的。 20 世纪 90 年代以来, 随着网络技术的发展, 尤其是 internet 的广泛应用,使得数据挖掘的对象从数据库中的数据延伸到网络上的数据。在这 种情况下产生了一个新的概念:kdw(knowledge discovery in web,从网络上 获取知识) 。 fayyad 等人对 kdd 做出了如下定义:从数据中识别出有效的、新颖的、潜 在有用的和最终可理解的模式之非平凡过程。oren etioni 在 1996 年首次提出了 web 数据挖掘这一概念12。web 数据挖掘技术是用数据挖掘技术在 web 文档和 服务器中自动发现和提取有用信息。kdw 就是从 web 上的内容、结构和访问中 分析出有效的、新颖的、潜在有用的和最终可理解的知识之非平凡过程13。 kdw 可以通过 3 种不同的数据挖掘任务来获取有用的知识: 1通过对 web 上内容(包括网页的文本信息、多媒体信息以及网上数据库 信息)的挖掘获取知识; 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 6 2通过对 web 上结构(例如网页的超文本结构)的挖掘获取知识; 3通过对 web 上记录(例如用户访问记录)的挖掘获取知识。 在完成这 3 种数据挖掘任务时,既需要一些与传统 kdd 共同的数据挖掘技 术,也需要一些 kdw 所特有的技术。 文献12将 web 数据挖掘分解为以下几个子任务: 1资源发现:负责检索有关的 web 文档; 2信息选取和预处理:从已检索的 web 资源中自动选取特定信息并进行预 处理; 3发现概要模式; 4模式分析:对已挖掘的模式进行确认和解释。 2.1.2 web 数据挖掘的特点数据挖掘的特点 web 数据挖掘的对象不仅仅是传统的关系数据库,还包括 web 上各种其它 结构信息源所蕴涵的有价值的信息。基于 web 自身的一些特点,因此与传统数 据挖掘相比,web 数据挖掘具有如下特点14: 1. 算法的效率要求更高。 由于基于 web 的数据量比一般的关系数据库或数据仓库中的数据要庞大得 多,而且每天都在迅速地增长和更新,要从如此巨大的数据中有效地提取信息, 就要求 web 数据挖掘必须有很高的效率。 2. 分布性和并行性。 网络上的信息资源是分布的,针对站点上的应用逻辑处理也是分布的,这就 要求 web 数据挖掘在分布式环境下也能够挖掘相关的有用信息。 3. 动态性。 web 中的数据更新速度特别迅速,这就要求 web 数据挖掘能够针对当前状 态的信息快速更新知识,并提供准确的决策支持。 4. 必须有效地组织和管理数据。 目前,web 中的信息往往是半结构化或非结构化的,难以映射到一个固定的 模式,使传统的数据模型和数据库系统难以支持 web 上的信息资源。关系模型 虽然成功地确保了数据管理,但它并不能管理动态、分布环境复杂、语义丰富的 资源。因此,必须有效地组织和管理数据,支持语义丰富的资源组织形式,并在 保持完整性的条件下使用资源,从而为 web 挖掘提供所需的信息源。 2.1.3 web 数据挖掘的难点数据挖掘的难点 充分利用有用的数据, 废弃虚假无用的数据, 是数据挖掘技术最重要的目标。 web 是一个无集中控制、无统一结构、无完整性约束、无事务管理、无标准查询 语言和数据模型、可无限扩充的松散的分布式信息系统。相对于 web 数据而言, 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 7 传统数据库中数据的结构性很强, 即其中的数据是完全结构化的数据, 而 web 上 数据的最大特点就是半结构化。 所谓半结构化是相对于完全结构化的传统数据库 中的数据而言的。显然,面向 web 的数据挖掘比面向单个数据仓库的数据挖掘 要复杂得多。 1. 异构数据库环境 从数据库研究的角度出发,web 网站上的信息也可以看作是一个数据库,一 个更大、更复杂的数据库。web 上的每一个站点就是一个数据源,每个数据源都 是异构、分布的,而且每个站点之间的信息和组织都不一样,这就构成了一个巨 大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究 站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户 一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解 决 web 上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数 据进行分析、集成、处理就无从谈起。 2. 半结构化的数据结构 web 上的数据与传统数据库中的数据不同, 传统的数据库都有一定的数据模 型,可以根据模型来具体描述特定的数据。而 web 上的数据非常复杂,没有特 定的描述模型,每个站点的数据都各自独立设计,并且数据本身具有自述性和动 态可变性。因此,web 上的数据虽具有一定的结构性,但因自述层次的存在,是 一种非完全结构化的数据,也称为半结构化数据。半结构化是 web 上数据的最 大特点,没有特定的模型描述。因此,传统数据挖掘的方法在此并不完全适用。 寻找一个半结构化的数据模型是解决问题的关键。 除了要定义一个半结构化数据 模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构 化模型的技术。面向 web 数据的挖掘必须以半结构化模型和半结构化数据模型 抽取技术为前提。近来兴起的 xml 数据就是一种自描述的半结构化数据,它支 持用户自定义文档标记,用有序的、嵌套的元素组织有一定结构的数据,是面向 数据的。它的出现推动了在电子商务、电子数据交换和电子图书馆等多方 面的应用。 3. web 数据的动态性极强 web 上的数据不仅每天都以极快的速度增长,而且信息也在不断地动态变化 着。因此需要借助数据仓库的某些技术,以保存 web 上动态更新的数据。数据 仓库的实质就是一个数据库,但是它存储的数据与普通数据库中的数据不太一 样,即它存储的是从数据库里面经过加工整理后的数据。数据仓库将异构的数据 集成起来,经过加工整理变成一个可用的数据资源。 4. web 上信息量庞大 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 8 网络上有海量的数据信息,构造一个数据仓库来复制、存储或集成 web 上 的所有数据是不可能的,利用现有的检索技术并不能满足人们的应用需求。相对 于 web 上的数据而言,传统的数据库中的数据为完全结构化的数据,而 web 数 据的特点是:数据没有严格的结构模式、含有不同格式的数据( 文本、声音、 图像等) 、面向显示的 html 文本无法区分数据类型等。显然,面向 web 的数 据挖掘比面向单个数据仓库的数据挖掘要复杂得多。 2.2 web 数据挖掘的分类数据挖掘的分类 web 数据挖掘的种类有很多,按照挖掘内容的语种可以分为中文 web 数据 挖掘、西文 web 数据挖掘等;按照挖掘终点的属性不同可以分为企业门户挖掘、 政务门户挖掘、个人站点挖掘等。众所周知,web 数据挖掘对象是 web 上的资 源以及对 web 资源的访问记录,因此,根据挖掘对象的不同,越来越多的人倾 向于将 web 数据挖掘分为如图 2-1 所示的三部分:web 结构挖掘(web structure mining)、web 内容挖掘(web content mining)和 web 日志挖掘(web usage mining)15。 图图 2-1 web 数据挖掘的研究内容数据挖掘的研究内容 2.2.1 web 结构挖掘结构挖掘 web 结构挖掘(web structure mining:web sm)主要是从 web 组织结构和链 接关系中推导信息、知识。根据科学引文分析理论,文档之间的互连数据中蕴涵 着丰富有用的信息。在通常的搜索引擎中由于考虑到结构的复杂性,仅将 web 看作是一个平面文档的集合,忽略其结构信息。挖掘页面的结构和 web 结构, 可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索 的性能。同时还可以用来指导网页采集工作,提高采集效率。web 结构挖掘分为 数据挖掘 web挖掘 web结构挖掘web内容挖掘web日志挖掘 站点结构挖掘页面/内结构挖掘广告分析用户分析 数据挖掘 web挖掘 web结构挖掘web内容挖掘web日志挖掘 站点结构挖掘页面/内结构挖掘广告分析用户分析 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 9 web 文档内部结构挖掘和文档间的超链结构挖掘。 web 结构挖掘的目的是发现页面的结构和 web 的结构。利用这些结构信息, 对其进行聚类、分类等,从而找出所需要的模式。它有两种结构:文档内部结构 和文档间结构(超链结构)。每个 web 页面并不完全是平面结构,而是有自己的特 定结构。利用这些结构所蕴涵的信息可发现很多有用的模式或知识。 web 结构挖掘是从 www 的组织结构和链接关系中推导知识。由于文档之 间的互连, www 能够提供除文档内容之外的有用信息。 利用这些信息可以对页 面进行排序,发现重要的页面。 文档间超链结构主要是基于 sci 的科学引文分析理论。如果两篇文献同被引 用,则这两篇文献具有某种程度上的相互关系或相互联系,充分利用这些关系, 能够客观的反映科学活动中许多隐含的深层次的相关关系,显示出有用的结构。 web 结构挖掘有助于用户找到相关主题的权威站点, 且可以指向众多权威站 点的相关主题站点。 搜索某个给定话题的 web 页面时, 不仅希望得到相关的 web 页面,而且希望得到的 web 页面是权威的 web 页面,即检索到的页面具有高质 量,或对该主题具有权威性。web 页面不仅由页面构成,而且还包括从一个页面 指向另一个页面的超链接。超链接里包含了大量潜在的语义,它有助于自动分析 出权威性语义。当一个 web 页面的作者建立指向另一个页面的指针时,可以看 作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同 作者的注解收集起来,可以用来反映页面的重要性。因此,可以通过这种方法来 寻找权威 web 页面。找出权威 web 页面的基本方法有 page-rank 方法和 hub/authority 方法。 在 web 上很明显有两种特殊且相互联系的网页:权威网页和引导网页(如 图 2-2 所示) 。对于任意一个主题,可以认为在 web 上总存在一些比较权威的网 页,这样的网页通常包含比较多的用户所需要的信息,我们将这种网页称为权威 网页。同时作为权威网页,这样的网页往往有许多指向它的链接。在 web 上一 般还存在另外一些网页,虽然它不一定包含很多某个特定主题的内容,但是它包 含许多指向这个主题的网页的链接,这种网页就被称为引导网页。 引导页面 权威页面 图图 2-2 引导网页和权威网页引导网页和权威网页 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 10 权威网页和引导网页之间通常存在相互增强的关系。 一个好的权威网页会有 很多引导网页指向它,一个好的引导网页也会指向很多权威网页。通过挖掘特定 主题的权威网页和引导网页,可以有效地提高网页搜索挖掘的效率和命中率。 hits(hyperlink-induced topic search)算法21就是这样一个通过分析权威页面 和引导页面进行 web 结构挖掘的算法。使用 hits 算法对一组 web 页面进行分 析,可以得到这组页面中的权威页面和引导页面。 web 链接结构具有如下局限性: 1不是每个超链接都代表寻找的认可。有些是为了其他目的而创建的,如 为了导航或付费广告等。总体上,若大部分超链接具有认可性质,就可以用于权 威判断。 2基于商业或竞争的考虑,很少有 web 页面指向其竞争领域的权威页面, 如可口可乐就不会链接到其竞争对手百事可乐的 web 页面上。 3 权威页面很少具有特别的描述, 如 yahoo 主页就不会明确给出“web 搜索 引擎”之类的自描述信息。 所以人们提出了另一种重要的 web 页面hub 页面。 hub 是为克服 web 链接结构存在的局限性而提出的一种重要的页面。它提供了 指向权威页面的链接集合。hub 页面本身可能并不突出,或者可能没有几个链接 指向它们,但是,hub 页面提供了最为突出(或重要)的站点链接,它起到了隐含 说明某权威页面的作用。通常,好的 hub 页面指向许多好的权威页面;好的权 威页面则有好的 hub 页面指向它。这样,可以用 hub 页面和权威页面之间的这 种相互作用,来挖掘权威页面和自动发现高质量的 web 结构和资源。 web 结构挖掘是对 web 页面之间的结构进行挖掘。在整个 web 空间里,有 用的知识不仅包含在 web 页面的内容之中,而且也包含在页面的结构之中。例 如,指向一个文档的超链接数目就表示了该文档受欢迎的程度,而其中包含的超 链接数目又表明该文档的丰富程度。如果我们发现一篇论文的页面经常被引用, 就说明它是比较重要的。 2.2.2 web 内容挖掘内容挖掘 自从 internet 产生以来,上网的用户和网上的信息就呈指数形式飞速增长。 然而当单个用户面对整个 internet 的海量信息时,用户往往感到很难找到他真正 需要的有用信息。搜索引擎是当前广泛被采用的一项技术,每天都有无数的 internet 用户通过搜索引擎查询他们需要的信息。一般来说,搜索引擎由搜索程 序、信息分类程序和本地信息库组成。搜索程序多采用 agent 技术在 internet 上 漫游,收集各种信息。信息分类程序对搜索回来的信息进行分类整理,并把分类 好的信息存放在本地信息库中以备用户检索。 搜索程序用来判断一个文档是否符合查询要求的方法有很多, 这里介绍一种 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 11 常用的信息分类模型向量空间模型(vector space model, vsm)16。 在向量空 间模型中,文本文件是由词条(t1,t2,tn)构成,对于每一词条 ti,都根 据其在文档中的重要程度赋以一定的权重 wi,这样文本文件就可以表示为一个 词条特征向量(w1,w2,wn)。假如目标文件为 u,而未知文件为 v,则两 个文件的相似度 sim 可通过两个文件的词条特征向量间的夹角来度量,夹角越 小说明未知文件 v 与目标文件 u 越相似。如果目标文件 u 为某个主题的样本文 件,则未知文件 v 与目标文件 u 的相似度越高,未知文件就越符合该主题的要 求。相似度计算公式如下: = = = n k n k vkuk n k vkuk ww ww vuvusim 11 22 1 ),cos(),( 在经典的空间向量模型中,词条的权重w(也即词条对文件的贡献度) ,正 比于该词条在文件v内频度,反比于该词条在样本文件u内出现频度。 现在考虑对web上html文件进行搜索的情况。html文件比普通的文本 文件增加了许多标记信息,而这些标记信息对文件的内容往往具有很高的概括 性, 文献17提出了一种对空间向量模型的改进idgs。 在idgs中进行特征提取 时设置了针对html文档中、等标签的加权系数,对被这 些标签标记的词条增加相应的频度加权。 搜索引擎和web数据挖掘都是从网络上页面的内容/数据/文档中发现有用信 息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资 源可以直接从网上抓取、建立索引、实现检索服务,但还有一些网络信息是“隐 藏”的,如由用户的提问而动态生成的结果,或是存储在dbms中的数据,或是 私人数据,它们无法被索引,也就无法提供对它们有效的检索方式;从资源形式 看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的, 因此网络内容挖掘是一种多媒体数据挖掘形式。 web内容挖掘(web content mining:web cm)是指对web页面内容进行挖掘。 即对web上大量文档集合的“内容”进行总结、分类、聚类、关联分析以及利用 web文档进行趋势预测等, 是从web文档内容或其描述中抽取知识的过程。web 上的数据既有文本数据,也有声音、图像、图形、视频数据等多媒体数据;既有 无结构的自由文本,也有用html标记的半结构的数据和来自于数据库的结构 化数据。 根据处理的内容又可分为基于文本信息的挖掘和基于多媒体信息的挖掘 两种数据挖掘方式。web文本挖掘和通常意义上的平面文本挖掘的功能和方法相 似, 但是有其自身的特点。web文本挖掘的对象除了平面的无结构的自由文本外, 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 12 还包含有半结构化的html文本。web内容挖掘可以直接挖掘文档的内容也可 以在其它系统(如搜索引擎)的检索结果的基础上进行。多媒体信息的挖掘主要是 指音频挖掘、静态图像挖掘和基于视频的动态图像的挖掘。 随着www上的信息的迅猛增长,许多只支持由关键词和超链接所构成的 搜索引擎搜索返回的结果中有许多无用及无关的信息。 这就需要开发更为有效的 技术来支持web内容挖掘。 web文本挖掘的对象是web文档的文本内容,包括自由的非结构化文本和 用html标记的半结构化文本。文本内容挖掘包含自动摘要、分类、聚类、关 联分析以及利用web文档进行趋势预测等部分。 web内容挖掘是从文档内容或其描述中抽取知识的过程。web文档文本内容 的挖掘,基于概念索引的资源发现,以及基于代理的技术都属于这一类。web 内容挖掘有两种策略:直接挖掘文档的内容,利用启发式规则来寻找个人主页信 息等等;在其它工具搜索的基础上进行改进,主要是对搜索引擎的查询结果进行 进一步的处理,得到更为精确和有用的信息,按实现方法又分为基于代理的方法 和数据库方法。 web内容挖掘是对web页面内容进行挖掘,从文档的内容或者文档的描述 中提取知识的过程。web内容挖掘的目的是自动搜索www上的信息资源。大 部分的www的知识蕴藏在web页面文档中, 但是www信息的非结构化性是 我们对web页面进行挖掘时必须解决的难题。传统从www上提取信息的搜索 引擎,给广大的计算机用户带来了一些方便,但是它们不能对搜索到的众多的信 息进行分类、过滤,也不能理解文档,所以用户必须自己在搜索到的众多信息中 进行挑选。最近出现了一些利用web内容挖掘从www上搜索信息资源的智能 型搜索工具。 2.2.3 web 日志挖掘日志挖掘 web日志挖掘, 是指通过挖掘存储在web上的访问日志,来发现用户访问web 页面的模式及潜在客户等信息的过程。通过web日志挖掘,可以了解用户的网 络行为数据所具有的意义。web内容挖掘、web结构挖掘的对象是网上的原始 数据,而web日志挖掘则面对的是在用户和网络交互的过程中抽取出来的第二 手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日 志记录、用户简介、注册信息、用户对话或交易信息、用户提问等等。本文主要 研究web日志挖掘。 1995年,斯坦福大学已经开始了对半结构化数据模型的定义与抽取研究。但 当时研究的重点还没有真正面对web, 主要研究的是异构数据环境, 因为在异构 环境中的数据已经具有这种半结构化的特征。后来随着internet的发展,web上 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 13 数据的半结构化特征日渐明显,这一问题也扩展到web领域,最终提出了针对 web数据的模型问题。相关的研究工作在1997-1998年间取得了一些成果,提出 了诸如web sql (structured query language)等大约一二十种查询语言。 基于web 上的查询主要有两个含义:一是页面内容的查询;二是页面与页面之间链接的查 询,而页面之间链接的这种关系则称之为路径表达。 以xml (extensible markup language)为基础的新一代internet环境是直接面 对web数据的,不仅可以很好地兼容原有的web应用,而且可以更好地实现 web中的信息共享与交换。xml的出现为解决web数据挖掘的难题带来了机会。 由于xml能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多 样的不兼容的数据库成为可能,从而为解决web数据挖掘的难题带来了希望。 xml的扩展性和灵活性允许xml描述不同种类的数据,同时,由于基于xml 的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示半结 构化数据的一个工业标准,xml为组织、软件开发者、web站点和终端使用者 提供了许多有利条件。 相信在以后, 随着xml作为在web上交换数据的一种标 准方式的出现,面向web的数据挖掘将会变得非常轻松。 对于一个网站而言,网页浏览量、点击数、独立ip访问数等参数是反映这个 网站用户访问情况的重要指标。通过对网站日志文件的分析,可以获得网站访问 情况的详细统计数据。针对这些统计数据进行的数据挖掘,属于静态的web访 问记录的数据挖掘。网站的所有者通过对静态的web访问记录进行数据挖掘, 可以有效地提高网站的服务,例如通过分析访问者的来源,可以使一个网站有针 对性地提供内容;通过分析每天各个时段访问者人数的变化,网站可以调整每天 内容更新的时间。这样的一些数据挖掘应用,目前已经得到广泛的采用。 除了对静态的web访问记录进行数据挖掘,web的动态访问模式的挖掘也 是研究的一个方向。这里我们用一个例子来说明什么是web的动态访问模式的 数据挖掘。 图图 2-3 一个动态访问模式示例一个动态访问模式示例 b a d c o e v w u h g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 b a d c o e v w u h g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 广东商学院硕士学位论文 基于聚类的web挖掘及电子商务应用 14 图2-3所示是一个网站,它包括页面a, b, c, d, e, g, h, o, u, v, w,这些 页面之间通过超链接相连,在这些页面中a为这个网站的主页。图中用箭头表 示一个访问者访问这个网站的情况。可以把这个访问者的访问路径记录为: a, b, c, d, c, b, e, g, h, g, w, a, o, u, o, v 如果一个网站的访问记录中有大量这样的不同访问者的访问路径数据, 网站 的所有者就可以对这些数据进行挖掘,从中获得这个网站的用户访问一般模式。 很显然网站如果根据这种数据挖掘的结果调整网站的结构和内容, 可以很有效地 改善网站的服务。例如通过数据挖掘发现有很多用户在连接主页a后都会沿着 a-b-c-d的访问路径访问d,网站就应该在主页a上增加一个直接到d页面的 链接,这样可以方便用户的使用;又例如如果通过数据挖掘发现很多访问了d 页面的用户通常也会访问h页面和w页面, 那么就可以认为对d页面内容感兴 趣的用户通常对h页面和w页面的内容也会感兴趣,在这几个页面之间提供相 互的链接可以提高网站的页面访问量。 2.3 web 数据挖掘的过程数据挖掘的过程 2.3.1 web 数据挖掘模型数据挖掘模型 关系型数据库使用二维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论