




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)基于agent的web挖掘模型研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
abs tract abstr act i nt h eo c e an o f i n fo rmat i on o nl n t emet , peo p l efe e l th a t th ere are m o reand m or e spre ad o f in fo rmat i o nand m o rea n dm o r e d i ffic u 1 妙fo r s e arch i n g , 5 0 , u se r s wou l d l i k e toh ave o ne ” p ri v at e spa c e ,w ll ic h即c o rds tot heiro wn n e e d s t od i s p lay t l l ec o rres p o n d ing i n fo r ll l a t io n .b as e do nu s er s , n e e d sa j l dth en e e d so fit so wn d e v e l o p ll l e nt , top ro v i dsu s er s 诚t h p e rs o n a l iz e d s e rvic e s h a s i n c re as i n g ly b e come a 仃 e n d w七 bm i n i n ga n d 昭e nt te c hno l o g yi s比 ek e yte c ll ll o l o g i e so fv 爬 b p er s o n a l i z at i o n . 5 0 ,th i s p a p e r p re s e nt s a webd ata m i ni ng m o d e l b a s e do na g e nta n dd e s i gn a p e rs o n a l i z e d p u b l i c at i o n and i n fo rmat i o n re l e as e s y s t em, w l l i c h a c h i e v e d : t h e p e r s o nal i z at i o no f b o o ksi n fo rmat i o nre trie v al : b a s e do n t heb ro w s i n gal l th e b o o k s , i t c anada ptq u i c k l y t o c h a n g e s i n u s er s , i ntere s t a ll d i n t ll e e nvironme ni , 流p l e m e nt a u t o m at i c a 1 l y m at c h i ngb e t weeno n i i nei 1 1 fo rmat i o n and u s er p erso n a l i z e ddem andm o d e l ,a u t o m atic a ll yfi l t er o ut i rrel e v a 11 ti n fo rmat i on a n d e nhanc e re trie v i ng即c u r 即y 出 l d e ffic i e n c y acc o r d in g tothe use r ,s i nter e st , l ove a ll d c l l a r a c t e ri st i c s ; t 七 ep e r s o n al i zati o no f news v i e w : b as e do nt ll eb ro w s i n gal l t 】l enews, i t d i sp1 a y s th e mos t i 11 1 e r e s t i ngnew s i n us e rsacc o rdi n g tothe b r o wsi n g b e h avi o rs ; t 11 e p er s o nali zati o no f fo rum s e rv 1 c e : b as e d o nthe b r o wsi ng and j o i n i n g the fo rum , i t di s p l ays th e c o rrespo n d i n g fo rui11 c o ntenia c c o rdin g touse r ,s inter e s t ; 夕几c techllo l o gyo f age n t i s u s e d wid e l y i n the area o f p e r s o n a 1 1 ze d i n fo rmat i o n re t ri e val . l t i s u s e dtoachi e v e man 一 mac hi ne n 1 u t u a 1 le a r n lng i n s t e ado f col 1 e c t i ng, fi l te r in g , c l ust e r i n g a n d fu s i o n i n g s o n u lc h il1 fo n 1 1 a 1 i on.t h e user s o n l y n e e d top o s e the re qllirem e nto r m a k e s o m e o pt i o nst h r o u ght hes y st e m ,t h e n th e i n te l l i g e niuser age ntw ilit r a ll s fo rm t h euse rs , re quiremenitothe cor n m a n dt 11 a t the a g e nis c an d i s t l ll g u l s h , s e areh the ri ght o net o p e r fo rm the s e rvi c e and re tu mth e re s u lt touse r the p o rce s s i n t r a l l s p ar e n t t o u s e r. k 即wo rds : a g e nt ; w己 b d ata mi n i ng; p er s o nal i z e ; u s e r p ro fi l e ; kno w l e d g e l i b r 田 t . 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已 经发表 或撰写 过的 研究成果, 也不 包含为 获得 南昌大学 或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名( 手写) 签 字 日 期 :补 习年 月“日 学位论文版权使用授权书 本学 位论文作 者完 全了 解 南昌大学 有关保留、 使用学位论文的 规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。 本人授权南昌大学可以 将学位论文的 全部或部分内 容编入 有关 数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 ( 手写) :抵愈导师签名 ( 手写) : 咖 叻 乡娜能 签 字 日 期 : 问年 ” ! 日 签 字 日 期 : 甸 年 月 肠日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话 邮编 第 1 章 绪论 第 1 章 绪论 1 . 1研究背景 随着in te m et的飞速发展, wo ri d wi dewe b 上的网页量正在呈指数的增长。 在网页迅速增长的同时,we b用户也得到了迅猛的增长。根据最新调查统计, 中国已 有1 亿的网络用户。 web 已经成为获取信息最重要的手段之一, 各种各 样的网络应用早己 走进各行各业, 尤其是远程教育、 电子商务、 搜索引擎等等。 但是由于i ni e rn e t 是一个开放、 分布的 信息空间, 它本身所固 有的3 个特点已 经 明显地阻 碍了 人们充分地使用i ni eme t 上的 信息资源: ( l)i nt e rnet 上可利用的 信 息是无组织的, 多 种结构形式的,并 且分布 在全世界的 各个 站点 上; ( 2) 数据 和 服务的类型以及数量每天都在大量增加,因而信息可利用性和可靠性也在不断 地变 化; (3 ) 由 于 信息 源的 动 态性以 及潜在的 有用信息的 更新和保存问 题, 信息 常常是模糊的; 有时甚至是错误的。 由于上述原因, 在i n t e m e t 上进行信息检索 经常会出现 “ 信息过载”,即网上的信息是海量和无组织的,易发生 “ 资源迷 向”,即用户不知道如何更加有效地利用资源等问 题。 人们迫切需要一些智能的和个性化的inte rn e t 系统, 能学习和了解用户的兴 趣爱好, 成为用户的助手或秘书, 帮助用户从浩如烟海的恤e me t 信息中快速而 准确地搜索出他们感兴趣的内容;能为用户提供主动的、最新的信息服务和推 荐; 能帮助用户实现个性化的远程学习等。 而这些系统的基础都离不开一个“ 个 性化的web挖掘模型”。 1 . 2国内外研究动态和水平 目 前,随着人工智能领域的不断发展和agent 理论的提出,各种个性化的 智能系统不断涌现出来,如国外著名的web wat cher ,帮助用户在网上导航, 通过对用户选择的链接或站点跟踪学习,改善导航质量:如国内的南京大学研 究实现了 一个个性化的 信息 搜集a g e n t 系统, 它是一个远程开 放式学习的 教 材 信息搜 集的多a g e ni系统. 这些系统的 核心都是 通过观察、 收集、 挖掘和分析 第 1 章 绪论 用户的各种个性化信息,实现个性化服务。同时,与智能性和个性化相关的各 种技术也发展迅速,如web挖掘技术,是将传统的数据挖掘技术和web结合 起来, 从web文档和web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。 针对用户行为的研究也很多,如把用户浏览的时长和动作视为用户兴趣的隐含 指针,收集、衡量、评价 “ 隐含兴趣指针”的预测用户兴趣的能力,以及将用 户人为地评定页面的兴趣等级视为用户兴趣的显式指针,研究隐含指针与显示 指针的相关性。 在机器学习方面, 有许多成熟的算法和不断涌现出来的新算法, 如基于统计的贝页斯算法、 神经网络算法、 s v m算法等, 这些都为研究用户个 性化兴趣模型提供了基础。如何在方便用户的同时,了解用户真实和不断变化 的兴趣,是此项研究的难点。而没有把针对 we b页面的研究与用户行为的研 究结合起来,是以前各种研究的不足之处。 1 . 3改进方向 基于we b 的个性化信息服务必须具备三个能力, 即用户模型能很好地反映 用户的兴趣爱好;为适应用户爱好的变化,模型能做适应性的改变;自 动开发 新的信息领域,主动向 用户提供推荐服务。 为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一 种合适的表达方式。在不同的个性化服务系统中用户描述文件各有其特点,用 户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型,基于兴趣 的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模 型、书签和目 录结构等。基于行为的用户描述文件可以 表示为用户浏览模式和 访问模式。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。 由于用户兴趣是多方面的、动态变化的,跟踪学习和表达用户兴趣是一个 基本和难以 解决的问题。系统要自 适应修改用户信息,必须根据学习的信息源 分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。根 据学习的信息源,用户跟踪方法可分为两种:显示跟踪和隐式跟踪。显示跟踪 是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目 的。但是 因为显示跟踪要求用户参与进行反馈和评价,一般情况下,这种做法很难收到 实效,因为需要中断用户的正常浏览和阅读方式,从而很少有用户向系统主动 表达自己的喜好,即使能获得用户反馈,也没办法判断用户输入的准确性。比 第 1 章 绪论 较实际的做法是隐式跟踪,隐式跟踪不要求用户提供什么信息,所有的跟踪都 是由系统自 动完成,隐式跟踪又可分为日 志挖掘和行为跟踪。 目 前, 基于web日 志的挖掘技术发展迅速, 利用web日志可以获得页面的点 击次数、 页面停留时间 和页面访问 顺序等信息。 通过分析 web 日 志可以获得相 关页面相似用户群体和用户访问模式等信息,个性化服务系统可以 利用这些信 息创建或更新用户描述文件。 web日 志挖掘中最常用的方法是根据网页的点击次 数来评价用户对该网页的兴趣,其实这种方法是不完整的,因为只有很少一部 分客户端的数据传到服务器端, 而且经常是不正确的, 如: d h c p 和内容缓存就 会使w e b 日 志变得不可靠。 在客户端对用户浏览行为分析和兴趣挖掘将会很好的克服web日志的不完 整性和不可靠性,为个性化服务提供更加精确的用户描述。在客户端记 录用户 的浏览行为还会带来如下好处和克服其他方法的一些不足:不需要用户的带有 主观性的反馈:不会给用户的正常浏览带来千扰:针对单个浏览器收集数据更 加精确; 行为数据更加丰富;动态获取,易于更新:还可以通过对用户访问方 式的分析获得一些we b 对象之间的相互关系。 当然还是存在一些不足, 特别是记 录的用户行为数据很少和web站点内容是动态生成或经常改变时。 不过, 这可以 通过联合内容挖掘的方法来更加准确地捕获用户的兴趣和形成更加精确的用户 描述文件。 1 . 4论文所做的工作及意义 针 对w eb挖掘技 术、 个 性化 技术、 a g en t 技术, 在前人研究成果的 基 础上, 研究建立一 个基于多 a ge nt 协同 的 web 挖掘系统模型, 在该模型中, 实 现多 a ge ni 的 协作, 是一个难点。 本文采用基于 x m l 的 a ge nt 通信体系结构, 实现 a g e n t 之 间的通信,提高了通信效率。 该模型体现信息服务个性化的特点,以期解决 “ 认知过载”、“ 迷航” 等 问题。按照该模型,设计一个基于jze e 架构的个性化出版物信息服务系统,该 系统将能够学习用户的兴趣、爱好和特性,实现网上信息和用户个性化需求模 式的自 动匹配,能快速适应用户兴趣的变化和环境的变化,主动帮助用户完成 信息服务任务,具有主动性、自适应性、精确性、快速响应性,既方便用户, 又节约了 用户的时间 和精力,是主动服务的电子商务。 第 1 章 绪论 研究的成果是:1 、研究设计了一个个性化的web挖掘模型, 提出了 系统 的体系结构和实现方法, 基于用户兴趣度,以 及采用混合挖掘方法,建立和更 新用户模型; 2 、 针对某些环节进行了实验性研究。3 、针对用户的个性化兴趣 模型的应用设计了一个基于用户个性化模型的主动信息服务系统。 该模型的研究普遍适用于internet的各个应用中, 包括自 适应的认 吧 b站点 (ad 叩 tive si te)、 智能 搜索引擎、 信息的 个性 化推荐、电 子 商务的个 性化服务、 远程教育的个性化学习等等。因此,此项研究具有理论价值和实用价值。 1 . 5论文的组织结构 论文结构安排如下: 第一章绪论简要的介绍了国内外个性化信息服务系统的现状和课题的研究意 义,以 及本论文的主要研究工作。 第二章理论基础研究了实现个性化w 亡 b 挖掘模型所需要的理论基础,包括数据 挖掘技 术、 web 挖掘技术、 智能体age ni技术以 及a ge nt之间的 通信技术。 第三章分析了目前a c l通信语言以及与之相关的内容语言的缺点, 结合www 的 主流 技术x 扮 i l , 提出了x m l 语言 包装k q m l 的 方法, 并 基于此设计出 一种基 于x ml 语言的a ge nt通信体系结 构, 提高a g ent之间的 通信效 率。 第四 章介绍了 一 个基于a ge nt的web 个 性化挖掘模型, 并 详细介绍了 模型的 体 系结构 和工作 流程,并对各个a g 呱 的 功能 进行了 详细 介绍。 第五章介绍了用户兴趣挖掘技术。首先分析了现有的用户兴趣发现算法,并指 出了它们的不足和缺陷,然后提出了通过分析用户登陆时的有关信息、查 询串和浏览页面时的有关信息来生成用户兴趣的挖掘算法。 第六章介绍了系统模型的实现和测试过程。首先我们介绍了开发平台的选择, 之后介绍了系统知识库的设计,重点叙述了本体库的创建。最后我们对系 统进行了测试,并给出了系统的运行界面。 第七章结束语总结了整篇论文,提出了论文的创新点,并指出存在的不足以及 下一步的工作。 第2 章 基于a gent的w 亡 b 挖掘模型研究的理论基础 第2 章 基于a g e n t 的w eb挖掘模型研究的理论基础 正如第一章所介绍, 伴随着功 忱 m e t 应用的发展, 人们越来越需要一种基于 in te met 的个性化服务。 而所谓个性化服务, 就是指对不同用户采取不同的服务 策略,提供不同的服务内容. 本文所提出 的“ 基于a ge nt的 个性 化挖掘 模型” , 是关于 用户兴 趣、 偏好、 访问 模式的可计算描述, 它是个性化服务的基础。 研究如何通过监视用户的动 作来主动地分析并提取其个性特征,即挖掘用户模式。 用户建模, 是指根据用户信息( 如浏览内容、 浏览行为等) 归纳出用户模型。 用户建模是实现个性化服务的关键技术。 本章主要介绍在建模建立过程中主要采用的技术,包括 w e b挖掘以 及 a g en t 技术等。 2 . 1数据挖掘 2 . 1 . 1数据挖掘技术产生的背景 当前数据库技术迅速发展,使得信息存储的能力越来越强, 存储的数据类 型越来越丰富,但是这些系统提供决策支持的能力还非常有限。对于当前大多 数的应用而言,最突出的矛盾在于 “ 数据爆炸而知识贫乏”。 计算机的另一领域机器学习,主要的研究问 题在于如何通过大量训练 事例进行学习, 产生知识。 20世纪90年代以 来机器学习 逐渐成为 研究的热点。 将数据库和机器学习结合起来,就产生了海量数据中的知识发现一一 kno wledgedisc overyind a t a b as e , 简称为k d d , 也就是数据挖掘这个新兴的 领 域。这个术语首次出现在1 9 8 9 年8 月美国底特律召开的第 11届国际人工智能 联合会议上; 19 95年, 加拿大召开了第一届知识发现和数据挖掘国际学术会议。 第2 章 基于a gen t 的web 挖掘模型 研究的理论基础 2 . 1 . 2数据挖掘概念和过程 数 据 挖 掘 i2l 3 (d atam ini ng)是 从 大 量 的 、 不 完 全 的 、 有 噪 声 的 、 模 糊 的 、 随机的数据集合中,提取有效的、新颖的、潜在有用的、以 及最终可理解的 模 式的非平凡过程。 它是一门涉及面很广的交叉学科, 包括机器学习、 数理统计、 神经网络、 数据库、 模式识别、粗糙集、 模糊数学等相关技术。数据挖掘的目 的是提高市场决策能力: 检测异常模式; 在过去的经验基础上预言未来趋势等。 这些知识和规则是隐含的、先前未知的、对决策有潜在价值的有用信息。通过 数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合 中抽取出来,为决策提供依据,从而使数据库作为一个丰富可靠的资源,为知 识归纳服务。 数据挖掘可分为 三部曲 : 数 据准备 (d atap reparati on ) 、 数据挖掘,以 及结果 的 解释评估 ( i n te 甲 re tatio n a ll d e v a l uati o n ) 。 数据准备又可以 分为三个子步骤; 数据选取(d ata se le ction ) 、 数据预处理 (d at a p 哪ro ce ss in g ) 和数据变换(d atatr an s fo rmati o n) 。 数 据选 取的目 标是确定 发现 任务的 操作对象, 即目 标数 据o a r g e t d ata) , 它是根据用 户的需要 从原始数据 库 中抽取的一组相关数据。数据预处理一般可能包括消除噪声、推导计算缺值数 据、消除重复记录以 及完成数据类型转换( 如把离散型数据转换为连续型数据, 以便于神经网络归纳) 等。数据变换的主要目的是消除数据维数或降维 付 i mens i on reduc ti o n) ,即 从初始 特征中 找出 真正有用的 特征以 减少数据挖掘时 要考虑的特征或变量个数。 数据挖掘阶段首先要确定挖掘的任务是什么,如数据分类、聚类、关联规 则、 序列模式和预测等。 确定了挖掘任务后, 就要决定使用什么样的挖掘算法。 同样的任务可以 用不同的算法来实现,选择发现算法有两个考虑因素:一是不 同的数据有不同的特点,二是用户或实际运行系统的要求。 完成了上述准备工作后,就可以实施数据挖掘操作了。数据挖掘算法是 k d o的核心, 要获得好的 挖掘效果, 必须对各种挖掘算法的要求或假设有充分 的理解。 数据挖掘阶段发现出来的模式,经过用户或机器的评估,可能存在冗余或 无关的模式,这时需要将其剔除;也有可能模式不能满足用户的要求,这时则 需要整个发现工作退回到前面的阶段。 另外, 挖掘结果由于最终是面向用户的, 第2 章基 于a ge nt 的web 挖 掘 1 墓 型 旦 1 窒 的 些 1 竺塑匕一一一一一一 因此可能要对发现的模式可视化,或者把结果转换为用户易懂的另一种表示。 数据挖掘的研究有很多的研究难题,如数据的巨量性、动态性、噪声性、 缺值和稀疏性,发现模式的可理解性、兴趣或价值性,应用系统的集成, 的交互操作,复杂数据库的处理等等。 2 . 1 . 3数据挖掘的主要技术 数据挖掘有多种技术,主要包括以下几种: ( 1 ) 关联规则 关联规则是用来描述在给定的事务集中, 频繁出现的项目 集的规则 用户 。 关联 规则是k d d研究中的一个重要分支。自 从r . a gr awal等人在si g mo d93 上第 一次提出这个问题以来,关联规则一直是众多学者的研究热点。现己发表的研 究论文包括确定性关联规则的挖掘、量化关联规则的挖掘、增量式关联规则的 挖掘、 模糊关联规则的 挖掘、广义关联规则的挖掘等。著名的关联规则发现算 法是apri oril4 , 该 算法 首先 识别 所 有的 频繁 项目 集, 这 是算 法的 核心。 为了 改 善算法的 性能, a g r a w a l 等 人在v l d b 94上又提出了 快速算法。 ( 2 ) 分 类 分类属于有导师学习,即利用给定的训练数据集建立分类模型,再通过分 类模型 对新的 数据进行分类的 工程。 主要的 分类方法有决策树15 、贝叶斯、 神 经网络和粗糙集16 。 ( 3 ) 聚类 聚类也可以 称为 无监督分类( 不需要 训练集) 。 聚类, 事先并不知道训练数 据的类标签, 而是本着“ 最大化类内部数据相似度, 而最小化类间数据相似度” 的原则, 产生新的 类别。 聚类方 法 包括统计 方法门 、 机器学习 方法151 和空间 数据 库方法19 等。 (4 ) 可视化 可视化就是把数据、信息和知识转化为可视表示形式的过程。可视化技术 为人类与计算机之间提供了一个接口。使用可视化界面,可以快速高效地与大 量的数据交互, 以 发 现其中隐藏的 特征、 关系、 模式和趋势等。 andrew等从认 知的 角 度讨论了 可视 化在大 规模高维数据集中 挖掘的 作用110 1 , li采用三维投影 技术可 视化关系 数据 库111 . 第2 章 基于a gent的web 挖掘模型 研究的理论基础 2 . 14数据挖掘应用 数据挖掘,作为一种发现海量数据背后隐藏知识的技术,己 经成功应用在 如下领域: . 商业数据分析和决策支持 电子商务中,根据站点访问者浏览行为的特点,划分出不同的客户群:针 对不同的客户群采用不同的营销手段。超市中,利用关联规则分析哪些商品摆 放在一起可以提高商品的销售量。 . 网 上冲浪 挖掘用户浏览w eb后留下的各种数据, 包括行为数据以及web页面内容方面 的数据, 从中发现用户访问web的兴趣爱好或行为习惯, 从而建立个性化的用户 模型。 这样的 系统被 称为 个性 化w eba ge ni 系统, 如w ebw at ch er 。 2 . zw e b 挖掘 22 . lweb 挖掘的基本概念 w 七 b 挖掘是指利用数据挖掘的原则和思想, 针对web 页面内容, 站点拓扑结 构,用户访问 信息, 用户注册信息及电 子商务交易信息等各种数据, 对传统的 挖掘方法进行扩展和改进, 从w 七 b 文档和w 七 b 活动中抽取感兴趣的潜在的有用模 式和隐藏的 信息的 过程11 那3jll4) 。 它可以 帮助 人们从w w w中 发现知识,改进站 点设计,提供个性化服务。 2 . 2 , zwe b 挖掘研究现状 www是众多情报类型中的一种,并且具有极大的 特殊性。 它的信息是分 布在全球范围内,并且随时可变。 这些分布在各地的信息允许任何人在任何地 点任何时间传播和获取信息。传统的搜索引擎根本不评估站点的内容,而只是 机械地识别web 设计者提供的关键字, 即使是最优秀的 搜索引擎也需要用户亲 自 访问到不同的站点并对信息加以 验证。另外不能针对特定的用户给出 特殊的 服务,因为每个人感兴趣的东西是不一样的,因此不具有个性化。 第2 章 基于a gen t 的, 爬 b 挖掘模型研究的理论基础 解决这些问题的一个途径,就是将数据挖掘技术和 m 几 b结合起来,进行 认 尼 b挖掘。w 匕 b挖掘可以广义地定义为从 www 中发现和分析有用的信息。 w 七 b 为数据挖掘提供了 丰富的资源, 但是w 七 b 挖掘比 传统的数据挖掘具有更大 的难度。w 七 b 挖掘可以在很多方面发挥作用,一般地,w 七 b 挖掘可分为三类: w 七 b 内 容挖掘、 w 已 b 结构挖掘和v 几 b 使用记录的挖掘, w 七 b 使用记录的挖掘也 称职 触 b日 志挖掘。图2 . 1 给出了认 七 b 挖掘的分类图。 m 飞 b 挖掘 v 飞 b 内 容 挖 掘 1 截b 结 构 挖 掘 1 节 飞 七 日 志 挖掘 从 乞 b 页 内 容挖 掘 1 搜 索 结 尉它 掘 1 1 一 般访 间 模蒯它 掘 定制使用跟踪 图2 . i w eb挖掘分类 2 . 2 . 3w七 b内容挖掘1, 5 1 1 , 6 1 1 1 7 1 web 内容挖掘是自 动地从数以百万计的 m 怂 b 站点和在线数据库中搜索和获 取信息和资料的过程, 从从 殆 b 文档的内容信息中抽取知识。 w 七 b 内容挖掘有两种 策略,分为直接挖掘文档内容和在其它检索工具搜索的基础上进行改进。场 几 b 内容挖掘根据其所处理的数据对象的不同可分为文本挖掘和多媒体挖掘。由于 文本仍是信息传递的主要方式,而且文本处理技术相对比较成熟;因此文本数 据的挖掘,在研究 和应用上都比较普遍。 文本挖掘主要分为:文本的总结、 分 类、 聚类、 关联分析,以及利用web文档进行趋势预测等, 其中最常见的是文本 的分类和聚类。 w e b 内 容挖掘主要应用 在个性化的 信息 a ge ni 中。 在如何构建个性化的 用户 模 型方面大量采用了web内容挖掘的技术。 节 几 b 内容挖掘的目的之一是基于页面内 容相似度进行用户分类或聚类,个性化的建立是通过用户过去的检索内 容分析 而建立起来的。自 动化的个性化技术可以 通过过去的需要和相似用户的需要来 预知特定用户将来的需要。 第2 章基 于a g en t 的web 挖掘 模 型 研 究的 理 论 基 础 由于从 乞 b 上的信息在很大程度上是文本信息, 因此本文着重针对基于w匕 b 的文本挖掘展开研究和探讨。文本挖掘最重要的步骤就是文本的特征表示方法 和特征子集的选取方法。 2 . 23 . 1文本的特征表示 与数据库中的结构化数据相比,w亡 b 文档具有有限的结构,或者根本就没 有结构。 半结构化是web 上数据的 最大特点,也形成了web 文本挖掘的特色。 文本信息源的这些特征使得现有的数据挖掘技术无法直接应用于其上。需要对 文本进行预处理,抽取其特征并用结构化的形式保存,作为文档的中间表示形 式。 文本的特征指的是关于文本的元数据,分为描述性特征和语义性特征。而 文 本的内 容特征的表示则相对复杂一些。 特征表示是指以 一定的特征项( 如词条) 来代表文档信息,特征表示模型有多种,常用的有布尔型、向量空间型、概率 型等。 近年来应用较多且效果较好的 特征表示法是向 量空间 模型( ve ct orsp 即 e m edel , v s m ) 法。 在该模型中, 将文本文档看成是一组 词条 ( ti , 几 , 一 , 毛 ) 构成, 对于每一词条t , , 都 根据其在文档中的重要程度赋予一定的权值w i , 可以 将其 看成一个n 维坐标系, wl, w2,二 ,叭 为对应的坐标值, 因此每一篇文档都可以 映射为由一组词条矢量组成的向量空间中的一点,对于所有待挖掘的文档都用 词条特征矢量 ti, wi) ; ( 几 , 姚) ); ;( tn, w n)表示。 这 种向 量空间 模 型的 表示 方法优点在于将非结构化的文本表示为向量形式,使得各种处理成为可能。 2 , 2 . 3 . 2 文本的 特征子集的选取 特征选取算法的 优劣直接影响到选取的效果。一个有效的特征项集,必须 具有彻底性和专门性。其中彻底性指文本所讨论的内容被特征词覆盖的程度: 专门性指特征词必须能反映文本的具体内容,而不是泛泛而谈。为了满足彻底 性要求,对文本进行结构和内 容分析,以 保证对文本各部分内容的最大限度的 覆盖。 为了满足专门性, 需要消除停用词, 选择具有实际意义的名词及其短语, 特别要注意选取面向内容的词汇。 目 前对w w 、 v 文档特征所采用的 特征子集选取算法一般是构造一个评价函 数, 对特征集中的每一个特征进行独立的评估, 这样每个特征都获得一个评估 分( 也 称为权值 ) , 然后对所有的 特征按照其评估分的大小 进行排序, 选取预定 数目的最佳特征作为结果的特征子集。 所以,选取多少个最佳特征以 及采用什 第2 章 基于人 geni的, 爬 b 挖掘模型研究的理论基础 么评价函数都要针对一个具体的问题通过实验来决定。特征选择主要用于排除 那些被认为无关或关联性不大的 特征 ( 即术语) , 并自 动将那些低频的 特征用正 交方法合并成高频特征。 一般采用的评估函数有信息增益( in fo rmat i on g al n)、期望交叉嫡 作 xpec te dcro sse ntr叩 y) 、 互信息 (mu l u a l l nforma t i o n) 、 文本证据权( j 七 e wei ghtof ,i a e nc e 允 r tex t ) 、 几率比 ( o d d s r a t i o ) 、 词频( wordf re q ue n c y) 等。 这些评 估函 数大致可分为两类: 基于统计分析的 方法和基于机器学习的方法。 信息增益法是一种在机器学习 领域应用较为广泛的特征选择方法.它从信 息论角度出发,根据各特征取值情况来划分学习样本空间时,所获信息增益的 多寡来选择相应的特征, 特征t 的信息增益gain(t)计算公式如下: 山 蝴片 乞 一 ,p(c)loop(q卜 助乙“ (c,lt) 吨 p(qt)+助翌1甩11) 1、 甩! 乃 (2.l) 其中m为不同类型的w 七 b 网页数; 众 为某一类web 网页的集合; 1 表示特征t 不出 现。 对于训练文档集,计算每一个特征的信息增益,对于信息增益低于给定闽 值的术语,将从特征空间把其排除。 2. 2. 3.3 we b网页的特征提取 场 范 b 网页特征表示与普通文本有所不同, 所以v 怎 b 网页的特征提取有其特 殊性。web网页是采用超文本标记语言编写的半结构化的文本文件,其所含信 息体现在三个部分:网 页正文( 标题中 的文字也 算作正 文中的内 容) 、网 页所含 的超文本标记、网页间的超链接。 对网页进行特征提取首先要对超文本进行网页过滤,过滤处理后分别获得 网页正文、 超文本标记和超链接信息, 过滤后的网页正文与普通文档基本一样。 对它的处理即可转化为中文文档的处理。 (l ) 标签信息 标签的作 用是 提供了 有关文档结构的 信息 ( 如标题、 头部 及段落等) 和格式 ( 如粗体和斜体等 ) 。 显而易见, 利用h t m i 口 文档的结构, 人们能 够很容易地知 道某个检索字的具体位置及格式。 h t m l中的标签很多,与字符属性及文章标题相关的标签有: title,hi书6, p, st ro ng,b,e m,i ,u,d l, o l, u l 。 创门 标记的文字往往对揭示网 页的 主体内 容具 有 更加重要的作用。所以 在网页特征提取时,统计这些标记的特征词条和次数, 为它们赋予较大的权值。对标记信息的统计,既有效利用了 标记对关键词重要 第2 章基 于a 罗 nt 的web 挖 掘 模 型 研 究 的 理 论 基 础_ _ _ 程度的标识作用,又对网页的理解增加了准确的尺度。 在 h t ml中还有一个重要的标记 ,它位于网页源码开始部分,在 和 之间 ( 也是标题定义所在的 位置) , 是一组定义网 页 属 性的htm l 标 签。网 页的 作者可以 在 中 加入关于网页内 容的关键词, 以 便搜索引 擎将它准确分类。 m e ta 标签是网页简述的第二种标签代码,它是对网页的描述,用以概括网站,比标 题稍微展开一点 点, 。 但 目 前的情况是大部分网页的m e ta处于空白 状态, 或网页的作者将它作为一种欺 骗手段,因此没有充分发挥它的价值。 (2 ) 超链接信息 网页的超链接中所包含的信息有: u r-l 字符串中的字符信息: 链接文本( 链接标记 和刁 a间的文字信息 ) 。 链接所引入的 超文本文件内 容间的相关性。 中文域名的应用, 使得许多u r l 字符串中又包含了有一定意义的中文字符 信息。这些信息与网页的内 容间虽有一定的联系,但规律性不强,且需要建立 庞大完备的知识库,提取难度较大。 超链接包括同一网 页内 部的 相互 链接 ( 用li nk标记 ) , 和网页间的 相互 链接 ( 用ah ref 标记 ) 。网 页间的相 互链 接又可 细分为与 文本 文件的 链 接、 与图 片 的链接、 与电子邮箱地址的链接等。 文档之间的超链反映了 文档间的某种联系, 例如 包含、 从属等, 超链中的 标记文本( 即小 。 t) 对链宿页面也 起到了 概括作用, 这种概括在一定程度上比 链宿页面作者所作的概括( 页面的标题) 要更为客观、 准确。超链接还反映了文档间的引用关系,一个页面被引用的次数体现了该网 页的重要性。然而, 超链接虽然引入了网页内容间的相关性,但因为网页编写 的随意性,这种相关是不确定的。即相链接的网页间内容上可能相关,也可能 无关。比如出于商业上的目的,许多网站上链接了与其内 容无关的电子广告; 许多用户页面都带有用户登陆和身份验证等链接;为了用户使用上的方便,同 一网站内 容上并不相关的网页之间也存在着相互连接等。 所以 在利用超链接信 息时,要尽可能地减少这种相关性的不确定性。 考虑到超链接信息的不确定性,本文对于网页的特征提取来自 正文和标记 信息。 第2 章 基于a gent的web 挖掘模型 研究的理论基础 2 . 2 . 4w七 b 结构挖掘1, 8 1 1, 9 112 0 1 we b 结构挖掘,是指从web文档的链接中推导知识的过程。通过挖掘认 七 b 结 构信息,对于导航用户浏览行为、改进站点设计、评价页面的重要性等都非常 重 要。 这 方 面 工 作的 代 表 有 p ag e r anklzl l 和 c l e v e r1 221 。 p ager a nk的 核 心 思 想 在 于,发现权威性页面。 权威性页面可由 w eb页面间的超链来反映:当一个w eb 页面的作者建立指向另一个页面的超链时, 可以看成该作者对另一w e b 页面的引 用:如果一个页面被引用的次数越多,而且引用该页面的页面的重要性越高, 该页面也就越权威。 c l e v e r 系统主要采用了h its 算法,该算法的主要思想在 于, 如何 识别 h u b 角 u t h o r i ty 页面。 搜索引擎 g oosle中 就采用了 该算法,比 较于其 它基于词类索引检索的搜索引擎,可以得到明 显优化的查询结果。 2. 2. s w e b 访问日 志的 挖掘1劝 we b 访问日 志, 是登陆某个web站点的用户经过一系列的站点浏览后, 系统 自 动记录的 用户浏览行为数据, 诸如用户的ip、 用户的访问时间、 浏览过页面的 u rij 、请求方法、 请求的字节数、客户端的操作系统和浏览器版本号等。通过 对w比站点上用户访问日 志文件中的数据的挖掘, 可以了解登陆web站点的大多 数用户经常采用的浏览模式、浏览路径,从而改进站点的设计。对于访问模式 相似的用户,进行分类或聚类;针对类型不同的用户,提供不同的个性化服务 方案。在电子商务中, 还可以 根据划分出的不同用户群,制定出相应的商务决 策。 2 . 3a g e n t 理论 23 . 1触ent 的定义、特性和分类 a g ent 的 概念 模型 起源于 分布式人工智能 领域中的 分布式问 题求 解。 a g ellt 是指模拟人类行为及人与人之间的关系,能够根据所感知的环境自 主运行和提 供相应服 务的程序。目 前,对a g ent 尚 无一 个公认的定 义,中 文译法也不太统 一, 有 译 为 智 能 主 体 、 智 能 代 理 或 智 能 单 元 等 124 。 通 常 一 个a ge ni软 件 是 具 有 第2 章 基于a gent的叭 七 b 挖掘模型研究的理论基础 以 下特征的 独立生 存的 计算实体 125 1 : (l )自 主性:能够在用户不参与的 情况下,根据自 身内部状态和感知到的 环境信息,独立发现和索取符合用户需求的可利用资源和服务,决定和控制自 己的行为; (2 )目 的性:具有强烈的行为目的性,即为达到某种目 的,根据自 身的行 为规则主动采取一系列行动,直至达到目 的; (3 ) 适应性:能够根据以前的经验和感知所处环境的变化, 及时 对相关事件 做出适时反应,改变自己的行动。了解用户对需求的非精确表达, 推测用户的意 图,捕捉用户的偏好和兴趣,使自己更好地代理用户工作; (4 ) 连续性:为了 完成用户的委 派, a ge nt能 够连续 执行, 即 使用 户离开时也 能正常执行; (5) 社会性: a ge nt之间 存在相 互作 用和通讯 , 即 一个a ge nt可以 通过通 信 语言与 其他a ge ni或 用户进行交互, 与位于网 络不同 节点 上的其 他a ge ni协同 工作; (6 ) 机动性: 在网 络计算环境下, 一个a ge ni可以 在网 络上灵 活机动地访问 各种资源和服务, 甚至使自 己 迁移到其他主机上去执行分布计算。 从上述 特征看, 在网 络范 畴内 可以 把a ge ni定义为 : 在网络 环境 下代理 用 户或其他程序,以主动服务的方式持续完成一组操作的机动软件实体,它能够 自己 创建与实现目 的有关的计划, 可定时和交互地执行, 该实体也可以自 学习、 自 增长,根据环境调整自 身的行为,并能够作用于本身和网络环境, 对网络环 境变化做出反应。 a ge nt按功能划分: 界面agen t(l n te r fa c e ag e nt ) 或个人助手: 它的 主要任 务 是协助用户完 成乏味 而重复性的 工作。 a g ent 将 观察并监督用户怎样执行 特定的 任务, 当 这些ag e nt 能确定用户在特定情况下将如何反应时,它将开始替代或帮助用户完成任务。 这些ag e ni己 针对某一 用户进行了 个性化处理, 适应特定 用户的 行为。 这些问 题与人机接口、用户建模或模式匹配密切相关。 任务ag en t( task ag e nt ):它是帮助人类进行复杂决 策 和 其他知识处 理的软件 age nt 。 这些age ni以ai领域的计算机学习、 计划、资 源受限的推理、 知识表达 等为基础在一使用框架中应用。 信息 / in te rnet ag ent(i n fo n 刀 以 i on/i ni e rnet agent): 它 支持 用户 在分 布式系统或 第2 章基 于a ge n t 的web 挖 掘 雀 型 互 亚 芝 互 亘 勺 理 1 竺型匕一一一一一一 inte rn e t 网络中智能搜索信息或智能管理网络资源。 a g ent 按行为方式划分: 自 主a ge nt(a utono mousa g e nt): 在复杂动态环 境中自 主 感知和行动。 多ageni ( m ul ti a ge nt): 一个ag e nt能利 用关于其 他agent 的知 识来协调它与 其他ag e ni的 行动或合作完成目 标。 助手ag ent( a ss ist ant a g e n t) : 只与 人类ageni相互作用。 其 他 一 些 特 殊 类 型 的ag e nt : 移动ag e ni ( m obileagent): 位于网 络中 并通过迁移或服务接口 能与网 络中 其 他程序进行通信的age nt 。它通常是由 客户端迁移到服务器端执行的脚本程序。 2 .
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 写实绘画专业知识培训课件
- 试用期 协议书
- 高压成套设备装配配线工创新能力与改进提案考核试卷及答案
- 硅料腐蚀工月度评审考核试卷及答案
- 公司脂肪醇生产操作工岗位合规化技术规程
- 公司玉器抛光工职业健康、安全、环保技术规程
- 2026届浙江省台州温岭市第三中学七年级数学第一学期期末达标测试试题含解析
- 2025校园多媒体设备采购合同
- 专项安全生产知识培训课件
- 2025家居用品集体采购合同模板
- 2025年全国国家版图知识竞赛题库及答案(中小学组)
- 机加工安全生产培训考核试题及答案(班组级)(精)
- 电梯从业证考试试题及答案解析
- 2024年武汉商学院公开招聘辅导员笔试题含答案
- 钢结构厂房装修施工方案报告
- 新规范监理规划范本
- DB32-T 5156-2025 零碳园区建设指南
- 人教版三年级数学上册第一单元分层作业设计
- 2024年国庆中秋安全教育主题班会《欢度双节 安全护航》主题安全教育【课件】
- 2025年起重机司机Q2证理论考试题库及答案
- 网络药理学评价方法指南
评论
0/150
提交评论