(应用数学专业论文)数据挖掘在web个性化服务中的应用研究.pdf_第1页
(应用数学专业论文)数据挖掘在web个性化服务中的应用研究.pdf_第2页
(应用数学专业论文)数据挖掘在web个性化服务中的应用研究.pdf_第3页
(应用数学专业论文)数据挖掘在web个性化服务中的应用研究.pdf_第4页
(应用数学专业论文)数据挖掘在web个性化服务中的应用研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(应用数学专业论文)数据挖掘在web个性化服务中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学研究生硕士学位论文第l 页 摘要 面对w o r l dw i d ew e b 上的海量信息 如何快速 准确地从动态 异质 半结构化的数据中提取人们感兴趣的 隐含的 有应用价值的知识 己成为 人们普遍关注的问题 w e b 个性化服务指w e b 站点通过跟踪 研究用户登陆信息 发现用户 的喜好 动态地为用户提供浏览建议 制定浏览内容 w e b 数据挖掘是利用 数据挖掘技术在网页数据中发现潜在的 有用的模式或信息 本文将模糊聚类运用到w e b 使用挖掘中 在实现w e b 服务器日志的数 据预处理后 对w e b 事务数据进行w e b 模糊聚类 分析 研究 有效的抽 取出用户感兴趣的模式 通过w e b 使用挖掘技术可按照用户的兴趣和爱好 智能地改进w e b 站点上的信息组织与显示 针对不同用户提供不同的服务 策略和服务内容 改善网站的质量 使网站建设和修改更加有的放矢 减少 用户的无效点击操作次数 缩短查找信息的时间 提高访问效率 更好地实 现w e b 个性化服务 本文研究了w e b 数据挖掘的预处理过程 并给出了各项任务的相关算 法 通过对模糊聚类理论和技术的研究 提出了w e b 使用挖掘技术的模糊 聚类过程模型 对于该模型在w e b 事务中的w e b 用户聚类 w e b 页面聚类 等方面的应用和实现进行了探索性研究 研究了基于页面层次和偏好度获取 浏览频繁路径的方法 结合x m l 技术 提出了一个w e b 个性化系统框架 依照该框架开发网 站的相关管理系统可针对用户不同兴趣转变服务策略 提供针对性的服务 在不增加现有服务站点硬件设备的同时使其更具人性化 关键词 数据挖掘 个性化技术 w e b 使用挖掘 模糊聚类 第 页河南大学研究生硕士学位论文 a b s t r a c t c h a l l e n g e db yt h em a s si n f o r m a t i o no nw w w h o wt oe x t r a c tk n o w l e d g e q u i c k l ya n dc o r r e c t l yt h a tp e o p l ei n t e r e s t e di n t a c i t p o t e n t i a l l yu s e f u lf r o mt h e w e bd a t ao fd y n a m i c h e t e r o g e n e o u sa n dh a l f s t r u c t u r eh a sb e c o m eat o p i co f g e n e r a lc o n c e r n w e bp e r s o n a l i z e ds e r v i c ei st h a tw e b s i t e sc o u l de x a m i n eu s e r s l l o g o n i n f o r m a t i o nb yt r a c k i n gu s e r s l o go n a n dt h e nf i n du s e r s p r e f e r a n c ei no r d e rt o p r o v i d ed y n a m i c a l l yb r o w s i n gs u g g e s t i o n sa n dc o n t e n t sf o ru s e r s w e bd a t a m i n i n gi st h a tf i n d st h ep o t e n t i a la n du s e f u lm o d e lo ri n f o r m a t i o ni nw e bd a t ab y u s i n gd a t am i n i n gt e c h n o l o g y i nt h i sp a p e r f u z z yc l u s t e ra n a l y s i si su s e di nw e bm i n i n g o n c et h ed a t ao f l o gi sg e t t i n gp r o c e s s e d w ec a r r yo nw e bt r a n s a c t i o n sd a t ao fw e bf u z z yc l u s t e r a n a l y s i s s t u d y i n g t h e n e x t r a c t e f f e c t i v e l yt h em o d e li n w h i c hu s e r sa r e i n t e r e s t e d b ym e a n so fu s i n gw e bm i n i n gt e c h n o l o g y t h eo r g a n i z a t i o na n d d i s p l a yo ft h ei n f o r m a t i o nt h a t i ss h o w ni nt h ew e b s i t ec o u l db ei m p r o v e d a c c o r d i n gt ou s e r s i n t e r e s t sa n dp r e f e r a n c e s w e bm i n i n gc a na l s op r o v i d e d i f f e r e n ts e v e r i n gs t r a t e g i e sa n dc o n t e n t sf o rd i f f e r e n tu s e r s i m p r o v et h eq u a l i t y o fw e b s i t e s a n dt h e nt h ew e b s i t ec o n s t r u c t i o na n dm o d i f i c a t i o nc o u l db ed o n e b e t t e r t h et i m e so fi n v a l i dc l i c kw o u l db er e d u c e d t h et i m es p e n to ns e a r c h i n g i n f o r m a t i o nw o u l db es h o r t e n e da n dt h ev i s i t i n ge f f i e n e yw o u l db ei m p r o v e d t o o f i n a l l yw e bp e r s o n a l i z e ds e r v i c ew o u l db eb e t t e rr e a l i z e d t h i sp a p e rf i r s ts t u d i e dt h ep r o c e s so fw e bd a t ap r e p r o c e s s i n g a n dt h e c o r r e l a t i o na l g o r i t h mo fa l la s s i g n m e n t sh a sb e e ng i v e no u t 砂t h ew a yo fr e s e a r c h i n gt h ef u z z yc l u s t e r st h e o r ya n dt e c h n o l o g y w e h a v ep r o p o s e dt h ef u z z yc l u s t e r sm o d e lo fw e bu s a g em i n i n g w ec a r r yo n e x p l o r a t o r yr e s e a r c ho fa p p l i c a t i o na n dr e a l i z i n gi ns u c ha s p e c t sa sw e bu s e r s c l u s t e ra n dw e bp a g ec l u s t e ri nw e bt r a n s a c t i o n sa tt h i sm o d e l s t u d i e dt h e m e t h o do ff i n d i n gf r e q u e n tb r o w s i n gp a t hb a s e do np a g el e v e la n dp r e f e r e n c e s y n t h e s i z i n gt h ex m lt e c h n o l o g y aw e bp e r s o n a l i z a t i o ns y s t e mm o d u l e h a sb e e np u tf o r w a r d t h ec o r r e l a t i o nm a n a g es y s t e mb a s e do nt h em o d u l ec a n 河南大学研究生硕士学位论文第1 ii 页 a d j u s tw e bs e r v i c et a c t i c sa n do f f e rp e r t i n e n c es e r v i c ea c c o r d i n gt ot h ei n t e r e s t t ou s e r s s oa st om a k et h ew e b s i t em o r ep e r s o n a l i z e dw i t hn oi n c r e a s i n gi n e x i s t e n c es e r v i c ew e b s i t e sh a r d w a r ee q u i p m e n t k e yw o r d s d a t am i n i n g p e r s o n a l i z et e c h n o l o g y w e bu s a g em i n i n g f u z z yc l u s t e r i n g 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位中请 本人郑重声明 所呈交酌学位论文是 本人在导师的指导下独立完成的 对所研究的课题有新的见解 据我所知 除 文中特别加麒说明 标注和致谢的地方外 论文中不包括其他人已经发表或撰 写过的研究成果 也不包括其他人为获得任何教育 科研机构的学位或证书而 段休存 骗字位论灭 纸顺灭本和屯亍又奉 涉及保密内容的学位论文在解密后适用本授权书 学位获得者 学位论文作者 签名 量退熟 2o 卯年g 月 日 学位论嫦删币戳 础鳢 0 1 年移a b 河南大学研究生硕士学位论文第1 页 第1 章绪论 当今社会 w o r l dw i d ew e b 已经广泛渗透到人类社会的各个角落 面对网络 上所展示出的庞大信息资源 如何快速 准确地从动态 异质 半结构化的数据 中提取人们感兴趣的 隐含的 有应用价值的知识 已引起业界人士的广泛关注 和浓厚兴趣 越来越多的有志之士投入其中 对其进行研究和探索 1 1 引言 中国互联网络信息中心 c n n i c 发布的 第1 9 次中国互联网发展状况统计 报告 显示 截至2 0 0 6 年1 2 月3 1 日 我国网民总数达1 3 7 亿 与去年同期相比 增长了2 3 4 我国网站达到8 4 3 万个 弼页总数达到4 4 7 亿个 极度膨胀的数 据信息量使人们受到 信息过载 的巨大压力 信息过载包括信息数量的增加和 质量的下降 表现为 信息噪声化 信息贫瘠和信息过剩等 如何快速 准确地 从海量 分布 动态 异质 复杂 开放 非结构化的w 曲数据中发现知识 成 为各界共同关注的热点 与此同时 w w w 上的一些主要工作 如w e b 站点设计 w e b 服务设计等工作也变得越来越复杂和繁重 解决信息过载问题的一个行之有 效的途径是通过数据挖掘技术改善网站的可用性和可理解性 数据挖掘是从大量的 不完全的 有噪声的 模糊和随机的实际应用数据中 提取隐含在其中且人们事先不知 但又潜在有用的信息和知识的过程 1 1 从应用角 度看 数据挖掘是一种新的商业信息处理技术 是一类深层次的数据分析方法 2 万维网是目前最大的数据库 将数据挖掘技术应用其上 可挖掘的数据既可以是 网页包含的数据 也可以是w e b 操作产生的数据 w e b 在信息共享 电子商务和提供在线服务方面的广泛应用 使越来越多企 事业单位投入大量资金建立网站用于发布信息 宣传产品和服务或展开电子商务 活动 以此改进企业策略 获取更多商业机会 相比传统的面对面服务形式 网 络服务因无法与用户正面沟通更易造成服务缺乏个性化的闯题 为w e b 站点服务 向更深层次发展增设了一大障碍 在纷繁复杂的信息世界中 丰富的内容 齐全 的门类和众多的特色服务是吸引用户浏览的基础 而不同层次 爱好和使用目的 的浏览者只对其中一小部分信息感兴趣 不愿将精力和时间花费在查找资料的等 待中 网站经营管理者从商业角度考虑希望能利用最少的资源来管理站点 站点 管理者和访问者间无形中产生了供需矛盾 提供满足不同客户群体需要的个性化 第2 页河南大学研究生硕士学位论文 服务变得势在必行 对w e b 用户的调查表明 7 0 的用户认为现有站点难以提供 有效的帮助 传统网站采用 一对多 的批发方式 对所有的访问者采取统一界 面表现形式 提供相同的服务功能 缺少与访问者直接或间接的交流 用户需 自己去寻找所需信息 另外 因大量访问者未明确表明个性化需求 多采用匿名 身份 致使经营商不得不通过测览者的表现数据来推测其背景信息 进而加以利 用 统计数据表明 大多数用户在网站上的活动范围很有限 活动中必然包含许 多重复动作 用户行为有规可循 而w e b 挖掘能够发现这些规律 3 j 此外 因w e b 服务器日志中记录了该服务器被外部访问的所有过程信息 通过分析这些过程信 息 可以客观地反映服务器的内部结构 组成 内容 访问频度等有关该服务器 的重要信息 对于评价和改进网站的服务质量来说是非常宝贵的资源 同时 在 任何一个服务器上都可方便地得到其日志文件 文件结构较为良好 且数据挖掘 技术的日趋成熟使对这一不断增长的巨大数据文件的处理变得可能 4 j 因此 w e b 日志挖掘是有效且可行的 它属于w e b 使用挖掘的范畴删 w e b 个性化即一个w e b 站点根据发现的用户喜好 动态地为用户定制观看的 内容或提供浏览建议 6 具体地 就是网站为上网的每个用户提供一对一的服务和 指导 7 1 个性化支持可分为初级和高级两种方式 初级方式是由系统在网页上提供 选项 如c h e c kb o x 由用户通过选择对网页的形式和内容进行定制 高级形式则 是系统具有主动学习功能 通过概括和分析用户的行为 自动地实现某种程度的 个性化 而后者最直接的实现方式就是当用户上网浏览 访问时 由系统自动地 向用户推荐相关的内容和用户可能感兴趣的页面 主动为用户导航 9 1 这种推荐或 导航一般应在服务器端实现 理论上也可以在代理端1 9 1 1 0 和客户浏览器端实现 w e b 个性化的基本元素包括w e b 主体 如页面 和客体 如用户 主体和 客体的分类 主体和客体间的匹配及推荐一组个性的行为 一个站点不是简单由 h t m l 文件堆积的w e b 服务窗1 2 1 如今越来越多的企业通过w e b 实施广告宣传 电子交易和技术支持等 如何跟踪客户网上活动轨迹 有效记录客户行为并进行 客观挖掘分析 正是w e b 日志挖掘需要研究的内容u 传统的w e b 使用挖掘 w e bu s a g em i n i n g w u m 和个性化服务思想相结合 为有效解决w c b 信息过载开辟了崭新途径 它以服务个性化和性能最优化为目标 利用w e b 服务器日志和站点文件数据中记录的较详细地用户信息 进行数据预处 理 再通过各种挖掘算法将有相同访问兴趣的用户归类 得到用户模式库 当用 户再次访问时 用户访问推荐模块对用户信息进行识别 并到模式库中匹配 为 用户产生推荐页面集合和其它响应信息 个性化站点可自动改进w c b 页面信息的 河南大学研究生硕士学位论文第3 页 组织与显示 通过预测用户未来信息需求 对该用户进行预发送或推荐其可能感 兴趣的页面 从而为用户提供 一对一 的具备自适应性的智能个性化服务 个 性化站点实质上是一种以用户需求为中心的站点 减少了用户无效点击操作 缩 短了用户查找时间 图1 1 是基于w e b 使用挖掘的w e b 个性化系统结构 图1 1 基于w e b 使用挖掘的w e b 个性化系统结构 个性化站点的基础是具有强大数据分析处理功能的w e b 挖掘 它在当前的信 息分析技术中是最具有应用前景的一种技术 具有极大的商业价值 也将给计算 机科学诸多领域的发展带来深远影响 随着知识经济的发展 个性化技术最终将 成为一种向用户提供智能服务的有效手段 必将在人们的经济生活中得到更广泛 的应用 扮演更重要的角色 1 2 相关研究现状 目前已发展了许多个性化信息推荐服务系统及相关技术 以提高网站的组织 结构及外观表现形式 1 9 9 5 年3 月 卡内基 梅隆大学的r o b e r ta r m s t r o n g 等在美国 人工智能协会上提出个性化导航系统w e b w a t c h e r 斯坦福大学的m a r k o b a l a b a n o v i c 等在同次会议上推出个性化推荐系统l i r a 同年8 月 麻省理工学院 h e n r yl i e b e r m a n 在国际人工智能联合大会上提出个性化导航智能体l e t i z i a 这三个 系统被公认为个性化服务发展初期最经典的系统 标志着个性化服务的开始 1 2 1 9 9 6 年 卡内基悔隆大学的d u n j a m l a d e n i c 在w e b w a t c h e r 基础上改进 提出个 性化推荐系统p e r s o n a lw e b w a t c h e r 1 9 9 7 年 a t t 实验室提出基于合作方式的个性 化推荐系统p h o a k s 和r e f e r r a lw e b 斯坦福大学m a r k ob a l a b a n o v i c 和y o a vs h o h a m 推出基于内容和合作方式的个性化推荐系统f a b 同年3 月 c o m m u n i c a t i o n so f t h e a c m 组织了个性化推荐系统专题报道 标志着个性化服务已被技术界高度重视 1 9 9 9 年德国d r e s d e n 技术大学的t a n j aj o e r d i n g 实现了个性化电子商务原型系统 t e l l i m 麻省理工学院h e n r yl i e b e r m a n 提出基于合作方式的个性化导航系统l e t s 第4 页河南大学研究生硕士学位论文 b r o w s e 个性化服务开始向全球发展 1 3 2 0 0 0 年n e c 研究院的k u r td b o l l a c k e r 等为搜索引擎c i t e s e e r 增加个性化推荐功 能 实现c i t e s e e r 的个性化 同年4 月以美国为主的多国个性化研究机构和网络公 司成立了个性化协会 旨在推动个性化服务发展 同时保护服务中涉及的用户隐 私 1 4 j 同年我国也开始个性化服务的研究 清华大学的路海明等提出了基于多 a g e n t 混合智能实现个性化推荐 2 0 0 1 年个性化研究已在商业领域得到越来越广泛的应用 纽约大学的 g e d i m i n a sa d o a v i c i u s 和a l e x a n d e rt u z h i l m 实现了个性化电子商务网站的用户建模 系统1 p r o m m 公司在其电子商务平台w 曲s p h e r e 中增加了个性化功能 以利于商 家开发个性化电子商务网站 n e c 研究院的e r i cg l o v e r 等提出个性化元搜索引擎原 型系统i n q u i r u s 2 清华大学冯翱等提出了基于a g e n t l 拘个性化信息过滤系统o p e n b o o k m a r k 南京大学潘金贵等实现了个性化信息搜集智能体d o l t r i a g e n t 其它相关研究还有 a v a n t i 系统基于 目标识别 理论的自适应规则为每组 相同的用户访问模式实现定制化l l5 1 a h s 系统利用用户访问模型 改变页面内容 和表现形式 l e s h 和e t z i o n i 提出了处理该问题的一个统一框架 1 6 1 把用户动作抽 象成一种运算并表示为 先决条件 事后状态 形式 在此基础上进行推理 s t r u d e l 站点管理系统在网站中引入元数据 1 7 1 大大提高从h t m l 页中得到的 关于w e b 站点的知识 近几年 个性化服务逐渐从学术研究走向实际应用 很多电子商务网站也注 意到了个性化服务的巨大商机 但目前已存在的个性化系统大都基于特殊领域进 行 未考虑大部分领域与用户是否有新颖信息需求的偏好 对于建立用户的访问 模型未采用在线学习方式 不是动态更新 如w e b w a t c h e r 和a v a n t i 需用户进入 w e b 站点时提供浏览兴趣等信息 对w e b 站点内容与结构的了解程度直接限制了 站点的个性化能力 而引入元数据的s t r u d e l 系统要求把站点内容全部放进数 据库 或为站点内容建立映射到s t r u d e l 系统的包装器 w r a p p e r 这种改造对 现存站点来说代价太高 包装不规则的内容也很费事 总之 无论是国际还是国 内 对w e b 数据挖掘和个性化网站的研究和应用研究还十分薄弱 未形成较成熟 的理论和统一体系 1s 1 9 1 w e b 包含丰富和动态的超链接信息及w e b 页面的访问和 使用信息 这为数据挖掘提供丰富资源的同时 也提出了新的挑战 通过对当前w 曲个性化系统的构建及相关技术的分析 我们发现构建系统时 须着重解决以下问题 i 对w e b 访问日志进行有效的数据预处理非常重要 其中包括数据清理 用 户与会话识别 页面过滤 路径完善和用户事务模式识别 因l o g 文件包含很多 河南大学研究生硕士学位论文第5 页 噪声 必须过滤在进行其它步骤 2 用户模式的生成 学习及进一步的处理是构建w e b 个性化的依据和基础 选择合适的挖掘策略及相关算法的设计与选择是个性化系统的核心 3 进行站点结构转化时 如何转化出吸引用户的页面至关重要 1 3 本课题主要研究内容 i n t e m e t 技术和智能电子商务的普及 人们希望能够快速准确的从w e b 页中寻 找需求的信息 各网站设计者们也希望能够根据用户偏好确定网站内容的设置 提高市场竞争力 w e b 个性化技术能更好地理解用户 发现用户隐藏的兴趣和群 体用户的行为规律 从而制定相应的信息过滤策略 按照用户的个性化信息进行 主动式的推荐服务 目前对w e b 挖掘的研究着重于w e b 上传统的数据挖掘方法的运用 很多研究 工作没有足够关注w e b 使用数据的特征 这样会影响所获知识的质量 聚类分析 是w e b 个性化的关键技术之一 根据用户行为的不同可将他们划分为不同群体 各个群体有着明显的行为特性 寻求具有更强的鲁棒性 并行性且易于与其它挖 掘方法结合的聚类技术进行相似兴趣用户的聚类 成为w e b 个性化中的关键问题 本课题针对w e b 使用挖掘和个性化服务的理论与方法展开研究 在研究国际 上w e b 挖掘情况的基础上 针对w e b 日志文件数据 提出一个w e b 个性化系统模 型 研究了数据预处理方法和聚类挖掘算法 实现了一种w e b 用户和页面的模糊 聚类算法 系统首先收集和存储站点访问者的信息 对其分析 在此基础上个性 化地改进站点的信息组织与显示 把适当的内容推荐给访问者 在不增加现有站 点硬件设备的同时使站点更具人性化 并可据此寻找设计的不合理之处 以备站 点管理员进行修正 使网站建设更加有的放矢 减少无效操作 缩短用户查找时 间 w e b 个性化除页面推荐和电子商务外 还可应用于互联网上多个应用领域 1 4 全文的组织结构 正文共分为五章 各章节内容安排如下 第一章为绪论 探讨了课题的研究背景 研究主题和研究内容 并给出了论 文的整体组织结构 第二章概述了支撑个性化系统实现的基本技术 研究了w e b 数据挖掘与个性 化服务的相关理论及涉及的一些关键技术和技术方向 第三章系统地研究了w e b 数据预处理过程 针对其中遇到的具体问题展开对 第6 页河南大学研究生硕士学位论文 w e b 数据进行使用挖掘的研究思路 给出了各项任务的相关算法 第四章通过对模糊聚类理论和技术的研究 提出了w e b 使用挖掘技术的模糊 聚类过程模型 适用该模型在w e b 事务中对用户和页面聚类等方面进行了探索性 研究 另外 研究了基于页面层次和偏好度获取浏览频繁路径的方法 第五章应用实例 w e b 个性化系统 综合x m l 技术 提出了一个w e b 个 性化系统框架 系统可针对用户不同兴趣在线调整网站结构 提供针对性的服务 在总结与展望中 对本课题进行了回顾 总结了成果及不足和目前存在的局 限 指出了后续工作并对将来的发展作了展望 河南大学研究生硕士学位论文第7 页 第2 章支撑个性化服务的基本技术 在传统i n t 锄e t 服务模式下 很少考虑用户差异 所有用户面对同样的信息空 闻 事实上 不同用户的目标信息存在较大差异 其关注的信息子空间也不尽相 同 为找到目标信息 用户一般会耗费较多的时间和精力 显然 这种 人找信 息 的服务模式已越来越难以适应人们对迅速增长的信息资源需求 用户迫切需 要一种能根据自身特点自动组织和调整信息的服务模式 继此 个性化服务应运 而生 2 1 个性化服务相关概念 一个高效 灵活的w e b 个性化系统需要许多技术综合作用来实现 其中主要包 括个性化服务和w e b 数据挖掘技术 在互联网资源极度丰富的今天 若一个网站得不到用户肯定 其中信息或服 务不为人所用 就失去存在的意义 因个性化服务在满足用户需求方面可达到前 所未有的深度 只要网站在建设过程中对目标群体有准确的细分和定位 对他们 的需求有全面准确的总结和概括 就可有效吸引用户 使网站的社会效益和经济 效益都得到较大的提高 要对个性化服务的内涵和外延作恰当的界定 需理解个性化信息和个性化服 务两个概念 2 0 个性化信息可从两个角度分析 反映人类个性特征的一切信息 包括了特 定人类个体各种属性的描述 因人类个体特性而形成的对信息需求的一种信息 组合 即由人类个性对信息需求的决定关系而产生的一系列对个体有用的信息 个性化服务也叫定制服务 是针对不同用户提供不同服务策略和服务内容的 服务模式 即以符合访问者兴趣 身份和需求的信息和应用程序的形式为其提供 特殊待遇 主要包括三方面内容 服务时空的个性化 在用户希望的时间和地点 得到服务 服务方式的个性化 根据用户个人爱好或特点开展服务 服务内容的 个性化 所提供的服务不再是千篇一律 而是各取所需 各得其所 例如 一个 电子银行希望常浏览的客户进入网站时看到自己的账户 花费等个人信息 而非 银行的通用主页 2 个性化服务首先应能满足用户个体信息需求 可根据用户提 出的明确要求提供信息服务 或通过对用户个性 使用习惯的分析两主动提供可 能需要的信息服务 其次它应是一种培养个性 引导需求的服务 促进社会的多 第8 页河南大学研究生硕士学位论文 样性和多元化发展 质量评价对深化个性化站点的研究具有重要意义 最基本的评价指标是访问 成功率和尝试努力率 看用户平均作多少努力才能达到目的 用户的努力可理解 为点击超链接次数及在页面中寻觅这些超链接的困难程度的函数 2 2 目前个性化服务模式 由i n t e m e t 上信息特点及个性化服务的特殊性 目前个性化模式主要有 1 允许用户构建自己的个性化主页 使用户成为g u i 的编辑者 通过填写 用户服务申请表 姓名 地址 职业 专业 兴趣偏好 收入等 获取某一时刻 信息服务的基本需求 以此构建符合自己意愿的页面 2 在基于产品或业务的信息服务中保持独立功能 根据w e b 站点收集的用 户行为数据 应用一系列规则进行处理以描述用户的行为习惯 当用户再次请求 站点服务时 即可得到所需的有变化的信息内容 数据处理过程中组织和构建用 户数据让这些数据参与和用户的互动 从而影响相互间的作用 并亲历真实的个 性化的体验 无论哪种模式 关键在于了解用户个性特征 但w e b 信息本身的无序状态 也给研究工作带来很大障碍 使现有服务系统仍存在一些缺陷和不足 1 发现用户兴趣的方式单一化 缺乏深入了解用户的方法和策略 一般是以 关键字方式让用户提供兴趣 该方法因用户未必能准确表达其兴趣 使对用户个 性特征的提取出现明显的缺陷 从文档中提取也是常见方法 但若对文档内容未 进行正确挖掘 则不能全面发现用户兴趣 2 用户与系统间的交互方式较单调 从查阅的文献来看 现有系统普遍采用 相关反馈技术 并作为用户和系统进行交互的主要手段 实现个性化服务关键在于提取用户兴趣特征 但现有个性化技术缺乏对用户 个性特征知识的获取 处理和理解的能力 解决方法是研究个性化服务实现方法 以用户兴趣特征的提取作为研究切入点 解决兴趣偏好有效获取问题 学习用户 行为习惯 全面地发现用户兴趣特征 提供满足需求的服务 2 3w e b 数据挖掘定义与分类 万维网是一个巨大 分布广泛 全球性的信息服务中心 涉及新闻 广告 消费信息 金融管理 教育 政府 电子商务和许多其它信息服务 它包含丰富 和动态的超链接信息及页面访问信息 但w e b 是一个无集中控制 无统一结构 河南大学研究生硕士学位论文第9 页 无完整性约束 无事务管理 无标准查询语言和数据模型 可无限扩充的松散的 分布式信息系统 对其挖掘很困难 获取的知识不可靠 i n t e m e t 时代的问题已不 是难以获得信息 而是把握不住隐藏在背后真正有价值的信息 如何从海量数据 或用户访问信息中发现有用的知识更是突破了人类极限 w e b 数据挖掘为解决此 问题指出了一条道路 定义2 1w e b 数据挖掘指从大量的w e b 文档的集合c 中发现隐含的模式p 如果将c 看作输入 将p 看作输出 那么w e b 数据挖掘的过程就是从输入到输出 的一个映射6 c p 2 2 1 根据w e b 挖掘的数据对象 将w e b 数据挖掘分为三类 2 3 w e b 内容挖掘 w e b c o n t e n t m i n i n g w e b 结构挖掘 w e bs t r u c t u r e m i n i n g 和w e b 使用挖掘 1 w e b 内容挖掘指挖掘i n t e r a c t 的页面和后台交易数据库 即从文档内容或 其描述中抽取知识的过程 包括基于文本和基于多媒体的挖掘两种 2 w 曲结构挖掘对w 曲文档链接结构进行研究 揭示蕴涵在其中的有用模 式 处理的数据是w e b 结构数据 对于一个w e b 页面 若有较多的链接指向它 则该页面是重要的 此重要性可作为w e b 页面评分的标准 3 w e b 使用挖掘通过对挖掘服务器日志等w 曲使用资源进行各种定量或定 性分析 发现用户访问w e b 页面的模式 以此可改进w e b 站点的性能和组织结构 提高用户查找信息的质量和效率 并可通过统计和关联等的分析找出特定用户与 特定地域 特定时间 特定页面等要素间的内在联系 三类挖掘是统一的 虽然本篇论文主要讨论w e b 使用挖掘 但为更好的完成 w e b 使用挖掘 也需w e b 内容挖掘和w e b 结构挖掘的结果来帮助处理 w e b 数据 挖掘优点有 无需用户提供主观评价信息 可处理大规模数据量 用户访问模式 动态获取 不会过时 使用方便 因此研究复杂的w e b 使用挖掘技术十分必要 2 4w e b 使用挖掘的应用 w e b 使用挖掘的主要特点是对用户信息数据进行抽取 转换 分析和其它模 型化处理 从中提取辅助商业决策的关键性数据剀 w e b 使用挖掘技术以市场营 销学的市场细分原理为基础 2 5 1 其基本假定是 消费者过去的行为是其今后消费 倾向的最好说明 无论从学术还是商业运作的角度来看 w e b 使用挖掘都是一个 很值得研究的学术领域 通过它可了解整个w e b 系统被访问的情况 在文献 2 6 中 根据数据来源 数据类型 数据集合中的用户数量 数据集合中的服务器数 量等将w e b 使用挖掘分为四类 以下简称为w u m 如图2 1 所示 第1 0 页河南大学研究生硕士学位论文 图2 1w e b 数据挖掘分类及w e b 使用挖掘的应用 1 系统改进w e b 服务 数据库 网络等 的性能和其它服务质量是衡量用户 满意度的关键指标 w u m 可通过用户的拥塞记录发现站点性能瓶颈 提示站点管 理者改进w e b 缓存策略 网络传输策略 流量负载平衡机制和数据的分布策略 通过分析网络非法入侵数据找到系统弱点 可提高安全性 2 站点调整站点的结构和内容是吸引用户的关键 w u m 通过挖掘用户的行 为记录和反馈情况为站点设计者提供改进的依据 如页面连接情况应如何组织 哪些页面应能直接访问等 3 个性化服务针对单个用户的使用记录对该用户建模 结合用户基本信息分 析其使用习惯与喜好 在电子商务环境下为其提供与众不同的个性化服务 z 4 商业智能用户如何使用站点信息是电子商务销售商关心的重点 用户一次 访问周期可分为被吸引 驻留 购买和离开四个步骤 通过分析用户点击流挖掘 用户行为动机 帮助销售商合理安排销售策略 2 5w 1 1 l d 的过程 w u m 依然遵循数据挖掘的研究思路 挖掘过程分为4 个阶段 数据收集 数 据预处理 模式发现和模式分析口8 2 9 1 图2 2w e b 使用挖掘过程 2 5 1 数据收集 w u m 中 数据最直接的来源是w e b 服务器 客户访问服务器就会在服务器 上产生相应n 量务钳敛据 同时记录文件的有关信息 如文件的创建者 修改时 间等 这种数据来源稳定 格式标准化程度相对而言是最高的 w 3 c 组织规定了 己一 蓁 一统一一系一 河南大学研究生硕士学位论文第11 页 服务器日志的两种格式0 0 1 通用日志格式 c o m m o n l o g f o r m a t 和扩展型日志格 式 e x t e n d e dl o gf o r m a t 一般服务器上存放的日志文件是通用日志格式 3 1 如 表2 1 所示 表2 1 服务器日志格式 f i e l dd e s e r i p t i o n d a t e d a t e t i m e a n dt i m e z o n eo f r e q u s t c l i e n ti pr e m o t eh o s ti pa n d o rd n se n t r y u s e rn a m er e m o t el o gn a m eo f t h eu s e r b y t e sb y t e st r a n s f e r r e d s e n ta n dr e c e f v e m s e n 7 e r s e r v e rn a r f i e i pa d d r e s sa n dp o r t r e q u e s t u r lq u e r ya n ds t e m s t a t u s h t t ps t 8 1 u sc o d er e t u r n e dt ot h ec l i e n t s e r v i c en a l n e r e q u e s t e ds e r v i c en a m e t i m et a k e nt i m et a k e nf o r t r a n s a c t o nt oc o m p l e t e p r o t o c o lv e r s i o nv e r s i o no f u s e dt r a n s f e rp r o t o c o l u s e ta g e n ts e r v i c ep r o v i d e r c o o k i ec o o k i ei d r e f c r r e rp r e v i o u sp a g e 蜘 2 0 0 6 1 1 2 40 0 0 3 2 5w 3 s v c l 3 2 4 0 0 9 9 5 82 1 8 1 9 6 1 9 5 7g e t s h o w a s p x i d 2 8 8 0 5 8 6 0 1 5 2 3 m o z i l l a 4 0 c o m p a t i b l e m s i e 6 0 2 0 0 0 0 在w u m 的过程中 除了服务器日志外 还有 些数据类型 3 2 1 内容数据w e b 页面中显示的数据 通常以文本或图像的形式出现 2 结构型数据主要描述页面中信息的组织结构 它可以包括一个页面中的 h t m l 或x m l 标识的分布安排 但主要是一些超链接信息 3 用户信息主要是用户的注册信息 还有一些常用的配置信息 w u m 的主要任务是研究用户的浏览行为 即用户在站点上的浏览路径及相应 浏览时间 根据w e b 站点结构和w e b l o g 文件 可由三 的形式表 示w e b 服务器日志 其中 p u i d u r i t i m e 分别表示w e b 用户z p 地址 用户口 用 户请求的u p j 和相应浏览时间 然后对其进一步处理 以反映用户在某段时间内 的浏览行为 定义2 2 用户浏览行为是具有如下形式2 n 元组 占 其中b 厶l b 妒 枷 l b u i d u i d a 庀1 柚9 是到目前为止用户u i d b 浏览页面 l b u r l 的频度 一个w e b 站点的拓扑结构就是一幅有向图 而用户一段时间内的访问模式为 第1 2 页河南大学研究生硕士学位论文 其予图 具有相似访问子图的用户为需求相似用户 即用户群体聚类 定义2 3w e b 站点是一幅具有如下形式的有向图 g n p e 易j 其中 为 结点集 虬 n o d e 硅1 记录用户u s e r l d 及其访问结点 d 比 的频度 为结点属性集 e 为有向边集 历 0 e n u m b e ro f p a t h v p 2 1 记录 有向边及该有向边所在路径的编号 为有向边属性集 2 5 2 数据预处理 因原始w e b 访问数据的文件格式是半结构化的 包含不完整 冗余 错误的 数据 需进行提取 分解 合并 转化为适合挖掘的格式 保存到关系型数据库 表或数据仓库中 等待进一步处理 数据预处理可改进数据的质量 从而提高其 后续的数据挖掘过程的精度和性能 数据清理 d a t ac l e a n i n g 指从原始服务器日志文件中删除与挖掘任务无关的 数据 如图片文件的请求项等 缩小被挖掘数据对象的范围 用户识别 u s e r i d e n t i f i c a t i o n 经过数据清理后的w e b 日志项 虽剔除了一些 挖掘无关项 但对于推荐框架而言 仍是杂乱的 要发现用户访问模式就必须找 出单个的用户 即用户识别 最好的方法是使用户注册 会话识别 s e s s i o ni d e n t i f i c a t i o n 将每个用户的访问信息化分成若干个独立的 会话进程 通常采用超时法 引用日志法和c o o k i e 法进行识别 页面过滤 p a g ef i l t r a t i o n 针对w e b 页面的帧结构 对日志纪录进一步过滤 路径补充 p a t hc o m p l e t i o n 用户使用浏览器后退功能 点击已点击过的链接 或直接从浏览器历史列表点击链接时得到均为本地缓冲区页面 并未发出h t t p 请求 日志未记录 可根据用户访问前后页推理 将疏漏页面补在路径里 事务识别 t r a n s a c t i o n i d e n t i f i c a t i o n 不同w e b 服务器曰志中实际数据粒度会 大相径庭 无论日志数据抽象或具体都不能直接用来挖掘分析 另外 一个趋势 微观或宏观取决于一定分析 这就需要把单独的数据事件集成为事务 然后再进 行数据挖掘 2 5 3 模式挖掘 利用数据挖掘的算法可发现用户聚类 页面聚类 频繁访问页组 频繁访问 路径等隐藏的用户访问模式 若在挖掘用户浏览模式过程中发现选择的数据或属 性有偏差 或挖掘技术达不到预期结果 需根据反馈结果不断重复以上过程 通 过数据挖掘 创建和更新用户模式库 模式发现可应用许多相关领域的方法 但 需针对w e b 数据挖掘的特点做出相应的改进 统计分析通过分析会话文件 可对页视图 浏览时间和浏览路径长度迸行各 种不同的描述性统计分析 频繁访问页 频率 均值 中间值和访问量的时间分 河南大学研究生硕士学位论文第13 页 布等 有助于改进网站系统性能 增强系统安全性及提供市场营销决策支持 路径分析可发现站点中最常被访问的路径及其它相关路径信息 通过分析可 获取用户浏览习惯 按用户所需 合理调整站点结构 路径分析技术是w e b 使用 挖掘所特有的 关联规则挖掘的是客户的不同浏览事务历涉及的大量数据中项集间的联系 规律 包括强关联规则和意外规则 前者是数据集合中大部分数据保持的规则 被广泛应用 后者是少数数据保持的规则 虽有很高可信度 但因支持度较小常 被忽略 但这些规则能反映出某些用户特有的习惯 序歹l j 模式是挖掘出交易集间有时间序列关系的模式 由此确定用户将来访问 趋势和模式 经数据净化和事件交易确认后是一个间断的时间序列 所反映的用 户行为有助于帮助商家印证产品所处生命周期阶段 一些暂时性的序列模式可分 析企业战略及网站 产品促销效果 分类先从数据中选出已分类的训练集 运用分类技术 建立分类模型 对未 分类数据分类 分类模型由分类器或分类函数确定相应类别 分类模型类别可由 特征化了的属性集合描述 分类发现可描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论