已阅读5页,还剩127页未读, 继续免费阅读
(管理科学与工程专业论文)基于web使用挖掘的智能自适应站点研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 当前 w o r l dw i d ew e b 简称w w w 系统正在从深度和广度两个方面飞速发展着 w e b 已经成为一个巨大的信息来源地 i n t e m e t 正在前所未有地改变我们的生活 w w w 浏览则成为人们最主要的日常生活之一 w w w 浏览中的两个常见问题是 搜寻与获取 有益信息的困难问题及信息搜寻行为的效率低下问题 与此同时 w w w 上的一些主要 工作 例如w e b 站点结构设计 w e b 服务设计等工作也正变得越来越繁重和复杂 现有 的静态w e b 站点结构不能满足人们快速 准确地找到其所需要的信息以及享用个性化服 务的要求 为了改善用户信息搜寻行为的效率低下问题和服务缺乏个性化的问题 辅助 网站管理员进行复杂的网站结构设计 人们提出了智能自适应站点技术 自适应站点 a d a p t i v ew e b s i t e 是指能够通过学习用户的访问模式自动或者半自动地改善自身的组 织和表现方式的智能站点 自适应站点的研究是人工智能应用领域的新挑战 其终极目 标是使w e b 站点具备自动学习和设计优化功能 是网络服务向更高层次发展的目标 如 何建立能智能自动地适应用户各种需求的w e b 站点已经成为国际上一个新兴的重要研 究领域 其研究工作具有非常重要的理论意义和实际应用价值 本文以w e b 使用数据为基础 采用数据挖掘技术研究自适应站点面向群体用户访 问性能的最优化和面向个体用户的服务个性化问题 并将这些实际问题抽象为离线修改 优化方法 在线动态推荐方法 自适应站点系统框架构筑等自适应站点理论研究的论题 论文通过对这些论题的研究 取得了以下的研究成果 在自适应站点系统面向群体用户访问性能的最优化方面 离线修改优化方法 在 w e b 日志中蕴含的网站用户在网站信息空间进行信息搜索的两种搜索行为模式假设的 基础上 引入信息搜索理论 建立了两种新的站点结构离线优化模型 针对单目标信息 搜索假设 建立的基于单目标信息搜索树的站点结构离线优化模型 针对多目标信息搜 索假设 建立的基于多目标信息搜索图的站点结构离线优化模型 仿真实验验证的结果 表明 经过上述方法优化变换后的站点结构能够有效降低群体用户在w e b 站点信息空 间内搜寻其兴趣目标页面的平均访问代价 在自适应站点系统面向个体用户的智能导航推荐方面 在线动态推荐方法 在经典 的m a r k o v 链用户浏览预测模型的基础上 提出了两种改进的模型 可变多阶m a r k o v 链模型和混合隐m a r k o v 链模型 可变多阶m a r k o v 链模型主要针对传统m a r k o v 链浏览 预测模型的以下两点不足进行改进 1 低阶m a r k o v 链模型的推荐准确率较低 覆盖 率则相对较高 而高阶的m a r k o v 模型则具有较高的推荐准确率 而覆盖率则较低 因 此 使用阶数固定的m a r k o v 链浏览推荐模型并不能同时获得较理想的准确率与覆盖率 性能 2 没有考虑到用户的早期访问行为与近期访问行为对用户未来的访问行为的影 响程度不同 而混合隐m a r k o v 链模型则改进了传统的m a r k o v 链模型不能有效地表征长 串访问序列所蕴含的丰富的用户行为特征 用户类别特征 访问兴趣迁移特征 的缺点 从而改善了自适应站点系统用于长串访问序列时的推荐效果 在自适应站点系统框架构筑方面 设计了一个完整的基于w e b 使用挖掘的智能自 适应站点系统框架i a w e b q t u m b a s e i n t e l l i g e n ta n da d a p t i v ew e b w e bu s a g em i n i n g b a s e i a w e b w u m b 嬲e l a w 曲一w o m b a s e 系统包括数据采集模块 数据预处理模块 模式挖掘模块 在线推荐模块以及离线修改模块等五个模块 i a w e b 肌胁a s e 系统的 五大模块实现了完整的站点智能自适应功能 可以集成到现有的w e b 站点中 使站点 具备一定的智能自适应性 上述研究成果系统地探索了基于w e b 使用挖掘的自适应站点理论 模型 算法和原 型系统框架等 为自适应站点理论发展和应用实践提供了技术支持 丰富和拓广了人工 智能的应用领域 关键词 数据挖掘 w e b 使用挖掘 自适应站点 用户访问模式 离线修改 网站 结构优化 在线推荐 m a r k o v 链模型 隐m a r k o v 链模型 论文类型 应用基础研究 基金项目 国家自然科学基金项目 基于网络消费者信息需求模型的网站导航问题 研究 n o 7 0 6 7 2 0 9 7 a b s t r a c t n o w a d a y s t h ew o r l dw i d ew e bm 删 s y s t e mi sd e v e l o p i n gr a p i d l yb o t hi nt h ed e p t h a n dt h ee x t e n t w e bh a sb e c o m eah u g es o u r c eo ft h ei n f o r m a t i o n o u rl i f ei sc h a n g e d u n p r e c e d e n t e db yt h ei n t e m e t a n dw w wb r o w s i n gh a sb e c o m ea l li m p o r t a n tp a r to fo u rd a i l y 1 i f e b u tt h e r ea r es t i l lt w of a m i l i a rp r o b l e m si nt h ew w w b r o w s i n g o n ei si t sh a r dt os e a r c h a n da c q u i r et h eu s e f u li n f o r m a t i o na n dt h eo t h e ri st h ei n f o r m a t i o n f o r a g i n gb e h a v i o r i s i n e f f i c i e n t a tt h es a m et i m e s o m ei m p o r t a n tw o r ko fw w wb e c o m em o r ea r d u o u sa n d c o m p l i c a t e d s u c ha sw e b s i t es t r u c t u r ed e s i g n w e bs e r v i c ed e s i g na n ds oo n t h et r a d i t i o n a l w e b s i t e w h i l ei t ss t r u c t u r ei ss t a t i c c a n tm e e tp e o p l e sr e q u i r e m e n t s p e o p l ew a n tt of i n dt h e i r u s e f u li n f o r m a t i o ne f f i c i e n t l ya n da c c u r a t e l y a n dt h e yw a n tt oe n j o yp e r s o n a l i z e ds e r v i c e i n o r d e rt od e a lw i t ht h e s ep r o b l e m s t h ea d a p t i v ew e b s i t ei sp r o p o s e d t h ea d a p t i v ew e b s i t e s y s t e mi sa l li n t e l l i g e n c ew e b s i t e w h i c hc a ni m p r o v ei t so w no r g a n i z a t i o na n dp r e s e n t a t i o n a u t o m a t i co rs e m i a u t o m a t i cb yl e a r n i n gf r o mu s e r t sa c c e s sp a t t e r n s a d a p t i v ew e b s i t e d e m o n s t r a t e di t sv a l u ei ns e v e r a la p p l i c a t i o na r e a s s u c ha st h ei n f o r m a t i o no v e r f l o wp r o b l e m t h el a c ko fp e r s o n a l i z e ds e r v i c ep r o b l e m s a s s i s t i n gi nt h ew e b s i t es t r u c t u r ed e s i g n a d a p t i v e w e b s i t ei st h ef u r t h e rd i r e c t i o no fh i g h e rw e bi n f o r m a t i o ns e r v i c e h o wt ob u i l da ni n t e l l i g e n t a n da d a p t i v ew e b s i t e w h i c hc a nm e e tt h er e q u i r e m e n t so fu s e l si n f o r m a t i o nd e m a n d a u t o m a t i c a l l y i sb e c o m i n gaj u m p e d u pr e s e a r c ha r e ai nt h ew o r l d t h i sr e s e a r c hh a sb o t h t h e o r e t i c a la n dp r a c t i c a li m p o r t a n c e s u c c e s sw o u l dh a v eab r o a da n dh i g h l yv i s i b l ei m p a c to n t h ew e ba n da ic o m m u n i t y s i t e sm a yb ea d a p t i v ei nt w ob a s i cw a y s f i r s t t h es i t em a yf o c u so nc u s t o m i z a t i o n m o d i f y i n gw e bp a g e si nr e a lt i m et os u i tt h en e e d so fi n d i v i d u a lu s e r s e c o n d t h es i t em a yf o c u s o no p t i m i z a t i o n a l t e r i n gt h es i t ei t s e l ft om a k en a v i g a t i o ne a s i e rf o ra l lu s e r s i nt h i st h e s i s b a s e do nt h ew e bu s a g ei n f o r m a t i o n d a t am i n i n gt e c h n i q u e sa r eu s e dt os o l v et h ea c t u a l p r o b l e m s o f a d a p t i v e w e b s i t e t h r e e d i r e c t i o n s o f f l i n er e c o n f i g u r a t i o n o n l i n e r e c o m m e n d a t i o na n da r c h i t e c t u r eo fa d a p t i v ew e b s i t ea r ea b s t r a c t e da so u rt o p i c t h er e s e a r c h r e s u l t sa r ea sf o l l o w e d i i lt h ea s p e c to ft h ec a p a b i l i t yo p t i m i z a t i o nf o ra l lu s e r s o f f l i n er e c o n f i g n r a t i o n f i r s t t h e i n f o r m a t i o nf o r a g i n gt h e o r yi si n t r o d u c e d t h e nt w on o v e lw e b s i t es t r u c t u r eo p t i m i z a t i o nm o d e l s b a s e do nt h ea s s u m p t i o nt h a tt h ew e ba c c e s sl o gc o n t a i n st w os e a r c hp a t t e r n so ft h eu s e r s i n f o r m a t i o nf o r a g i n gb e h a v i o ro nt h ew e b a r ep r o p o s e d t h e s et w ow e b s i t es t r u c t u r e o p t i m i z a t i o nm o d e l sw e r eb o t ho f f l i n eo n e s o n ew a sb u i l tf o rt h ea s s u m p t i o no fs i n g l e t a r g e t i n f o r m a t i o ns e a r c h b a s e do nt h es i n g l e t a r g e ti n f o r m a t i o ns e a r c ht r e e t h eo t h e rw a sb u i l tf o r t h ea s s u m p t i o no fm u l t i t a r g e ti n f o r m a t i o ns e a r c h b a s e do nt h em u l t i t a r g e ti n f o r m a t i o ns e a r c h i i i g r a p h t h er e s u l to fs i m u l a t i o ne x p e r i m e n ts h o w st h a t t h ew e b s i t es t r u c t u r eo p t i m i z e db y t h e s e m e t h o d sc a l lr e d u c et h eu s e r s a v e r a g ea c c e s sc o s tw h e nt h e ys e a r c ht h e i ri n t e r e s t i n gp a g e so n t h ew e b s i t e i n t h ea s p e c to ft h ei n d i v i d u a lu s e r si n t e l l i g e n c en a v i g a t i o nr e c o m m e n d a t i o n 0 1 1 l i n e r e c o m m e n d a t i o n t w oi m p r o v e dm o d e l sw e r ep r o p o s e db a s e d o nt h et r a d i t i o n a lm a r k o vc h a i n m o d e l t h e s et w om o d e l sw e r et h ev a r i a b l em u l t i p l eo r d e rm a r k o vc h a i nm o d e l v m o m c a n dt h em i x t u r eo fh i d d e l lm a r k o vc h a i nm o d e l m h m c t h ev m o m cc a ni m p r o v et h e f o l l o w i n gt w ol i m i t a t i o n so ft h et r a d i t i o n a lm a r k o vc h a i nm o d e l 1 t h el o w e r o r d e rm a r k o v c h a i nm o d e l sc a ns u p p l yh i g hc o v e r a g er e c o m m e n d a t i o n b u tt h ea c c u r a c yi sl o w w h i l et h e h i g h e r o r d e rm a r k o vc h a i nm o d e l sc a ns u p p l yh i g ha c c u r a c yr e c o m m e n d a t i o n b u tt h ec o v e r a g e i sl o w s ot h ei d e a lc o v e r a g ea n da c c u r a c yc a n tb ea c q u i r e da tt h es a m et i m eb yu s i n gt h e f i x e d o r d e rm a r k o vc h a i nm o d e l 2 t h ed i f f e r e n td e g r e eo ft h eu s e r sf u t u r ea c c e s sb e h a v i o r w i l lb ei n f l u e n c e db yt h ee a r l ya c c e s sa c t i o n sa n dt h er e c e n ta c c e s sa c t i o n sw e r en o tc o n s i d e r e d s i n c et h em a r k o vc h a i nm o d e lc a nn o td e n o t et h en s e r s a b u n d a n tb e h a v i o r a lc h a r a c t e r i s t i e s s u c h 嬲 c h a r a c t e r i s t i c so fu s e r s t y p e c h a r a c t e r i s t i c so fu s e r s i n t e r e s t st r a n s f e r o fal o n g a c c e s ss e q u e n c ee f f e c t i v e l y t h em i x t u r e so fh i d d e nm a r k o vc h a i nm o d e l si sp r o p o s e d t h e s e l i m i t a t i o n sw e r ei m p r o v e db yt h em h m cm o d e l w i t ht h em h m cm o d e l t h er e c o m m e n d a t i o n p e r f o r m a n c eo fa d a p t i v ew e b s i t ei si m p r o v e dw h e nd e a l i n gw i t ht h el o n ga c c e s ss e q u e n c e s i nt h ea s p e c to ft h ef r a m e w o r ko ft h ea d a p t i v ew e b s i t es y s t e m t h ei a w e b w u m b a s e i n t e l l i g e n ta n da d a p t i v ew e b w e bu s a g em i n i n gb a s e i sd e s i g n e da n dd e v e l o p e d i a w e b w u m b a s ec o n t a i n e df i v em o d u l e s t h e yw e r ed a t aa c q u i s i t i o nm o d u l e d a t a p r e p r o c e s s i n gm o d u l e p a t t e r nm i n i n gm o d u l e o n l i n er e c o m m e n d a t i o nm o d u l ea n do f f i i n e r e c o n f i g u r a t i o nm o d u l e t h e s ef i v em o d u l e sc a ni m p l e m e n tt h ew e b s i t e si n t e l l i g e n ta n d a d a p t i v ef u n c t i o n s a n dc a nb ei n t e g r a t e di n t ot h ee x i s t i n gw e b s i t e t h e nt h ew e b s i t ew i l lh a v e c e r t a i ni n t e l l i g e n ta d a p t a b i l i t y t h er e s e a r c hr e s u l t sp r e s e n t e da b o v eh a v es y s t e m a t i c a l l ye x p l o r e dt h et h e o r y t h em o d e l s t h ea l g o r i t h m sa n dt h ea r c h i t e c t u r eo fa d a p t i v ew e b s i t e t h er e s e a r c hr e s u l t sn o to n l yp r o v i d e t e c h n i c a ls u p p o r tf o rt h et h e o r ya n dp r a c t i c eo fa d a p t i v ew e b s i t ed e v e l o p m e n t b u ta l s ow i d e n t h ea p p l i c a t i o na r e a so fa r t i f i c i a li n t e l l i g e n t k e yw o r d s d a t am i n i n g w e bu s a g em i n i n g a d a p t i v ew e b s i t e u s e ra c c e s sp a t t e r n o f f i i n e r e c o n f i g u r a t i o n w e b s i t es t r u c t u r eo p t i m i z a t i o n o n l i n er e c o m m e n d a t i o n m a r k o vc h a i n m o d e l h i d d e nm a r k o vc h a i nm o d e l t h e s i st y p e a p p l i c a t i o nf u n d a m e n t a l t h i sw o r kw a ss u p p o r t e db yt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no fc h i n a g r a n t n o 7 0 6 7 2 0 9 7 插图目录 图1 1w e b 数据挖掘的分类 4 图1 2 论文的组织结构图 8 图2 一lw e b 使用挖掘过程 9 图3 1 优化策略一的实验结果 4 0 图3 2 优化策略二的实验结果 4 0 图5 1 阳b 浏览预测类型 6 0 图5 2 o m c 模型原理示意图 6 8 图5 3 浏览模式树示例 7 2 图5 4 示例的预测模式树的一部分 7 9 图5 5各单阶m a r k o v 链模型的样本分配 81 图5 6v m o m c 模型的样本分配 81 图5 7 讧o m c 模型与传统m a r k o v 链模型的准确率比较 8 2 图5 8v m o m c 模型与传统m a r k o v 链模型的覆盖率比较 8 2 图6 1混合隐m a r k o v 链模型的贝叶斯网络结构 8 7 图6 2 用户聚类算法的准确性比较 9 3 图6 3 个性化推荐的准确性比较 9 4 图7 1啪娟u m b a 系统解决方案总体流程 9 6 图7 2m w 曲娟 m b 嬲e 系统体系结构 9 7 图7 3网站链接结构数据库示例 10 0 图7 4i a w e b w u m b a s e 系统数据预处理流程 1 0 1 图7 5 阮b 站点拓扑结构图 1 0 2 图7 6 在线推荐模块的接口示意图 1 0 4 图7 7 推荐项的样式控制 10 6 图7 8 推荐项的展开和收卷的动态控制脚本 1 0 6 图7 9 推荐网页头部生成代码 1 0 7 图7 1 0 推荐网页体生成代码 1 0 8 图7 1 1用户在改版前的网站进行浏览的体验图 1 1 1 图7 1 2 用户在自适应改版后的网站进行浏览的体验图 1 1 2 图7 1 3 新增链接的有效性 1 1 3 图7 1 4 推荐链接的有效性 1 1 3 v i i i 表格目录 表2 1服务器日志文件格式 1 1 表2 2 用户识别方法及其优缺点 1 4 表4 1 兴趣页组挖掘算法的实验结果比较 5 5 表4 2 不同兴趣页组挖掘算法下的站点结构优化效果比较 一5 6 表4 3 集成优化与非集成优化的效果比较 5 6 表4 4 基于遗传算法的结构优化算法的运行参数 5 7 表4 5 基于遗传算法的结构优化算法的实验效果 5 7 表4 6 基于遗传算法的结构优化算法与传统的优先分配算法的优化效果比较 5 7 表5 1v m o m c 模型的运行参数 8 1 表7 1从日志服务器获取的日志样本 j 1 0 2 表7 2m w 曲一w u m b a l s e 系统对例子日志的预处理结果 1 0 3 表7 3 一个典型的推荐链接结果 1 0 5 i x 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果 据 我所知 除了文中特别加以标志和致谢的地方外 论文中不包含其他人已经发表或撰写过的 研究成果 也不包含为获得金目里王些盔堂 或其他教育机构的学位或证书而使用过的材 料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意 学位论文作者签字 签字日期 年月 日 学位论文版权使用授权书 本学位论文作者完全了解 盒旦巴王些太堂有关保留 使用学位论文的规定 有权保留 并向国家有关部门或机构送交论文的复印件和磁盘 允许论文被查阅或借阅 本人授权 金 自巴王些态堂 可以将学位论文的全部或部分论文内容编入有关数据库进行检索 可以采用影 印 缩印或扫描等复制手段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文者签名 导师签名 签字日期 年月 e l 签字日期 年月 日 学位论文作者毕业后去向 工作单位 通讯地址 5 电话 邮编 第一章绪论 第一章绪论 随着全球信息化的发展 信息量指数增长 w w w 系统在全球取得了迅速发展 w w w 系统已经发展成为拥有海量用户和海量信息内容的巨大信息空间 可以说是人类有史以来最 大的信息库和最宝贵的知识库 然而 用户通过w w w 站点有效地获得其所需要的信息却变 得越来越困难 与此同时 w w w 站点结构设计也变得越来越繁重和复杂 因此 把智能计 算技术应用到w w w 站点 用以改善现有的w w w 站点在如何有效地为用户提供准确的信息 获取服务方面的种种不足 辅助站点结构设计 已经成为一项迫切而重要的研究课题 1 1 研究的背景 1 1 i w w w 系统 w w w w o r l d w i d ew e b 系统 简称w e b 最早是由欧洲粒子物理研究中心 c e r n 研 制的 是一种把互联网 i n t e r a c t 上的所有信息通过超链接 h y p e r l i n k 组织起来的体系结构 是一种建立在互联网上的 全球性的 交互的 动态的 多平台的 分布式的超文本 h y p e r t c x 0 信息系统 w e b 可以看作是一个超文本文档的集合 每个超文本文档提供各类信息和服务 同时提供一系列指向其他文档的超链接 文档集合通过各文档之间的超链接构成了一个有向 图 通过点击超文本页面上的超链接 用户可以从一个页面跳转到另一个页面 从而实现对 互联网主机上超文本文档集合的访州 近年来 随着互联网技术的迅速发展和应用的巨大推动 w e b 已经成为信息制造 发布 加工和处理的主要平台 它为用户提供了数量巨大而丰富的各种信息 w w w 浏览则成为人 们最主要的日常生活之一 w 糯 浏览中的两个常见问题是 搜寻与获取有益信息的困难问 题及信息搜寻行为的效率低下问题 问题出现的根源在于随着互联网的发展 传统的以网站 开发人员预先制定站点信息的链接体系结构并进行信息发布 用户则被动地遵循这些超链接 进行信息浏览为主要特征的 简单 w e b 站点在如何为用户提供有效的信息获取服务方面存 在以下几个方面的问题 1 有限的个人信息处理能力与海量的产品或服务信息带来的 信息过载 问题 2 过载问题 给用户的信息选择带来了沉重的负担 严重影响用户的信息获取效率 甚至会引起访问 行为的中断 2 w e b 超链体系结构的复杂性与零乱性带来的w w w 信息迷航 问题口 4 1 表现为用户 在w e b 站点信息空间的类 盲人式 行为 不知道当前所处网页节点的具体位置 不知道 怎样才能到达其想要去的兴趣目标页面 不知道遵循w e b 站点现有的超链结构进行访问 能到达哪些目标 3 已有的站点超链导航体系与用户实际访问模式的差异性问题 5 1 用户往往需要通过一条花 合肥工业大学博士论文 费更多访问代价的路径才到达其兴趣目标页面 另外通常会有一些文档并不是由于它们 的内容而是由于它们所处的位置而被访问的 这些文档虽然没有包含用户当前所需的信 息 但是由于它们位于特定的路径上 用户为了从浏览起点到达特定的位置不得不经过 它们 从而浪费了用户的时间和精力 4 个性化的用户信息需求问题 6 不同的用户对产品或服务有不同的需求 兴趣和偏好 同 一用户在不同时间的需求 兴趣和偏好也是变化的 因此 传统的 一刀切 o n e s i z e s f i t s a 1 1 p j 形式的简单网站不能适应用户的个性化需求 上述问题的存在 成为w e b 站点信息服务向更深层次发展的巨大障碍 因此 在这样的问 题背景和实际应用需要的需求下 出现了自适应站点技术 需要是发明之母 j a e i h a n t 8 1 1 2 自适应站点 构建一个复杂的w e b 站点并非易事 困难主要表现在以下几个方面 1 不同的用户有不同的搜索目标 即使是同一个用户 两次访问的目标页也常常是截然不 同的 浏览目标的多元性和随机性强迫站点设计者对设计尤其是导航页的设计做出取舍 2 站点上的信息常常是动态的和时间依赖的 这给用户的浏览和信息搜索行为带来了困难 3 随着时间推移 站点会发展演化 它的初始设计可能会变得不合理 新增的网页和链接 常常放在不合理的地方 旧有的无效信息却常常占据重要位置 4 站点常常基于特定目的构建 却可能被用在未被设计者考虑到的领域 随着时间的推移 站点的内容逐渐增加 其初始设计已不再完全适合 w e b 站点实际提供的信息服务往往 超出了其设计的范围 甚至完全改变了定位 从站点经营者的角度来说 他们需要好的自动辅助设计优化工具 可以根据用户的访问 兴趣 访问频度 访问时间等动态地调整页面的链接结构 改进服务 开展有针对性的电子 商务以更好地满足访问者的需求 从访问者自身的角度来说 他们希望看到的是个性化的页面 希望得到更好的满足各自 需求的服务 希望从其它具有类似访问兴趣的用户的访问行为中得到启发 这些需求从某种 意义上说 访问者本身也未必清楚 自适应站点 a d a p t i v ew 曲s i t e 是指w e b 站点通过学习用户的访问模式 具有自动或 半自动地优化自身的设计 组织结构和表现形式的智能的站点 可以满足这两方面的需求 自适应站点的概念最早是由华盛顿大学的m i k ep e r k o w i t z 和o r e ne t z i o n i 在1 9 9 7 年的第十一 届国际人工智能联合会议 i n t e r n a t i o n a lj o i n tc o n f e r e n c e s o na r t i f i c i a li n t e l l i g e n c e 即l i c a d 上提 出的 9 自适应w e b 站点研究的基本目标有两个 面向群体用户的性能最优化 o p t i m i z a t i o n 和面向个体用户的服务个性化 c u s t o m i z a t i o n 1 1 1 性能最优化是指w e b 站点提高对所有用户的整体服务性能 为实现性能最优化目标 w e b 站点需要学习所有用户的访问模式 并据此做出调整 使w e b 站点访问起来更容易 因此 即使是以前一无所知的新用户 也能够从这种改进中获益 如果我们把所有可能的w e b 站点 2 第一章绪论 设计看作一个设计空间 那么改进 个w e b 站点就相当于在该空间中寻找更好的点 假设有 一种评价尺度能够评价w e b 站点的 好坏 程度 这就成为人工智能领域中的搜索问题 例 如我们可以采用 爬山法 来搜索上述设计空间 即不断调整w e b 站点 且保证每一步调整 都能够改进w e b 站点的整体质量 问题的难点在于量化一个点的 优秀 程度 一种方式是 将设计的优秀程度定义为用户的易用程度 用户访问目标页的平均代价越低 设计就越发优 秀 另外 如何组织庞大的搜索空间以及如何选取合适的搜索策略等等都是有待研究的问题 优化 有时又被称为离线修改 o f f l i n er e e o n f i g u r a t i o n 含义是基于用户行为数据评估站点 设计 主要是结构设计 中存在的问题 然后修改站点设计 服务个性化是指w e b 站点为适应用户的需要而实时地调整数据的组织与显示 个性化有 两种基本途径 一种实现服务个性化的方法是允许用户对w e b 站点的显示选项进行手工定制 m a n u a lc u s t o m i z a t i o n 系统将记住每个用户的定制 并在该用户再次进入时进行相应的调整 这种技术已被相当多的站点使用 例如微软的m s n 站点允许用户只看到自己所选择的栏目 以及各类的b l o g 允许个人用户定制个人页面的链接和外观 第二种叫做路径预测 p a t h p r e d i c t i o n 是指系统自动地尝试猜测用户接下来想要访问的网页 以便让用户更快地到达目 标 路径预测的方式既可以是预测用户想要到达的下一个网页 也可以是预测用户的最终目 标 既可以基于单个用户的行为 也可以通过概括多个用户的行为提高效率 预测结果的展 现方式也是相当多样化的 这方面的例子有a v a n t i p r o j e c t 1 2 等 利用路径预测实施个性化 有时又被称为在线推荐 o n l i n er e c o m m e n d a t i o n 含义是根据当前用户的访问行为实时地预 测和推荐他可能需要的超链接 根据在线推荐方法的智能化程度可以将自适应站点的智能等级分为以下五级 1 0 级智 能 即不产生推荐的无智能站点 2 1 级智能 内容相关智能 即站点从用户请求的页面 中抽取该页面内容的关键字 然后自动搜索与用户请求的内容相关的页面 当服务器返回用 户请求的页面时 将这些相关页面的超链接自动包含在返回的页面中 3 2 级智能 群体 用户相关智能 站点首先通过挖掘群体用户 所有用户 的历史访问数据并提取一些公共浏 览特征或模式 在此基础上 根据当前用户的访问行为识别出其浏览特征 通过挖掘出的群 体用户的公共浏览特征或模式指导当前用户的浏览 动态地为该用户推荐其可能感兴趣的页 面 4 3 级 组用户相关智能 即站点首先根据用户的访问行为特征对用户自动分组并提 取各组的一些公共浏览特征或模式 在此基础上 根据当前用户的访问行为识别出其所属的 用户组 并通过该组的公共浏览特征或模式指导用户的浏览 动态地为用户推荐其可能感兴 趣的页面 5 4 级 用户相关智能 对每一个用户 站点均能根据用户的历史访问信息 以及用户当前的访问行为 有效地识别用户的兴趣所在 自动为用户推荐最近更新的 用户 没有访问过并且可能感兴趣的页面 具有4 级智能的w e b 站点的特征是系统为每个用户建立 特征档案 记录用户的浏览行为以及偏好 对于4 级智能的自适应站点 由于需要为每个用 户建立特征档案 用户需要提供一定的兴趣 偏好等注册信息 涉及用户的隐私而可能得不 到用户的配合 另外相对站点的庞大用户数量以及用户复杂的访问过程而言 用户的访问行 3 合肥工业大学博士论文 为数据相对比较简单 因此 4 级智能的自适应网站实现起来相当困难 由于本论文的研究出 发点是w e b 日志中的用户访问行为数据 因此 我们重点研究讨论的是2 级或3 级的智能自 适应w e b 站点技术 其中论文第五章研究的可变多阶m a r k o v 链模型研究实现的是2 级智能自 适应站点 第六章研究的混合隐m a r k o v 链模型研究实现的是3 级智能自适应站点 自适应站点研究仍然处于起步阶段 w e b 环境的复杂性 用户的多样性等给自适应站点 的研究 设计和实现带来了许多难题 自适应站点的研究是人工智能研究领域的一个新的挑 战 3 1 1 1 3 w e b 挖掘与w e b 使用挖掘 互联网以及电子商务的迅速发展使得w e b 的信息量以惊人的速度增加 人们迫切需要能 自动地从w e b 上发现 抽取和过滤信息的工具 同时 随着数据挖掘技术的出现与发展 数 据挖掘被逐渐应用于w 曲数据 由此 产生了w 曲挖掘 w e bm i n i n g 1 4 w 曲挖掘就是 从w e b 文档和w e b 活动中抽取感兴趣的潜在的有用模式和隐藏的信息 w e b 挖掘可以在很多 方面发挥作用 如对搜索引擎的结构进行挖掘 确定权威页面 w e b 文档分类 w e b 日志挖 掘 智能查询 建立m e t a w e b 数据仓库等 万维网目前是一个巨大 分布广泛 全球性的信 息服务中心 它涉及新闻 广告 消费信息 金融管理 教育 政府 电子商务和许多其它 信息服务 w e b 还包含了丰富的超链接信息 以及w e b 页面的访问和使用信息 这为数据挖 掘提供了丰富的资源 然而由于w e b 数据的海量性 w e b 页面内容的复杂性 w e b 信息的 动态性 w e b 用户群体的多样性等等 使得对w e b 进行有效的知识发现具有极大的挑战性 根据w e b 挖掘中数据对象的不同 可以将w e b 挖掘分为三类 w e b 内容挖掘 w e bc o n t e n t m i n i n g w e b 结构挖掘 w e bs 虮l c t u r em i n i n g 和w 曲使用挖掘 w e bl o gm i n i n g 或w e bu s a g e m i n i n g 在w e b 挖掘过程中 有时将这三类数据融合在二起 以提高挖掘结果的质量 图卜1w e b 数据挖掘的分类 f i g 1 1c l a s s i f i c a t i o no f w e bm i n i n g 1 w e b 内容挖掘 w e b 内容挖掘是从文档内容或其描述中抽取知识的过程 w e b 文档文本内容的挖掘 基 于概念索引的资源发现以及基于代理的技术都属于这一类 w e b 内容挖掘有两种策略 直接 挖掘文档的内容 或在其它工具搜索的基础上进行改进 采用第1 种策略的有针对w e b 的查 询语言w e bl o g w e b o q l t 6 以及利用启发式规则来寻找个人主页信息的a h o y t l 7 等 采用第 2 种策略的方法主要是对搜索引擎的查询结果进行进一步的处理 得到更为精确和有用的信 4 第一章绪论 息 属于该类的有w e b s q l e l 鄙及对搜索引擎的返回结果进行聚类的技术 1 9 等 2 w e b 结构挖掘 w e b 结构挖掘是从w w w 的组织结构和链接关系中推导知识 由于文档之间的互连 w w w 能够提供除文档内容之外的有用信息 利用这些信息 可以对页面进行排序 发现重 要的页面 这方面工作的代表有p a g e r a n k t 2 0 1 和c l e v e r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 术后患者静脉血栓栓塞症的预防护理
- 自然建筑设计介绍
- 2026年高端私人影院建设公司月度工作复盘管理制度
- 糖尿病肾病的预防措施探讨
- 数学思维训练八
- 急性肾炎常见症状及护理经验总结
- 皮肤过敏的症状解析及护理建议
- 自记胎动的方法
- 上肢控制功能训练
- 肾炎症状解析及药物护理方法培训
- 创伤急救模拟教学的高仿真情景构建方法
- 半导体后端封装测试片及测试设备零部件生产项目环境影响报告书
- 高标准农田灌溉与排水管网布局方案
- 消防队的考试题库及答案
- 河源市龙川县事业单位考试题目及答案解析
- 组织行为学复习资料
- 2024年万宁市事业单位招聘笔试真题
- 2025山东发展投资控股集团有限公司权属企业招聘249人考试笔试备考题库及答案解析
- 抗菌药物的处方审核课件
- 安全管理工作汇报
- (2025)食品安全法试题库(带答案)
评论
0/150
提交评论